Цифровая сокровищница культуры

Цифровая сокровищница культуры

В стране и миреСеть и ПК
Запуск цифровой библиотеки Google Books разжег новые споры о защите авторских прав и продаже книг, но для лингвистов и историков культуры этот проект – бесценный клад. В документе, опубликованном в журнале Science, американские исследователи из Гарвардского университета (Harvard University) совместно с командой Google Books провозгласили основание новой научной дисциплины – «культуромики» (culturomics), которая будет изучать эту сокровищницу литературы, чтобы понять, о чем и как говорили и будут говорить представители разных культур посредством письменного слова, сообщает Nature News.

Ученые уже выяснили объем английского языка (около миллиона слов в 2000 году), описали типичные «траектории славы» известных людей и характерные признаки литературной цензуры, наложенной, к примеру, нацистским правительством Германии.

Историки и лингвисты и раньше использовали статистику и компьютерные технологии для анализа огромного количества данных – количественная история и количественная лингвистика уже давно используют математические методы. Однако громадный объем базы, представленный Google Books, позволяет выделить «культуромику» в отдельное направление.

На данный момент Google оцифровала более 15 млн книг, что составляет около 12% от общего количества книг, напечатанных за всю историю книжного дела на всех языках мира. Жан-Баптист Мишель (Jean-Baptiste Michel), биолог из Гарвардского университета, и его коллеги обработали около трети представленных книг. Получилось около 500 млрд слов – это больше, чем один человек может прочитать за всю жизнь: чтобы прочитать все книги, изданные до 2000 года, быстро читающему человеку потребуется 80 лет без перерывов на еду и сон.

Но не все знаки в тексте являются нормальными словами: это могут быть также цифры, аббревиатуры или опечатки. Например, 51% знаков в английском тексте в 1900 году и 31% знаков в 2000-м не были словами. Согласно этим подсчетам объем английского языка вырос на 70% за последние 50 лет, т.е. каждый год прибавлялось порядка 8,5 тыс новых слов. Более того, только половина слов, употребляемых в настоящее время, зафиксирована в стандартных словарях.

Сегодня любой человек может узнать что-то новое о культуре и истории, отраженных в языке, с помощью программы на сайте www.culturomics.org. Мишель и его команда предлагают изучить два примера, связанные с понятиями славы и цензуры.

Они утверждают, что, согласно количеству упоминаний имен, актеры достигают пика славы примерно к 30 годам, тогда как путь писателей на вершину занимает на 10 лет дольше, правда, и слава их более яркая. А вот наука не лучший способ прославиться – физики и биологи, ставшие известными, получили признание только под конец жизни, а математикам вообще практически не удается привлечь внимание общественности.

Исследование национальной литературы показывает, как идеи, события и люди могут выходить из поля зрения под давлением власти. Например, еврей-художник Марк Шагал (Marc Chagall) буквально исчез из германской печати в 1936-1944 годах, при этом будучи достаточно заметным в книгах на английском языке. Упоминания Троцкого и площади Тяньаньмэнь в болезненные периоды времени пропали из российской и китайской печати, соответственно. Исследователи сейчас работают над тенденциями упоминания феминизма, Бога, диеты и эволюции.

Подписывайтесь на наш Telegram, чтобы быть в курсе самых важных новостей. Для этого достаточно иметь Telegram на любом устройстве, пройти по ссылке и нажать кнопку JOIN.

всего: 904 / сегодня: 1

Комментарии /0

Смайлы

После 22:00 комментарии принимаются только от зарегистрированных пользователей ИРП "Хутор".

Авторизация через Хутор:



В стране и мире