Ученые уже выяснили объем английского языка (около миллиона слов в 2000 году), описали типичные «траектории славы» известных людей и характерные признаки литературной цензуры, наложенной, к примеру, нацистским правительством Германии.
Историки и лингвисты и раньше использовали статистику и компьютерные технологии для анализа огромного количества данных – количественная история и количественная лингвистика уже давно используют математические методы. Однако громадный объем базы, представленный Google Books, позволяет выделить «культуромику» в отдельное направление.
На данный момент Google оцифровала более 15 млн книг, что составляет около 12% от общего количества книг, напечатанных за всю историю книжного дела на всех языках мира. Жан-Баптист Мишель (Jean-Baptiste Michel), биолог из Гарвардского университета, и его коллеги обработали около трети представленных книг. Получилось около 500 млрд слов – это больше, чем один человек может прочитать за всю жизнь: чтобы прочитать все книги, изданные до 2000 года, быстро читающему человеку потребуется 80 лет без перерывов на еду и сон.
Но не все знаки в тексте являются нормальными словами: это могут быть также цифры, аббревиатуры или опечатки. Например, 51% знаков в английском тексте в 1900 году и 31% знаков в 2000-м не были словами. Согласно этим подсчетам объем английского языка вырос на 70% за последние 50 лет, т.е. каждый год прибавлялось порядка 8,5 тыс новых слов. Более того, только половина слов, употребляемых в настоящее время, зафиксирована в стандартных словарях.
Сегодня любой человек может узнать что-то новое о культуре и истории, отраженных в языке, с помощью программы на сайте www.culturomics.org. Мишель и его команда предлагают изучить два примера, связанные с понятиями славы и цензуры.
Они утверждают, что, согласно количеству упоминаний имен, актеры достигают пика славы примерно к 30 годам, тогда как путь писателей на вершину занимает на 10 лет дольше, правда, и слава их более яркая. А вот наука не лучший способ прославиться – физики и биологи, ставшие известными, получили признание только под конец жизни, а математикам вообще практически не удается привлечь внимание общественности.
Исследование национальной литературы показывает, как идеи, события и люди могут выходить из поля зрения под давлением власти. Например, еврей-художник Марк Шагал (Marc Chagall) буквально исчез из германской печати в 1936-1944 годах, при этом будучи достаточно заметным в книгах на английском языке. Упоминания Троцкого и площади Тяньаньмэнь в болезненные периоды времени пропали из российской и китайской печати, соответственно. Исследователи сейчас работают над тенденциями упоминания феминизма, Бога, диеты и эволюции.
Комментарии /0
После 22:00 комментарии принимаются только от зарегистрированных пользователей ИРП "Хутор".
Авторизация через Хутор: