Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность - Бен Орлин
Шрифт:
Интервал:
В каком романе Фрэнсиса Скотта Фицджеральда реже всего встречаются наречия? «Великий Гэтсби». А у Тони Моррисон? «Возлюбленная». Как насчет Чарльза Диккенса? «Повесть о двух городах», на втором месте «Большие надежды». Разумеется, есть исключения (Набоков чаще всего употребляет наречия в «Лолите», а эта его книга снискала, пожалуй, наибольшее признание), но тенденция ясна. Чем реже встречаются наречия, тем яснее и сильнее проза. Высокая частотность наречий свойственна рыхлым текстам второго эшелона.
Мне вспоминается, как однажды в колледже мой сосед по комнате Нилеш с улыбкой заметил: «Знаешь, что мне по душе? Ты очень часто говоришь „теоретически“. Это одно из твоих фирменных словечек».
Я оцепенел. Я задумался. И в тот момент слово «теоретически» исчезло из моего лексикона.
Нилеш оплакивал эту потерю месяцами, а я боролся с чувством вины за то, что предал сразу двух друзей: и слово, и соседа. Я ничего не мог с собой поделать. Призрак в моем мозгу, превращающий смыслы в слова, действует инстинктивно и расцветает в тени. Привлечение внимания к определенному слову отпугнуло призрака. Он пошел на попятную.
Когда я ознакомился со статистикой Блатта, ситуация повторилась. С тех пор я стал параноидально избегать наречий, превратился в неутомимого беглеца, опасаясь, что наречия проникнут в мою прозу, словно пауки залезут в рот, пока я сплю. Я признаю, что это ходульный, неестественный подход к языку, не говоря уже о том, что это наивный подход к статистике: корреляция еще не означает причинно-следственной связи. Но я ничего не могу с собой поделать. Таковы посулы и опасности цифровых гуманитарных наук, таковы они все до мозга костей (кстати, думаем-то мы другим мозгом, головным). Если рассматривать литературу всего лишь как наборы слов, то она, безусловно, содержит огромный массив данных. Но наборы слов — это еще не литература. Статистика устраняет контекст. Ее анализ начинается с уничтожения смысла. Будучи поклонником статистики, я доверяю ей. Будучи любителем книг, я содрогаюсь. Возможен ли компромисс между роскошью литературы и ледяной аналитической силой статистики? Или, как я часто опасаюсь, они прирожденные враги?
В 2010 году 14 ученых (под руководством Жан-Батиста Мишеля и Эреза Либермана Эйдена) опубликовали статью под названием «Количественный анализ культуры на основе миллионов оцифрованных книг»[202], вошедшую в горячую десятку поисковой выдачи. Всякий раз, прочитывая первую фразу этой статьи, я не могу удержаться от возгласа: «Че-е-е-е-ерт!» Она начинается так: «Мы создали корпус оцифрованных текстов, включающий около 4 % всех когда-либо опубликованных книг».
Че-е-е-е-ерт!
Как и все статистические проекты, это исследование потребовало кардинального упрощения. Первый шаг авторов заключался в том, что они разъяли весь набор данных (пять миллионов книг, около 500 миллиардов слов) на так называемые 1-граммы. Они поясняют этот термин: «`1-грамма` — это набор символов, не прерываемых пробелом: слова („банан“, „скуби-дайвинг“), но, кроме того, числа (3,14 159) и опечатки („чересчурр“)».
Предложения, абзацы, тезисы — все это исчезает. Остаются лишь мельчайшие фрагменты текста.
Дабы исследовать данные глубже, авторы составили перечень 1-грамм, встречающихся с частотой не менее чем один раз на миллиард. Если оценить начало, середину и конец XX столетия, мы увидим, что словарный запас англоязычных авторов растет.
Выяснилось, что реальные слова на 1900 год составили меньше половины 1-грамм (по большей части это оказались числа, опечатки, аббревиатуры и т. д.), в то время как на 2000 год больше двух третей 1-грамм были именно слова. Проведя ручной подсчет в избранных фрагментах корпуса, авторы установили общее количество английских слов на каждый год.
Затем, сопоставив массив 1-грамм с двумя популярными толковыми словарями, они обнаружили, что лексикографы с трудом успевают следить за разрастанием массива слов и держать руку на пульсе. В частности, словари упускают большую часть редких 1-грамм.
В тех текстах, которые читаю я, эти слова, не входящие в словари, почти не встречаются. Причина в том, что эти слова… ну… исключительные. Язык заселен тьмой никому не известных конструктов, встречающихся с частотой один раз на сто миллионов. В целом, по оценке авторов, «52 % всего английского лексикона (большинство слов, встречающихся в англоязычных книгах) состоят из лексической „темной материи“, упущенной в стандартных словарных статьях». Лексикографы просеивают тысячи тонн словесной руды, пропуская драгоценные камни наподобие «slenthem» (яванский металлофон).
Изучение лексикона было всего лишь разминкой для этих исследователей. Авторы продолжили изучать эволюцию грамматики, перепады популярности словоупотребления, признаки цензуры и переменчивые закономерности исторической памяти. Все это изложено лишь на дюжине страниц; в основном в статье представлены результаты отслеживания частотности тщательно выбранных 1-грамм.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!