Как не ошибаться. Сила математического мышления - Джордан Элленберг
Шрифт:
Интервал:
Это ловкий трюк, позволяющий отслеживать нечто настолько сложное, как форма частей тела человека, с помощью короткой строки символов. И этот трюк применим не только в области физиогномики человека. Аналогичная система под названием «код Парсонса»[271] используется для классификации музыкальных произведений. Вот как работает эта система. Возьмем мелодию – например, известную всем «Оду к радости» Бетховена – блестящий финал Девятой симфонии. Далее обозначим первую ноту символом *. Каждую последующую ноту будем обозначать одним из трех символов: u – если эта нота выше предыдущей, d – если ниже, r – если нота повторяет предыдущую. Первые две ноты «Оды к радости» одинаковые, значит, их необходимо отметить как *r. Далее следует более высокая нота, а затем еще одна высокая нота: *ruu. Затем высокая нота повторяется, после чего следует несколько более низких нот, то есть весь вступительный фрагмент можно записать в виде такого кода: *ruurdddd.
Воспроизвести звучание шедевра Бетховена по коду Парсонса невозможно, как нельзя нарисовать портрет грабителя банка по его параметрам в системе Бертильона. Однако, если у вас есть картотека музыкальных произведений, разделенных на категории по коду Парсонса, эта строка символов позволит без труда идентифицировать любую мелодию. Если, например, у вас в голове звучит «Ода к радости», но вы не можете вспомнить, как называется это произведение, вы можете зайти на такой веб-сайт, как Musipedia, и напечатать строку символов *ruurdddd. Этой короткой строки достаточно, чтобы из всех возможных вариантов осталась только «Ода к радости» или «Концерт для фортепиано № 12» Моцарта. Если вы сможете мысленно воспроизвести семнадцать нот, получится
316 = 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 × 3 = 43 046 721
разных кодов Парсонса – больше, чем количество когда-либо записанных мелодий, а значит, две мелодии вряд ли будут иметь одинаковый код. Каждый раз, когда вы прибавляете новый символ, количество кодов увеличивается в три раза; следовательно, благодаря чуду экспоненциального роста очень короткий код обеспечивает поразительно эффективный способ проведения различия между двумя мелодиями.
Однако здесь есть одна проблема. Вернемся к Бертильону: что если мы обнаружили бы, что у двух человек, попадающих в полицейский участок, локти всегда той же категории размера, что и пальцы? В таком случае то, что как будто представляет собой девять вариантов по первым двум параметрам – это на самом деле только три варианта: короткий палец / короткий локоть, средний палец / средний локоть, длинный палец / длинный локоть; при этом две трети ящиков картотеки Бертильона остаются пустыми. Общее количество категорий на самом деле равно не 1701, а 567, что сокращает нашу способность отличать одного преступника от другого. А вот еще один способ понять суть происходящего: мы считали, что измеряем пять параметров, но, учитывая то, что локоть передает точно такую же информацию, что и палец, мы измеряли, по сути, только четыре параметра. По этой причине количество карточек сокращается с 7 × 35 = 1701 до 7 × 34 = 567. (Цифра 7 отображает количество вариантов с учетом цвета глаз и волос.) Большее количество связей между категориями еще больше сократит фактическое количество категорий, что сделает систему Бертильона еще менее эффективной.
Озарение Гальтона состояло в том, что это происходит не только в случае, если длина пальца и длина локтя идентичны, но и в случае, когда они просто взаимосвязаны. Корреляция между этими физическими параметрами делала систему Бертильона менее информативной. В очередной раз острый ум Гальтона дал ему способность к своего рода интеллектуальному предвидению. То, что он понял тогда, оказалось зачаточной формой соображений, которые полстолетия спустя полностью формализовал Клод Шеннон в своей теории информации. Как мы видели в тринадцатой главе, формальный способ измерения информации Шеннона позволял установить границы скорости передачи единиц информации по каналу с помехами. Во многом таким же образом теория Шеннона позволяет установить степень, в которой корреляция между переменными сокращает информативность карточки. В современных терминах это звучит так: чем выше корреляция между параметрами, тем меньше информации (в строгом смысле по Шеннону) содержит карточка Бертильона.
Хотя бертильонаж в наши дни больше не используется, идея о том, что последовательность чисел – лучший способ идентификации, занимает доминирующее положение, поскольку мы живем в мире цифровой информации. А идея о том, что корреляция сокращает фактический объем информации, стала основным организующим принципом. Фотография, которая была когда-то рисунком на листе бумаги с химическим покрытием, сейчас представляет собой последовательность чисел, каждое из которых описывает яркость и цвет пиксела. Снимок, сделанный с помощью цифровой фотокамеры с разрешением четыре мегапиксела, – это список из четырех миллионов чисел, что требует большой памяти для такого устройства. Однако все числа находятся в тесной связи друг с другом. Если один пиксел ярко-зеленый, тогда соседний пиксел, скорее всего, также ярко-зеленый. Фактический объем информации, которую содержит данное изображение, гораздо меньше четырех миллионов чисел. Именно этот факт и делает возможным сжатие[272] – важнейшую математическую технологию, благодаря которой для хранения фотографий, видео, музыки и текста требуется гораздо меньше места, чем можно было бы предположить. Наличие корреляции делает такое сжатие возможным, но фактическое сжатие требует реализации гораздо большего количества современных идей, таких как теория вейвлетов, которую разработали в 1970–1980-х годах Жан Морле, Стефан Малла, Ив Мейер, Ингрид Добеши и другие, а также быстро развивающаяся область под названием «сжатые измерения», которая началась с опубликованной в 2005 году работы Эммануэля Канде, Джастина Ромберга и Терри Тао и быстро стала действующей подобластью прикладной математики.
Есть одна нить, которую мы еще не распутали. Мы уже видели, как регрессия к среднему объясняет открытый Секристом «триумф посредственности». Но есть еще триумф посредственности, которого Секрист не заметил. Отслеживая температуру воздуха в американских городах, Секрист обнаружил, что в городах, в которых было жарче всего в 1922 году, было так же жарко и в 1931 году. Это наблюдение играет важную роль в его аргументации в пользу того, что регрессия коммерческих предприятий связана именно с особенностями человеческого поведения. Если регрессия к среднему значению – это универсальное явление, тогда почему температура не подчиняется этому закону?
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!