Сигнал и Шум. Почему одни прогнозы сбываются, а другие - нет - Нейт Сильвер
Шрифт:
Интервал:
Во время подготовки к предварительным выборам я обнаружил, что все чаще и чаще смотрю политические телевизионные программы, в основном на каналах MSNBC, CNN и Fox News. Как правило, освещение событий было довольно скучным и бессодержательным. Несмотря на то что выборы должны были состояться через несколько месяцев, многие комментаторы говорили о неизбежности победы Клинтон и игнорировали неопределенность, присущую подобным ранним этапам выборной кампании. Слишком много внимания уделялось полу Клинтон и расе Обамы{170}. Некоторые комментаторы пытались навязчиво определить, удалось ли тому или иному кандидату «выиграть день», произнеся успешную фразу на пресс-конференции или переманив на свою сторону одного из не особо известных сенаторов (притом что это не волновало 99 % избирателей).
Политические новости, и особенно важные и действительно влияющие на кампанию, появляются нерегулярно. Однако новости создаются каждый день. Зачастую это всего лишь «наполнитель», упакованный в форме историй, призванных скрыть незначительность информации[25]. Часто это приводит не только к утрате сигнала, но и к усилению шума. Если в каком-то штате проводится некое количество опросов, показывающих верховенство республиканцев, то нет ничего интересного в том, что вы скажете то же самое, что говорят все остальные. Если же результаты вашего опроса покажут, что верх начинают брать демократы, вам обеспечено место в заголовках новостей – несмотря на то что ваш опрос представляет собой всего лишь информационный выброс и не может предсказать исход с должной степенью точности.
Иными словами, планка, установленная в конкурентной борьбе, казалась достаточно низкой. Любой человек мог произвести впечатление гения, занявшись самыми простыми базовыми исследованиями того, что действительно обладает предсказуемостной способностью в политической кампании. Поэтому я начал вести блог на сайте Daily Kos, рассказывая о детальном и управляемом данными анализе таких вопросов, как опросы или данные по сбору средств кандидатами. Я выяснил, какие опросы показывали в прошлом самые точные результаты и насколько победа в одном штате – к примеру, Айове – могла привести к изменению расстановки сил в другом. Мои статьи быстро стали популярными, хотя чаще всего комментарии читателей сайтов, подобных Daily Kos, носят качественный (и довольно предвзятый) характер. В марте 2008 г. я начал выставлять аналитические данные на собственном сайте (FiveThirtyEight), где размещались прогнозы, касающиеся различных выборных кампаний.
Поначалу модель прогнозирования FiveThirtyEight была довольно простой – по сути, она брала среднее значение из результатов всех опросов и рассчитывала вес каждого опроса в зависимости от его соответствия последующим событиям. Затем она стала более изощренной, однако при этом всегда соблюдались три довольно широких принципа (которые можно назвать «лисьими»).
Почти все публикуемые мной прогнозы, как в политике, так и в других областях, являются вероятностными.
Вместо того чтобы «выплеснуть» одну цифру и утверждать, что я точно знаю, что произойдет далее, я показываю диапазон возможных результатов. Например, 2 ноября 2010 г. мой прогноз о возможном количестве мест республиканцев в Конгрессе США выглядел так, как показано на рис. 2.1.
Предполагалось, что наиболее вероятное количество мест, которое наберут республиканцы, находилось в диапазоне, перекрывающем почти половину всех возможных вариантов, – от 45 до 65 (в реальности они получили 63 места). Однако также имелась возможность выигрыша республиканцами 70 или 80 мест – но уж точно не предсказанной Диком Моррисом сотни. И существовала вероятность того, что демократы удержат достаточно мест для сохранения контроля над Конгрессом.
Рис. 2.1. Прогноз количества мест республиканцев в Конгрессе США на 2 ноября 2010 г. от FiveThirtyEight
Широкий разброс исходов выборов отражал неопределенность, присущую реальному миру. Прогноз был создан на основе индивидуальных прогнозов для каждого из 435 мест в Конгрессе – и в большинстве кампаний разрыв межу конкурировавшими кандидатами был минимальным. В результате судьба 77 мест в Конгрессе определялась разрывом голосов менее чем в 10 %{171}. Если бы демократы обогнали собственные прогнозы в самых конкурентных регионах всего на пару процентов, то смогли бы легко удержать за собой Конгресс. Если бы то же самое смогли сделать республиканцы, то превратили бы свою победу в невероятный триумф. Небольшие колебания политических течений могли бы привести к существенно иному результату; поэтому было бы глупо сводить описание происходящего к точной цифре.
Этот вероятностный принцип также сохраняется в случаях, когда я прогнозирую, чем завершатся отдельные кампании. Например, насколько велика вероятность выигрыша кандидата, если он, по итогам опросов, опережает конкурента на пять пунктов? Именно такие вопросы и призваны решать модели типа FiveThirtyEight.
Ответ на подобный вопрос в значительной степени зависит от типа гонки, в которую вовлечен кандидат. Чем ниже уровень выборов, тем более волатильными становятся результаты: данные опросов на предвыборной гонке в Конгресс менее точны, чем данные опросов при выборах в Сенат, а те, в свою очередь, менее точны, чем опросы перед выборами президента. Также считается, что, в целом опросы в ходе предварительных партийных выборов (праймериз) значительно менее точны, чем опросы в ходе общих выборов. Во время праймериз Демократической партии в 2008 г. средняя величина ошибки в данных опроса составляла около восьми пунктов – значительно больше, чем подразумевается при оценке ее погрешности. Проблема опросов в ходе республиканских праймериз 2012 г. была еще масштабнее{172}. Фактически во многих важных штатах – включая Айову, Южную Каролину, Флориду, Мичиган, Вашингтон, Колорадо, Огайо, Алабаму и Миссисипи – кандидат, лидировавший в ходе опросов за неделю до выборов, проигрывал гонку.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!