Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Хотя статистика может показаться сугубо технической наукой, ее всегда нужно рассматривать в контексте общества, и ее представители несут за это ответственность. В ближайшем будущем можно ожидать, что этика работы с данными станет неотъемлемой частью преподавания статистики.
Пример хорошей статистической практики
Перед всеобщими выборами 8 июня 2017 года в Великобритании большинство опросов общественного мнения предполагало, что консерваторы получат значительный перевес. Через несколько минут после окончания голосования, в 22:00, группа статистиков предсказала, что консерваторы потеряли много мест, а с ними и абсолютное большинство, поэтому парламент будет подвешенным. Это заявление было встречено с недоверием. Как они смогли сделать столь смелый прогноз и оказались ли правы?
Завершить книгу, которая была написана не для того, чтобы разоблачить недобросовестных исследователей, а для того, чтобы показать, какую пользу способно принести владение искусством и наукой работы с данными, вполне уместно ярким примером применения статистики.
Вопрос, кто выиграл выборы, сразу же после того, как они закончились, может показаться странным: в конце концов, можно посидеть ночь и подождать итогов. Но это уже стало традицией: буквально через несколько минут после окончания опросов эксперты делают прогнозы относительно результатов. Обратите внимание, что результаты уже фиксированы, просто неизвестны, так что мы имеем дело с классическим примером эпистемической неопределенности, возникающей при рассмотрении уровня безработицы и прочих величин, которые «существуют», но неизвестны.
Рассмотрим цикл PPDAC. Проблема состояла в том, чтобы дать прогноз результатов выборов в стране в течение нескольких минут после окончания голосования. Команда, в которую входили статистики Дэвид Фёрт и Джуни Куха, а также психолог Джон Кертис, разработала план проведения экзитполов, согласно которому в опросах участвовали примерно 200 респондентов, выходивших из каждого из 144 участков (из общего количества в 40 тысяч участков), причем эти участки должны были быть теми же, что и в предыдущих экзитполах. Данные включали ответы избирателей не только о том, как они проголосовали, но и как они голосовали на предыдущих выборах.
Анализ использовал ряд методов, о которых мы говорили в главе 3.
• Переход от данных к выборке. Поскольку данные собирали после ухода с участков и респонденты говорили о том, что уже сделали, а не что намереваются сделать, опыт подсказывает, что ответы будут достаточно точной характеристикой того, как люди голосовали на этих и предыдущих выборах.
• Переход от выборки к изучаемой совокупности. Репрезентативная выборка берется из числа тех, кто проголосовал на каждом участке, так что результаты, полученные от этой выборки, можно использовать для примерной оценки изменения в голосовании («качели») в этой небольшой области.
• Переход от изучаемой к целевой совокупности. Используя знания о демографии каждого избирательного участка, строится регрессионная модель, которая пытается объяснить, как доля людей, поменявших свое мнение между выборами, зависит от характеристик избирателей на этом участке. При этом такие «качели» (свинг) необязательно будут одинаковыми по всей стране, а могут меняться в разных районах – например, в зависимости от того, какое население там преобладает, сельское или городское. Затем на основании этой регрессионной модели, знания демографических характеристик населения в каждом из примерно 600 избирательных округов и количества голосов избирателей, отданных на предыдущих выборах, можно сделать прогноз голосования на этих выборах для каждого отдельного избирательного округа, хотя на большинстве избирательных участков вообще не проводился экзитпол. По сути, это процедура многоуровневой регрессии и постстратификации (MRP), описанная в главе 11.
Ограниченная выборка означает наличие у коэффициентов регрессионной модели неопределенности, которая при масштабировании до всей голосовавшей совокупности дает вероятностное распределение того, как люди голосовали, а следовательно, и вероятность для каждого кандидата получить максимальное количество голосов.
Сложив все эти данные со всех избирательных участков, мы получаем ожидаемое количество мест в парламенте, причем в каждом случае будет свой уровень неопределенности (хотя в ночь после выборов о погрешностях не сообщалось)[274].
В табл. 13.1 приведены прогнозы и конечные результаты для июньских выборов 2017 года. Предсказанное количество мест удивительно близко к реальному, ошибка максимум в четыре места для всех партий. Таблица показывает, что для трех последних выборов в Великобритании эта сложная статистическая методология имела исключительную точность. В 2015 году она предсказала колоссальные потери у либерал-демократов, оценив снижение с 57 мест до 10, и известный представитель этой партии Пэдди Эшдаун заявил в прямом телеэфире, что готов «съесть свою шляпу», если прогноз окажется правильным. На самом деле либеральные демократы получили всего 8 мест[275].
Таблица 13.1
Прогнозы числа мест, полученных каждой партией на трех последних национальных выборах в Великобритании, сделанные на основе экзитполов сразу по окончании голосования, в сравнении с фактическими результатами выборов. Прогнозы представляют собой оценки с определенными погрешностями
В ночь выборов все СМИ обнародовали только прогнозируемое количество мест для каждой партии, хотя погрешность составляла около 20 мест. В прошлом удавалось добиться несколько большей точности, возможно, просто благодаря везению статистиков. Нельзя, однако, сказать, что их удача была незаслуженной, поскольку проявилась она после использования мощных научных инструментов, высокая эффективность которых способна удивить как профессионалов, так и неосведомленных. Люди слабо представляют сложность лежащих в основе расчетов методов, а также то, что этот превосходный результат обусловлен тщательным вниманием к деталям всего цикла решения задач.
Выводы
• Поставщики статистической информации, коммуникаторы и аудитория – все играют определенную роль в улучшении способов применения статистики в обществе.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!