Цифры врут. Как не дать статистике обмануть себя - Том Чиверс
Шрифт:
Интервал:
Но это вероятность того, что случаев окажется ровно 20. Вы так же удивитесь, если их окажется 21 или 22, поэтому вас может заинтересовать вероятность того, что в какой-то заданный год их будет не менее 20.
На первый взгляд кажется, что такие расчеты займут много времени: сначала надо вычислить вероятность для 20, потом – для 21, 22 и так далее до бесконечности и сложить их все. К счастью, есть путь покороче.
Можно воспользоваться свойством, которое называется взаимной исключительностью. Это значит, что некоторые события не могут произойти одновременно – либо то, либо другое. Например, если вы бросили кость и выпало 6, то не могло одновременно выпасть 5 или 3. Если известно, что один из исходов обязателен, то сумма их вероятностей равна единице. Если 6 выпадает с вероятностью 1/6 (0,167), то вероятность того, что шестерка не выпадет, – 5/6 (0,833). Вероятность того, что выпадет или шестерка, или не шестерка, 6/6, то есть единица.
Поэтому вместо вычисления вероятности 20 и более случаев рака можно посчитать вероятность, что этого не будет и число заболевших окажется в интервале от 0 до 19. Тогда мы сможем вычесть эту вероятность из единицы. Так что нам нужна вероятность того, что случаев будет меньше 20 (19, 18, 17 и так далее) Это можно записать так: Pr(X < 19) = 0,875. Тогда 1 – Pr(X < 19) = P(X ≥ 20) ≈ 0,125, или 12,5 %.
Существует статистическая ошибка под названием «ошибка техасского стрелка». Идея такая: если хаотично палить в дверь амбара, а потом нарисовать мишени вокруг всех скоплений пулевых отверстий, можно выдать себя за меткого стрелка. Сходным образом: если взять случайное распределение онкологических заболеваний в стране (или – поскольку история получила международную огласку – в мире) и обвести в кружок возникшие кластеры, то можно вообразить, будто там что-то происходит, хотя на самом деле может ничего и не происходить.
И это относится не только к онкологическим кластерам, но и к предсказаниям будущего. В 2008 году, когда финансовая система загибалась, Ее Величество королева задала вопрос, волновавший всех: почему мы не предвидели кризис? (Точную фразу процитировал сотрудник Лондонской школы экономики: «Если это столь масштабно, почему же все это проглядели?») Справедливый вопрос – споры экономистов и историков не утихают уже второй десяток лет.
Хотя на самом деле некоторые, возможно, заметили, что кризис близко. Например, Винс Кейбл, занимавший в 2008 году пост теневого министра финансов от партии либеральных демократов. Выступая в парламенте в 2003 году, он предупреждал, что «рост британской экономики поддерживается потребительскими расходами в сочетании с рекордным уровнем личных долгов» и что это, учитывая застой в производстве, экспорте и инвестициях, приведет к катастрофе. Одна газета назвала его «гуру финансового кризиса», добавив, что «если уж господин Кейбл не может сквозь финансовый туман увидеть будущее, то и никто не сможет, по крайней мере, так гласит легенда». Эта книга о числах, поэтому отметим, что это был по сути числовой прогноз: Кейбл предсказал, что некоторые числа (а именно стоимость активов многих крупных банков) в ближайшее время резко уменьшатся.
Был ли он настоящим гуру? Есть известная шутка Пола Самуэльсона, что фондовый рынок «предсказал девять из пяти последних рецессий». Критики считают, что Кейбл недалеко от этого ушел. Он сделал свой прогноз в 2003 году (и потом повторил в 2006-м), а кризис грянул только в 2008-м. В 2017-м он снова предсказал кризис, но ничего особенного не произошло. А главное – тысячи парламентариев, журналистов, ученых и многих других делились прогнозами того, что произойдет или чего не произойдет с экономикой в ближайшие годы; некоторые неизбежно должны были сбыться. Сомнительно, что вы выиграете в лотерею, но кто-то наверняка выиграет, и ему для этого вовсе не потребуется обладать даром предвидения.
Как мы видели в главе 17, предсказывать будущее трудно. Экономические прогнозы делать еще труднее: если у вас получится, вы станете миллиардером. Способность предсказать девять из пяти рецессий – то есть ошибиться лишь четыре раза – на самом деле была бы чрезвычайно ценной.
Но если вы вернетесь и выберете людей, сделавших верные прогнозы, то, скорее всего, совершите ошибку техасского стрелка: возьмете случайный разброс данных и обведете в кружок те, которые соответствуют результату.
Так поступают не только журналисты. В исследовании 1993 года якобы обнаружили связь между линиями электропередач и онкологическими заболеваниями у детей в Швеции. Публикация вызвала большой интерес и даже убедила Национальный совет по промышленному и технологическому развитию, что электромагнитное излучение линий электропередач вызывает лейкемию у детей. Однако статистики указали, что, поскольку в исследовании рассматривалось 800 различных заболеваний, вероятность случайного всплеска одного из них была очень велика. (В настоящее время нет никаких оснований думать, что линии электропередач – или мобильные телефоны – вызывают рак.)
Ошибка техасского стрелка может даже привести в тюрьму. Нидерландская медсестра Люсия де Берк провела шесть лет за решеткой за убийства, потому что за три года во время ее смен умерло семеро пациентов. Не было никаких юридических доказательств, что эти смерти были насильственными и тем более что она убивала этих людей. Но совпадение выглядело достаточно подозрительно для вынесения обвинительного приговора. Как отметил статистик Ричард Гилл, это был классический случай ошибки техасского стрелка: в палатах иногда умирают пациенты и при этом иногда могут присутствовать одни и те же медсестры. В своей колонке в The Guardian Бен Голдакр указал, что за три года, когда Люсия де Берк предположительно убивала людей, в одной из ее палат умерло шесть человек, а за три года до этого – семь. Ее «убийства» по-видимому совпали с резким падением естественного уровня смертности. Кластеры возникают случайным образом, а если обводить их в кружочки – рисовать мишени вокруг пулевых отверстий, – можно убедить себя, что ты снайпер.
Помните MRP-модель компании YouGov? В 2017 году она дала исключительно верные результаты, поэтому в 2019-м все с интересом отнеслись к ее прогнозу о победе тори с небольшим перевесом.
В итоге же счет оказался разгромным: тори получили преимущество в 86 мест, а лейбористы потерпели поражение даже на севере – в своем традиционном оплоте. Не то чтобы модель YouGov существенно ошиблась, но ее результаты не показали значительного превосходства над конкурентами. Тогда многие предсказывали победу тори с большим, чем в MRP-модели, перевесом. Возможно, что у MRP-модели в 2017 году действительно была какая-то изюминка, позволившая ей показать лучшие результаты, но также вероятно, что результаты всех моделей распределялись случайным образом вокруг среднего и MRP повезло оказаться ближе остальных. По одному результату ничего нельзя сказать.
Вот если MRP-модель будет последовательно превосходить другие модели в ходе нескольких следующих выборов, мы будем склоняться к
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!