Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Эпидемиология изучает, как и почему возникают и распространяются заболевания, при этом скандинавские страны – мечта эпидемиолога. А все потому, что в них каждый человек имеет личный идентификационный номер, который используется при регистрации во всех сферах: здравоохранение, образование, налогообложение и прочие. Это позволяет исследователям комплексно изучать различные аспекты жизни людей, что невозможно сделать (и, наверное, не всегда целесообразно) в других государствах.
Одно масштабное исследование, проведенное более чем на 4 миллионах шведов и шведок, в рамках которого связывались сведения о налогообложении и здоровье за 18 лет, установило, что у людей с более высоким социально-экономическим положением чаще диагностировали опухоль головного мозга. Это было одно из тех солидных, но весьма неинтересных исследований, которые обычно не привлекают особого внимания, поэтому специалист по связям с общественностью посчитал, что в пресс-релизе гораздо лучше написать так: «Высокий уровень образования связан с повышенным риском развития опухоли головного мозга», хотя работа посвящалась скорее социально-экономическому положению, чем образованию. Однако к тому времени, когда результаты были представлены широкой публике, помощник редактора одной из газет выдал классический заголовок: «Почему поступление в университет повышает риск развития опухоли мозга»[85].
Такой заголовок встревожил бы любого, кто имеет высшее академическое образование. Но стоит ли на самом деле беспокоиться? Исследование основывалось на всей доступной генеральной совокупности, а не на выборке, поэтому мы с уверенностью можем заключить, что у более образованных людей действительно немного чаще выявляли опухоль головного мозга. Но неужели интенсивные нагрузки в библиотеке действительно перегревали мозг и вели к неблагоприятным мутациям клеток? Несмотря на газетный заголовок, я в этом сомневаюсь. Как, собственно, и авторы статьи, которые добавили: «Потенциальным объяснением такого результата могут быть полнота регистрации рака и ошибка выявления». Другими словами, люди с более высоким уровнем образования с большей вероятностью пройдут обследование, а значит, опухоли будут регистрироваться чаще (пример того, что в эпидемиологии называется ошибкой обращаемости[86]).
Корреляция не означает причинность
Из главы 2 мы узнали, что коэффициент корреляции Пирсона показывает, насколько близко к прямой расположены точки на диаграмме рассеяния. Когда мы рассматривали английские больницы, проводившие в 1990-х операции на сердце у детей, и отображали на диаграмме точки, отражавшие число операций и уровень выживаемости, высокая корреляция демонстрировала, что более крупные больницы ассоциировались с более низким уровнем смертности. Однако мы не могли сделать вывод, что более крупные больницы и есть причина более низкой смертности.
У такого осторожного отношения солидная родословная. Когда в журнале Nature в 1900 году обсуждали предложенный Карлом Пирсоном коэффициент корреляции, один комментатор предупредил, что «корреляция не означает причинно-следственной связи». В течение следующего столетия эта фраза стала мантрой, постоянно повторяемой статистиками при столкновении с заявлениями, основанными на простом наблюдении, что какие-то две вещи имеют тенденцию изменяться вместе. Существует даже специальный сайт, который автоматически находит невероятные связи: например, очаровательную корреляцию 0,96 между ежегодным потреблением сыра моцарелла в США за 2000–2009 годы и количеством докторских степеней по гражданскому строительству, полученных за этот период[87].
Похоже, у людей есть глубокая внутренняя потребность объяснять происходящее в виде простейшей зависимости «причина → следствие». Уверен, что каждый из нас мог бы придумать увлекательную историю обо всех этих остепененных инженерах, поглощающих пиццу с сыром. Существует даже специальное слово для склонности конструировать связи между событиями, которые в реальности не связаны, – апофения, причем ее крайнее проявление – объяснять простую случайность или невезение злонамеренностью других и даже колдовством.
К сожалению (а, возможно, к счастью), мир несколько сложнее, чем колдовство. И первая сложность появляется при попытке понять, что подразумевается под «причиной».
Что такое причинность?
Причинность – это довольно спорный и активно обсуждаемый вопрос, что, вероятно, кажется удивительным, поскольку в реальной жизни все выглядит просто: мы что-то делаем, и это к чему-то приводит. Дверь машины зажала мой большой палец, и теперь он болит.
Но откуда мне знать, что большой палец не заболел бы в любом случае? Возможно, мы могли бы обратиться к тому, что называется контрфактуальным мышлением[88]. Если бы мой палец не зажало дверью, то он бы не болел. Но это всегда будет предположением, требующим переписывания истории, поскольку мы никогда точно не узнаем, что я мог бы почувствовать (хотя в данном случае я могу быть вполне уверен, что мой палец не заболит внезапно сам по себе).
Ситуация осложняется еще больше, когда мы начинаем учитывать неизбежную изменчивость, лежащую в основе событий в реальной жизни. Например, медицинское сообщество сейчас соглашается с тем, что курение вызывает рак легких, однако врачам потребовались десятилетия, чтобы прийти к такому заключению. Почему так долго? Потому что большинство курильщиков не заболевают раком легких, в то время как некоторые некурящие заболевают. Все, что мы можем сказать, – это то, что у вас выше риск заболеть раком легких, если вы курите, чем если не курите; и это одна из причин того, почему для принятия законов об ограничении курения понадобилось столько времени.
Таким образом, наша «статистическая» идея причинности не будет строго детерминистской. Когда мы говорим, что X обусловливает Y, мы не имеем в виду, что каждый раз, когда наступает X, наступает и Y. Мы всего лишь подразумеваем, что если вмешаемся и заставим X происходить чаще, то и Y будет случаться чаще. Соответственно, мы никогда не сможем сказать, что X вызывает Y в данном случае, а можем лишь утверждать, что X увеличивает долю случаев, когда происходит Y. Из этого вытекают два важнейших следствия относительно того, что нам нужно делать при намерении понять причинно-следственную связь. Во-первых, чтобы вывести причинно-следственную связь с полной уверенностью, в идеале нам нужно вмешаться и провести эксперименты. Во-вторых, поскольку мир статистический и стохастический, вмешаться нужно не один раз, чтобы собрать доказательства.
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!