Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Внимательно посмотрите на табл. 4.2. Хотя общий процент зачисления выше у мужчин, на каждую отдельную дисциплину он выше у женщин. Как мог возникнуть такой парадокс? Объяснение заключается в том, что женщины чаще подавали заявления на более популярные, конкурентные дисциплины – медицину и ветеринарию, и реже – на инженерию, где у них более высокий процент поступления. Поэтому мы можем заключить, что никаких подтверждений дискриминации нет.
Таблица 4.2
Иллюстрация парадокса Симпсона на примере данных о поступлении в Кембриджский университет в 1996 году. Общий процент зачисленных абитуриентов выше у мужчин, однако процент зачисления на каждую дисциплину отдельно выше у женщин
Описанная ситуация известна как парадокс Симпсона[103], который возникает, когда видимое направление взаимосвязи становится обратным с учетом возмущающего фактора. В результате вывод, извлеченный из данных, становится противоположным. Статистики наслаждаются поиском подобных примеров в реальной жизни, так как каждый из них подчеркивает, насколько осторожно нужно обращаться с наблюдательными данными. Тем не менее такие случаи показывают идеи, возникающие при разделении данных по факторам, которые могут объяснить наблюдаемые связи.
Добавляет ли близость к супермаркету Waitrose 36 тысяч фунтов к стоимости вашего дома?
В 2017 году британские СМИ опрометчиво опубликовали заявление, что соседство с супермаркетом сети Waitrose «добавляет 36 тысяч фунтов к цене дома»[104]. Однако это было не исследование изменения цен на жилье в связи с открытием нового супермаркета, и Waitrose, конечно же, не размещает свои магазины случайным образом: эти данные всего лишь корреляция между ценами на жилье и близостью супермаркетов, особенного таких высококлассных, как Waitrose.
Эта корреляция практически наверняка отражает политику Waitrose по открытию магазинов в более богатых районах, а потому представляет собой прекрасный пример того, что фактическая причинно-следственная связь является полной противоположностью заявлению в газете. Неудивительно, что она называется обратной причинной зависимостью. Более серьезные примеры встречаются в исследованиях, изучающих взаимосвязь между употреблением алкоголя и состоянием здоровья: как правило, показатель смертности у непьющих людей в целом существенно выше, чем у умеренно пьющих. Как это понимать, учитывая, что мы знаем о влиянии алкоголя на печень? Частично это объясняется обратной причинной зависимостью: люди, которые умирают с более высокой вероятностью, не пьют, потому что уже больны (возможно, из-за чрезмерного употребления алкоголя в прошлом). Сегодня более тщательный анализ исключает бывших алкоголиков, а также игнорирует неблагоприятные для здоровья события, происходящие в первые несколько лет исследования, поскольку они могут быть результатом предыдущих условий. Однако даже при таких исключениях некоторая общая польза для здоровья от умеренного употребления алкоголя, похоже, остается, хотя и активно оспаривается.
Еще одно забавное упражнение – попробовать сочинить историю с обратной причинной зависимостью для любого статистического заявления, основанного исключительно на корреляции. Моя любимая история – о корреляции между потреблением безалкогольных газированных напитков американскими подростками и их склонностью к насилию. Хотя одна газета преподнесла это так: «Газированные напитки делают подростков жестокими»[105], что, скорее всего, так же правдоподобно, как и утверждение, что насилие вызывает жажду. Или, что более правдоподобно, мы могли бы придумать некие общие факторы, влияющие на обе величины, например принадлежность к какой-то группе сверстников. Потенциальные причины, которые мы не измеряем, называются скрытыми факторами, поскольку они остаются на заднем плане, не входят в поправки и только и ждут подходящего момента, чтобы опровергнуть наивные выводы из наблюдательных данных.
Вот еще несколько примеров того, как легко поверить в наличие причинно-следственной связи, хотя на самом деле на события влияет посторонний фактор.
• У многих детей диагностируется аутизм после вакцинации. Вызывает ли вакцинация аутизм? Нет, но эти события возникают примерно в одном возрасте, а потому неизбежны случайные совпадения.
• Среди ежегодно умирающих людей доля левшей меньше, чем во всей популяции. Означает ли это, что левши живут дольше? Нет, это происходит потому, что те, кто умирает сейчас, родились во времена, когда детей насильственно переучивали пользоваться правой рукой, поэтому пожилых левшей меньше[106].
• Средний возраст смерти римских пап выше, чем в среднем в популяции. Означает ли это, что избрание папой помогает жить дольше? Нет, просто пап выбирают из группы людей, которые не умерли молодыми (в противном случае они не были бы кандидатами)[107].
Миллионы способов, которыми нас можно поймать в ловушку, могут подтолкнуть к мысли, что причинно-следственную связь можно выявить только в рандомизированном эксперименте. Но, по иронии судьбы, эту точку зрения опроверг человек, отвечавший за первое современное рандомизированное клиническое исследование.
Как сделать заключение о причинной связи по наблюдательным данным?
Остин Брэдфорд Хилл был блестящим британским прикладным статистиком, находящимся в авангарде двух изменивших мир научных достижений: он разработал упомянутые ранее клинические испытания стрептомицина, которые фактически установили стандарты для всех последующих РКИ, и провел вместе с Ричардом Доллом в 1950-х годах исследование, по сути, подтвердившее связь между курением и раком легких. В 1965 году он изложил список критериев, которые необходимо учесть, прежде чем делать вывод о том, что наблюдаемая связь между воздействием и результатом является причинной. Под воздействием здесь понимается что угодно – от химических веществ в окружающей среде до таких привычек, как курение или недостаточное количество физических упражнений.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!