Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер

Шрифт:

Интервал:

1 ... 26 27 28 29 30 31 32 33 34 ... 88

Перейти на страницу:

Давайте вернемся к шведскому исследованию опухолей мозга, о котором мы упоминали в главе 4, иллюстрируя то, как СМИ неверно трактуют причинность. В регрессионном анализе количество опухолей рассматривалось как зависимая переменная (переменная отклика), а образование как независимая (объясняющей) переменная. В регрессионную модель включались и другие факторы: возраст при диагностике, календарный год, регион Швеции, семейное положение и доход; все это считалось потенциальными возмущающими переменными. Поправка на возмущения была попыткой выделить чистую зависимость между образованием и опухолями мозга, однако полной адекватности здесь все равно никогда не добиться. Всегда будет оставаться подозрение, что могут срабатывать какие-то скрытые факторы, например, такой: более образованные люди больше заботятся о здоровье, поэтому активнее занимаются диагностикой.

В рандомизированном испытании нет необходимости вносить поправки из-за возмущающих факторов, поскольку случайное распределение по группам гарантирует, что все факторы, кроме изучаемого, будут равномерно сбалансированы между группами. Однако исследователи часто все равно проводят регрессионный анализ – на случай, если вкрадется какой-либо дисбаланс.

Различные виды зависимых переменных

Не все данные являются непрерывными измерениями, такими как рост. В статистическом анализе зависимые переменные часто могут иметь другой вид: доля случаев, когда произошло какое-нибудь событие (например, доля людей, переживших операцию), количество каких-нибудь событий (например, число выявленных случаев рака в год в определенном регионе) или продолжительность времени до определенного события (например, количество лет, которое пациент прожил после операции). Для каждого из таких видов зависимых переменных существуют собственные формы множественной регрессии, и соответственно меняется интерпретация получающихся коэффициентов[123].

Рассмотрим данные об операциях на сердце у детей, которые обсуждались в главе 2, где на рис. 2.5(a) показаны доли пациентов, переживших операцию, и количество операций, проведенных в каждой из больниц в 1991–1995 годах. На рис. 5.2 снова представлена точечная диаграмма и линия регрессии, которая построена без учета точки-выброса, соответствующей бристольской больнице.

Искусство статистики. Как находить ответы в данных

Рис. 5.2

Модель логистической регрессии для данных об операциях на сердце у детей в возрасте до 1 года в больницах Соединенного Королевства в период с 1991 по 1995 год. В больницах, где больше пациентов, показатель выживаемости выше. Линия является частью кривой, которая никогда не достигнет 100 %, и не учитывает выброс, соответствующий бристольской больнице

Мы могли бы провести через эти точки прямую линейной регрессии, но тогда наивная экстраполяция говорила бы, что при очень большом количестве случаев выживаемость превысит 100 %, а это полный абсурд. Поэтому для показа долей была разработана логистическая регрессия, где кривая не выходит за рамки диапазона от 0 % до 100 %.

Даже без учета Бристоля в больницах с большим количеством пациентов выше показатели выживаемости, а коэффициент логистической регрессии (0,001) означает, что ожидаемый уровень смертности будет примерно на 10 % (относительно) ниже на каждые дополнительные сто операций, которые проводила больница детям до 1 года за четырехлетний период[124]. Конечно, еще раз повторим клише, что корреляция не означает причинно-следственной связи, и мы не можем заключить, что увеличение нагрузки приводит к повышению качества операций. Как мы уже упоминали, причинность может быть обратной: больницы с хорошей репутацией привлекают больше пациентов.

Этот спорный вывод, опубликованный в 2001 году, внес свою лепту в длительные, до сих пор продолжающиеся дискуссии о том, сколько больниц в Великобритании должны проводить подобные операции.

Более сложные модели регрессии

Методы, описанные в этой главе, прекрасно работали с момента их появления более века назад. Однако доступность огромных объемов данных и колоссальное увеличение вычислительных мощностей позволили создать более сложные модели. В широком смысле различные группы исследователей используют четыре основные стратегии моделирования:

• Достаточно простые математические представления зависимостей, такие как описанные в этой главе линейные регрессии. Статистики, как правило, предпочитают именно их.

• Сложные детерминистские модели, основанные на научном понимании физических процессов, например, используемые при прогнозировании погоды. Они предназначены для реалистичного воспроизведения механизмов, лежащих в их основе, и разрабатываются, как правило, прикладными математиками.

• Сложные алгоритмы, используемые для принятия решений и прогнозов, основанных на анализе большого количества прошлых случаев – например, для рекомендации книг, которые вы, возможно, хотели бы купить в сетевом магазине. Создаются в мире компьютерных наук и машинного обучения. Они часто будут «черными ящиками» в том смысле, что могут делать хорошие прогнозы, но их внутренняя структура в какой-то степени непостижима (см. следующую главу).

• Регрессионные модели, которые делают заключения о причинно-следственных связях; за них выступают экономисты.

Это значительные обобщения. К счастью, профессиональные барьеры рушатся, и, как мы увидим позже, формируется все более универсальный подход к моделированию. Но какая бы стратегия ни была принята, при создании и использовании модели возникают общие проблемы.

Хорошая аналогия состоит в том, что модель похожа на карту, а не на саму территорию. Все мы знаем, что одни карты лучше, чем другие: простой карты может быть достаточно для поездки из одного города в другой, но для прогулки в сельской местности нужно что-то более подробное. Британский статистик Джордж Бокс прославился бесценным афоризмом: «Все модели неверны, но некоторые полезны». Это поучительное заявление основывалось на опыте применения статистики в промышленных процессах, который позволял Боксу оценивать и силу моделей, и опасности излишней веры в них.

1 ... 26 27 28 29 30 31 32 33 34 ... 88

Перейти на страницу:

Поделиться книгой в соц сетях:

Сигнал и Шум. Почему одни прогнозы сбываются, а другие - нет - Нейт Сильвер

2021
Домашняя

Заставьте данные говорить. Как сделать бизнес-дашборд в Excel. Руководство по визуализации данных - Алексей Сергеевич Колоколов

2021
Разная литература 📚Бизнес

Джугафилия и советский статистический эпос - Дмитрий Орешкин

2021
Политика

Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс

2021
Домашняя

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?

Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер

Возможно, вас заинтересует

Сигнал и Шум. Почему одни прогнозы сбываются, а другие - нет - Нейт Сильвер

Заставьте данные говорить. Как сделать бизнес-дашборд в Excel. Руководство по визуализации данных - Алексей Сергеевич Колоколов

Джугафилия и советский статистический эпос - Дмитрий Орешкин

Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс