Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Теория вероятностей естественным образом вступает в игру, когда мы имеем дело с ситуацией 1 (назовем ее так):
1. Когда можно считать, что данные сгенерированы каким-то рандомизирующим устройством, например, при подбрасывании монет, костей или путем случайного распределения пациентов по методам лечения с помощью генератора псевдослучайных чисел с последующей регистрацией результатов лечения.
Однако на практике мы можем столкнуться с ситуацией 2:
2. Когда рандомизирующее устройство выбирает уже существующий элемент данных, скажем, отбирает людей для участия в опросе.
И большую часть времени наши данные появляются из ситуации 3:
3. Когда случайности нет вообще, но мы действуем так, как если бы данные были сгенерированы каким-то случайным процессом, например при интерпретации веса новорожденного ребенка вашей подруги.
В большинстве описаний эти различия четко не разграничиваются: вероятность в целом объясняют с помощью рандомизирующих устройств (ситуация 1), статистике учат с помощью идеи «случайной выборки» (ситуация 2), но на самом деле большинство статистических приложений вообще не задействуют никаких рандомизирующих устройств или случайных выборок (ситуация 3).
Однако сначала рассмотрим ситуации 1 и 2. Непосредственно перед тем, как запустить рандомизирующее устройство, мы предполагаем, что у нас есть набор возможных результатов, которые можно наблюдать, а также их соответствующие вероятности – например, монета может выпасть орлом или решкой с вероятностью каждого исхода 1 / 2. Связав все возможные исходы с вероятностями их появления, мы можем сказать, что у нас есть случайная величина с каким-то вероятностным распределением. В ситуации 1 рандомизирующее устройство гарантирует, что наши наблюдения случайным образом извлекаются из этого распределения, но когда наблюдение сделано, вся случайность пропадает и все потенциально возможные пути развития будущего события сводятся к одному фактическому варианту. Аналогично, в ситуации 2, если мы случайным образом выбираем человека и, например, измеряем его доход, то мы фактически извлекаем случайное наблюдение из распределения доходов в генеральной совокупности.
Таким образом, вероятность явно важна при работе с рандомизирующим устройством. Но большую часть времени мы просто рассматриваем все доступные на какой-то момент измерения, которые могли быть собраны без соблюдения формальностей или (как мы видели в главе 3) даже могут представлять все возможные наблюдения: вспомните об уровне выживаемости после операций на сердце у детей в различных больницах или результатах экзаменов у британских детей – оба включают все имеющиеся данные и никакой случайной выборки здесь просто нет.
В главе 3 мы обсуждали идею метафорической генеральной совокупности, включающей все возможные случайности, которые могли бы произойти, но не произошли. Сейчас нам надо приготовиться к явно иррациональному шагу – действовать так, как будто данные получены каким-то случайным механизмом из общей совокупности, хотя мы прекрасно знаем, что это не так.
Если мы все наблюдаем, то откуда появляется вероятность?
Как часто мы ожидаем семь или более отдельных случаев убийства в Англии и Уэльсе за один день?
Когда несколько экстремальных событий происходят в тесной последовательности (например, череда крушений самолетов или природных катастроф), появляется естественное подозрение, что между ними существует какая-то связь. В этом случае важно выяснить, насколько необычны такие события, в чем нам и поможет следующий пример.
Чтобы оценить, насколько редок «кластер» из как минимум семи убийств в день, давайте изучим данные за три года (1095 дней) между апрелем 2014-го и мартом 2016-го. За этот период в Англии и Уэльсе было совершено 1545 убийств, то есть в среднем 1545/1095 = 1,41 в день. Ни одного дня с семью и более случаями убийства[166] за это время не наблюдалось, однако было бы весьма наивно полагать, что такое событие невозможно. Если мы сумеем построить разумное вероятностное распределение для количества убийств в день, то сможем ответить на поставленный вопрос.
Но каковы обоснования для построения такого вероятностного распределения? Число убийств, регистрируемых в стране, – это просто факт, тут нет никакой случайной выборки и явного случайного элемента, генерирующего каждое преступление. Просто невообразимо сложный и непредсказуемый мир. Но какова бы ни была наша личная философия по отношению к удачам и неудачам, оказывается, полезно действовать так, словно все эти события были порождены каким-то случайным процессом, основанным на вероятности.
Давайте представим, что в начале каждого дня у нас есть огромная популяция людей, в которой у каждого ее члена есть очень малая вероятность стать жертвой убийства. Такого рода данные можно считать наблюдениями из распределения Пуассона, предложенного французским математиком Симеоном Пуассоном в 1837 году для описания вероятности вынесения неправомерных обвинительных приговоров за год. С тех пор оно использовалось для моделирования всего – от количества голов, забитых футбольной командой в матче, и еженедельного числа выигрышных лотерейных билетов до ежегодного числа прусских офицеров, убитых ударом копыта их лошадей. Во всех этих ситуациях для наступления события есть очень большое число предпосылок, но каждая с ничтожно малым шансом на реализацию, что и приводит к необычайно универсальному распределению Пуассона.
Тогда как нормальное (гауссовское) распределение, описанное в главе 3, требует двух параметров (среднее значение и среднеквадратичное отклонение), у распределения Пуассона только один параметр (он имеет смысл среднего). В нашем конкретном примере это ожидаемое ежедневное число случаев убийства, которое мы принимаем равным 1,41, поскольку таково среднее значение за трехлетний период. Однако нам нужно тщательно проверить, насколько разумно предположение о распределении Пуассона, чтобы мы могли обращаться с количеством убийств так, словно это случайное наблюдение, взятое из пуассоновского распределения с параметром 1,41.
Например, зная это среднее, мы можем использовать формулу для распределения Пуассона или стандартное программное обеспечение, чтобы вычислить, что вероятность совершения пяти убийств в день равна 0,001134. А значит, за 1095 дней можно ожидать 1095 × 0,001134 = 12,4 дней, когда будут наблюдаться ровно пять случаев убийства.
Удивительно, но реальное число дней с пятью убийствами за трехлетний период… 13.
На рис. 8.5 приведено сравнение ожидаемого распределения для ежедневного числа убийств на основании распределения Пуассона и фактического эмпирического распределения для 1095 дней. Соответствие очень хорошее, и в главе 10 я покажу, как формально проверить, оправдано ли предположение о пуассоновском распределении данных.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!