Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Такая путаница известна как «заблуждение прокурора», поскольку часто встречается в судебных разбирательствах, связанных с анализом ДНК. Например, судебно-медицинский эксперт может утверждать, что «если обвиняемый невиновен, то вероятность того, что его ДНК совпадет с ДНК, найденной на месте преступления, только один шанс на миллиард». Но это неверно интерпретируется как «учитывая данные анализа ДНК, есть только один шанс на миллиард, что обвиняемый невиновен»[162].
Подобная ошибка не редкость, но логика здесь так же неправильна, как и в переходе от утверждения «если вы папа римский, то вы католик» к утверждению «если вы католик, то вы папа римский», где абсурдность выражения сразу бросается в глаза.
Так что же такое вероятность?
В школе нас учат математике расстояний, масс и времени, которые мы можем измерить с помощью рулетки, весов или часов. Но как измерить вероятность? Не существует никакого вероятностемера. Словно вероятность – это некая «виртуальная» величина, которой мы можем присвоить какое-то число, но не измерить напрямую.
Еще больше настораживает вполне закономерный вопрос: а что вообще означает вероятность? Есть какое-то доходчивое определение этого понятия? Это может выглядеть как схоластика, но философия вероятности не только захватывающая тема сама по себе, но и играет огромную роль в практическом применении статистики.
Не ждите консенсуса от всевозможных «экспертов». Они могут соглашаться с математикой вероятностей, но философы и статистики выдвигают разные идеи о том, что на самом деле означают эти неуловимые числа, и активно их обсуждают. Вот некоторые популярные предложения.
• Классическое определение вероятности. Это то, чему нас учат в школе. Оно основано на симметрии монет, костей, перетасованных колод карт и так далее и может быть сформулировано как «отношение числа благоприятных исходов к числу всех исходов, если все исходы равновозможны». Например, вероятность выпадения единицы на правильной кости равна 1/6, потому что возможны 6 исходов, а нас устраивает один. Однако это определение в какой-то степени носит круговой характер, поскольку прежде мы должны уяснить, что значит равновозможны.
• «Перечислительная» вероятность[163]. Предположим, в ящике лежат три белых и четыре черных носка. Если вытаскивать носок случайным образом, то чему равна вероятность, что он белый? Ответ 3/7 можно получить путем простого перечисления всех возможностей. Многие из нас страдали от таких вопросов в школе, и здесь мы фактически имеем дело с расширением рассмотренной выше классической идеи, где требуется случайный выбор из группы физических объектов. Мы уже использовали эту идею при описании случайного выбора элемента данных из общей генеральной совокупности.
• Вероятность как частота. Такое определение говорит о вероятности как о доле случаев, когда интересующее нас событие наступает в бесконечной последовательности идентичных экспериментов – в точности так как при моделировании двух вариантов игры шевалье де Мере. Для бесконечно повторяющихся событий это может быть разумно (хотя бы теоретически), но как насчет уникальных одноразовых событий, например скачек или завтрашней погоды? На деле практически любая реальная ситуация даже в принципе не может быть бесконечно воспроизводимой.
• Пропенситивная интерпретация вероятности. Основная идея состоит в том, что у каждой ситуации есть объективная склонность порождать какое-то событие[164]. Внешне идея выглядит привлекательно: если бы вы были прозорливым существом, то могли бы сказать, что существует вероятность того, что ваш автобус скоро придет или что вас сегодня собьет машина. Однако у нас, простых смертных, похоже, нет возможности оценивать такие скорее метафизические «истинные шансы».
• Субъективная, или «личная», вероятность. Это степень веры конкретного человека в какое-либо событие, основанная на его нынешних знаниях. Обычно субъективные вероятности интерпретируются в терминах пари. Допустим, мне предлагают 1 фунт, если я смогу пять минут жонглировать тремя шариками, а я готов сделать на это безвозвратную ставку в 60 пенсов. Тогда моя личная вероятность события оценивается в 0,6.
У различных «экспертов» собственные предпочтения относительно этих альтернатив, но лично я предпочитаю последний вариант – субъективную вероятность. Это означает, что я придерживаюсь мнения, что любая численная вероятность фактически строится в соответствии с тем, что известно в нынешней ситуации, – и на самом деле вероятность вообще не «существует» (за исключением, возможно, субатомного уровня). Такой подход лежит в основе байесовской школы статистики, о чем мы подробно поговорим в главе 11.
К счастью, вы не обязаны соглашаться с моим (довольно спорным) тезисом, что численные вероятности объективно не существуют. Можно предположить, что монеты и другие устройства для рандомизации объективно случайны – в том смысле, что генерируют настолько непредсказуемые данные, что они могут быть неотличимы от тех, которые мы ожидаем получить от «объективных» вероятностей. Поэтому в целом мы действуем так, будто наблюдения случайны, даже если знаем, что это не совсем верно. Наиболее яркие примеры – генераторы псевдослучайных чисел, по сути, основанные на полностью предсказуемых, детерминированных вычислениях. В них вообще нет никакой случайности, но их механизм настолько сложен, что на практике они неотличимы от настоящих случайных последовательностей, скажем, полученных из источника субатомных частиц[165].
Такая отчасти странная способность действовать, как будто что-то истинно, хотя вы знаете, что это не так, обычно считается опасно иррациональной. Однако это полезно, когда дело доходит до использования вероятности в качестве основы для статистического анализа данных.
Сейчас мы подошли к крайне важной, хотя и сложной стадии изложения общей взаимосвязи между теорией вероятностей, данными и изучением любой интересующей нас целевой совокупности.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!