Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Дерево ожидаемых частот для подбрасывания двух монет, повторенного четыре раза. Например, вы ожидаете, что среди первых четырех подбрасываний будут два орла, а на втором подбрасывании в одном случае выпадет орел, а во втором – решка
Таким образом, один раз из четырех вы могли бы ожидать выпадения двух орлов. Поэтому вероятность, что оба орла выпадут в единственной попытке, составляет 1 / 4. К счастью, это и есть правильный ответ.
Дерево ожидаемых частот можно преобразовать в «дерево вероятностей», если для каждой «развилки» указать долю соответствующих случаев (см. рис. 8.3). Тогда становится ясно, что общая вероятность всей ветви дерева (например, выпадения орла после орла) получается путем умножения дробей, стоящих на частях ветви, то есть 1 / 2 × 1 / 2 = 1 / 4.
Рис. 8.3
Дерево вероятностей для подбрасывания двух монет. На каждой «развилке» указана доля событий. Вероятность целой ветви дерева определяется путем умножения дробей на всех ее частях
Деревья вероятностей – весьма распространенный и крайне эффективный способ изучения вероятностей в школе. В самом деле, мы можем использовать этот простой пример с двумя монетами для ознакомления со всеми правилами вероятностей. Дерево показывает следующее:
1. Вероятность события – это число от 0 до 1, где 0 – вероятность невозможных событий (например, не выпали ни орлы, ни решки), а 1 – вероятность достоверных событий (выпала какая-то из четырех возможных комбинаций).
2. Правило дополнения. Дополнением к событию А называется событие, которое произойдет в случае, если А не произошло. Вероятность его наступления равна единице минус вероятность события А. Например, вероятность события «выпала хотя бы одна решка» равна единице минус вероятность события «выпало два орла»: 1–1 / 4 = 3 / 4.
3. Правило сложения (правило «ИЛИ»): если события несовместны (то есть не могут произойти одновременно), то вероятность того, что произойдет хотя бы какое-то одно из них, равна сумме вероятностей отдельных событий. Например, вероятность «выпадения хотя бы одного орла» составляет 3 / 4, так как включает три несовместных события: «выпало два орла», ИЛИ «выпал сначала орел, а потом решка», ИЛИ «сначала выпала решка, а потом орел» – каждое с вероятностью 1 / 4.
4. Правило умножения (правило «И»): при наличии последовательности независимых событий (то есть одно не влияет на другое) вероятность наступления всех событий в последовательности равна произведению вероятностей отдельных событий. Например, вероятность выпадения двух орлов равна 1 / 2 × 1 / 2 = 1 / 4.
Эти основные правила позволяют решить задачу шевалье де Мере, показывая, что на самом деле в варианте 1 его шансы на победу составляли 52 %, а в варианте 2 – 49 %[161].
Мы по-прежнему делаем сильные предположения – даже в простейшем примере с подбрасыванием монет. Мы полагаем, что монета симметрична, что результат при ее подбрасывании не будет предсказуем, что она не упадет на ребро, что после первого броска в Землю не врежется астероид и так далее. Задача всех этих серьезных (за исключением, пожалуй, падения астероида) соображений – подчеркнуть, что все используемые нами вероятности условны: не существует безусловной вероятности события; всегда есть какие-то предположения и иные факторы, которые могут на нее влиять. И, как мы сейчас увидим, нам нужно проявлять осторожность в отношении того, на чем мы основываемся.
Условная вероятность – когда вероятности зависят от других событий
При диагностике рака молочной железы точность маммографии – примерно 90 %, то есть она правильно определяет 90 % женщин с раком и 90 % женщин без рака. Предположим, что 1 % обследуемых женщин действительно больны. Какова вероятность, что у случайно выбранной женщины окажется положительная маммограмма, и если так, то какова вероятность, что у женщины на самом деле рак?
В случае с двумя монетами события независимы, поскольку вероятность выпадения орла на второй монете не зависит от результата подбрасывания первой монеты. В школе мы обычно узнаем о зависимых событиях, когда нам начинают задавать несколько утомительные вопросы, скажем, о разноцветных носках, которые вытаскивают из ящика. Пример выше гораздо ближе к реальной жизни.
Подобные задачи – классические в тестах оценки интеллекта, и их не так легко решать. Однако идея ожидаемого количества существенно упрощает проблему. Ее суть – подумать, чего можно ожидать для большой группы женщин (скажем, 1000), как показано на рис. 8.4.
Рис. 8.4
Дерево ожидаемых частот, отображающее наши ожидания для 1000 женщин, проходящих скрининг рака молочной железы. Мы предполагаем наличие рака у 1 % женщин, а маммография верно классифицирует 90 % женщин с раком молочной железы и 90 % женщин без рака. Всего мы можем ожидать 9 + 99 = 108 положительных маммограмм, из которых девять окажутся истинно правильными
Из 1000 женщин у 10 (1 %) действительно выявляют рак молочной железы. Из этих 10 у девяти (90 %) обследование даст положительный результат. Однако из 990 здоровых женщин (без рака) у 99 (10 %) маммография будет ложноположительной. В общей сложности мы получим 9 + 99 = 108 положительных маммограмм, а значит, вероятность того, что у случайно выбранной женщины будет положительный результат, равна 108 / 1000 ≈ 11 %. Но среди этих 108 реально больны раком только 9, поэтому вероятность, что у женщины на самом деле рак, равна 9 / 108 ≈ 8 %.
Это упражнение на условную вероятность помогает понять весьма парадоксальный результат: несмотря на «90-процентную точность» маммографии, подавляющее большинство женщин с положительной маммограммой на самом деле не больны. Легко перепутать «вероятность положительного теста при условии наличия рака» с «вероятностью рака при условии положительного теста».
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!