Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Попробуйте угадать
Для начала попробуйте выполнить мысленное упражнение.
Ваша компания, входящая в список Fortune 500, стала жертвой кибератаки: хакеры заразили вирусом 1 % всех портативных компьютеров. Доблестная IT-команда быстро разработала способ проверки ноутбука на предмет наличия на нем этого вируса. Это очень хороший, почти идеальный тест. Исследования IT-команды показали, что при наличии в ноутбуке вируса результат теста будет положительным в 99 % случаев. А при отсутствии вируса в 99 % случаев результат теста будет отрицательным.
При проверке вашего ноутбука на наличие вируса результат оказывается положительным. Какова вероятность того, что на вашем устройстве действительно есть вирус?
Подумайте над этим, прежде чем двигаться дальше.
Правильный ответ – 50 %. (Мы докажем это далее в этой главе.)
Удивлены? Это удивляет большинство людей.
Ответ не понятен интуитивно. Даже если вы знаете, что вероятность может сыграть с вами злую шутку, она все равно может вас подловить. Именно это больше всего раздражает в теории вероятности – любая проблема становится настоящей головоломкой. Однако не стоит расстраиваться, если вы не угадали правильный ответ. Настоящий тест заключался в том, задумались ли вы о своей неуверенности в ответе.
Далеко не все это делают. Большинство людей не понимают или не учитывают вероятности. Хотите доказательства? Люди по-прежнему покупают лотерейные билеты, стекаются в Лас-Вегас и приобретают расширенную гарантию на свои телевизоры. Они довольствуются своим прискорбным невежеством в отношении вероятности, особенно когда принимаемые ими решения связаны с потенциальной выгодой (игровые автоматы) или возможностью избежать проблем в будущем (гарантии на телевизоры). Эта глава даст вам четкое представление о вероятности, правилах ее определения и ошибочных представлениях.
Итак, начнем.
Правила игры
Теория вероятностей позволяет количественно оценить возможность наступления того или иного события.
Прежде чем мы погрузимся в математику, стоит отметить, что наш мозг запрограммирован на работу с вероятностями. В повседневной жизни мы постоянно используем вероятностные утверждения. Вы не можете точно знать, произойдет ли то или иное событие в вашей жизни, но вы знаете, что некоторые исходы более вероятны, чем другие. Например, в офисе вы можете услышать фразы наподобие:
– «Вполне вероятно, что они подпишут контракт!»
– «Существует небольшая вероятность того, что мы пропустим крайний срок, назначенный на следующий понедельник».
– «Вряд ли нам удастся достичь квартальных целей».
– «Тревор, как правило, опаздывает на совещания».
– «Согласно прогнозу погоды, сегодня, скорее всего, будет дождь. Давайте перенесем выездную встречу».
У двух людей могут быть разные представления о том, как часто происходит «весьма вероятное» или «вероятное» событие, а значит, обыденный язык здесь не поможет. Нам нужно использовать числа, данные и обозначения для количественной оценки вероятностных утверждений, чтобы наши заявления стали надежнее интуитивных догадок (даже если наша интуиция отличается высокой степенью надежности). Более того, нам нужно соблюдать определенные правила и логику вероятности.
Нотация
Как говорилось ранее, теория вероятностей позволяет количественно оценить возможность наступления того или иного события. Событием может быть любой исход – от простого (выпадение орла при подбрасывании монеты) до сложного («Дональд Трамп победит на выборах 2016 года»). Даже ребенок может оценить вероятность выпадения орла при подбрасывании монеты как 50 на 50, однако вся индустрия опросов общественного мнения не сумела предсказать результаты выборов 2016 года, несмотря на анализ терабайтов данных.
В этом кратком уроке мы рассмотрим простые случаи.
Вероятность принимает значения в диапазоне от 0 до 1 включительно, где 0 означает невозможность (выпадение 7 при бросании шестигранного кубика с цифрами 1–6), а 1 – абсолютную уверенность (выпадение числа меньшего 7 при бросании шестигранного кубика). Вероятность часто выражается в виде простой дроби (вероятность выпадения орла при подбрасывании монеты составляет 1/2) или в процентах (у вас есть 25 %-ный шанс выбрать карту пиковой масти из стандартной колоды игральных карт). Многие люди при описании вероятности используют числа, дроби и проценты взаимозаменяемо.
Для экономии места мы будем использовать сокращение и обозначать вероятность буквой P. Описания событий мы также будем сокращать. Например, фразу «Вероятность выпадения орла при подбрасывании честной монеты равна 1/2» можно кратко записать в виде P(М == О) = 1/2. Или, еще короче, P(О) = 1/2. Фактически весь предыдущий абзац можно показать в виде следующей таблицы.
Табл. 6.1. Сценарии, описанные с помощью сокращенной нотации
Использование «==» вместо «=»
Если вы уже проходили курс по теории вероятностей или статистике, используемые обозначения вам, скорее всего, знакомы. Однако для большей ясности мы добавили еще кое-что.
Обратите внимание: когда мы проверяем вероятность выпадения орла при подбрасывании монеты, мы пишем P(М == О) вместо P(М = О). Мы делаем это для того, чтобы провести различие между двумя наборами знаков равенства в нашем уравнении. С помощью двойного знака равенства (==) мы фактически проверяем результат подбрасывания монеты М.
С другой стороны, когда мы пишем P(М == О) = 1/2, единственный знак равенства в конце записи указывает на то, что результат P(М == О) равен 1/2.
Эта нотация соответствует синтаксису булевой логики, используемому во многих языках программирования.
Выражение P(К < 7) = 1 обозначает суммарную вероятность и говорит о том, что «Вероятность выпадения числа меньшего 7 при бросании шестигранного кубика равна 1». Этот результат получается путем сложения P(К == 1) + P(К == 2) + P(К == 3) + P(К == 4) + P(К == 5) + P(К == 6) = 6 × 1/6 = 1 (табл. 6.2). Сумма вероятностей всех исходов должна равняться единице.
Табл. 6.2. Суммарная вероятность выпадения числа меньшего 7 при бросании кубика
Условная вероятность и независимые события
Когда вероятность наступления одного события зависит от наступления другого, это называется условной вероятностью. Условная вероятность обозначается вертикальной чертой, |, которая читается как «при условии». Вот несколько примеров для большей ясности:
– Вероятность того, что Алекс опоздает на работу, составляет 5 %. P(А) = 5 %.
– Вероятность того, что Алекс опоздает на работу при условии, что у него
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!