📚 Hub Books: Онлайн-чтение книгРазная литератураРазберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

-
+

Интервал:

-
+
1 ... 22 23 24 25 26 27 28 29 30 ... 69
Перейти на страницу:
проекта потерпят неудачу, составляет всего 1,25 %. В конце концов, ставки высоки, так что всего один успешный проект способен окупить инвестиции, сделанные во все три. А поскольку суммарная вероятность должна быть равна 1, вероятность успеха хотя бы одного проекта составляет 1 минус вероятность провала всех проектов, или 1–0,0125 = 0,9875 = 98,75 %. «Ничего себе, – думают они, – вероятность общего успеха составляет почти 99 %!»

Увы, их расчеты неверны. Все три события зависят от общего успеха компании, который может быть подорван такими факторами, как корпоративный скандал, плохие квартальные результаты или какое-то более крупное событие, влияющее на мировую экономику, вроде пандемии COVID-19. События A, B и C зависят от нескольких факторов. Поэтому, когда руководители необоснованно допускают их независимость, они недооценивают вероятность того, что все три проекта потерпят неудачу в будущем году, а значит, переоценивают шансы на то, что по крайней мере один из них окажется успешным.

Если это кажется вам неважным, вспомните финансовый кризис 2008 года и последующую рецессию.

Не допускайте ошибку игрока

С другой стороны, некоторые события являются независимыми, но не воспринимаются таковыми. Это порождает другой вид риска, благодаря которому процветают казино. В данном случае люди переоценивают вероятность наступления того или иного события, основываясь на предшествующих событиях.

Если при подбрасывании честной монеты 10 раз подряд выпадет орел, то вероятность выпадения орла в результате следующего броска все равно будет составлять P(О) = 50 %. В случае с независимыми событиями вероятность наступления одного из них не увеличивается и не уменьшается в зависимости от предыдущих результатов. Однако игроки ошибочно полагают, что величина вероятности меняется – отсюда и название «ошибка игрока»[51].

Каждый последующий бросок кубика не зависит от результата предыдущего броска. То же самое касается игровых автоматов и рулетки. Тем не менее игроки пытаются отыскать закономерности в этих событиях. Они либо думают, что на игровом автомате «должен» выпасть выигрыш, потому что он уже давно не выбрасывал монеты, либо считают, что «горячие» игральные кости позволят им выигрывать и впредь.

Однако каждое последующее событие имеет ту же вероятность выигрыша, что и предыдущее. А поскольку речь идет о казино, то шансы не в вашу пользу. Однако, заметив последовательность редких событий, любители азартных игр делают большие ставки, думая, что настал их счастливый день. О, как же они ошибаются. Правда, казино может угостить их «бесплатным» завтраком[52].

Все вероятности являются условными

Все вероятности в некотором смысле условны. Вероятность выпадения орла при подбрасывании монеты P(О) равна 50 % при условии, что монета является честной. То же самое касается вероятности выпадения единицы при бросании кубика: P(К == 1) = 1/6. Вероятность успеха проекта по работе с данными зависит от коллективного разума группы аналитиков, правильности данных, сложности проблемы, отсутствия вирусов на компьютерах, риска закрытия компании из-за пандемии и так далее.

Также подумайте о том, как компании и люди оценивают успех и компетентность. Обычно это делается исходя из прошлых успехов. Компании нанимают консультанта с успешным послужным списком или адвоката, который выигрывает больше всего дел, а человек обращается к кардиохирургу, чьи пациенты умирают в ходе операции реже всего. Допустим, консультант зарабатывает деньги для своих клиентов в 90 % случаев, адвокат выигрывает 80 % дел, дошедших до суда, а уровень смертности пациентов кардиохирурга составляет всего 2 %.

Однако они могут влиять на эти вероятности. Консультант, юрист и хирург могут решить, браться за дело или нет. Они хорошо представляют свои шансы на успех, и если эти шансы кажутся им слишком небольшими, они могут отказаться. Вероятность успеха каждого из них зависит от выбора проектов с наибольшей вероятностью успеха и избегания тех, которые могут привести к ухудшению их показателей[53].

Вы должны учитывать все факторы, влияющие на степени вероятности, с которыми сталкиваетесь.

Не меняйте зависимости местами

Еще одна ловушка состоит в склонности предполагать то, что P(A | B) = P(B | A) для двух событий A и B. Обратите внимание на то, как зависимости поменялись местами: в одном случае A зависит от B, в другом – B от A.

Вот пример, показывающий разницу между двумя этими случаями. Пусть событие A будет «Проживанием в штате Нью-Йорк», а событие B – «Проживанием в городе Нью-Йорк». P(A | B), то есть вероятность проживания в штате Нью-Йорк при условии, что вы живете в городе Нью-Йорк, сильно отличается от P(B | A) – вероятности проживания в городе Нью-Йорк при условии, что вы живете в штате Нью-Йорк. В первом случае вероятность составляет 100 %, P(A | B) = 1, а во втором – нет, поскольку около 60 % жителей штата Нью-Йорк живут за пределами города Нью-Йорк.

В таком простом примере все довольно очевидно, однако перестановка зависимостей и предположение о том, что P(A | B) = P(B | A) – настолько распространенная ошибка, что ей дали название и посвятили целую статью в Википедии – Confusion of the Inverse («ошибка приравнивания двух условных вероятностей»)[54]. Вы наверняка тоже допустили ее в процессе выполнения мысленного упражнения, предложенного в начале этой главы.

Давайте вернемся к сценарию из этого упражнения.

Ваша компания подверглась хакерской атаке, в результате которой 1 % ноутбуков оказались заражены вирусом. Положительный результат теста на наличие вируса – это событие +, отрицательный результат – событие —, инфицирование вирусом – событие В. Вам была предоставлена следующая информация: P(+ | В) = 99 %, P(– | без В) = 99 % и P(В) = 1 %. Другими словами, вероятность положительного результата теста при наличии вируса на ноутбуке составляет 99 %, вероятность отрицательного результата теста при отсутствии вируса на ноутбуке составляет 99 %, а вероятность наличия вируса на произвольно выбранном ноутбуке составляет 1 %.

Мы хотели определить вероятность того, что компьютер заражен вирусом, при условии положительного результата теста, P(В | +). Именно здесь возникла вышеописанная путаница. Речь шла о P(В | +), а не о P(+ | В), однако многие люди при выполнении этого упражнения дают ответ, соответствующий P(+ | В) = 99 %.

Вероятности P(В | +) и P(+ | В) не одинаковы, однако они связаны между собой теоремой Байеса – одной из самых известных теорем в теории вероятностей и статистике.

Теорема Байеса

Теорема Байеса, сформулированная в XVIII веке, – это способ работы с условными вероятностями, который применяется повсюду, начиная с планирования сражений и управления финансами и заканчивая расшифровкой ДНК[55]. Для двух событий A и B теорема Байеса утверждает следующее:

1 ... 22 23 24 25 26 27 28 29 30 ... 69
Перейти на страницу:

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?