Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Шрифт:
Интервал:
Все это указывает на то, что количественная эффективность может быть не единственным критерием алгоритма: как только она становится «достаточно хорошей», порой куда разумнее отказаться от попыток дальнейших небольших увеличений ради сохранения простоты.
Так кто оказался самым везучим на «Титанике»?
Таким выжившим можно считать человека с самым высоким показателем Бриера при усреднении по всем алгоритмам. Им стал Карл Даль, 45-летний норвежско-австралийский столяр[142], путешествовавший в одиночку в третьем классе и заплативший за билет столько же, сколько и Фрэнсис Сомертон; два алгоритма даже дали ему 0 % шансов на выживание. Попав в ледяную воду, он забрался на спасательную шлюпку № 15, несмотря на то что некоторые на шлюпке пытались столкнуть его обратно. Возможно, он просто применил силу.
Это резко контрастирует с судьбой Фрэнсиса Сомертона из Илфракомба, чья смерть, как мы видели, вполне вписывается в общую закономерность. Его жене Ханне Сомертон досталось всего 5 фунтов (меньше, чем Фрэнсис потратил на билет), а не успешный муж в Америке.
Проблемы алгоритмов
Алгоритмы способны демонстрировать замечательную эффективность, однако по мере увеличения их роли в обществе актуализируются и их потенциальные проблемы. На данный момент можно выделить четыре основные.
• Недостаток робастности (устойчивости). Алгоритмы создаются по связям, и в случае непонимания лежащих в их основе процессов они могут оказаться слишком чувствительны к изменениям. Даже если нас волнует исключительно точность, а не научная истина, нам по-прежнему нужно помнить базовые принципы цикла PPDAC и этапы перехода от данных, полученных из какой-то выборки, к утверждениям, касающимся всей целевой совокупности. Для предсказательной аналитики эта целевая совокупность включает будущие случаи, и если все остается по-прежнему, то алгоритмы, сконструированные по прошлым данным, должны работать хорошо. Но порой мир меняется. Мы уже отмечали провал алгоритмов при изменениях в финансовом мире 2007–2008 годов. Еще один яркий пример – попытка компании Google предсказать тенденции распространения вируса гриппа на основании закономерностей в поисковых запросах пользователей. Сначала все работало хорошо, но в 2013 году алгоритм начал резко завышать прогнозы для гриппа. Одно из объяснений – изменения, внесенные Google в поисковую систему, могли привести к большему количеству ключевых слов, указывавших на грипп.
• Отсутствие учета статистического разброса. Автоматическое ранжирование на основе ограниченного объема данных будет ненадежным. В США учителей оценивали и наказывали в соответствии с коэффициентом роста знаний их учеников за год, что проявлялось в невероятно резких изменениях в годовой оценке учителей: в Вирджинии, например, у четверти учителей фиксируется разница более чем в 40 баллов (по шкале 1–100 баллов) от года к году[143]. Но как такое может быть, ведь хорошие учителя обычно хороши и в этом году, и в следующем.
• Неявное смещение. Повторюсь, алгоритмы основаны на связях, а это может означать, что в итоге они используют признаки, которые мы, как правило, считаем не имеющими отношения к рассматриваемой задаче. Например, когда один алгоритм машинного зрения обучали отличать изображения хаски от немецких овчарок, он был эффективен, пока его не применили к хаски, которых содержали в квартирах в качестве домашних питомцев, – оказалось, что его эффективность основывалась на идентификации снега на заднем плане[144]. Менее тривиальные примеры включают алгоритм для определения красоты, которому не нравится темная кожа, и еще один алгоритм, идентифицирующий чернокожих людей как горилл. Некоторые алгоритмы способны серьезно повлиять на жизнь человека – например, присваивающие кредитный рейтинг или решающие вопросы страхования. Можно запретить использование расы в качестве одной из предикторных переменных, но применение почтовых индексов для указания местожительства может быть не менее мощным индикатором расы.
• Недостаток прозрачности. Некоторые алгоритмы могут быть непрозрачными из-за своей явной сложности. Но даже простые алгоритмы на базе регрессии становятся совершенно непостижимыми в случае закрытости (например, если речь идет о частном коммерческом продукте). Это одна из главных жалоб на алгоритмы, определяющие вероятность рецидива, такие как COMPAS компании Northpointe или LSI-R у MMR[145]. Они дают оценки или категории риска, которые можно использовать для принятия решений об условном осуждении или вынесении приговора, но при этом способ взвешивания различных факторов неизвестен. Более того, поскольку собирается информация и о воспитании, и о прошлых соучастниках, решения принимаются на основании не только личной истории, но и с учетом фоновых факторов, которые (как было показано) должны быть связаны с будущими преступными действиями, даже если они обусловлены таким фактором, как бедность и лишения. Конечно, если бы все, что имеет значение, давало точный прогноз, то можно было бы использовать любой признак, даже расовую принадлежность. Однако многие утверждают, что справедливость требует, чтобы такие алгоритмы были контролируемыми, прозрачными и подлежали обжалованию.
В какой-то степени можно объяснить даже собственные (проприетарные) алгоритмы – при условии, что мы можем экспериментировать с различными входными сигналами. При покупке онлайн-страховки предлагаемая сумма рассчитывается по некой неизвестной формуле, подчиняющейся только определенным юридическим ограничениям: например, в Великобритании расценки при страховании автомобиля не могут опираться на информацию о расе или на генетические данные (за исключением болезни Хантингтона[146]) и так далее. Однако мы все же можем получить представление о влиянии различных факторов, раз за разом давая ложные ответы и наблюдая, как меняются расценки: это предоставляет некоторую возможность обратного инжиниринга[147] для алгоритма – увидеть, какие факторы определяют предлагаемую сумму.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!