Искусственный интеллект. Этика и право - Елена Сергеевна Ларина
Шрифт:
Интервал:
Одна из проблем, связанных с использованием такой несовершенной информации, заключается в том, что представители различных демографических групп останавливаются, обыскиваются, арестовываются, обвиняются и неправомерно осуждаются с очень разными показателями удельного веса в нынешней системе уголовного правосудия США. Кроме того, о различных типах преступлений сообщается и регистрируется с разной частотой, и частота сообщений может зависеть от демографических характеристик преступника и жертвы. Например, вполне вероятно, что все (или почти все) ограбления банков доводятся до сведения полиции. С другой стороны, аресты за хранение марихуаны общеизвестно предвзяты: чернокожие американцы гораздо чаще подвергаются арестам, чем белые, несмотря на схожие показатели использования. Таким образом, «данные об аресте, осуждении и лишении свободы наиболее подходящим образом рассматриваются как меры официального реагирования на преступное поведение», непропорционально распределены по определенным группам.
Оценка таких предубеждений может быть затруднена, хотя в некоторых случаях это возможно при использовании вторичных источников данных, собираемых отдельно от правоохранительных или правительственных учреждений. Например, данные об аресте или осуждении могут быть пересчитаны с использованием Национального опроса о виктимизации преступности, который предоставляет второй метод оценки демографических характеристик для типов преступлений, когда есть жертва, которая может видеть преступника, или опросы, которые отражают данные о совершении преступлений и арестах, такие как Национальные обследования молодежи. Выполнение такой переоценки будет тонкой статистической задачей, которую можно выполнить неправильно. Поэтому важным компонентом будет разработка метода, принятого сообществами машинного обучения и статистических исследований, для определения того, дала ли переоценка данных достоверные результаты, которые точно отражают мир, реальную ситуацию.
Помимо трудностей в измерении определенных результатов необходимы также данные, чтобы правильно различать разные причины одного и того же результата. Например, если просто посмотреть на результат неявки в суд, то обнаружим, что существует множество возможных причин такого исхода. Принимая во внимание, что существуют законные причины неявки в суд, которые не предполагают, что люди представляют опасность для общества (например, чрезвычайная ситуация в семье или ограниченные возможности транспортировки), объединение воедино всех лиц, которые не явились в суд, несправедливо увеличило бы вероятность того, что лица, которые, как правило, имеют более законные основания для того, чтобы не явиться в суд (например, люди с иждивенцами или ограниченные возможности транспортировки), были бы несправедливо задержаны. Таким образом, если целью инструмента оценки риска является прогнозирование того, будет ли обвиняемый избегать правосудия, необходимо будет собрать данные, которые будут различать лиц, которые намеренно и непреднамеренно не появляются в суде.
Учитывая, что валидность часто зависит от локального контекста, чтобы гарантировать полезность инструмента, где это возможно, данные, обсуждаемые выше, должны собираться в зависимости от юрисдикции, чтобы выявить значительные различия в географии, транспортировке и местных процедурах, которые влияют на эти результаты.
§ 4. Требование 2. Смещение в статистических моделях должно быть измерено и смягчено
Существует два широко распространенных заблуждения о предвзятости в системах статистического прогнозирования. Во-первых, модели будут отражать смещение только в том случае, если данные, с которыми они обучались, были неточными или неполными. Во-вторых, прогнозы можно сделать беспристрастными, избегая использования переменных, указывающих расу, пол или другие защищенные классы. Обе эти интуиции неверны на техническом уровне.
Возможно, это нелогично, но в сложных условиях, таких как уголовное правосудие, практически все статистические прогнозы будут смещены, даже если данные были точными, и даже если исключены такие переменные, как раса, если не предприняты конкретные шаги для измерения и смягчения смещения. Причиной является проблема, известная как опущенная переменная смещения. Опущенная переменная смещения возникает всякий раз, когда модель обучается на основе данных, которые не включают в себя все соответствующие причинные факторы. Отсутствующие причины исходной переменной, которые также вызывают интересующую входную переменную, называются смешанными переменными. Кроме того, включенные переменные могут быть прокси для защищенных переменных, таких как раса.
Частое вождение на вечеринки является смешанной переменной, потому что это вызывает как ночное вождение, так и риск несчастного случая. Модель, обученная на данных о времени суток, когда водители водят машину, будет демонстрировать предвзятость по отношению к людям, работающим в ночные смены, потому что это сопоставит риск вождения для сторон с риском вождения ночью.
На диаграмме также указаны переменные посредники на работе: частота вождения в ночное время является прокси (удаленный) – сигналом, когда вы едете на вечеринки, для вождения в нетрезвом состоянии. Это также прямой прокси для рабочих ночных смен. В результате, хотя нецелесообразно взимать с кого-то более высокие страховые взносы просто потому, что они работают в ночные смены, это является результатом в этом случае из-за включения прокси-переменной частоты движения в ночное время.
Подобные сети доверенных лиц применимы к оценкам преступного риска, исходя из наблюдаемых входных переменных, таких как вопросы опроса, спрашивающие «Сколько ваших друзей/ знакомых когда-либо арестовывали?» Или «В вашем районе некоторые из ваших друзей или членов семьи были жертвами преступления?», которые являются прокси для гонки. Таким образом, трудно отделить использование инструментов оценки риска от использования факторов, защищенных конституцией, таких как раса, чтобы делать прогнозы, и необходимы меры по смягчению этого смещения на уровне модели.
Методы смягчения предвзятости
Существует множество возможных статистических методов, которые пытаются исправить смещение в инструментах оценки риска. Правильный метод применения будет зависеть оттого, что означает, что инструмент является «справедливым» в конкретном приложении, так что это не только технический вопрос, но и вопрос права, политики и этики. Хотя не существует единого универсального решения проблемы предвзятости, ниже приведены некоторые из возможных подходов, которые могут быть уместны в контексте прогнозов оценки риска в США.
Первый подход состоит в том, чтобы разработать модель для удовлетворения требования «равных возможностей», что означает, что ложноположительные показатели сбалансированы по некоторому набору защищенных классов (в контексте рецидивизма они будут означать вероятность того, что кто-то, кто прогнозирует отсутствие рецидива, неверно сделает
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!