Совместимость. Как контролировать искусственный интеллект - Стюарт Рассел
Шрифт:
Интервал:
Эта весьма неэгалитарная формула, хорошо знакома каждому родителю. Скажем, роботу Робби поручили приглядывать за двумя детьми, Алисой и Бобом. Алиса хочет пойти в кино и уверена, что сегодня будет дождь, Боб рвется на пляж и настаивает, что день будет солнечный. Робби мог бы заявить: «Мы идем в кино», — сделав Боба несчастным, или: «Мы идем на пляж», — сделав несчастной Алису, либо он может сказать: «Если будет дождь, пойдем в кино, а если солнце, то на пляж». Последний план делает счастливыми и Алису, и Боба, поскольку каждый из них верит своим собственным убеждениям.
Вызовы утилитаризму
Утилитаризм — одно из предложений, возникших из длительного поиска человечеством нравственного ориентира; среди их множества оно сформулировано наиболее четко — поэтому весьма уязвимо для лазеек. Философы ищут их больше ста лет. Например, Дж. Э. Мур, возражая Бентаму, делавшему акцент на максимизацию удовольствия, представлял себе «мир, в котором не существует абсолютно ничего, кроме удовольствия, — ни знания, ни любви, ни наслаждения красотой, ни нравственных качеств»[287]. В современности это наблюдение находим в замечании Стюарта Армстронга, что сверхинтеллектуальные машины, перед которыми поставлена задача максимизации удовольствия, могут «замуровать всех и каждого в бетонных гробах на героиновой игле»[288]. Другой пример: в 1945 г. Карл Поппер предложил достойную цель минимизации человеческого страдания[289], утверждая, что аморально обменивать боль одного человека на удовольствие другого, на что Р. Н. Смарт ответил, что легче всего этого достичь, добившись вымирания человеческой расы[290]. В настоящее время идея, что машина может положить конец страданиям людей, покончив с нашим существованием, является основной в дебатах об экзистенциальном риске, который несет ИИ[291]. Третьим примером является подчеркнутая Дж. Э. Муром идея реальности источника счастья, корректирующая более ранние определения, которые, как представляется, оставляют лазейку, позволяющую максимизировать счастье путем самообольщения. Современные аналоги этого варианта включают «Матрицу» (где современная реальность оказывается иллюзией, созданной компьютерным моделированием) и недавнюю работу по проблеме самообмана в обучении с подкреплением[292].
Эти и другие примеры убеждают меня, что сообщество разработчиков ИИ должно обращать пристальное внимание на атаки и контратаки, совершаемые в ходе философских и экономических дебатов вокруг утилитаризма, имеющих непосредственное отношение к нашей задаче. Две самые важные темы с точки зрения разработки ИИ-систем, полезных для множества индивидов, связаны со сравнениями полезностей между индивидами и между популяциями разной величины. Споры вокруг обеих тем ведутся не менее 150 лет, что заставляет подозревать, что путь к их удовлетворительному разрешению будет извилистым.
Дебаты вокруг межличностного сравнения полезностей важны, потому что Робби не может максимизировать сумму полезностей Алисы и Боба, пока их полезности нельзя будет сложить, а сложить их можно, только если они измеряются в одной и той же шкале. Британский логик и экономист XIX в. Уильям Стэнли Джевонс (изобретатель раннего механического компьютера, так называемого логического пианино) утверждал в 1871 г., что межличностные сравнения невозможны[293]:
Восприимчивость одного ума, насколько нам известно, может быть в тысячу раз больше, чем другого. Однако при условии, что восприимчивость различается в одинаковом соотношении по всем направлениям, мы никогда не сможем обнаружить даже самую вопиющую разницу. Таким образом, любой ум непостижим для любого другого ума, и никакой общий знаменатель чувств невозможен.
Американский экономист Кеннет Эрроу, основатель современной теории социального выбора, лауреат Нобелевской премии 1972 г., был столь же непреклонен:
Здесь мы будем придерживаться той точки зрения, что межличностное сравнение полезностей не имеет смысла и что в действительности нет смысла сравнивать благосостояние, измеряя индивидуальную полезность.
Трудность, которую имеют в виду Джевонс и Эрроу, заключается в отсутствии очевидного способа установить, оценивает ли Алиса уколы булавкой и леденцы по шкале от −1 до +1 или от −1000 до +1000 в смысле своего субъективного переживания счастья. В любом случае она отказалась бы от одного леденца, чтобы избежать одного укола. Действительно, если бы Алиса была человекоподобным роботом, внешне она могла бы вести себя так же даже в отсутствие какого бы то ни было субъективного переживания счастья.
В 1974 г. американский философ Роберт Нозик предположил, что, даже если бы межличностное сравнение полезностей было возможно, максимизация суммы полезностей все равно была бы плохой идеей, потому что вступила бы в противоречие с монстром полезности — абстрактным человеком, чьи ощущения удовольствия и боли во много раз интенсивнее, чем у обычных людей[294]. Такой человек счел бы, что любая дополнительная единица ресурсов привела бы к большему увеличению общей суммы счастья человечества, если бы досталась ему, а не другим. Тогда и отнимать ресурсы у других во благо монстра полезности также было бы хорошей идеей.
Казалось бы, это нежелательное последствие, но консеквенциализм сам по себе здесь бессилен: проблема заключается в том, как мы измеряем желательность последствий. Один из возможных ответов состоит в том, что монстр полезности — теоретический конструкт, таких людей не бывает. Однако вряд ли такой ответ сработает: в определенном смысле все люди являются монстрами полезности по сравнению, скажем, с крысами и бактериями, поэтому мы и не обращаем внимания на предпочтения крыс и бактерий, вырабатывая меры общественной политики.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!