Совместимость. Как контролировать искусственный интеллект - Стюарт Рассел
Шрифт:
Интервал:
Выполняйте те вычисления, которые обеспечат наибольшее ожидаемое повышение качества решения, и прекращайте их, когда затраты (выраженные во времени) превысят ожидаемое улучшение.
Вот и все. Никаких новомодных алгоритмов! Этот простой принцип обеспечивает эффективное вычислительное поведение применительно к широкому спектру задач, включая шахматы и го. Представляется вероятным, что наш мозг реализует похожий процесс, что объясняет, почему нам не нужно изучать новые алгоритмы рассуждения, привязанные к конкретной игре, всякий раз, как мы учимся играть в новую игру.
Разумеется, исследование дерева возможностей, вырастающего в будущее из нынешнего состояния, не единственный путь к решению. Часто более разумно двигаться ретроспективно от цели. Например, наличие лося на дороге предполагает цель избежать столкновения с лосем, что, в свою очередь, предполагает три возможных действия: резко повернуть налево, резко повернуть направо или ударить по тормозам. Не предполагаются такие действия, как обмен евро на фунты стерлингов или помещение черного камня в центр доски. Таким образом, цели оказывают на наше мышление прекрасный эффект фокусировки. Никакие современные игровые программы не используют это преимущество; на самом деле они в массе своей рассматривают все возможные допустимые действия. Это одна из (многих) причин того, что я не боюсь, что AlphaZero захватит мир.
Заглянем дальше
Предположим, вы решили сделать определенный ход на доске для игры в го. Прекрасно! Теперь вы должны совершить его на практике. В реальном мире для этого нужно протянуть руку к чаше с камнями, взять камень, расположить руку над выбранным местом и положить камень точно на обозначенную точку, спокойно или эмоционально, в зависимости от того, как это принято в го.
Каждая из этих стадий, в свою очередь, состоит из сложного взаимодействия команд восприятия и двигательного контроля, включающего мышцы и нервы руки и глаз. Пока вы тянетесь за камнем, нужно следить, чтобы тело не потеряло равновесие из-за смещения центра тяжести. Тот факт, что вам не нужно участие сознания для выбора этих действий, не означает, что они не выбираются вашим мозгом. Например, в чаше может быть много камней, но ваша рука — на самом деле ваш мозг, обрабатывающий сенсорную информацию, — все равно должна выбрать, какой из них взять.
Практически все, что мы делаем, устроено подобным образом. Когда мы ведем машину, мы можем выбрать перестроиться в левый ряд, но это действие включает несколько других: посмотреть в зеркало и налево через плечо, иногда скорректировать скорость и повернуть рулевое колесо, одновременно следя за ходом маневра, пока он не будет завершен. Во время разговора обыденный ответ, например «хорошо, я сверюсь с календарем и перезвоню вам», предполагает произнесение 16 слогов, каждый из которых требует нескольких сотен точно скоординированных команд двигательного контроля мышцам языка, губ, челюсти, гортани и органов дыхания. Когда вы говорите на своем родном языке, это автоматический процесс, что очень похоже на выполнение вспомогательных подпрограмм компьютерной программы. То, что эти сложные последовательности действий могут стать обыденными и автоматическими, выступая в роли единых действий в еще более комплексных процессах, является фундаментальной характеристикой человеческой когнитивной системы. Если приходится произносить слова на языке, которым хуже владеешь, — например, спрашивая дорогу на Шебжешин по-польски, — то вспоминаешь о том периоде жизни, когда чтение и письмо были сложными задачами, требующими мыслительных усилий и большой практики.
Итак, реальная задача, стоящая перед вашим мозгом, состоит не в выборе хода на доске для го, а в отправке команд двигательного контроля мышцам. Если переключить внимание с уровня ходов го на уровень команд двигательного контроля, проблема выглядит совершенно иначе. Человеческий мозг может посылать команды примерно каждые 100 мс. У нас примерно 600 мышц, следовательно, теоретический максимум составляет около 6000 выполнений действий в секунду, 20 млн в час, 200 млрд в год, 20 трлн за всю жизнь. Используйте их мудро!
Допустим, мы пытаемся применить алгоритм типа AlphaZero для решения проблемы принятия решения на этом уровне. Играя в го, AlphaZero смотрит вперед ходов на 50. Однако 50 шагов команд двигательного контроля дают вам всего несколько секунд проникновения в будущее! Недостаточно для 20 млн команд двигательного контроля в ходе часового матча в го и совершенно точно слишком мало для триллиона (col1¦0¦) шагов, совершаемых в процессе написания диссертации на соискание степени PhD. Таким образом, хотя AlphaGo заглядывает в партию го дальше любого человека, эта способность, похоже, не помогает в реальном мире. Это не та возможность заглянуть вперед, что нам нужна.
Я, разумеется, не утверждаю, что для написания диссертации необходимо заранее спланировать триллион мышечных действий. Сначала составляются лишь весьма абстрактные планы: скажем, выбор университета в Беркли или другом месте, выбор научного руководителя или темы исследования, обращение за финансированием, получение студенческой визы, переезд в выбранный город, проведение исследований и т. д. Чтобы сделать выбор, вы просто размышляете необходимое количество времени, пока решение не станет ясным. Если выполнимость некоторых абстрактных шагов, скажем, получения визы, неясна, вы еще думаете, возможно, собираете информацию, то есть делаете план более конкретным в деталях: это может быть выбор типа визы, на который вы имеете право, сбор необходимых документов и подача заявления. На рис. 17 показан абстрактный план и уточнение шага «Получить визу» из трех шагов. Когда наступает время выполнять план, его начальные шаги должны быть уточнены по всей цепочке вплоть до примитивного уровня, чтобы ваше тело могло их осуществить.
AlphaGo просто не способна мыслить подобным образом: единственные действия, которые она когда-либо обдумывает, — это примитивные действия, происходящие в последовательности от начального состояния. У нее нет понятия абстрактного плана. Пытаться применить AlphaGo в реальном мире — все равно что писать роман, гадая, какая буква должна быть первой, А, Б, В и т. д.
В 1962 г. Герберт Саймон подчеркнул важность иерархической организации в знаменитой статье «Архитектура сложности»[339]. Исследователи ИИ с начала 1970-х гг. разработали различные методы создания и уточнения иерархически организованных планов[340]. Некоторые из получившихся систем способны разрабатывать планы в десятки миллионов шагов — например, организовывать производственную деятельность большой фабрики.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!