Архитекторы интеллекта. Вся правда об искусственном интеллекте от его создателей - Мартин Форд
Шрифт:
Интервал:
Дж. П.: Нет, эвристикой я прекратил заниматься в 1983 г. и начал работать над байесовскими сетями и управлением неопределенностью. Варианты управления неопределенностью тех лет не соответствовали требованиям теории вероятностей и теории принятия решений, а я хотел сделать все правильно и эффективно.
М. Ф.: Расскажите о своей работе над байесовскими сетями.
Дж. П.: Во-первых, следует упомянуть, в каких условиях мы тогда работали. Это было постоянное противостояние между халтурщиками и аккуратистами. Первые всегда преследовали единственную цель: построить работающую систему. Без гарантий, без проверок на соответствие теориям. Вторые хотели понять, почему система работает, и гарантировать эффективность ее функционирования.
М. Ф.: Вы говорите о противостоянии людей с разными позициями?
Дж. П.: Да. Сегодня в сообществе машинного обучения мы наблюдаем аналогичную ситуацию. Причем зачастую управляющие рычаги находятся в руках халтурщиков за счет связей со спонсорами. Представители индустрии зачастую недальновидны и требуют быстрых успехов, что смещает акценты исследований. Во время работы над байесовскими сетями я был среди немногих, кто выступал за то, чтобы делать все по правилам теории вероятностей. К сожалению, при таком подходе требовались экспоненциальные время и память. Таких ресурсов не было.
Меня вдохновила работа когнитивного психолога Дэвида Румельхарта, который исследовал, каким образом детям удается быстро и правильно читать тексты. Он предлагал создать многослойную систему, в которой с уровня пикселов шел переход на семантический уровень, затем – на уровень предложений и грамматики, при этом происходило установление связи и передача сообщений. Каждый уровень выполнял только свою задачу и не знал, что делают остальные, чтобы получить корректный ответ, в котором, например, слово car отличается от слова cat.
Попытки смоделировать такую архитектуру в теории вероятностей не давали хорошего результата, пока я не обнаружил, что свойство сходимости появляется при древовидной структуре модулей. Сообщения можно передавать асинхронно, и в конечном итоге система даст корректный ответ. Затем мы перешли к полидеревьям, и, в конце концов, в 1995 г. я опубликовал статью о байесовских сетях.
Программировать эту архитектуру оказалось на удивление легко. Не требовалось управляющей программы для наблюдения за всеми элементами. Достаточно было указать, что будет происходить с переменной, когда она решит обновить информацию. Затем эта переменная отправляла сообщения соседям, которые в свою очередь отправляли сообщения своим соседям и т. д., после чего система давала корректный ответ.
Байесовские сети были приняты благодаря простоте программирования. Более того, они позволили запрограммировать зависимость между симптомами и болезнью и вычислить вероятность заболевания по наличию или отсутствию симптомов. При этом пользователю было понятно, почему система дает тот или иной результат и как ее модифицировать в случае изменившейся среды. Преимуществом была и модульность, характерная для способов, которые работают в природе.
В то время мы не понимали значение модульности. Оказалось, что она обеспечивается причинностью. Убрав причинно-следственные связи, мы теряем модульность, и вместе с ней прозрачность, возможность менять конфигурацию и другие приятные функции. К 1988 г., когда вышла моя книга о байесовских сетях, я уже хотел перейти к следующему шагу – моделированию причинности.
М. Ф.: Мы то и дело слышим, что «взаимосвязь и причинно-следственные отношения – это разные вещи» и что данные не дают информации о причинно-следственных связях. Правильно ли я понимаю, что байесовские сети также не позволяют ее получить?
Дж. П.: Нет. Байесовские сети работают в разных режимах в зависимости от того, как сконструированы.
М. Ф.: Идея этих сетей в обновлении вероятностей на основе новых данных ради получения более точной оценки. Вы нашли, как эффективно сделать это для большого числа вероятностей.
Дж. П.: Теорема Байеса применяется давно, сложность состояла в том, чтобы найти эффективный способ ее применения. Я считал, что для машинного обучения это просто необходимо. Можно получить данные и с помощью теоремы Байеса обновить систему для повышения ее производительности и улучшения параметров. Но это вероятностная, а не причинно-следственная схема, поэтому она имеет ограничения.
М. Ф.: Но она часто используется в системах распознавания речи и на различных устройствах.
Дж. П.: Мне доводилось слышать, что байесовские сети используются во всех сотовых телефонах для подавления помех при передаче, как и алгоритм распространения доверия. Именно так мы назвали алгоритм передачи сообщений. Якобы они есть в Siri, но проверить это невозможно, так как Apple держит свои разработки в секрете.
Байесовский вывод – один из основных компонентов машинного обучения, но постепенно произошел переход от байесовских сетей к менее прозрачному глубокому обучению. Система теперь самостоятельно регулирует параметры, а мы понятия не имеем, что за функция соединяет вход и выход. Работая с байесовскими сетями, мы не до конца осознавали важность модульности. При моделировании диагностической системы туда закладывается причинно-следственная связь между симптомами и заболеваниями. Но при этом возникает вопрос: как выглядит тот ингредиент, который мы называем «причинно-следственными связями»? Где он находится и как мы его обрабатываем?
М. Ф.: Байесовские сети стали популярными в computer science благодаря вашей книге. Но вы еще до ее выхода хотели перейти к причинному анализу?
Дж. П.: Именно причинно-следственные связи привели меня к интуитивному озарению, которое породило байесовские сети. Теоретически можно обойтись без причинно-следственной связи. Все функции байесовской сети можно описать, используя чисто вероятностную терминологию. Но на практике оказалось, что структурирование сети с учетом причинности все сильно упрощает. Хотя мы и не понимали почему.
Теперь известно, что нужны были такие функциональные характеристики, как модульность, возможность перестройки структуры, переноса и многое другое. Все эти вещи обеспечиваются именно причинностью. Но при более детальном рассмотрении оказалось, что фраза «корреляция не подразумевает причинности» намного глубже, чем мы думали. Чтобы получить причинно-обусловленные выводы, нужны причинно-обусловленные предположения, которые невозможно взять из данных и вообще непонятно, как их выразить.
У нас не было языка, на котором можно было бы передавать простые вещи типа «грязь не вызывает дождя» или «петух не причина восхода солнца». Это нельзя записать математически, а значит, невозможно объединить с данными.
Словом, требовался новый язык. Для меня это стало шоком, потому что я вырос на статистике и считал, что эта наука позволяет все – индукцию, дедукцию, абдукцию и обновление модели. И внезапно оказалось, что язык статистики не может нам помочь. В computer science принято создавать языки под конкретные потребности. Но какой язык был нужен в нашем случае? Статистика использует язык средних значений, проверки гипотез, обобщения данных и визуализации их с разных точек зрения. И к этому всему нужно было добавить язык причин и следствий.
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!