ИИ-2041. Десять образов нашего будущего - Кай-фу Ли
Шрифт:
Интервал:
• Анализ медицинских снимков (для определения наличия злокачественной опухоли на КТ-снимке легких).
• Модерирование (цензурирование) контента (обнаружение порнографического и насильственного контента в социальных сетях).
• Подбор сопутствующей рекламы, основанный на содержании конкретного видео.
• Интеллектуальный поиск изображений (находит нужное по ключевым словам или другим изображениям).
• И, конечно же, создание дипфейков (подмена лиц в видео).
В «Богах под масками» рассказывается об инструменте для создания дипфейков, который, по сути, является ничем иным, как автоматическим инструментом для редактирования видео; он по частям подменяет одного человека другим, начиная с черт лица, пальцев, ладоней и голоса и заканчивая жестами, походкой и мимикой. Поговорим об этом подробнее.
СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ (CNN) ДЛЯ КОМПЬЮТЕРНОГО ЗРЕНИЯ
Заставить компьютерное зрение работать на основе стандартной нейронной сети оказалось очень непростой задачей — ведь любое изображение состоит из десятков миллионов пикселей, и научить систему глубокого обучения находить тончайшие подсказки и признаки в огромном количестве изображений — это, согласитесь, даже звучит устрашающе. В поисках вдохновения в деле усовершенствования этой технологии исследователи обратились к человеческому мозгу.
Зрительная зона коры головного мозга задействует нейроны, соответствующие множеству ограниченных областей (известных как рецептивные поля, или поля восприятия), в рамках которых наши глаза фиксируют изображение в любой конкретный момент времени. Рецептивные поля идентифицируют основные признаки видимых объектов: формы, линии, цвета или углы. Эти детекторы соединены с неокортексом, верхним слоем коры головного мозга (новой корой).
Неокортекс хранит информацию иерархически и обрабатывает выходы полей восприятия, преобразуя их в более сложную интерпретацию сцены.
Наблюдения за тем, как «видят» люди, и вдохновили разработчиков на изобретение так называемых сверточных нейронных сетей (CNN — convolutional neural networks). Самый низкий слой CNN состоит из большого числа фильтров, которые многократно применяются к изображению. Каждый из этих фильтров, как и рецептивные поля, может видеть только небольшие смежные участки изображения.
Глубокое обучение за счет оптимизации параметров на множестве изображений решает, что «замечает» каждый фильтр. Каждый фильтр выдает на выходе уверенность, что видел конкретный признак, им представляемый (например, черную линию). Более высокие слои CNN организованы иерархически, как и неокортекс. Они принимают выход уверенности от более низких слоев и обнаруживают более сложные признаки.
Например, если в CNN загружается изображение зебры, фильтры нижнего слоя могут искать в каждой области изображения только черные и белые линии, а более высокие слои будут видеть полоски, уши и ноги в больших зонах. Следующие слои могут увидеть множество полос, два уха и четыре ноги. На самом высоком слое части CNN могут целенаправленно пытаться отличить зебру от лошади или тигра.
Обратите внимание: все эти примеры иллюстрируют, что CNN может делать, но в реальной работе сеть сама решает, какие признаки (полосы, уши или вообще нечто лежащее за рамками человеческого понимания) будут использованы для максимизации целевой функции.
CNN — это специфическая и улучшенная архитектура глубокого обучения, разработанная для компьютерного зрения, с различными вариантами для изображений и видео. Идея таких сетей возникла в 1980-х годах, у ученых тогда не было ни достаточного объема данных, ни вычислительных мощностей, чтобы продемонстрировать, на что эти сети способны.
Только в 2012 году стало ясно, что данная технология превосходит все предыдущие подходы к компьютерному зрению. По счастливому совпадению, примерно в это же время пользователи сняли на сильно подешевевшие и из-за этого массово распространившиеся смартфоны огромное количество фото и видео и выложили их в социальные сети. Примерно тогда же стали более доступными быстродействующие компьютеры и хранилища данных большого объема. Все эти факторы в совокупности способствовали рывку в развитии и распространении этой замечательной технологии.
ДИПФЕЙКИ
«Президент Трамп — полный и абсолютный ушлепок», — заявил однажды на камеру президент Обама… Ну или это был человек, который выглядел и говорил совсем как Барак Обама. В конце 2018 года видео стало вирусным, но это был дипфейк — поддельный ролик, смонтированный с помощью технологии глубокого обучения. Известны даже авторы — режиссер Джордан Пил и новостная интернет-медиакомпания BuzzFeed.
Пил записал фразу, ИИ преобразовал голос режиссера в голос Обамы. Затем ИИ взял реальное видео Обамы и отредактировал так, чтобы оно максимально соответствовало словам, включая артикуляцию, соответствующую мимику и выражение лица.
Джордан Пил сделал это с конкретной целью — так он хотел предупредить людей о скором наступлении дипфейков, что, собственно, и произошло. Уже в том же году в интернет оказались загружены несколько дипфейковых порнороликов со знаменитостями, это привело к скандалу и в конечном счете к новому закону, призванному решить эту проблему. Но появление дипфейков это уже не остановило.
В Китае в 2019 году было создано приложение, способное за считаные минуты превратить ваше селфи в главного героя какого-нибудь известного фильма. Оно сохраняет оригинальный саундтрек, что существенно снижает технологические требования к процессу.
Программа Avatarify возглавила в 2021 году рейтинг Apple App Store. Она «оживляет» любую фотографию, заставляя человека на ней петь или смеяться.
Короче говоря, дипфейки вдруг стали мейнстримом, и уже любой юзер без особого труда может сам изготовить фейковое видео (пусть и дилетантское, и видимое для детекторов, а зачастую и для человеческого глаза).
Сказанное означает, что в будущем возможна подделка любого цифрового материала, будь то онлайн-видео, заранее записанная речь, кадры с камеры видеонаблюдения или видео с уликами из зала суда. В нашей истории Амака использует инструменты, гораздо более продвинутые, чем имелись в распоряжении Пила, создает сложное, высококачественное видео, подделку, которую не распознает ни человеческий глаз, ни обычное программное обеспечение для обнаружения дипфейков.
Сначала он использует инструмент для преобразования любого текста в звукоряд, который станет неотличим от голоса Репо. Затем он синхронизирует эту речь с лицом Репо с соответствующей мимикой и эмоциями. Далее это лицо накладывается на изображение АФАКа из ранее снятого видео с соответствующими руками, шеей, ступнями и даже его уникальными паттернами пульса и дыхания. А продвинутый ИИ образца 2041 года обеспечивает совершенно бесшовное соединение всех частей тела в нужных местах.
Помимо этого подхода к созданию «фейковых людей», основанного на видео, существует еще 3D-подход, включающий в себя построение трехмерной модели человека исключительно с помощью вычислений. Именно так, например, снимаются полнометражные анимационные картины вроде «Истории игрушек»[29].
Данный подход базируется на другой области информатики — на компьютерной графике. В ней все моделируется математически, и для волос, ветра, света, теней и проч. нужно разрабатывать реалистичные математические модели. Этот трехмерный подход обеспечивает «продюсера» гораздо большей свободой действий, позволяя ему манипулировать каждым персонажем, как только заблагорассудится, однако и сложность, и требования к вычислительным мощностям тут намного выше.
Компьютеры
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!