Зачем мы говорим - Тревор Кокс
Шрифт:
Интервал:
Вызывает беспокойство, что в скором будущем, без сомнения, нас ждут подделки голоса, совершенные злоумышленниками. Мы уже завалены электронными письмами, нацеленными на выуживание информации. Якобы друг пишет, что его ограбили за границей, и срочно просит перевести ему деньги. А теперь представьте, что вам приходит голосовое сообщение, в котором убедительно сымитирован голос вашего друга. Боюсь, что многие, скорее всего, станут жертвами подобной аферы.
Можно использовать технологию и для скрытого редактирования записи речи. Adobe представила инструмент под названием VoCo, который описывают как фотошоп для голоса. Мы уже привыкли, что фотографии можно изменять и подделывать. В будущем нам придется столкнуться с подобным подходом и с записями речи. К сожалению, это даст новые возможности для беспринципных людей, распространяющих дезинформацию.
И хотя возможности искусственных голосов впечатляют, нам все еще далеко до создания робота, сравнимого с Рори Бремнером. Могут ли ученые, занимающиеся синтезом речи, чему-то научиться у профессиональных пародистов? Одно из новейших исследований, изучающих создаваемые голосом впечатления, было проведено командой, в которую входила Софи Скотт, профессор в области когнитивной нейробиологии Университетского колледжа Лондона. Скотт и ее коллеги с помощью фМРТ-сканера измеряли активность мозга у 23 человек в тот момент, когда они исполняли разговорные пародии. Их просили прочитать детские стишки, например «Идут на горку Джек и Джилл», разными голосами. Иногда они говорили обычным голосом, иногда пародировали других людей, например знаменитостей, таких как Шон Коннери, или просто своих друзей [35]. Участвовавшие в исследовании люди не были профессиональными пародистами. Сканирование показало, что, когда их просили кого-то спародировать, участки мозга, связанные с производством и восприятием речи, а также с распознаванием голоса, проявляли повышенную активность. Например, если они пародировали Шона Коннери, то могли сказать «Щекретная шлужба ее величештва», подчеркнуто имитируя необычное произношение звука [с] агентом 007.
У профессиональных пародистов подход совершенно иной. «Я начала заниматься этим вопросом, считая, что профессионалы добиваются нужного звучания, анализируя голос примерно так, как это делают фонетисты», – объясняет Скотт. Но на самом деле они делают нечто совсем иное: «По-видимому, они идут в другом направлении и учитывают буквально все: как человек двигается, что делают его ноздри, брови – похоже, что в изменении голоса задействовано все тело».
Я убедился в этом, когда увидел, как актеры на радио используют определенные гримасы и жесты, чтобы передать особенности голоса, хотя жесты и поведение напрямую никак не влияют на голосовую анатомию. Предварительные результаты этих нейробиологических исследований показывают, что, помимо использования слуховых отделов мозга, профессионалы во время исполнения пародий задействуют визуальные и сенсорные его части [36]. Если это помогает им проникнуть в суть характера, то роботу-актеру, пытающемуся научиться пародировать, потребуется изощренный искусственный интеллект, учитывающий совместную работу зрения, движения и голоса. Однако, несмотря на восторги по поводу достижений искусственного интеллекта, такие успешные эксперименты касаются только очень узких областей, например победы в шахматах. Пока нет даже намека на то, что искусственный интеллект способен объединить знания из разных областей, как это запросто делают люди.
Несомненно, за последние десятилетия искусственные голоса усовершенствовались и стали более естественными. Исследователи применили свои знания реальной речи для развития новых и элегантных математических репрезентаций звука, что улучшило его качество. Но теперь усилия в этой области могут быть заменены грубой силой компьютера.
Алгоритмы машинного обучения в последнее время провоцируют технологическую золотую лихорадку в сфере искусственного интеллекта. Компания DeepMind недавно использовала этот подход для производства синтезированной речи, которая звучит намного лучше, чем все остальные разработки в этой области. По сравнению с другими системами созданный учеными компании голос не такой механический, а интонация более плавная. Он даже воспроизводит некоторые сопутствующие речи звуки, такие как движение рта и дыхание, которые у искусственных голосов обычно отсутствуют. Новый голос далек от совершенства, но настолько хорош, что уже используется в сервисе Google Assistant.
Несмотря на эти достижения в области звука, нас еще долго будут раздражать автоматические голоса, которые сообщают о «неожиданном предмете в зоне выдачи багажа» или советуют «сделать поворот на 180° при первой возможности». Клиффорд Насс, покойный профессор Стэнфордского университета, занимавшийся проблемами коммуникации, полагал, что это чувство раздражения возникает потому, что мы воспринимаем компьютерные голоса как человеческие и оцениваем их достоверность, искренность и особенности характера. В одном исследовании компания BMW обнаружила, что водители предпочитают, чтобы их система спутниковой навигации звучала как компетентный второй пилот-мужчина, а не как командирша на заднем сиденье [37]. Саймон Кинг считает, что в системах, подобных Siri, важно использовать заранее заготовленные фразы и неестественные звуки с невыразительной интонацией – так пользователи перестанут ожидать слишком многого. «Если голос звучит как человеческий, – говорит он, – люди думают, что у него есть и другие присущие человеку качества, например разум».
Android Repliee Q2 – вызывает эффект «зловещей долины»?
Разработчики должны приложить усилия, чтобы избежать еще одной проблемы – явления под названием «зловещая долина» [38]. Эта фраза была придумана японским профессором Масахиро Мори в 1970-х годах. Он хотел выяснить, почему некоторые гуманоиды вызывают у людей страх и лишают присутствия духа. Профессор Мори пришел к выводу, что подобные ощущения возникают, если робот выглядит почти как человек, но что-то в его внешности не совсем правильное: слишком большие или безжизненные глаза, может быть, сочетание человеческого и нечеловеческого в лице, напоминающее жутковатую версию Мистера Картофельная Голова. Эффект «зловещей долины» привел к коммерческому провалу фильмов, подобных «Полярному экспрессу», хотя он вполне подойдет для фильмов ужасов, которые как раз и предназначены для того, чтобы вызывать у людей страх.
Мори построил диаграмму, на которой показал зависимость эмоциональной тяги людей к роботам от схожести их внешнего вида с внешним видом человека. Представьте робота, который сначала совсем не похож на человека и больше напоминает механическое устройство, но постепенно его черты меняются и он начинает походить на человека. Мори предсказал, что в определенной точке, как раз перед тем, как робот станет выглядеть совсем как человек, притягательность сменится отвращением. Следовательно, диаграмма покажет резкое падение, которое и образует «зловещую долину». Некоторые сомневались, что догадки Мори верны. Иногда роботы, похожие на людей, вызывают скорее изумление, чем неловкость [39]. Другие полагают, что неприятные ощущения возникают из-за несовместимости черт лица робота, из-за чего наш мозг пытается понять, что же здесь не так [40].
Поделиться книгой в соц сетях:
Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!