📚 Hub Books: Онлайн-чтение книгДомашняяЗачем мы говорим - Тревор Кокс

Зачем мы говорим - Тревор Кокс

Шрифт:

-
+

Интервал:

-
+
1 ... 52 53 54 55 56 57 58 59 60 ... 79
Перейти на страницу:

В деле «Эксона Вальдеса», хотя Хейзелвуд и признал, что пил водку перед тем, как подняться на борт, его оправдали. Одна из причин – анализ голоса не мог однозначно доказать его опьянение. Изменения в речи могли быть вызваны тем, что ему приходилось повышать голос, чтобы его могли услышать члены команды, ведь на корабле шумно [36]. Хотя, как и человек, «слушающий» компьютер может считывать голосовую информацию, выводы могут оказаться ошибочными, поскольку алгоритм несовершенен или голосовые подсказки недостаточно однозначны.

До настоящего времени алгоритмы поиска лжи не учитывали слова. Возможно, компьютер с большей вероятностью смог бы обнаружить опьянение, если бы искал особые фразы, например: «А знаешь, ты ведь мой лучший друг», или обращал внимание на то, как пьяные «слов неправильный порядок часто делают»? Джонатан Айткен был высокопоставленным британским политиком, которому прочили пост будущего консервативного премьер-министра. В 1985 году, будучи главным секретарем Министерства финансов, Айткен ушел в отставку с поста члена кабинета министров, чтобы противостоять обвинениям, выдвинутым против него газетой Guardian и Granada TV. Они заявили, что он получал взятки от бизнесменов из Саудовской Аравии в связи с продажей оружия. Он, не колеблясь, выступил с речью, в которой заявил, что подаст в суд по обвинению в клевете: «Если мне придется начать борьбу, чтобы удалить раковую опухоль нашей бесчестной и извращенной журналистики с помощью меча чистой правды и надежного щита честной игры, пусть будет так. Я готов к бою». Четыре года спустя Айткен был приговорен к тюремному заключению сроком 14 месяцев за лжесвидетельство и препятствие отправлению правосудия. В ходе дела по обвинению в клевете он заявил, что часть счета из отеля Ritz в Париже оплатила его жена деньгами, которые он ей ранее выдал. Но Guardian удалось получить копию этого счета, и обман был разоблачен. Карьера Айткена закончилась. Если прослушать архивную запись его речи, в которой он говорил о «мече правды», можно услышать, что манера его речи удивительно невыразительна и резко контрастирует с саркастическими словами.

Но чтобы у компьютера появилась возможность обнаружить ложь, ему придется научиться понимать слова. Это позволит системе ориентироваться на другие признаки обмана, обнаруженные в научных исследованиях, например, на тот факт, что когда человек врет, он приводит меньше деталей и устанавливает меньше связей с внешними событиями [37]. Но чтобы использовать эти данные, компьютеру нужно уметь распознавать речь и понимать ее семантику.

Одна из первых электронных систем распознавания речи, которая называлась «Одри», была создана в 1952 году К. Дэйвисом и его коллегами из Лабораторий Белла в США. Она могла распознавать отдельные цифры, а при тщательной настройке на конкретного говорящего правильно идентифицировала практически каждое слово. Как и другие первые системы, «Одри», по существу, работала по принципу подбора моделей. На рисунке выше показана запись голоса человека, который считает от одного до пяти. В верхней части – обычный способ представления звука, «виляющий» след, показывающий, как изменяется давление, создаваемое голосом, по мере произнесения пяти цифр. Второе слово, two, показывает два отдельных отрывка, [t] и [oo]. Оно начинается с взрывного [t], при котором воздух сначала блокируется языком, прижатым кверху, к нёбу, а когда язык отрывается, резкий выдох создает звук. За этим быстро следует гласный [oo], который почти пропевается. В нижней части – спектрограмма, показывающая изменение частотной характеристики речи. Для слова two темная линия опускается вниз слева направо, а для слова three видна диагональная темная линия, идущая в обратном направлении. Когда говорящий произносит вторую часть слова three, его интонация создает увеличение частоты, отсюда и идущая вверх линия на спектрограмме.

Зачем мы говорим

Мужской голос, считающий «one, two, three, four, five»

Спектрограммы подобны отпечаткам пальцев и показывают, что у каждой цифры уникальный рисунок. Задачей «Одри» было подобрать к образцу из произнесенного в микрофон звука пару из ожидаемых рисунков звука для каждой цифры. В 1950-е годы это было сложно реализовать, потому что для создания спектрограмм просто не было компьютеров. Более того, «Одри» была не слишком практичной системой. Джеймс Флэнаган из Лабораторий Белла вспоминал: «Она занимала релейную стойку шести футов (более 1,8 м) высотой, была ужасно дорогой, поглощала солидное количество энергии и создавала мириад проблем обслуживания, связанных со сложной ламповой схемой» [38].

Еще одна проблема, связанная с подобным типом анализа, состоит в том, что человек не всегда одинаково произносит слова. Например, слово, которое обычно произносится с понижающейся частотой, в конце вопросительного предложения может произноситься с повышающейся интонацией. Кроме того, у разных людей произношение может сильно отличаться, так что ваша спектрограмма счета от одного до пяти будет отличаться от моей. Даже лучшие современные системы, которые используют значительно более изощренные технологии, чем «Одри», не срабатывают. Когда в 2011 году iPhone 4S появился на рынке Великобритании, голосовой помощник Siri с трудом понимал сильный шотландский акцент [39].

В последние годы появление мощных компьютеров и использование машинного обучения вполовину снизили количество ошибок при распознавании речи. Современные системы еще далеки от того, чтобы распознавать речь так же, как это делает человек, но им больше не требуется, чтобы вы говорили медленно и делали паузы между словами. Более того, в эпоху больших объемов данных эти системы обучаются на огромном количестве примеров. Именно так Apple решила проблемы с Siri: компьютер прослушал огромное количество записей шотландского произношения, чтобы его запомнить. Кроме того, большие объемы данных означают, что системы распознавания речи обладают огромным словарем – например, голосовой помощник Google претендует на знание примерно трех миллионов слов. Это значительно превышает возможности человека. Поэтому система распознавания речи будет работать, даже если вы прибегаете к очень узкой теме со своим специализированным набором слов.

В наши дни каждый человек создает огромные массивы цифровых данных, совершая покупки, используя социальные сети или осуществляя поиск в интернете. При этом мы передаем компаниям огромное количество информации о себе – в обмен на бесплатные услуги. То, что мы позволяем компьютерам подслушивать наши голоса, делает эти сведения еще более ценными, потому что, помимо слов, это дает возможность узнать и о наших чувствах.

Однако применение машинного самообучения в больших объемах данных может привести к неожиданным негативным последствиям. Можно подумать, что, поскольку эти системы разработаны на языке математики и алгоритмов, они будут столь же объективны, как доктор Спок из «Звездного пути». Но программное обеспечение усваивает и социальные предрассудки, которые содержатся в используемых им данных. В 2017 году Айлин Калискан и ее коллеги из Принстонского университета проанализировали ассоциации между словами в популярной базе данных, которая использовалась для обучения алгоритмов машинного самобучения [40]. В этой базе данных содержались миллиарды слов, закачанных из интернета. В одном из тестов Калискан исследовала, какие имена собственные появлялись в предложениях с приятными словами, например «любовь», а какие – в предложениях с неприятными словами, например «уродливый». Результаты показали наличие расовых предрассудков: имена европейцев и белых американцев чаще связывались с приятными словами, чем имена афроамериканцев. Еще в одном тесте проявился гендерный предрассудок: мужские имена чаще ассоциировались со словами, относящимися к работе, например «профессионал» и «зарплата», а женские имена оказались ближе к словам, описывающим семью, например «родители» и «свадьба». Пополняйте алгоритм машинного самообучения примерами из такой базы – и вы рискуете создать сексистское и расистское программное обеспечение.

1 ... 52 53 54 55 56 57 58 59 60 ... 79
Перейти на страницу:

Комментарии

Обратите внимание, что комментарий должен быть не короче 20 символов. Покажите уважение к себе и другим пользователям!

Никто еще не прокомментировал. Хотите быть первым, кто выскажется?