Комфортные условия усыпили недоверие людей к синтетическому голоса
Американские исследователи решили проверить голосовых помощников и людей на устойчивость к обману от синтетического голоса и нашли общие уязвимости.
Так бдительность многих удалось усыпить английским акцентом, люди охотнее делились своими данными в «комфортных условиях» в онлайн-собеседованиях без видеосвязи. Синтетический голос ученые создавали с помощью общедоступных приложений и проверяли на четырех самых популярных голосовых помощниках. Статья доступна на сервисе препринтов arXiv. Наш голос передает гораздо больше информации, чем просто слова, которые мы озвучиваем. Это фундаментальная часть нашей идентичности, которую часто называют «слуховым лицом». На слух мы можем примерно оценить пол, возраст, национальность и даже рост и социально-экономический статус. Хотя идентификация человека по голосу несовершенна, и она вдохновила на создание систем распознавания лиц в целях безопасности, а также на простые приложения, облегчающие нам жизнь. Сегодня голосом можно вызвать холодильник, включать кофеварку, водить, вносить планы в календарь — системы автоматического распознавания речи эволюционировали в персональных ассистентов.
Нейросети спокойно способны имитировать человеческий голос и поэтому кроме систем, таких как Google Duplex, которые способны позвонить вместо вас в магазин и сделать заказ, существует огромное количество приложений, которые превращают существующие голосовые образцы в нужные вам предложения.
Но учитывая тесную связь между нашими голосами и нашей идентичностью, инструмент, имитирующий наши голоса, может нанести серьезный ущерб. Во-первых, он может обойти голосовые системы аутентификации, например, в банках. Или использовать мобильные приложения для обмена голосовыми сообщениями, такие как WeChat. Безусловно пострадает и популярная концепция интернета вещей, когда вашими голосовыми помощниками Alexa от Amazon и Google Home можно будет управлять и без вас. Поэтому в своей работе ученые из Чикагского университета взялись проанализировать коммерческие системы Microsoft Azure, WeChat и Alexa на устойчивость к синтетическому голоса, а вместе с тем и 14 добровольцев — смогут ли они распознать фейк.
Ученые использовали две общедоступные системы синтеза голоса. Одной системе, AutoVC, нужно до пяти минут речи для создания приемлемой имитации целевого голоса, а другой, SV2TTS, нужно всего пять секунд. Такая разница обусловливает и качество, поможет понять уровень устойчивости разумных колонок. С их помощью ученые пытались разблокировать системы безопасности распознавания голоса, используемых колонками Microsoft Azure и Amazon Alexa, а также голосовым чатом WeChat. Система распознавания голоса Microsoft Azure сертифицирована несколькими официальными отраслевыми организациями, WeChat позволяет пользователям входить в систему с помощью голоса, а Alexa позволяет людям использовать свой голос для осуществления платежей в других приложениях, таких как Uber. AutoVC удавалось обмануть Microsoft Azure примерно в 15% случаев, а SV2TTS — в 30%. Однако Azure требует, чтобы пользователи произносили триггерные фразы для аутентификации, и команда обнаружила, что SV2TTS может успешно подделать хотя бы одну из десяти этих распространенных фраз.
Учитывая более низкую производительность алгоритма AutoVC, команда не пробовала использовать его против WeChat и Amazon Alexa, но SV2TTS успешно обманывала обе системы примерно в 63% случаев. По словам ученых, вызывает тревогу тот факт, что для всех трех популярных реальных систем, пользующихся распознаванием голоса, существует как минимум один синтезированный образец, который они приняли за настоящий. Это наглядно демонстрирует реальную угрозу атак синтеза речи. Интересно, что обученные на наборах данных алгоритмы, плохо умеют воспроизводить акценты. И оказалось, что на это и надежда у голосовых помощников — так синтезированную речь им чаще удавалось отличить от реальной.
Продемонстрировав, что синтезированный нейросетями голос может легко обмануть технику, ученые перешли к оценке его воздействия на людей. В отличие от предыдущих работ, где использовались опрос для измерения человеческого восприятия речи, в этой работе они оценивали восприимчивость людей к синтезированной речи в различных интерактивных условиях. Так добровольцам составили «доверительную обстановку», где они были склонны не думать критически о голосах, которые слышат. Все участники не проявили никаких сомнений или подозрений во время интервью и с готовностью отвечали на все вопросы «фальшивого интервьюера» и выполнили их. Доверчивостью ученые считают или телефонные встречи, или звонки в Zoom с коллегами, или звонки с одним или несколькими людьми, которых они знают (или думают, что знают).
Все 14 участников ответили на три вопроса фальшивого интервьюера, посетили востребованный вебсайт и даже дали свой школьный идентификационный номер. После того как интервью завершилось и обман был раскрыт, только четверо заявили, что, по их мнению, было «не так» в голосе фальшивого интервьюера. Важно отметить, что этих четырех участников (намеренно) не предупреждали о «простуде» собеседника.
Поэтому ученые призывают быть бдительными и держать в голове, что технологии позволяют качественно синтезировать голос. Больше о том почему мы верим фейк и что нам с этим делать, можно почитать в нашем материале «Теория лжи».
Фото в анонсе: Amazon
Перевод материала nauka.ua