Алгоритмы для синтеза речи способны обмануть алгоритмы для идентификации

N+1Hi-Tech

Синтетизированный нейросетью голос обманул людей и алгоритмы

Свободно доступные алгоритмы для синтеза речи способны обмануть как алгоритмы для идентификации человека по голосу, так и обычных людей, выяснили американские исследователи. Они использовали два алгоритма, которые на основе коротких записей голоса создают новую речь, «произнесенную» тем же человеком. Статья опубликована на arXiv.org.

Григорий Копиев

Emily Wenger et al. / arXiv.org, 2021

Наряду с распознаванием лиц, некоторые сервисы применяют алгоритмы для идентификации голоса. Например, умные колонки Яндекса умеют узнавать голос владельца, чтобы учитывать рекомендации только для его запросов, а WeChat позволяет войти в аккаунт с помощью голоса. Разработчики этих и других сервисов исходят из того, что человеческий голос уникален, поэтому его можно использовать как надежное доказательство, что система разговаривает именно с хозяином аккаунта или устройства. Но алгоритмы синтеза речи, особенно нейросетевые, быстро развиваются, и есть как открытые алгоритмы, так и коммерческие сервисы, позволяющие по довольно небольшому объему записей (относительно того, который используется для базовой модели) создать модель, качественно копирующую голос конкретного человека. И если алгоритмы распознавания лиц зачастую учитывают объем, поэтому обмануть их простым дипфейком не получится, то для голоса нет возможности учесть какой-то подобный дополнительный фактор.

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Открыть в приложении