ПО Deep Voice имитирует любой голос за секунды

12 март, 2018 - 10:45

Команда разработчиков китайского поискового гиганта Baidu в статье, выложенной на сервер arXiv, сообщила об усовершенствованиях в приложении Deep Voice, преобразующем текст в речь. Ранее ему требовалось не менее получаса, чтобы проанализировать записи речи и воспроизвести индивидуальные особенности голоса, теперь система, базирующаяся на искусственной нейросети, делает это менее, чем за минуту.

Эта технология предназначена для цифровых ассистентов, с её помощью они смогут говорить неотличимо от реальных людей. Baidu также полагает, что Deep Voice может оказаться полезной для людей с расстройством речевой функции.

Как обычно, совершенство технологии имеет и негативную сторону. Записи полицейских допросов, телефонные разговоры политиков или террористов потеряют силу доказательства, если воспроизвести их на смартфоне сможет любой желающий.

Обученная на 100 пятисекундных сэмплах Deep Voice вводила в заблуждение программы идентификации по голосу в 95% случаев, тестировщики-люди отдали ей 3,16 баллов из 4 возможных.