Система DeepMind учится говорить неотличимо от человека

12 сентября 2016 г., 13:55

Google в своём блоге сообщила, что система искусственного интеллекта DeepMind в комбинации с технологией WaveNet существенно (на 50%) улучшила качество преобразования текста в речь, по сравнению с используемыми этой компанией движками TTS [text-to-speech], считающимися одними из лучших в мире.

Тестирование на носителях английского и китайского (пекинский диалект) языков показало, что DeepMind удалось добиться наиболее реалистичного на сегодняшний день звучания машинной речи, хотя и уступающего по убедительности настоящему человеку.

Большинство популярных TTS-программ, например, используемых цифровыми ассистентами Siri, Alexa и Cortana, строят синтезированную речь из фрагментов записей настоящего человеческого голоса. Этот компиляционный метод даёт неплохие результаты, но он требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса.

Альтернативой является параметрический синтез на основе правил грамматики или звуков речевого аппарата человека. Он не нуждается в предварительно записанном материале, но генерирует механически звучащую речь.

WaveNet требует исходного материала, наговорённого человеком, однако эта система не тасует вырезанные фрагменты, а использует глубокое обучение для независимого построения собственных звуков для любого тембра голоса. Лингвистические правила и рекомендации позволяют Google формировать из реалистично звучащих исходников WaveNet осмысленную речь.

Возможности этой системы гораздо шире синтеза речи: Google продемонстрировала её применение для генерирования на основе изученных образцов классической музыки оригинальных фортепианных композиций.

WaveNet, как отмечается в блоге Google, это предвестник недалекого будущего, когда компьютер и человек смогут беседовать на равных. Однако, в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений.

Стратегія охолодження ЦОД для епохи AI