0 |
Google в своём блоге сообщила, что система искусственного интеллекта DeepMind в комбинации с технологией WaveNet существенно (на 50%) улучшила качество преобразования текста в речь, по сравнению с используемыми этой компанией движками TTS [text-to-speech], считающимися одними из лучших в мире.
Тестирование на носителях английского и китайского (пекинский диалект) языков показало, что DeepMind удалось добиться наиболее реалистичного на сегодняшний день звучания машинной речи, хотя и уступающего по убедительности настоящему человеку.
Большинство популярных TTS-программ, например, используемых цифровыми ассистентами Siri, Alexa и Cortana, строят синтезированную речь из фрагментов записей настоящего человеческого голоса. Этот компиляционный метод даёт неплохие результаты, но он требует наличия в базе данных записей абсолютно всех звуков речи для каждого используемого голоса.
Альтернативой является параметрический синтез на основе правил грамматики или звуков речевого аппарата человека. Он не нуждается в предварительно записанном материале, но генерирует механически звучащую речь.
WaveNet требует исходного материала, наговорённого человеком, однако эта система не тасует вырезанные фрагменты, а использует глубокое обучение для независимого построения собственных звуков для любого тембра голоса. Лингвистические правила и рекомендации позволяют Google формировать из реалистично звучащих исходников WaveNet осмысленную речь.
Возможности этой системы гораздо шире синтеза речи: Google продемонстрировала её применение для генерирования на основе изученных образцов классической музыки оригинальных фортепианных композиций.
WaveNet, как отмечается в блоге Google, это предвестник недалекого будущего, когда компьютер и человек смогут беседовать на равных. Однако, в ближайшей перспективе внедрение этого метода в Google Assistant вряд ли возможно из-за огромного объёма требуемых вычислений.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
0 |