`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Виталий Кобальчинский

Translatotron - машинный перевод устной речи на новом уровне

+22
голоса

Системы устного машинного перевода, призванные упростить общение между людьми, говорящими на разных языках, разрабатываются уже несколько десятилетий. Обычно их создают из трёх отдельных компонентов, которые последовательно выполняют автоматическое распознавание речи с преобразованием её в текстовый вид; машинный перевод текста в текст на нужном языке; синтезирование речи на основании переведённого теста. Такие каскадные системы, доведённые до совершенства, с успехом используются во многих коммерческих технологиях устного перевода, включая Google Translate.

С 2016 года в сервисе Google Translate вместо прежних статистических систем начали применять нейронный перевод с использованием моделей глубокого обучения. Теперь же группа исследователей, включающая в себя участников проектов Google Brain, Google Translate и Google Speech, пошла дальше и разработала экспериментальную нейросеть, осуществляющую полный устный перевод фраз без промежуточного текстового этапа.

Translatotron - машинный перевод устной речи на новом уровне

Если сравнивать с каскадными системами, новая разработка под названием Translatotron имеет ряд очевидных преимуществ. Отсутствие разделения на этапы увеличивает скорость генерирования «умозаключений» (inference), позволяет избежать накопления промежуточных ошибок распознавания и перевода, улучшает обработку слов, которые не нуждаются в переводе, например, имён собственных.
 
Translatotron основана на нейросети, которая получает на входе исходные спектрограммы и генерирует спектрограммы переведённого содержания на целевом языке. В нем также применяется отдельно обученный нейронный вокодер, преобразующий на выходе спектрограмму в волновой сигнал.
 
Опционально возможно использование дополнительной нейросети кодировщика голоса с целью сохранения при переводе звуковых характеристик говорящего.
 
В ходе обучения модель фразового перевода параллельно с генерированием целевых спектрограмм предсказывает транскрипцию входящей и исходящей речи, однако никакие текстовые представления не используются для построения логических выводов.

Translatotron - машинный перевод устной речи на новом уровне

Авторы проверили качество работы Translatotron с помощью эталонного алгоритма Bilingual Evaluation Understudy (BLEU) Score. По шкале BLEU Translatotron лишь незначительно уступила традиционной каскадной системе, демонстрируя действенность концепции прямого машинного перевода речи в речь.
 
В испытаниях с использованием дополнительного голосового кодировщика Translatotron превзошла по точности перевода базовую каскадную систему. Перевод, озвученный голосом говорящего, воспринимается более естественно и несколько отличается от перевода с каноническим голосом, так как сеть обучалась на меньшем количестве примеров. Ознакомиться с качеством перевода можно здесь (https://google-research.github.io/lingvo-lab/translatotron/#conversation...)
 
Авторы надеются, что их работа послужит отправной точкой для для дальнейших исследований машинных технологий прямого устного перевода.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

+22
голоса

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT