Системы устного машинного перевода, призванные упростить общение между людьми, говорящими на разных языках, разрабатываются уже несколько десятилетий. Обычно их создают из трёх отдельных компонентов, которые последовательно выполняют автоматическое распознавание речи с преобразованием её в текстовый вид; машинный перевод текста в текст на нужном языке; синтезирование речи на основании переведённого теста. Такие каскадные системы, доведённые до совершенства, с успехом используются во многих коммерческих технологиях устного перевода, включая Google Translate.
С 2016 года в сервисе Google Translate вместо прежних статистических систем начали применять нейронный перевод с использованием моделей глубокого обучения. Теперь же группа исследователей, включающая в себя участников проектов Google Brain, Google Translate и Google Speech, пошла дальше и разработала экспериментальную нейросеть, осуществляющую полный устный перевод фраз без промежуточного текстового этапа.
Если сравнивать с каскадными системами, новая разработка под названием Translatotron имеет ряд очевидных преимуществ. Отсутствие разделения на этапы увеличивает скорость генерирования «умозаключений» (inference), позволяет избежать накопления промежуточных ошибок распознавания и перевода, улучшает обработку слов, которые не нуждаются в переводе, например, имён собственных.
Translatotron основана на нейросети, которая получает на входе исходные спектрограммы и генерирует спектрограммы переведённого содержания на целевом языке. В нем также применяется отдельно обученный нейронный вокодер, преобразующий на выходе спектрограмму в волновой сигнал.
Опционально возможно использование дополнительной нейросети кодировщика голоса с целью сохранения при переводе звуковых характеристик говорящего.
В ходе обучения модель фразового перевода параллельно с генерированием целевых спектрограмм предсказывает транскрипцию входящей и исходящей речи, однако никакие текстовые представления не используются для построения логических выводов.
Авторы проверили качество работы Translatotron с помощью эталонного алгоритма Bilingual Evaluation Understudy (BLEU) Score. По шкале BLEU Translatotron лишь незначительно уступила традиционной каскадной системе, демонстрируя действенность концепции прямого машинного перевода речи в речь.
В испытаниях с использованием дополнительного голосового кодировщика Translatotron превзошла по точности перевода базовую каскадную систему. Перевод, озвученный голосом говорящего, воспринимается более естественно и несколько отличается от перевода с каноническим голосом, так как сеть обучалась на меньшем количестве примеров. Ознакомиться с качеством перевода можно здесь (
https://google-research.github.io/lingvo-lab/translatotron/#conversation...)
Авторы надеются, что их работа послужит отправной точкой для для дальнейших исследований машинных технологий прямого устного перевода.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365