Facebook открыла новейшую модель многоязычного перевода

20 октябрь, 2020 - 15:55

Facebook открыла новейшую модель многоязычного перевода

Прогресс, достигнутый Facebook в технологиях искусственного интеллекта, позволил ей улучшить точность машинного перевода между двумя языками без использования промежуточных англоязычных данных.

Компания сообщила на выходных об открытии исходников её новейшей модели многоязычного машинного перевода, M2M-100. По информации Facebook, это первая в отрасли модель, которая способна переводить напрямую между любыми из 100 языков.

До сих пор перевод сначала делался на английский, поскольку для этого языка было накоплено больше всего тренировочных данных. Например, с французского на китайский перевод выполнялся по схеме: с французского на английский и, затем, с английского на китайский. Такая система в целом работает неплохо, но даёт сбои на сложных предложениях и фразах.

В блоге исследователь из подразделения Facebook AI Анжела Фань (Angela Fan) рассказала, что её команде пришлось составить огромный массив высококачественных тренировочных данных для всех языковых комбинаций. Он содержал свыше 7,5 миллиардов параллельных предложений (для 2200 направлений перевода), собранных при помощи открытых инструментов для информационного майнинга, таких как ccAligned, ccMatrix и LASER.

Все они были поделены между 14 языковыми группами по таким критериям, как лингвистическая классификация, география и культурное сходство. В каждой из этих 14 языковых групп Facebook определила от одного до трех «языков-мостов», которые стали основой для переводов на другие языковые группы. Команда Фань также использовала технику, известную как «обратный перевод», для создания синтетических данных в дополнение к уже добытым параллельным данным.

Такая стратегия позволила наилучшим образом охватить все 100×100 комбинаций (всего 9 900 направлений) в одной модели.

Фань утверждает, что готовая модель M2M-100 превосходит существующие многоязычные модели, ориентированные на английский язык, которые в настоящее время использует Facebook, на 10 пунктов по шкале BLEU, широко используемой для оценки машинных переводов. Facebook в конечном итоге хочет заменить эти модели на M2M-100, чтобы улучшить качество переводов для миллионов пользователей, говорящих на языках с ограниченными ресурсами.