ABBYY Aligner – мастер параллельных текстов | Статьи

Средства для создания баз ТМ из имеющихся пар оригинального и переведенного текста традиционно входят в большинство систем автоматического перевода, однако чаще всего оставляют желать лучшего, поскольку подходят к задаче фрагментации и установки соответствия текстовых фрагментов достаточно формально. Недавно выпущенный ABBYY Aligner претендует на роль более интеллектуальной альтернативы существующим решениям.

В документах на разных языках нередко отдельные фрагменты текста располагаются по-разному – это не помешает задать правильное соответствие предложений в результирующей базе

Преодоление языковых барьеров становится первостепенной проблемой в глобализованном мире. Программы и сервисы автоматического перевода широко используются, когда необходимо быстро понять смысл документа или веб-страницы на иностранном языке, однако задачи бизнеса требуют совершенно иного уровня качества выходящих документов, соответствия стиля и лексики заданным стандартам.

Современные технологии автоматизированного перевода можно принципиально разделить на два класса: МП (машинный перевод), при котором для получения связного выходного текста используются лингвистические алгоритмы анализа и синтеза, и TM (Translation Memory, память переводов), работающую по принципу накопления и повторного использования переводов фрагментов (как правило, при обработке типовой документации). В контексте данного обзора речь идет именно о последней.

Основой технологии TM является база параллельных текстов – при обработке нового входящего документа система разбивает его на сегменты (обычно – предложения, однако иногда используются иные способы сегментации) и сравнивает их с уже хранящимися в базе данных эталонами. При нахождении полного или частичного совпадения используется сохраненный текст, а отличающиеся слова помечаются для последующего редактирования вручную либо автоматически за счет интеграции с МП. Таким образом, результирующий документ, как из мозаики, собирается из готовых фрагментов.

К несомненным достоинствам данной технологии относятся высокая скорость обработки, гарантированное качество переведенных документов, единство стиля, используемой терминологии (что особенно актуально при работе со специализированными текстами), а также обеспечение непрерывности рабочего процесса при привлечении новых сотрудников. Однако действительно эффективным применение систем TM оказывается лишь при достаточно высоком (не менее 75%) уровне совпадений – в противном случае их немалая стоимость совершенно не оправдывается.

Таким образом, успех TM напрямую зависит от объема и качества базы эталонных переводов по нужным тематикам и областям деятельности – их придется либо покупать, либо создавать самостоятельно. Именно по этой причине этап внедрения TM может быть достаточно долгим и потребовать от ведущих специалистов-переводчиков существенных дополнительных трудозатрат, связанных с наполнением TM. В то же время практически каждая компания, как правило, имеет архив готовых документов на исходном и целевом языках, которые могут стать основой такой БД, но для них нужны специальная обработка и сегментация.

Кроме того, даже в крупных переводческих агентствах, уже применяющих системы ТМ, всегда есть определенная доля заказов, которые в силу разных причин (нестандартный формат, перегруженный макет, особые требования переводчика, специализирующегося на данной узкой тематике) невозможно или нецелесообразно обрабатывать автоматически, что дает постоянный (пусть и не слишком значительный) источник новых материалов для добавления в БД, но заниматься этим вручную довольно дорого.

Отсутствие небольших фрагментов в целом не сказывается на качестве формирования БД

Автоматизировать все упомянутые процессы как раз и поможет новый продукт ABBYY Aligner. Функционирует он чрезвычайно просто: задаются документ на исходном языке и его переведенный аналог, а после обработки программа выдает базу параллельных предложений (или абзацев, что можно настроить отдельно). Продукт работает в Microsoft Windows XP, Vista и Windows 7, системные требования совершенно скромные, но надо понимать, что от доступных аппаратных ресурсов в значительной степени зависит производительность. Программа понимает основные форматы документов (TXT, RTF, PDF, HTML, XML, а также Microsoft Office, в том числе и последней версии) и умеет работать с текстами на десяти языках (английский, немецкий, французский, испанский, итальянский, польский, португальский, турецкий, украинский, русский). Результат можно сохранить в RTF, внутреннем формате программы ATA либо в TMX, который поддерживается большинством систем TM (Trados, Déjà Vu X, Transit, открытая OmegaT, встраиваемая в Microsoft Office Metatexis и пр.) и фактически является стандартом для обмена базами переводов. Для массовой обработки имеющихся в распоряжении документов Aligner предлагает специальный пакетный режим (в этом случае размер каждого файла не должен превышать 10 МБ).

Естественно, механическое сопоставление по порядку предложений в исходном и переведенном текстах не способствует созданию качественной БД параллельных фрагментов – разные языки имеют свои особенности. ABBYY Aligner использует словарные базы и сравнивает сегменты исходного и переведенного текстов, что позволяет повысить качество. По результатам экспресс-тестирования на достаточно больших текстовых документах (руководства пользователя размером свыше 150 страниц на английском, польском и русском языках), можно сделать заключение, что программа действительно выявляет отсутствующие или неточно совпадающие сегменты в пределах одного-двух абзацев и правильно находит соответствия. Хотя, конечно, если в одном из входящих документов пропустить страницу-другую, вряд ли стоит рассчитывать на отсутствие ошибок. Имеется и еще один нюанс – иногда приложение принимает точки в сокращениях (т. е., пр.) как окончание предложения и, соответственно, неверно выделяет сегмент. Чтобы избежать ошибок подобного рода, в окне настроек для каждого используемого языка можно задать собственный список сокращений. Впрочем, даже если этого не сделать, программа сама просигнализирует о некоторых неточностях или «сомнениях» – не полностью (по мнению Aligner) совпадающие сегменты выделяются в окне редактора подцветкой, как и пустые строки и орфографические ошибки. Дополнительные инструменты редактора позволяют разбивать или объединять сегменты текста, перемещать их, выполнять сопоставление вручную и, естественно, править обнаруженные ошибки.

В заключение отметим, что для небольших проектов и персональных пользователей на веб-сайте ABBYY предлагается бесплатный сервис Aligner online, который, правда, имеет ограничения по размеру файлов, не поддерживает пакетный режим, не допускает редактирования и работает не со всеми форматами. Впрочем, для большинства персональных пользователей систем МП с поддержкой элементов TM, например, профессиональных редакций ПРОМТ, сервиса может оказаться вполне достаточно.

Стратегія охолодження ЦОД для епохи AI