`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

PROMT 8: трудности перевода

Статья опубликована в №21 (589) от 5 июня

+11
голос

Системы машинного перевода чрезвычайно востребованы пользователями – число обращений к бесплатным интернет-переводчикам увеличивается день ото дня. Однако рост продаж автономных продуктов далеко не такой уверенный. Почему? Ведь необходимость в международной коммуникации становится все острее...

PROMT 8 трудности перевода
PROMT 4U англо-русский и русско-английский $24; PROMT 4U ГИГАНТ $32; PROMT Standard 8.0 англо-русский и русско-английский $120; PROMT Standard 8.0 ГИГАНТ $228; PROMT Professional 8.0 англо-русский и русско-английский $360; PROMT Professional 8.0 ГИГАНТ $600; PROMT Expert 8.0 англо-русский и русско-английский $720; PROMT Expert 8.0 ГИГАНТ $960

За последние 50 лет самые радужные ожидания в области машинного перевода (МП) сменялись периодами практически полного отказа от разработки новых систем, очередным всплеском интереса, полосой непрерывного совершенствования продуктов за счет доработки алгоритмов и расширения словарей. Оптимизма, присутствовавшего полвека назад, несколько поубавилось, и в настоящее время системы МП уже не претендуют на полностью автономное обслуживание документооборота. Впрочем, некоторые достижения все же имеются – для отдельных языковых пар или в узких специфических областях.

Целых два года – срок, по меркам IT-индустрии, немалый – российская компания «ПРОМТ» работала над выпуском новой версии своего флагманского продукта, и в конце апреля на украинском рынке появился PROMT 8 – на сегодняшний день, пожалуй, самая мощная и совершенная система перевода с основных европейских языков на русский.

Предлагается несколько различных редакций (PROMT 4U для массового персонального использования, Standard для малого офиса, Professional для корпоративных клиентов, Expert для профессионального применения в промышленных системах документооборота) и две основные языковые комплектации: двусторонняя англо-русская и многоязычная (также двусторонние пары для английского, немецкого, французского и испанского и итальянско-русское направление). Во всех комплектациях используется единое ядро перевода, на модернизации которого и были сосредоточены усилия разработчиков.

Система PROMT 8 построена на платформе Microsoft .NET, совместима с ОС Windows Vista, а ее интерфейс переработан и для основных компонентов выдержан в стиле Microsoft Office 2007 (впрочем, последнее – характерная тенденция для многих приложений, обновившихся за минувшие полгода). Важнее, что отныне PROMT встраивается не только в приложения Microsoft Office и Internet Explorer, но и в браузер Mozilla Firefox и офисный пакет OpenOffice.org, а также в Adobe Acrobat и Adobe Reader. Можно переводить буфер обмена и синхронно набираемый текст, имеется отдельный модуль для интеграции с ICQ, как и ранее, поддерживается пакетная обработка, не требующая открытия каждого документа, а выполняющаяся в фоновом режиме с использованием одних и тех же настроек. К сожалению, перевод отсканированного текста непосредственно из графических файлов теперь возможен только в редакции Expert.

PROMT 8 трудности перевода
Рабочая среда автономного редактора PROMT не только приобрела суперсовременный интерфейс, но и действительно стала гораздо удобнее

Определенно порадовали изменения в системе управления программой. С помощью PROMT 8 можно с легкостью создавать профили настроек для отдельных пользователей, распространять специализированные словари для перевода тематических текстов, формировать списки непереводимых и зарезервированных слов, корректировать шаблоны тематик, подключать отдельные правила, синхронизировать ввод текста с переводом, автоматизировать обработку потока документов, что в целом позволяет повысить качество результата и сократить время его получения. Небольшие нарекания вызывает разве что автоматический выбор направления перевода, предусмотренный лишь в отдельных режимах и программах.

Во всех редакциях PROMT 8, за исключением 4U, помимо основных функций, имеется возможность ведения информационной базы на основе технологии Translation Memory (TM). В ней сохраняются любые образцы текста (на двух языках) и при последующем их обнаружении (если совпадение полное или укладывается в указанный шаблон) система автоматически подставит готовый перевод. Впрочем, подобная идея, хоть и в несколько упрощенном виде (ассоциативной памяти, АМ), использовалась и в предыдущей версии, сейчас же эта функциональность значительно расширена, особенно в вопросах настройки базы (в первую очередь шаблонов и параметров идентификации фрагментов).

Но, безусловно, интереснее всего оценка качества перевода PROMT 8, тем более в свете реализации нового ядра, где обещан целый ряд усовершенствований. Его мы попытались объективно оценить, предлагая системе тексты разной сложности и на разнообразные темы (табл. 1).

Прежде всего в PROMT 8 улучшено распознавание имен собственных, падеж подлежащего изменяется в соответствии с правилами русского языка (ранее просто копировалась английская конструкция). Кроме того, прослеживается тенденция выбора корректного перевода для многовариантных терминов в зависимости от основной тематики. Изменения коснулись и порядка слов в предложении – ведь, скажем, в английском и русском языках в одинаковых ситуациях нередко используются совершенно разные грамматические конструкции, и новая версия по возможности учитывает это, в частности, изменяет форму глагола и автоматически определяет место наречия в предложении согласно правилам русской грамматики, не ингнорирует безличных предложений.

В целом по сравнению с предыдущей версией можно отметить, что перевод действительно стал более связным, что, впрочем, также не всегда хорошо (см. первое предложение первого примера в табл. 1). Однако некоторые грамматические конструкции, как и ранее, программой не воспринимаются, да и проблемы с терминологией сохранились. Обратите внимание на первый пример – PROMT 8, как и предшественник, затрудняется с корректной трактовкой слова crash даже при выборе тематики «Информатика», хотя другие термины, скажем, code, переводит абсолютно верно. Сложности возникают и с оборотами deals with, whether, such, в меньшей степени – с использованием инфинитива и герундия (табл. 2).

PROMT 8 трудности перевода
TM-функциональность пригодится во всех редакциях PROMT, например, для корректного перевода идиом

Особая статья – идиомы. Именно по работе с этими врагами переводчика зачастую легко определить квалификацию последнего. И тут, увы, PROMT 8 действует не слишком уверенно, даже несмотря на то, что в системе имеется соответствующая TM-база. Из дюжины известных современных оборотов, изучаемых в средних классах общеобразовательной школы, программа более-менее корректно перевела четыре. В данном случае главная проблема – выяснить, является ли последовательность слов идиомой, что зачастую зависит от контекста и полноты словарей (а встроенный основной словарь в этом смысле довольно беден), однако ее можно было бы частично решить не только с помощью ТМ, но и привязав трактовку словосочетания к указанной тематике, по аналогии с тем, как реализован выбор значения многовариантных слов. Например, выражение «like a breeze» (легко, с легкостью, без усилий) в тексте по информатике практически гарантированно является идиомой, но PROMT 8 все равно пытается переводить его дословно.

Следует отметить, что, как и ранее, хуже всего обстоят дела с переводом текстов, которые трудно отнести к какой-либо тематике. Именно в них чаще всего используется большое число многовариантных слов и неверно распознаются грамматические конструкции, причем порой даже те, с которыми не возникает никаких проблем при явном указании специализации. Это хорошо заметно при переводе с других поддерживаемых языков, кроме английского. Чаще всего качество результата зависит, по-видимому, не столько от принадлежности исходного текста к той или иной языковой группе, сколько именно от наличия соответствующих тематик, возможности их настройки и объема словарей (в том числе дополнительных).

При необходимости любую редакцию и комплектацию PROMT можно дополнить универсальными специализированными словарями. Только компания «ПРОМТ» предлагает их более 140, правда, среди этого набора львиная доля приходится на пару английский-русский, а, например, для пары испанский-русский и направления итальянский-русский их имеется всего несколько, что, безусловно, вряд ли окажет существенное влияние на настройку системы, и, как следствие, качество перевода. Конечно, можно заказать собственные словари по нужной тематике (такие услуги предоставляются), но это приведет к удорожанию системы и годится разве что для промышленного использования технологий МП. Альтернативой в PROMT 8 является возможность подключения онлайновых словарей и баз Multitran (содержащих более 11 млн слов и словосочетаний), что особенно актуально для оперативного пополнения словаря новыми терминами. Помимо этого, пакет позволяет в автоматическом режиме переносить статьи терминологических баз SDL-Multiterm в пользовательские словари.

Работа с последними, кстати, также заметно изменилась. В частности, теперь для создания словарных статей предусмотрено два режима: простой, где словарь имеет вид таблицы, и добавить новый термин можно всего несколькими щелчками мыши, и расширенный, предоставляющий набор дополнительных настроек (например, выбор склонения или спряжения). Впрочем, формирование качественного пользовательского словаря сколько-нибудь существенного объема все равно остается весьма сложной задачей.

Таблица 1. PROMT 7 vs. PROMT 8
Исходный текст PROMT 7 PROMT 8
What is a Virus? A software program that attaches itself to another program, in computer memory or on a disk, and spreads from one program to another. Viruses may damage data, cause the computer to crash, display messages, or just lie dormant. Viruses can be transmitted by downloading programs from Web sites, Networks or can be present on a diskette. Typically, the virus lies dormant until circumstances cause its code to be executed by the computer.
Что такое – Вирус? Программа, которые прикрепляют себя к другой программе, в машинной памяти или на диске, и распространениях от одной программы до другого. Вирусы могут повредить данные, заставить компьютер разрушаться, показывать сообщения, или только бездействовать. Вирусы могут быть переданы, загружая программы от Вебсайтов, Сетей или могут присутствовать на дискете. Как правило, вирус бездействует, пока обстоятельства не заставляют его кодекс{код} выполняться компьютером.
Каков Вирус? Программа, которая прикрепляет себя к другой программе, в машинной памяти или на диске, и распространяется от одной программы до другого. Вирусы могут повредить данные, заставить компьютер разрушаться, отображать сообщения, или только бездействовать. Вирусы могут быть переданы, загружая программы от Вебсайтов, Сетей или могут присутствовать на дискете. Как правило, вирус бездействует, пока обстоятельства не заставляют его код выполняться компьютером.
Unveiled at the 2004 Paris Motor Show, the C4 will make its market debut in most European countries from November 2004, and in international markets shortly afterwards. Continuing its development, Citroen has designed a mid-range saloon and a coupe offering distinctive exterior styling and identical interior space.
Обнародованный в 2004 Парижском Автосалоне, C4 сделает его дебют рынка в большинстве европейских стран с ноября 2004, и на международных рынках коротко{вскоре} впоследствии. Продолжая его развитие, Citroen проектировал средний салон и двухместную карету, предлагающую отличительное моделирование внешности и идентичное внутреннее место{космос}.
Представленный в 2004 Парижском Автосалоне, C4 сделает дебют рынка в большинстве европейских стран с ноября 2004, и на международных рынках вскоре после этого. Продолжая его развитие, Ситроен проектировал средний салон и двухместную карету, предлагающую отличительное моделирование внешности и идентичное внутреннее место.

Итак, несмотря на усовершенствование ядра, новый PROMT, очевидно, не произведет переворота в области МП – это всего лишь еще один шаг на пути эволюции продуктов, основанных на известных технологиях. Тем не менее создатели PROMT подумывают и о более кардинальных шагах, о чем в своих выступлениях недвусмысленно заявляют руководители компании.

Вообще существует два основных направления развития технологии МП: на базе алгоритмов анализа и синтеза и на основе статистических методов. В современном PROMT, как и в подавляющем большинстве других коммерческих продуктов, применен только первый подход, а сама система, по сути, состоит из словаря и ядра, которое анализирует текст и синтезирует перевод, используя информацию словарных статей. Эта система может (теоретически) справиться с любым текстом, если, конечно, ядро умеет корректно распознавать абсолютно все употребляемые в нем грамматические конструкции, а словарь содержит всю лексику, соответствующую его тематике. На практике такого, к сожалению, не бывает, что и является причиной описанных проблем.

Таблица 2. Примеры перевода герундия
Исходный текст Чем является в предложении PROMT 8
Collecting this material took us a month Подлежащее Сбор этого материала взял нас месяц
Nobody likes waiting Дополнение Никому не нравится ждать
I don't like the idea of going there alone Определение Мне не нравится идея идти туда один
She talked without stopping Обстоятельство Она говорила без остановки

Второй подход относительно молод и основан на так называемых параллельных данных. Два достаточно объемных и специально подготовленных массива текста на исходном и результирующем языках подвергаются предварительной статистической обработке, из них выделяются характерные обороты и фрагменты, для которых вычисляются различные частотные характеристики. В системе МП эта информация используется для определения вероятности соответствия выделенной из исходного текста N-граммы (лингвистической конструкции, как правило, из 2–4 слов) и различных вариантов перевода. Результатом работы будет текст, составленный из наиболее вероятных переводов всех N-грамм. Несмотря на ряд объективных трудностей (в первую очередь связанных с необходимостью масштабной предварительной подготовки параллельных данных), разработки в этом направлении активно ведутся, к примеру, Google – для пары английский-арабский.

Немалую роль в совершенствовании систем перевода может сыграть и корпусная лингвистика, изучающая язык на основе тексто-ориентированных баз данных, в том числе индексированных, т. е. снабженных подробной грамматической информацией. Особенно перспективными представляются динамические корпусы текстов (сравнительно небольшого размера), предназначенные для отслеживания современных изменений грамматики и лексики в специализированных областях. Кстати, «ПРОМТ» недавно приобрела у Google корпус, объем которого в архивированном виде составляет 24 TB, так что речь, видимо, идет о не слишком отдаленной перспективе. В любом случае сочетание нескольких подходов, несомненно, пойдет на пользу системам МП и повысит качество выдаваемых ими результатов, но когда они смогут сравняться с профессиональными переводчиками – вопрос по-прежнему открытый.

+11
голос

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT