`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

«Промт» 8.5: период накопления изменений

Статья опубликована в №18 (684) от 26 мая

+22
голоса

Нельзя сказать, что машинный перевод (как некоторые другие отрасли ИИ) совершенно зашел в тупик, но, безусловно, его успехи все еще гораздо ниже наших ожиданий. Прорыва в работе с неродственными языками (скажем, с одной из наиболее востребованных пар английский–русский) не происходит, и остается лишь надеяться, что постепенное накопление мелких улучшений со временем обусловит качественный скачок. Подтверждает данную тенденцию и фигурант нынешнего обзора, удостоившийся лишь дробного приращения номера версии.

«Промт» 8.5 период накопления изменений

Последним «урожайным» с точки зрения появления новых версий систем машинного перевода (МП) стал позапрошлый год, когда значительная часть разработчиков вскоре после выпуска 2007 Microsoft Office System обновила собственные решения, в большей или меньшей степени усовершенствовав ядро перевода и словари, и, естественно, обеспечив интеграцию с ведущим офисным пакетом. С тех пор, видимо, не приходится рассчитывать на какие-то радикальные улучшения, однако активные изменения современного языка требуют если и не выпуска очередных версий продуктов, то уж по крайней мере обеспечения прежних расширенными и уточненными словарями, так что нас, похоже, ждет волна обновлений. А первой ласточкой стал недавний релиз «ПРОМТ» 8.5.

Принимая во внимание, что данный продукт был заметно улучшен в 8-й версии, а нынешняя все-таки является промежуточной, в ней нет ярких новаций принципиального характера. Тем не менее она инкорпорировала целый ряд доработок, способствующих прежде всего повышению удобства использования и производительности.

«Промт» 8.5 период накопления изменений
Поддержка и расширение баз TM, адаптированных к собственным бизнес-процессам, – единственный способ добиться максимального качества при полностью автоматическом переводе

Первое, что обеспечивает качество перевода в любой системе, это, конечно, словарь. В новой версии объем генерального словаря увеличился на 10 тыс статей. Учитывая, что в системах семейства «ПРОМТ» используется специфическая модель морфологии, описывающая множество типов словоизменений для каждого из языков (в том числе английского, не являющегося флективным), фактический объем словарной базы, с которой умеет работать новая система, вырос гораздо больше. Кстати, множество окончаний для каждого языка в «ПРОМТ» хранится в виде древовидных структур, что не только экономит объем, но и позволяет строить достаточно эффективные алгоритмы морфологического анализа, а также существенно упрощает формирование пользовательских словарей за счет автоматизации процедуры выделения основы и определения типа словоизменения для добавляемых терминов. Имеется также специальная процедура автоматического построения словарей формата «ПРОМТ» (ADC) из глоссариев (формат TBX), что упрощает использование единых стандартов терминологии в рабочих группах.

И все же, несмотря на все оговорки, наибольший интерес вызывают изменения, напрямую отражающиеся на качестве перевода. В этот раз мы протестировали не только направление английский–русский на современных текстах и наборе специально подобранных фрагментов с разными грамматическими конструкциями (герундий, инфинитив, подытоженное будущее и другие временные формы, that, as, устойчивые выражения, притяжательные местоимения и пр.), но и обратное, используя в качестве «эксперта» учебник М. Колпакчи «Дружеские встречи с английским языком». Исходя из наших тестов, направление русский–английский вызывает несколько больше нареканий, имеются нюансы с выбором оптимальных грамматических конструкций, подбором терминов и вопросительных слов, переводом безличных предложений отдельных типов, согласованием местоимений и т. д.

Примеры доработок алгоритма перевода
Исходный текст ПРОМТ 8 ПРОМТ 8.5
Last week on the Second Life Blog, Linden Lab predicted that the user-to-user economy for Second Life in 2009 would be €350m. На прошлой неделе на Second Life Blog, Linden Lab предсказала, что экономика от пользователя к пользователю для Second Life в 2009 составит €350m. На прошлой неделе на Second Life Blog, Linden Lab предсказала, что экономика от пользователя к пользователю для Second Life в 2009 составит €350 миллионов.
This company has no control over its income. Эта компания не имеет никакого контроля над его доходом. Эта компания не имеет никакого контроля над своим доходом.
Product A differs from Product B in the sense that the production of product A has a larger affect on society's resources than Product B. Продукт A отличается от Продукта B в смысле, что у производства продукта A есть больший аффект на ресурсах общества чем Продукт B. Продукт A отличается от Продукта B в том смысле, что у производства продукта A есть больший аффект на ресурсах общества чем Продукт B.

В направлении английский–русский программа работает более качественно, и по сравнению с предыдущей версией содержит целый ряд небольших усовершенствований. В частности, уточнен поиск значения для притяжательного местоимения its (возможные переводы: его, ее, свой), а также анализ слова that, которое в зависимости от роли в предложении может интерпретироваться по-разному, улучшена работа с сокращениями и финансовыми обозначениями (так, если ранее запись €10m вводила программу в заблуждение, то теперь она прекрасно расшифровывается). Проблемой правильного с точки зрения русского языка размещения наречий в предложении разработчики «ПРОМТ» занимались еще при подготовке восьмой версии, а в 8.5 смогли добиться даже больших успехов. Прежде немало хлопот порой доставляла транслитерация, теперь «ПРОМТ» 8.5 работает по уточненным алгоритмам в соответствии с новейшими (и хочется надеяться, уже окончательными) официальными правилами. Идиомы и устойчивые выражения по-прежнему остаются узким местом, хотя в профессиональных редакциях эту проблему можно частично решать самостоятельно, дополняя базу Translation Memory (ТМ).

«Промт» 8.5 период накопления изменений
Пакетный перевод текстов с одинаковыми параметрами позволяет оптимизировать первичную подготовку больших массивов документации для ознакомления

Тем не менее все подвижки в части собственно МП не меняют общей картины – использование автоматически переведенного текста в деловых (и даже учебных) целях вряд ли возможно без последующего редактирования. В связи с этим особое значение приобретает повторное применение готовых переведенных фрагментов, которые хранятся в базе TM, что в ряде случаев может существенно повлиять на качество выходных документов (особенно типовых). Взаимодействие с этим мини-корпусом параллельных текстов также заметно доработано. В частности, теперь возможен поиск (выполняемый значительно быстрее, чем прежде) при наличии разных знаков препинания, разницы в пробелах и регистре символов и пр. Кроме того, усовершенствованы алгоритмы автоматического определения языка текста и тематик (по ключевым словам).

«ПРОМТ» 8.5 содержит также ряд усовершенствований в части удобства использования. Ранее переработанный в стиле 2007 Microsoft Office System интерфейс теперь доступен в двух языковых версиях – русской и английской. Обновлены процедуры обработки HTML и XML, что обеспечивает при переводе веб-страниц полное сохранение макета, включая графические элементы и гиперссылки. Кстати, помимо IE, поддерживается и достаточно популярный Firefox, а функции перевода доступны не только через ленту инструментов браузера, но и из контекстного меню.

Решение предлагается в нескольких редакциях: PROMT 4U для персонального использования, Standard для малых офисов, Professional для корпоративных клиентов, Expert для промышленных систем документооборота, с возможностью выбора дву- или многоязычной комплектации. В корпоративные продукты включен пакет поддержки, предоставляющий приоритет в оказании услуг и бесплатные обновления.

+22
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT