|
В продаже с 31 августа Применяются ли на Вашем предприятии технологии виртуализации серверов? |
«Промт» 8.5: период накопления изменений
Автор – Елена Дериева, 5 июня 2009 г.
Статья опубликована в №18 (684) от 26 мая
Нельзя сказать, что машинный перевод (как некоторые другие отрасли ИИ) совершенно зашел в тупик, но, безусловно, его успехи все еще гораздо ниже наших ожиданий. Прорыва в работе с неродственными языками (скажем, с одной из наиболее востребованных пар английский–русский) не происходит, и остается лишь надеяться, что постепенное накопление мелких улучшений со временем обусловит качественный скачок. Подтверждает данную тенденцию и фигурант нынешнего обзора, удостоившийся лишь дробного приращения номера версии.
Последним «урожайным» с точки зрения появления новых версий систем машинного перевода (МП) стал позапрошлый год, когда значительная часть разработчиков вскоре после выпуска 2007 Microsoft Office System обновила собственные решения, в большей или меньшей степени усовершенствовав ядро перевода и словари, и, естественно, обеспечив интеграцию с ведущим офисным пакетом. С тех пор, видимо, не приходится рассчитывать на какие-то радикальные улучшения, однако активные изменения современного языка требуют если и не выпуска очередных версий продуктов, то уж по крайней мере обеспечения прежних расширенными и уточненными словарями, так что нас, похоже, ждет волна обновлений. А первой ласточкой стал недавний релиз «ПРОМТ» 8.5. Принимая во внимание, что данный продукт был заметно улучшен в 8-й версии, а нынешняя все-таки является промежуточной, в ней нет ярких новаций принципиального характера. Тем не менее она инкорпорировала целый ряд доработок, способствующих прежде всего повышению удобства использования и производительности.
Первое, что обеспечивает качество перевода в любой системе, это, конечно, словарь. В новой версии объем генерального словаря увеличился на 10 тыс статей. Учитывая, что в системах семейства «ПРОМТ» используется специфическая модель морфологии, описывающая множество типов словоизменений для каждого из языков (в том числе английского, не являющегося флективным), фактический объем словарной базы, с которой умеет работать новая система, вырос гораздо больше. Кстати, множество окончаний для каждого языка в «ПРОМТ» хранится в виде древовидных структур, что не только экономит объем, но и позволяет строить достаточно эффективные алгоритмы морфологического анализа, а также существенно упрощает формирование пользовательских словарей за счет автоматизации процедуры выделения основы и определения типа словоизменения для добавляемых терминов. Имеется также специальная процедура автоматического построения словарей формата «ПРОМТ» (ADC) из глоссариев (формат TBX), что упрощает использование единых стандартов терминологии в рабочих группах. И все же, несмотря на все оговорки, наибольший интерес вызывают изменения, напрямую отражающиеся на качестве перевода. В этот раз мы протестировали не только направление английский–русский на современных текстах и наборе специально подобранных фрагментов с разными грамматическими конструкциями (герундий, инфинитив, подытоженное будущее и другие временные формы, that, as, устойчивые выражения, притяжательные местоимения и пр.), но и обратное, используя в качестве «эксперта» учебник М. Колпакчи «Дружеские встречи с английским языком». Исходя из наших тестов, направление русский–английский вызывает несколько больше нареканий, имеются нюансы с выбором оптимальных грамматических конструкций, подбором терминов и вопросительных слов, переводом безличных предложений отдельных типов, согласованием местоимений и т. д.
В направлении английский–русский программа работает более качественно, и по сравнению с предыдущей версией содержит целый ряд небольших усовершенствований. В частности, уточнен поиск значения для притяжательного местоимения its (возможные переводы: его, ее, свой), а также анализ слова that, которое в зависимости от роли в предложении может интерпретироваться по-разному, улучшена работа с сокращениями и финансовыми обозначениями (так, если ранее запись €10m вводила программу в заблуждение, то теперь она прекрасно расшифровывается). Проблемой правильного с точки зрения русского языка размещения наречий в предложении разработчики «ПРОМТ» занимались еще при подготовке восьмой версии, а в 8.5 смогли добиться даже больших успехов. Прежде немало хлопот порой доставляла транслитерация, теперь «ПРОМТ» 8.5 работает по уточненным алгоритмам в соответствии с новейшими (и хочется надеяться, уже окончательными) официальными правилами. Идиомы и устойчивые выражения по-прежнему остаются узким местом, хотя в профессиональных редакциях эту проблему можно частично решать самостоятельно, дополняя базу Translation Memory (ТМ).
Тем не менее все подвижки в части собственно МП не меняют общей картины – использование автоматически переведенного текста в деловых (и даже учебных) целях вряд ли возможно без последующего редактирования. В связи с этим особое значение приобретает повторное применение готовых переведенных фрагментов, которые хранятся в базе TM, что в ряде случаев может существенно повлиять на качество выходных документов (особенно типовых). Взаимодействие с этим мини-корпусом параллельных текстов также заметно доработано. В частности, теперь возможен поиск (выполняемый значительно быстрее, чем прежде) при наличии разных знаков препинания, разницы в пробелах и регистре символов и пр. Кроме того, усовершенствованы алгоритмы автоматического определения языка текста и тематик (по ключевым словам). «ПРОМТ» 8.5 содержит также ряд усовершенствований в части удобства использования. Ранее переработанный в стиле 2007 Microsoft Office System интерфейс теперь доступен в двух языковых версиях – русской и английской. Обновлены процедуры обработки HTML и XML, что обеспечивает при переводе веб-страниц полное сохранение макета, включая графические элементы и гиперссылки. Кстати, помимо IE, поддерживается и достаточно популярный Firefox, а функции перевода доступны не только через ленту инструментов браузера, но и из контекстного меню. Решение предлагается в нескольких редакциях: PROMT 4U для персонального использования, Standard для малых офисов, Professional для корпоративных клиентов, Expert для промышленных систем документооборота, с возможностью выбора дву- или многоязычной комплектации. В корпоративные продукты включен пакет поддержки, предоставляющий приоритет в оказании услуг и бесплатные обновления.
Читайте также
|
Последние обсужденияТОП-новостиТОП-статьи |