ABBYY FineReader 7.0: распознается все!

15 сентябрь, 2003 - 23:00Богдан Вакулюк
Итак, отметим прежде всего, что FineReader 7.0 поставляется в двух изданиях -- Corporate Edition и Professional Edition. Фундаментальное отличие между ними заключается в том, что версия Professional рассчитана на персональное использование, а Corporate -- на совместную одновременную работу многих сотрудников в сетевом окружении. Для этого в последнее издание включены специальные средства поддержки сетевых функций и централизованного управления.

ABBYY FineReader 7.0 распознается все!
ABBYY FineReader 7.0. Цена в Киеве: Corporate Edition – $259, Professional Edition – $129
При инсталляции Corporate Edition с помощью ключей командной строки можно создать на сервере коллективный дистрибутив для облегчения последующего распространения FineReader на конечные рабочие станции. Существуют такие варианты: интерактивный режим, который мало чем отличается от обычного порядка установки; режим командной строки -- в этом случае, указав определенный набор ключей, удается миновать процесс заполнения диалогов и автоматически создать необходимую конфигурацию. Доступны еще две опции -- ПК может быть оснащен пакетом от ABBYY с использованием специальных средств менеджмента рабочих станций, таких, как Active Directory или Microsoft Management Server.

Чтобы задавать (и ограничивать) количество пакетов, функционирующих в рамках локальной сети, в состав Corporate Edition входит утилита License Manager, инсталлируемая как сервис на управляющем сервере. Перед началом работы локальная копия Fine­Reader должна быть зарегистрирована с его по­мощью. License Manager имеет два режима -- абсолютный и конкурентный. В первом случае каждая лицензия ставится в жесткое соответствие конкретному компьютеру, второй вариант предусматривает не­ограниченное количество установок -- лимитировано лишь число одновременно запущенных пакетов.

Еще одна новинка -- распределенная сетевая работа. Наряду с функциями гибкого разделения задач в новой версии FineReader введена система сканируемых каталогов (Hot Folder) -- в их качестве используются как обычные сетевые диски, так и удаленные FTP-папки. Изображения туда могут поступать с централизованных многофункциональных устройств и обрабатываться сразу многими рабочими станциями. Дополнительную производительность пакету FineReader обеспечивает поддержка мультипроцессорных систем и технологии Hyper-Threading -- как в версии Corporate, так и в Professional.

Для того чтобы предотвратить бесконтрольное распространение нелегальных копий, при установке новой версии FineReader предусматривается процедура активации, которая должна быть произведена сразу после инсталляции, поскольку Corporate Edition вообще не работает без со­ответствующего кода, а версия Pro­fessional запускается в демо-режиме с отключенными функциями сохранения и печати. Активацию можно осуществить посредством Internet, электронной почты или факса (только для поставки Professional).

Однако наиболее значимые для пользователей усовершенствования заключаются, конечно же, в самом пакете, поэтому перейдем к рассмотрению его новых возможностей.

ABBYY FineReader 7.0 распознается все!
Внешний вид пользовательского интерфейса новой версии FineReader
Начнем с самого главного. Улучшена точность распознавания -- декларируется 25%-ный прирост точности. Но это достижимо лишь в самых благоприятных для FineReader случаях. В остальном же количество ошибок уменьшилось в среднем на 10--15% (справедливости ради заметим, что такие данные получены не в результате длительных тестов, а путем анализа 12--15 отсканированных страниц разного содержания). Отрадным является тот факт, что при этом пакет совершенно не потерял в скорости работы.

А вот качество распознавания таблиц действительно повысилось существенно -- сложные таблицы с окрашенными ячейками и скрытыми разделителями теперь не являются для пакета серьезным камнем преткновения -- правда, для получения абсолютно достоверного результата многие процедуры по-прежнему необходимо выполнять вручную.

Список английских и немецких словарей был пополнен специальными глоссариями, содержащими распространенные юридические и медицинские термины, что должно существенно улучшить качество распознавания текстов с такими словами.

Новая версия FineReader намного плодотворнее сотрудничает с еще одним постоянным обитателем большинства офисных ПК -- пакетом Microsoft Word. Теперь FineReader вызывается прямо из текстового редактора с помощью отдельного макроса -- при этом распознанный участок текста будет помещен в документ Word в том месте, где находился курсор до вызова FineReader. Однако в полной мере оценить преимущества данной интеграции можно лишь при наличии Microsoft Word версии 2003. Fine­Reader 7.0 поддерживает экспорт в формат MS Word XML -- во время редактирования такого файла текущий текстовый фрагмент отображается на отдельной панели Zoom FineReader в том виде, в каком он находился в исходном, нераспознанном документе. Таким образом, в MS Word XML наряду с текстовыми данными сохраняются еще и ссылки на preview-изображение отсканированного оригинала.

ABBYY FineReader 7.0 распознается все!
Bо время редактирования распознанного текста в Microsoft Word 2003 благодаря поддержке формата MS Word XML на отдельной панели Zoom FineReader отображается соответствие текущего фрагмента отсканированному оригиналу
Последнее издание пакета от ABBYY содержит также улучшенные функции обработки pdf-файлов. Теперь, помимо растрирования (с помощью утилиты PDF2BMP) и дальнейшего распознавания обычными средствами, FineReader "научился" (благодаря собственной разработке ABBYY -- библиотеке PDF.dll), по мере возможности, находить текстовые фрагменты непосредственно в pdf-документе и затем, сопоставляя результаты, обеспечивать распознавание с вероятностью почти в 99%.

Не остались без внимания и другие традиционные форматы -- MS Word Doc и HTML. В настройках добавилась опция установки требуемого разрешения изображений. Для Doc увеличилось количество различных разделителей (постраничных, поблочных и т. п.), а при сохранении в HTML FineReader пытается придать файлу вид исходной верстки, разделяя картинки со сложным текстовым обтеканием на несколько частей.

Кроме того, к обширному списку поддерживаемых форматов прибавился еще один -- Microsoft PowerPoint.

Среди появившихся новых графических форматов следует отметить стремительно набирающий популярность JPEG 2000.

Персональное издание FineReader (Professional) пополнилось некоторыми возможностями, ранее доступными лишь пользователям корпоративной версии. Среди них -- модули распознавания штрихкодов, разбиения отсканированного изображения на несколько страниц, содержащих однотипные блоки (например, визитные карточки), а также поддержка индексации пакета распознанных документов и морфологического полнотекстового поиска.

Конечно, многие усовершенствования, например различные обновления пользовательского интерфейса или детальные настройки форматирования, остались, что называется, "за бортом" данного обзора по причине его ограниченных рамок. Но те, кого заинтересует более детальная информация, могут обратиться на сайт разработчиков -- www.abbyy.ru.