`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

FineReader 9: объект распознавания – документ

Статья опубликована в №42 (610) от 6 ноября

+11
голос

ABBYY FineReader на протяжении многих лет занимает лидирующие позиции на украинском рынке OCR-систем, отличаясь не только собственно качественным распознаванием символов, но и широкой языковой поддержкой, и рядом вспомогательных функций. А недавно выпущенная 9-я версия продукта предлагает новый подход к распознаванию сложных документов.

FineReader 9 объект распознавания – документ

Конкуренция на рынке OCR-систем довольно высока. Ни многоязычной поддержкой, ни дополнительными возможностями вроде распознавания копий экрана, штрихкодов и т. п. опытного пользователя сегодня уже не удивишь. Если пару лет назад актуальна была обработка изображений с низким разрешением, прежде всего фотографий, то современные продукты прекрасно справляются с 200 dpi (лист А4, снятый 4-мегапипксельной камерой), и проблема утратила свою остроту.

В то же время интерес к OCR-системам в мировом масштабе повышается. Так, согласно данным агентства Harvey Spencer Associates, рынок ПО для ввода документов в 2006 г. составил 1,3 млрд долл., а учитывая нынешние темпы роста (16%), к 2010 г. он достигнет 2,5 млрд долл., т. е. фактически удвоится. На фоне такой динамики в условиях высокой конкуренции вполне естественно выглядит развитие существующих продуктов в совершенно новых направлениях.

К примеру, в ABBYY обратили внимание на то, что даже качественно распознанный документ все равно в той или иной мере требует корректировки вручную, и решили сократить объем такой работы. В результате в FineReader 9 появилась новая адаптивная технология распознавания документов (ADRT) – плод пятилетних исследований. Представители компании особо подчеркивают, что отныне их OCR работает не просто с текстом, а именно с целыми документами.

Это важный шаг. Вспомним: OCR-системы эволюционировали от задачи распознавания отдельных символов. В самых первых применялось преимущественно распознавание по маске – программа сравнивала изображение символа с некими эталонами. Затем эти алгоритмы были модернизированы за счет использования методов оценки гипотез, отталкивающихся от графических элементов (точек, прямых, дуг и пр.), формирующих символ. В дальнейшем появился механизм контекстного анализа, который уже пытался «угадать» не отдельные символы, а целые слова. Для этого потребовались словари и морфологические инструменты для различных языков. Следует отметить, что словарная поддержка в OCR-системах не ограничивается проверкой орфографии, а в первую очередь используется именно для принятия решения о верности распознавания. Следующим шагом стала интерпретация макета страницы (т. е. выявление графических элементов, таблиц, колонок и определение их взаимного расположения) и его воссоздание в электронной форме.

И вот наконец OCR-системы добрались до уровня документа, в общем случае представляющего собой некоторым образом упорядоченный набор информации. Ведь все элементы макета и формата предназначены прежде всего для того, чтобы выделить главные фрагменты, задать определенный порядок чтения и т. п. (т. е. сформировать логическую структуру). Большинство современных продуктов достаточно уверенно идентифицируют только физическую структуру, а FineReader 9 одним из первых старается воспроизвести на ее основе логическую структуру и воссоздать ее в выходном документе в виде специфических объектов.

FineReader 9 объект распознавания – документ
Простой интерфейс и фоновая обработка позволяют быстро получить результат

Для этого ADRT анализирует многостраничный документ, выявляя элементы форматирования и макета, а также их характеристики. Она умеет идентифицировать обычный текст (учитывая шрифты и стили), колонтитулы и номера страниц, заголовки, таблицы, подписи (к рисункам, таблицам), сноски и пр. На основании этих данных строится модель структуры документа, применяемая затем для формирования выходного файла, в котором все специфические элементы воспроизводятся как объекты соответствующих типов (к примеру, нумерация страниц задается полем). ADRT даже умеет объединять таблицы и разделы, размещенные на нескольких страницах, так, что в результате они будут представлены как единое целое. Поскольку все фрагменты распознаваемого текста идентифицируются как некие объекты, в выходном файле программа применяет к однотипным элементам единый стиль, таким образом максимально упрощая последующее форматирование.

Впрочем, ADRT – хотя и самое важное усовершенствование FineReader 9, но далеко не единственное. Прежде всего, безусловно, пользователь обратит внимание на существенные изменения в интерфейсе программы. Честно говоря, и предыдущий был достаточно дружественным, однако новый специально проектировался в расчете на то, чтобы минимизировать количество вызовов вспомогательных инструментов и команд. Скажем, при запуске программы появляется меню из стандартных сценариев (напомним, они были еще в прошлой версии). Кроме того, увеличена рабочая область окна, а все средства доступа к тонким настройкам вынесены на боковую панель. В процессе распознавания программа предлагает интерактивные подсказки, в которых не только определяет области, где есть возможность повысить качество результата, но и указывает необходимые для этого шаги.

По умолчанию все открываемые файлы сразу анализируются и распознаются, а фоновый режим позволяет оперативно корректировать уже готовые страницы. Кроме того, в FineReader 9 реализована автоматическая обработка фотографий документов. Программа самостоятельно идентифицирует изображение как цифровое фото, определяет разрешение, выполняет предварительную обработку (выделение страниц и выпрямление строк), а затем и собственно распознавание.

Из «приятных мелочей» можно также упомянуть автоматическое определение языка текста (вплоть до отдельных фраз внутри абзаца, которым назначаются соответствующие языковые параметры), а также специальный режим для юридической документации, обеспечивающий снятие максимально точной копии – в частности, сохраняется нумерация строк и выявляются блоки подписей, которые автоматически и без изменений переносятся в распознанный документ. Полезной окажется и поддержка современных XML-форматов DOCX и XLSX, а также нового стандарта долговременного архивирования PDF/A.

На первый, но весьма пристальный взгляд, при сохранении в целом прежнего (довольно высокого) качества собственно распознавания, FineReader 9 действительно существенно точнее воссоздает оформление документов. В количественных же показателях, вероятно, можно положиться на разработчиков, которые обещают улучшение на 19% для юридических бумаг, на 22% – для книг и на 32% – для газет и журналов.

Впрочем, есть у программы и недостатки. Основное наше нарекание касается работы с картинками. Скажем, нередко сложное изображение трактуется как несколько расположенных рядом или воспринимается как текст на подложке, соответственно распознается и затем размещается самым необычным образом. Безусловно, предварительная ручная обработка благоприятно сказывается на качестве результата, однако, во-первых, это неудобно, если процесс нужно автоматизировать, а во-вторых, до сих пор не реализована совершенно очевидная опция: проводить анализ макета страницы за исключением графических блоков, ранее выделенных пользователем.

FineReader 9 объект распознавания – документ
Многочисленные настройки дают возможность оптимизировать все этапы работы – от сканирования до сохранения

В ногу со временем FineReader 9 поддерживает Windows Vista, имеет 64-битовую версию, встраивается в Microsoft Office 2007. Программа написана с использованием многопотоковых технологий и оптимизирована для работы на многоядерных процессорах. По оценке создателей, скорость обработки повышается в 1,6 и 3,2 раза соответственно на 2- и 4-ядерных процессорах Intel. Корпоративные версии умеют отслеживать поступление файлов и конфигураций в отдельные папки и выполнять их распознавание автоматически по расписанию.

FineReader 9.0 Professional Edition для индивидуальных пользователей, малых и средних организаций уже выпущена в продажу по цене 648 грн. На начало ноября запланирован выход бесплатного обновления с поддержкой украиноязычного интерфейса.

Версия для корпоративных пользователей Corporate Edition, включающая инструменты совместной работы и возможности распределенного выполнения операций в сети, поступит в продажу в ноябре по цене от 1296 грн. Компания предлагает схемы лицензирования с учетом числа рабочих мест.

+11
голос

Напечатать Отправить другу

Читайте также

Исправьте ссылки на картинки.

Спасибо, поправили.

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT