`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

SOA и потоковый ввод документов

Статья опубликована в №33 (601) от 4 сентября

+11
голос

Сервис-ориентированная архитектура (Service-Oriented Architecture, SOA) сегодня, что называется, на слуху. Но вместе с тем так же, как в притче о трех слепцах, выяснявших, как выглядит слон, и делавших при этом разные предположения, каждый пока представляет SOA по-своему. Действительно, потенциальных применений у данного подхода много, немало существует и способов его использования в зависимости от ситуации. Сегодня мы рассмотрим его в контексте потокового ввода документов (document capture), под которым понимается комплекс мероприятий по переводу бумажных документов в электронный вид для хранения и обеспечения доступа к ним.

У SOA, по мнению большинства экспертов, светлое будущее. Эта идея – нечто вроде очередного святого Грааля для IT, поскольку обещает обеспечить «жизнь вечную» – гибкую и восприимчивую к любым изменениям реализацию бизнес-процессов без усложнения управления информационной инфраструктурой предприятия или повышения ее стоимости.

Основа SOA – сервис, который представляет собой самоописываемую, независимую функциональную единицу, взаимодействующую с другими через интерфейсы. Он может реализовываться несколькими способами, но фундаментальным и наиболее распространенным является вариант Web-службы – модульного приложения, которое предоставляет одну или ряд функций другим системам через стандартное интернет-соединение. Еще проще представить это в виде некоего Web-сайта, ориентированного не на пользователя, а на программное обеспечение. Автоматически «обнаружив» такой ресурс, ПО получает какую-либо информацию, обмениваясь с ним сообщениями по протоколу Simple Object Access Protocol (SOAP) в XML-формате. Самоописываемой Web-службу делает применение языка Web Services Description Language (WSDL), определяющего операции, которые она позволяет выполнять, и то, как получить к ним доступ.

Рассмотрим пример. Допустим, представитель отдела по работе с клиентами в страховой компании получает от обслуживаемых лиц звонки с вопросами, которые касаются возбуждения исков о возмещении убытков. Первое, что нужно сделать, приняв сообщение, – проверить указанные в нем сведения на их соответствие условиям договора. В SOA-среде это делается следующим образом. Через ПО управления клиентами автоматически находится сервис проверки приемлемости требований, и ему отправляется XML-сообщение с идентификатором заявителя. Далее сервисом запускается сама программа определения, возвращающая утвердительный или отрицательный ответ. Вся процедура занимает считаные секунды.

Примечательно в Web-сервисах, без сомнения, то, что они могут располагаться в том же здании, что и локальная сеть, или на другом конце земного шара и быть доступными через Интернет. Немаловажно, что они, являясь, по сути, лишь интерфейсом к некоторой функциональности, позволяют сравнительно легко объединять архитектурно разные платформы без потребности в переписывании ПО. Если вернуться к приведенному примеру, программа проверки может находиться и на мэйнфрейме, и на сервере. И наконец, последнее, что хотелось бы отметить: при использовании архитектуры, ориентированной на сервисы, службы можно создавать и изменять постепенно, при этом не затрагивая всю систему целиком.

Потоковый ввод как сервис

Итак, если удел Web-сервисов – взаимодействие с ПО, а не с людьми, а обработка бумажных документов – пользовательская задача, то могут ли для этого применяться принципы SOA? Оказывается, да. Процедуру потокового ввода традиционно составляют такие действия:

  • сканирование или считывание ранее полученных изображений с диска или факс-сервера;
  • обработка, включающая увеличение контраста изображения, распознавание, идентификация документа, его компоновка, автоматическая проверка данных и пр.;
  • определение правильности распознавания и индексирование документа;
  • экспорт (выпуск) индексных данных и изображения.

Большая часть работ осуществляется без участия пользователя: считывание изображения, распознавание, проверка данных и экспорт. Эти действия – главные кандидаты на доступ через Web-сервис. Для выполнения каждой задачи необходимо лишь поочередно отправлять данные на вход соответствующим сервисам. Однако при таком подходе количество последних может выходить за разумные пределы, что, в свою очередь, грозит трудностями и с поддержкой, и с их применением.

SOA и потоковый ввод документов
Rulerunner от компании Datacap – одна из первых сервисных реализаций потокового ввода документов

Поэтому был предложен несколько иной способ осуществления потокового ввода. Несмотря на то что, казалось бы, чуть ли не каждая отдельная, не сопровождаемая активность претендует на сервисное воплощение со всеми необходимыми параметрами, содействовать этому не стоит хотя бы потому, что результирующая система будет характеризоваться весьма сложной (и, соответственно, негибкой) моделью применения. Намного легче иметь в распоряжении один-единственный сервис, который может принять изображение документа вместе с четкими инструкциями по его обработке. То есть речь идет о Web-службе общего назначения, получающей правила «захвата» и неукоснительно руководствующейся ими для выполнения всей работы над присланным ей документом. Очевидно, что наиболее полезное свойство подобного сервиса заключается в его «отдаленности» от конкретных платформ потокового ввода – он выступает в роли промежуточного звена между пользователем и системой преобразования файлов. Таким образом, один и тот же сервис может применяться в распределенных и гетерогенных средах обработки файлов. Кроме того, внесение изменений в такую Web-службу, к примеру добавление новых типов документов, требует всего лишь конфигурирования новых правил.

Естественно, при выборе решений следует отдавать предпочтение тем, которые обладают наиболее богатыми возможностями – из них можно будет создать уникальную систему обработки документов, которая наилучшим образом отвечает требованиям предприятия.

Это только начало

Количество компаний, которые прибегают к SOA для выполнения ECM-задач для уменьшения эксплуатационных расходов и облегчения поддержки их корпоративных решений, медленно, но растет. Тем не менее стоит заметить, что если концепция сервис-ориентированной архитектуры все еще может считаться молодой, то SOA в деле обработки документов – и подавно. Развитие здесь идет полным ходом. Сегодня мы являемся свидетелями того, как все сильнее стирается грань между комплексом потокового ввода и ECM ввиду того, что первый становится все больше похожим на платформу для обработки документов. Скажем, сейчас ничто не мешает взять файл в формате TIFF, находящийся в хранилище данных, и с помощью специального правила преобразовать его в PDF с возможностью поиска. Еще один пример того, как посредством SOA придать гибкости системе управления документооборотом – создать выделенный сервис, следующий правилам по маршрутизации потоков. Он оказался бы предпочтительней использования встроенных скриптовых языков.

Решение от ABBYY

Продукт ABBYY Recognition Server 1.0 обеспечивает возможности использования сервисов в потоковом вводе. Он представляет собой серверное приложение для распознавания документов и конвертирования файлов в/из формат PDF. Данное ПО может применяться и как полноценное решение, и как составная часть системы электронного документооборота. Recognition Server, по словам разработчиков, обеспечивает не только быстрое и качественное распознавание массивов изображений, но и централизованное управление процессами, а также такие свойства потокового ввода документов, как надежность, гибкость и масштабируемость.

Архитектурно ПО реализовано в виде набора сервисов ОС Windows. Основным компонентом программы является так называемый управляющий сервис, который осуществляет прием изображений, контролирует очередь заданий и публикует результаты распознавания в заданные каталоги. Помимо него, имеются сервисы-исполнители, непосредственно выполняющие обработку данных. Благодаря применению сервис-ориентированной архитектуры приложение обладает хорошим уровнем масштабируемости – к одному управляющему сервису можно легко подключить множество сервисов-исполнителей, при этом производительность обработки будет оставаться на должном уровне (до нескольких сотен страниц в минуту).

В скором времени ожидается выход следующей версии продукта. ABBYY Recognition Server 2.0 сможет функционировать не только как Windows-сервис, но и как Web-служба, т. е. будет взаимодействовать с другими приложениями посредством XML по SOAP-протоколу. Интерфейс Web-службы позволит передавать программе из удаленных систем изображения и набор правил его обработки: приоритет задания, язык распознавания, набор выходных форматов и пр. Решение будет выполнять работу, руководствуясь этими инструкциями, и возвращать результат cистеме-клиенту также через свой интерфейс.

Новые возможности ABBYY Recognition Server сделают процедуру его интеграции в информационную инфраструктуру предприятий более быстрой и легкой. Используя продукт, компании, применяющие модель доставки ПО по запросу (Software as a Service), смогут предложить своим клиентам услуги по выполнению OCR.

+11
голос

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT