`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Невидимые технологии – интеллектуальный ввод данных

Статья опубликована в №12 (723) от 6 апреля

–22
голоса

Согласно данным Gartner, 85% всех документов, использующихся в бизнесе, – это формы. Автоматизировав их ввод, можно в пять раз сократить объем ручного труда, а также повысить качество данных, что, безусловно, существенно влияет на деятельность компании. Рассмотрим вкратце технологии, которые позволяют выполнить эту задачу.

Документы, формы, поля

В сфере ИТ для бизнеса нередки случаи, когда наиболее полезными оказываются не широко разрекламированные технологии, а те, которые можно охарактеризовать как незаметные. Это неочевидно, но так получается, что именно инструменты-невидимки, не находящиеся на слуху у общественности, позволяют без особых усилий автоматизировать ручные рутинные операции и добиться ощутимого с точки зрения оптимизации эффекта. К ним по праву можно отнести средства интеллектуального ввода данных (intelligent data capture) или интеллектуального распознавания документов (intelligent document recognition), предназначенные для полного извлечения информации из бланков (как в бумажном, так и в оцифрованном виде).

Невидимые технологии – интеллектуальный ввод данных
ABBYY FlexiCapture позволяет создать на предприятии единый центр ввода документов, в котором будут обрабатываться все документы независимо от структуры

Напомним, что бланк или форма – это документ, имеющий установленную структуру и предназначенный для сбора определенной информации. Его ключевым признаком является наличие четко обособленных полей, пояснительных надписей, а также ряда служебных элементов. Существует два основных вида форм – жестко и слабо структурированные. В первом случае все документы построены одинаково, расположение и размер полей в них фиксированы. К таковым, например, относится квитанция об оплате за квартиру. Во втором мы имеем дело с документами, для которых нормативом закреплено, какие поля в них должны быть, но их расположение и размеры четко не определены. Подобные формы называют еще гибкими и они наиболее распространены. Это идентификационные документы людей (паспорта, удостоверения, справки), всевозможные отчеты в органы государственной власти, анкеты и пр.

В процессе обработки

Обработка жестко структурированных форм основывается на геометрических координатах полей. Как результат, их удобнее и быстрее вводить методом наложения предварительно разработанного шаблона. С гибкими формами при аналогичном подходе возникают известные затруднения, не в последнюю очередь поэтому работа с ними – область, которая сейчас развивается наиболее бурно. Рассмотрим процесс обработки типичного слабоструктурированного документа – счета-фактуры.

Первый шаг – необходимо понять, с каким именно документом мы имеем дело. Если это счет, из него требуется извлечь реквизиты получателя денег и сразу же проверить, есть ли полученное лицо и товар в БД соответствующего финансового приложения. Следующий этап – проверить цену и то, как она соотносится с предыдущими ценами на данный товар. Нужно также пересчитать, совпадает ли сумма.

В Украине, кроме таких традиционных задач, возникает и проблема определения налоговых реквизитов получателя средств (СПД на общих основаниях, ЧП или фирма с 6%-ным налогом). От этого зависят валовые расходы по данному счету и доход предприятия. Расходы по одному и тому же документу с одними и теми же суммами в зависимости от налоговых реквизитов могут варьироваться в пределах 20%. У нас также необходимо проверить правильность расчета НДС (если она неверна, это лучше выявить как можно ранее).

Есть разные способы решения данной задачи. Соответствующие технологии обеспечивают такие инструменты, как EMC Captiva, Open Text Capture Center, Kofax Intelligent Capture & Exchange, ABBYY FlexiCapture Studio и др. Рассмотрим работу последнего как наиболее распространенного в нашей стране.

Специалистами ABBYY создан метод обработки гибких форм, заключающийся в логическом исследовании геометрически неопределенной структуры документа. Реализующая его технология называется FlexiCapture, а продукт, в котором она воплощена – FlexiCapture Studio. Проводя анализ документа, система определяет расположение и вид полей по признакам, заранее описанным пользователем. Допустим, требуется найти на форме и распознать содержимое поля «ИНН». В шаблоне указано, что признаком искомого поля являются буквы «ИНН», справа от которых имеется известное количество знакомест. Тогда ПО обнаружит нужную комбинацию букв и без проблем справится с вводом соответствующей информации.

Для описания структуры и правил анализа документов произвольной формы применяется специальный метаязык. Его возможности достаточно широки, чтобы охватить подавляющее большинство форм, используемых в настоящее время. FlexiCapture Studio позволяет формировать на нем гибкие шаблоны, не прибегая к программированию. Разработчик шаблона «обучает» программу искать нужные поля. Для этого в терминах FlexiCapture Studio создается характеристика расположения каждого поля формы через задание параметров его окружения: стационарного текста, рисунков, разделителей, белых пятен и т. д. ПО опираясь на описание, находит на форме все объекты такого рода и выбирает наиболее совпадающий с ним вариант.

Потребители – кто они?

Невидимые технологии – интеллектуальный ввод данных
По словам Дмитрия Фомина, вся исходная информация поступает в Киевгаз на квитанциях из банков. С помощью технологий извлечения данных из вручную заполненных квитанций о потреблении газа компании удалось запустить процесс учета с минимальными инвестициями

Там, где применяются формы, востребованы и средства интеллектуального ввода данных, а они повсюду. Очень активно пользуются формами государственные учреждения, например Государственная налоговая администрация Украины или Пенсионный фонд Украины. В первом случае в виде заполняемых от руки форм составлены налоговые декларации, во втором – анкеты пенсионного обеспечения.

Столь же часто формы находят применение и в бизнесе, в особенности в финансовых структурах. Страховые компании получают разнообразные виды документов форм от своих клиентов: заявления на выдачу полиса, возмещение ущерба и т. д. В последнее время здесь стали активно бороться с мошенничеством. Предполагается, что страховой случай генерирует 10–20 документов, проверка совпадений данных в разных документах – весьма ресурсоемкая задача. Без ее автоматизации затраты времени сотрудников и клиентов могут быть непомерно велики.

Весьма распространена процедура сбора данных при помощи форм в банковском деле. Например, технологии извлечения данных из бумажных документов используются в «Райффайзен Банке Аваль» уже около пяти лет. Они нашли применение в двух процессах – распознавании платежных поручений и данных для выдачи пластиковых карт, что позволяет увеличить качество и скорость предоставления услуг клиентам, особенно в ситуациях пикового увеличения количества документов (в Киеве находится одно из самых высоконагруженных отделений в стране).

Очевидно, анкеты и технологии их обработки весьма уместны в образовательной сфере. Возьмем, к примеру, контроль качества знаний при помощи тестов. Независимое тестирование знаний выпускников украинских школ – это необходимый и важный шаг для обеспечения равного доступа к образованию в высших учебных заведениях. «Благодаря использованию технологий извлечения написанных вручную данных из тестовых заданий выпускников украинских школ мы ежегодно всего за месяц обрабатываем тесты около полумиллиона выпускников нашей страны (а это миллионы страниц)», – рассказал заместитель директора Украинского центра оценивания качества образования Владимир Винник. По его словам, за все время существования проекта не было ни одного сбоя, ни одной задержки с обработкой данных. Без использования технологий автоматического распознавания независимое оценивание потребовало бы привлечения тысяч людей по всей стране.

А есть еще торговые заказы, отправляемые по почте, рекламные купоны на участие в розыгрыше призов, медицинские формы, квитанции об оплате коммунальных услуг. В последнем случае на ум приходит пример Киевгаза. Два года назад здесь остро встал вопрос об учете оплат за газ абонентами. «Вся исходная информация поступает к нам на квитанциях из банков. С помощью технологий извлечения данных из вручную заполненных квитанций о потреблении газа нам удалось запустить процесс учета с минимальными инвестициями», – поделился информацией Дмитрий Фомин, заместитель директора департамента ИТ ОАО «Киевгаз».

Не стоит забывать и о других отраслях. Технологии интеллектуального ввода данных представляют интерес и, скажем, для маркетинговых агентств, которые вынуждены постоянно обрабатывать большое количество опросных листов. В общем, список практически неисчерпаем. Увы, уровни применения форм и потребления технологий их интеллектуальной обработки в нашей стране пока далеки от равных. Рынок только начинает зарождаться.

–22
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT