Интеллектуальная обработка документов. Tesseract, Google Vision API и elDoc: сравним решения

Быстро и эффективно обработать огромный поток документов, содержащих зачастую неструктурированные данные, — с такой потребностью сталкивается сегодня любой бизнес в любом уголке мира. Обрабатывать вручную — долго, затратно и невыгодно. Автоматизировать этот процесс позволяет интеллектуальная обработка документов (Intelligent Document Processing, IDP). Какие же возможные решения могут применяться для этого? Каковы их основные преимущества и недостатки?

Для примера возьмём три решения, с помощью которых попробуем на практике верифицировать различные возможности обработки документов, — Tesseract, Google Vision API и elDoc.

Для решения типичных повседневных бизнес-задач по обработке документов с неструктурированными данными обычно требуется:

идентифицировать отдельные необходимые поля в документе;
извлечь и распознать их целевые значения;
структурировать полученные данные для дальнейшего использования в рамках автоматизации бизнес-процесса.

Задача может быть значительно усложнена, если документ является многостраничным, с большим объёмом данных, а требуется распознать и извлечь только определённый тип данных (например, значение отдельных целевых колонок таблиц). Или же когда требуется обработать файл, содержащий несколько совершенно разных типов документов с разной структурой полей и данных, которые должны быть извлечены и в дальнейшем обработаны согласно определённой логике в разрезе каждого типа документа.

Рассмотрим в качестве тестовой задачи извлечение конкретных данных из сертификата об образовании и сервис-отчёта. Со сканированного сертификата необходимо извлечь следующие поля: номер, имя и фамилию обладателя, перечень предметов и оценки. В свою очередь, из сервис-отчёта — название и код компании, дату, номер счета, ID оборудования, тип и модель оборудования. Задачу усложним тем, что файл с сертификатом будет содержать также многостраничный сервис-отчёт.

Итак, начнём с Tesseract, который представляет собой ПО для OCR и сегодня считается одним из самых мощных open-source решений для распознавания данных со сканированных документов. Он поддерживает более 100 различных языков, что делает его универсальным и широко распространённым решением во всём мире. Многие технологические компании используют Tesseract в основе для построения комплексных решений по интеллектуальной обработке данных.

Последняя версия Tesseract основана на моделях машинного обучения, что позволяет достигать высоких результатов по качеству распознавания. Однако Tesseract позиционируется только как решение для распознавания всех данных (plain OCR) и не заточен под возможности идентифицировать и извлекать из документа конкретные поля / данные, а также обрабатывать многостраничные документы либо файлы, содержащие несколько документов, классифицировать последние по типу и отбирать из них нужные данные.

Для начала отправим на обработку с помощью Tesseract многостраничный PDF-документ, одностраничный отчёт в формате JPG (пример No1), а также одностраничный сертификат об образовании в формате JPG (пример No2).

Пример работы Tesseract No1:

Как видим, Tesseract не поддерживает обработку документов формата PDF и, как следствие, не смог обработать наш многостраничный PDF-документ. Одностраничный документ в формате JPG Tesseract обработал, однако не все поля распознаны корректно: Tesseract распознал и извлёк все значения, а не целевые.

Пример работы Tesseract No2:

В этом примере Tesseract распознал данные довольно неплохо. Однако учитывая сложность изображения (если посмотреть при увеличении, фон сертификата также содержит текст), Tesseract извлёк и распознал фон как часть текста, а также извлёк все без исключения данные, а не требуемые в исходных условиях.

Преимущества Tesseract:

мощный OCR-движок, способный с высокой точностью распознавать данные со сканированных / сфотографированных документов, предоставляющий довольно высокий уровень качества распознанных данных;
open-source решение, не требующее никаких финансовых вложений.

Ограничения Tesseract:

обработка документов формата PDF не поддерживается;
результаты распознавания представлены набором текста без уникальной связи между названиями требуемых полей и их значениями;
нет возможности задавать и получать из документа только интересующие значения, игнорируя остальные данные;
нет возможности улучшать качество исходного документа и очищать текстовый фон документов;
нет возможности передавать Tesseract файл, содержащий несколько документов разного типа и формата для дальнейшей классификации документов;
нет возможности обрабатывать многостраничные документы с последующим извлечением конкретных данных;
нет возможности проверять правильность данных в случае, если уровень (%) доверия к распознанному тексту ниже ожидаемого / установленного;
нет возможности отслеживать очередь загруженных документов при массовой обработке документов;
нет возможности просматривать результаты распознавания, статус обработки, очередь в удобном для бизнес-пользователя формате.

Google Vision API — облачный сервис, специально разработанный для глубокого анализа и извлечения данных из изображений, обладающий высокой точностью распознавания. Инструмент основан на мощных моделях машинного обучения.

Пример работы Google Vision API No1:

Как видим, Google Vision API (в рамках demo-доступа) не поддерживает обработку документов формата PDF, поэтому нам пришлось разбить документ на одностраничные файлы в формате JPG.

Пример работы Google Vision API No2:

Здесь Google Vision API, как и Tesseract, распознал фон документа как часть текста, что значительно усложняет его дальнейшую обработку. Данные получились структурированы немного лучше, чем через обработку Tesseract, но всё ещё не в целевом формате.

Примечание: анализ основывается на использовании общедоступной (trial) версии Google Vision API.

Преимущества Google Vision API:

мощный инструментарий, построенный с использованием технологии машинного обучения для глубокого анализа изображений;
доcтаточно высокий уровень распознанных данных.

Ограничения Google Vision API:

если необходимо обработать многостраничный PDF-документ, размещённый на локальном диске, потребуется разбить его на отдельные страницы, конвертировать их в формат .PNG/.JPEG и отправлять на обработку одну за другой;
результаты распознавания представлены без связи между названиями целевых полей и их значениями. Распознанные данные расположены в разных блоках как независимые текстовые значения либо представлены одной строкой совместно с другими, не существенными данными. Это значительно усложняет процесс извлечения целевых значений и дальнейшую автоматизацию бизнес-процессов в целом;
нет возможности обрабатывать многостраничные документы с последующим извлечением конкретных данных;
нет возможности проверять правильность данных в случае, если уровень (%) доверия к распознанному тексту ниже ожидаемого / установленного;
нет возможности отслеживать очередь загруженных документов при массовой обработке документов;
нет возможности просматривать результаты распознавания, статус обработки, очередь в удобном для бизнес-пользователя формате.

elDoc — интегрированная интеллектуальная платформа для автоматизации процессов документооборота и обработки документов, которая включает elDoc IDP — высокотехнологический модуль для интеллектуальной обработки документов, разработанный с применением когнитивных технологий и комплексных математических моделей (AI based). В основе elDoc для распознавания данных также используется Tesseract последней версии, основанной на нейронных сетях и машинном обучении.

Пример работы elDoc:

В elDoc мы загружаем файл, содержащий несколько документов разных форматов (сертификат и многостраничный сервис-отчёт), — задача, которая, собственно, и была поставлена изначально. Как видим, платформа elDoc выполнила следующие операции:

автоматически произвела очистку изображения, улучшив качество документа, где это возможно (выравнивание, нормализация фона);
автоматически классифицировала документы по типу (сертификат, многостраничный сервис-отчёт);
извлекла и распознала нужные поля в документе с определением уровня доверия к данным (confidence level).

Итак, какие выводы можно сделать? Для решения задач, где требуется распознавание всего текста, содержащегося в отсканированных / сфотографированных документах, и конвертация его в редактируемый / структурированный формат, наиболее подходящими будут такие решения, как Google Vision API, Tesseract и другие подобные. Эти решения также могут служить идеальным базисом для построения комплексных систем обработки данных.

В тех же случаях, когда целью является полная автоматизация процесса обработки документов с неструктурированными данными (в частности, где требуется извлечение отдельных целевых данных для дальнейшей конвертации в определённый формат, их структурирование для последующего использования и обработки согласно установленной бизнес-логики с возможностью проведения верификации, хранения документа и управления всем жизненным циклом документа), — применяются более комплексные автоматизированные решения — интегрированные интеллектуальные платформы для обработки документов (Intelligent Integrated Platform for Document Processing) и когнитивного машинного чтения (Cognitive Machine Reading, CMR).

Чтобы справиться со всеми этими задачами, одной технологии OCR недостаточно. Равно, как и в случаях, когда нужно провести нормализацию (предобработку) картинки с низким качеством изображения, очистить её от фона и ненужных артефактов с целью лучшего распознавания текста. Здесь нужны комплексные решения, которые включают в себя такие когнитивные технологии, как Intelligent OCR, OMR, ICR, Computer Vision и позволяют не только выполнить вышеуказанные задачи, но и дают возможности полной, комплексной автоматизации процессов обработки документов — от начала инициации процесса до размещения документа в электронном архиве.

Стратегія охолодження ЦОД для епохи AI