`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

INFTY: OCR для математиков

0 
 

Программы, предназначенные для подготовки научных публикаций с использованием формул и специальной символики, представляют традиционный интерес для многих категорий пользователей. Тем более что нередко за ними стоят годы научных изысканий, а их возможности поначалу кажутся просто невероятными...

Проект INFTY, о котором пойдет речь, занимает в ряду ПО для работы с научной символикой уникальное место. Он объединяет ученых из нескольких японских университетов и разработчиков из CAI System Corporation, работающих над проблемой распознавания отсканированных образов текстов, содержащих математические формулы и специальные обозначения. Основными результатами их деятельности являются текстовый редактор InftyEditor, поддерживающий ввод формул, и модуль InftyReader, позволяющий переводить изображение, загружаемое из графического файла либо непосредственно со сканера, в текстовый формат для последующего редактирования (в том же InftyEditor) и сохранения. Обе программы распространяются свободно и доступны для загрузки с узла проекта, там же читатель, интересующийся технологиями распознавания математических формул, найдет весьма содержательную подборку публикаций по данной тематике. Предлагаемые сегодня версии предназначены для платформы Windows, но в будущем не исключена поддержка и других популярных ОС.

Нужно сказать, что хотя OCR-системы давно стали привычными продуктами на рынке программного обеспечения и успешно используются для обработки текстов, анкет, табличных данных, штрихкодов и пр., распознавание математической символики до сих пор является в целом нерешенной проблемой из-за сложной структуры формул и, соответственно, необходимости применения весьма изощренных алгоритмов их интерпретации. INFTY на сегодня является безусловным лидером в этом направлении и чуть ли не единственным проектом, имеющим в своем арсенале готовые инструменты – остановимся на них подробнее.

Программу InftyEditor мы затронем лишь вкратце, поскольку в данном контексте она имеет второстепенное значение. В общем это достаточно многофункциональный текстовый редактор с поддержкой трех режимов для ввода обычного текста, математических формул и традиционных команд TeX (которые самим редактором не интерпретируются) – последний можно рассматривать в качестве основного при подготовке математических публикаций. Документы сохраняются в форматах HTML, MathML и специальной нотации Karlsruhe AMS, а также в собственном *.iml-формате на базе XML, кроме формул, в них также допускается вставлять изображения в форматах BMP, TIFF, JPG, PNG. Помимо клавиатуры для ввода формул, в InftyEditor может использоваться инструмент Handwriting Input Pad, который позволяет рисовать символы с помощью мыши (графического планшета), распознает их и вставляет в документ.

Теперь обратимся к наиболее интересному компоненту – InftyReader. Обычно этот OCR-модуль вызывается непосредственно из среды InftyEditor, хотя предусмотрен и режим его запуска из командной строки – однако он менее удобен. Обрабатываемое изображение традиционно вводится либо непосредственно со сканера, либо из графического файла в формате TIFF или PNG с разрешением в диапазоне 300–600 dpi.

INFTY OCR для математиков
При корректировке распознанного текста можно оперативно сверяться с электронным оригиналом – как и в лучших коммерческих OCR-системах

Последующий процесс распознавания состоит из четырех фаз: анализа макета страницы, распознавания формул и текста, структурного анализа математических выражений и ручной коррекции. Возможно, для большинства пользователей детали не особо важны, но мы все же кратко поясним смысл каждого из перечисленных этапов. Анализ макета состоит в переводе изображения во внутренний цифровой формат, очистке его от «цифрового мусора» и выявлении составных элементов страницы – таблиц, рисунков, текстовых блоков. На этапе распознавания происходит отделение текста от математических формул. Структурная фаза сводится к анализу математических формул и представлению их в некотором внутреннем формате, пригодном для отображения на экране и экспорта во внешний файл. Отметим, что хотя главной функцией InftyReader является именно распознавание формул, приложение также обрабатывает обычный текст и в результате создает цельный документ, максимально соответствующий оригиналу. Наконец, ручная коррекция позволяет исправить ошибки распознавания и добавить новые данные. Как и в большинстве OCR-систем, в этом режиме предусмотрена согласованная прокрутка исходного изображения и распознанного текста.

Естественно, оригинальность InftyReader обеспечивается специальными алгоритмами, работающими на каждом из упомянутых этапов и скрытых от глаз пользователя. Соответственно, в первую очередь мы должны оценивать этот продукт именно с точки зрения возможностей его практического использования. Хотя немало современных научных изданий (особенно когда речь идет о периодике) существуют и в электронном виде, в большинстве случаев за них нужно платить так же, как и за обычные печатные версии. Аналогично очень немногие библиотеки могут сегодня похвастать качественными электронными архивами, что же до научных трудов, то в любом случае они обычно доступны лишь в виде графических копий страниц, что затрудняет цитирование и повторное использование математических выкладок.

Поэтому InftyReader вполне способен сослужить добрую службу студентам, ученым, сотрудникам библиотек и различных учреждений, просто энтузиастам, тем более что модуль демонстрирует довольно высокие показатели качества и скорости распознавания. Согласно данным разработчиков, усредненная доля ошибок (в тексте и формулах) не превосходит 1–2%, а скорость обработки изображений на современных компьютерах составляет несколько страниц в минуту. К сожалению, в настоящий момент InftyReader работает лишь с английским языком, поддержка других только планируется. Также можно посетовать на некоторую нестабильность работы InftyReader и InftyEditor, вполне, впрочем, характерную для некоммерческих разработок.

Нужно понимать, что проект INFTY, безусловно, относится к разряду экспериментальных, а все его проблемы в первую очередь обусловлены сложностью решаемых задач. Тем не менее его участникам уже удалось добиться заметных успехов, и результаты не только представляют научный интерес, но и способны сыграть свою роль в развитии и внедрении безбумажных технологий.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

0 
 

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT