Два дня в гостях у ABBYY

Офис и его обитатели

Чтобы лучше представить повседневную жизнь московского офиса ABBYY Software House, начнем с описания того места, где компания обосновалась. Площадь нового офиса -- 3500 м². Помещения расположены в двух зданиях, находящихся в пяти минутах ходьбы: в одном сосредоточен управляющий персонал, в другом -- разработчики. Структура офисов соответствует потребностям их обитателей. Менеджерам необходимы общие рабочие зоны, комнаты для совещаний, переговорные кабинеты и учебные классы, а программистам требуется некоторая изоляция и покой; их обеспечивает разбивка помещения на секции -- широко практикуемая в наши дни "демократичная" форма разграничения общего пространства.

Программистам требуется некоторая изоляция и покой; их обеспечивает разбивка помещения на секции -- широко практикуемая в наши дни "демократичная" форма разграничения общего пространства

В конференц-зале ABBYY началась основная презентация

Глава ABBYY Сергей Андреев провел небольшую экскурсию по центральному офису компании

Вадим Терещенко рассказывает об основных методиках распознавания, применяемых в FineReader

Своими корнями компания ABBYY уходит в образованную в 1989 г. Давидом Яном BIT Software. Несмотря на общность происхождения, украинский и московский офисы -- формально независимые структуры, а их стратегии существенно различаются. В то время как россияне уделяют основное внимание развитию своих технологий и продвижению их на новые рынки, ABBYY Ukraine (основанная, кстати, в 1995 г. как BIT Ukraine) сосредоточилась на доработке, интеграции и дистрибьюции продукции материнской компании. Ее доходы равномерно распределяются между продажами коробок и решений 1C и распространением программ ABBYY. Объединив изделия двух крупнейших в СНГ издателей ПО, фирма стала своеобразным мостом между российским и украинским рынками "отечественного" софта. Впрочем, "не коробками едиными"... Киевский офис ведет на удивление активную деятельность в области разработки, являясь создателем типовых украинских конфигураций для 1C.

Но вернемся к туру, программа которого открылась в офисе ABBYY. Сначала слово взял Сергей Андреев, CEO (Chief Executive Officer) ABBYY, совершив небольшой экскурс в историю компании. Затем последовали краткие презентации трех основных линеек продуктов. Выступали Вадим Терещенко, являющийся менеджером, ответственным за разработку FineReader, Арам Пахчанян, вице-президент компании, отвечающий за корпоративные проекты, и Алексей Проничев, занимающийся вопросами развития электронного словаря Lingvo. Интернациональная команда, должен отметить. Сергей родился в Красноярске, Арам -- в Ереване, а Вадим -- в Киеве. Единственная общая черта их биографии -- учеба в московском физтехе.

Одно из наиболее значительных изменений в публичном образе компании произошло в 1998 г., когда не вполне приемлемую аббревиатуру BIT (согласно Lingvo, beat -- "побитый", bit -- "мелкая монета") сменили на более звучное ABBYY. Хотя для англичанина это звучит как женское имя и смахивает на название шведской поп-группы; согласно оригинальному прочтению, "абби" означает "ясный глаз" на мяо-яо, языке сино-тибетского семейства.

В последние годы в число основных направлений бизнеса ABBYY вошли контракты с производителями аппаратного обеспечения. Редкий изготовитель сканера сможет отказаться от столь выгодного сотрудничества, и в 2003 г. по всему миру пользователи 10 млн. аппаратов внутри приобретенных коробок обнаружили компакт-диски с FineReader.

Новую сферу приложения талантов FineReader специалисты ABBYY открыли в 2001 г., когда компания C-Pen выпустила "авторучку", способную распознавать и переводить сосканированный текст. В миниатюрное устройство удалось поместить специально созданные для продукта версии FineReader и Lingvo. Для того чтобы ПО уместилось в достаточно ограниченной памяти, пришлось в 12 раз уменьшить его объем. Адаптация полновесных "настольных" программ к использованию в условиях ограниченных вычислительных ресурсов портативного устройства заняла год.

На Западе активно идет процесс лицензирования технологий, созданных ABBYY. К примеру, летом прошедшего года сотрудничество с лидером рынка потокового ввода данных Kofax, начавшееся еще в 2001 г., логично завершилось приобретением лицензии на движок FineReader и включением его в состав пакета Ascent Capture. Подобным образом поступила Samsung, которая дополнила свою систему распознавания для корейского языка англоязычным модулем ABBYY. И это не единственный пример, Sumitomo Electric Systems также лицензировала движок FineReader для распознавания смешанных англо-японских документов. Возможно, столь пристальное внимание со стороны азиатского рынка объясняется высокими показателями, достигнутыми разработчиками компании в обработке смешанных текстов, где присутствуют символы различных алфавитов.

Последней была краткая презентация Lingvo, ориентированная, скорее, на иностранных журналистов, поскольку в СНГ, где и сосредоточена основная часть 10 млн. пользователей продукта, словарь и его онлайновую версию online.lingvo.ru знают отлично.

Научный подход к чтению

На "лекции" некоторое внимание было уделено и основным методикам распознавания, применяемым в FineReader. Какой бы уровень документа не рассматривался, специалисты компании следуют единожды выработанным принципам -- целостности, целенаправленности и адаптивности (IPA, Integrity Purposefulness Adaptability). Принцип целостности основывается на идее единой гипотезы относительно организации документа. "Изучив" верхний уровень этой структуры, программа выдвигает предположение, а затем по мере продвижения вниз по иерархии структурных элементов (таблица --> ячейка --> текст) пытается отыскать определенный тип вложенных объектов -- согласно этой гипотезе (целенаправленность). Например, внутри таблицы должны быть ячейки, но не слитный текст.

Знание того, что требуется найти, позволяет программе действовать подобно человеку, который, пропустив одно слово, может восстановить его, исходя из общего смысла. Сужение поля поиска открывает возможности для более тонкой настройки алгоритмов обработки изображения -- интеллектуальной фильтрации фоновых текстур и адаптивной бинаризации. Поясню, бинаризация -- процесс трансформации "машинонечитаемого" цветного или полутонового сосканированного изображения в однозначный черно-белый формат. В случае возникновения неустранимых противоречий гипотеза отбрасывается и система возвращается на предыдущую стадию анализа, при этом учитываются уже собранные сведения о документе (адаптивность).

Выстраиваемая иерархия "вложенных" объектов (тексту принадлежат абзацы, абзацам -- строки и т. д.) -- результат применения парадигмы многоуровневого анализа документов (MDA, Multilevel Document Analysis). Дерево вложений всегда проходится сверху вниз с откатами в случае обнаружения ошибочности выдвинутой гипотезы.

Существуют два базовых подхода, и оба они применяются в рамках технологии. Чаще всего программа прибегает к алгоритму, сопоставляющему шаблон символа с отсканированным изображением. Это так называемый растровый классификатор. Увы, в реальном мире, в отличие от виртуального, невозможно найти две абсолютно одинаково напечатанные буквы, поэтому любую букву приходится сопоставлять со всеми символами алфавита, составляя таблицу вероятностей. Чтобы повысить точность распознавания, специалисты выделили характерные дефекты, свойственные принтерному, полиграфическому или машинописному тексту, которые объединили в коллекцию шаблонов.

Арам Пахчанян провел презентацию, посвященную FormReader, -- продукту, предназначенному для чтения форм как печатных, так и заполненных от руки

Рассмотренный выше алгоритм обладает важнейшим преимуществом -- малой ресурсоемкостью. Однако когда программа встречает символ, который с равной вероятностью похож на множество букв алфавита, и нет возможности с достаточной уверенностью сказать, что он собой представляет, включается механизм разбиения символа на составляющие или структурный классификатор. Смысл этого ноу-хау заключается в использовании методики распознавания рукописных символов для печатного текста. Здесь буква представлена набором взаимосвязанных векторных элементов, их взаимная ориентация и относительный размер являются признаками принадлежности изображения распознаваемому символу.

И наконец, наиболее специализированный и интересный алгоритм, заслуживающий упоминания в данной статье -- признаково-дифференциальный классификатор. Именно он помогает различать похожие символы. Если изображение одновременно имеет высокую вероятность соответствия символу "m" и сочетанию "rn", то данный классификатор знает, на какую часть изображения следует обратить особое внимание. В ситуации с "m" и "rn" ключом будет пробел между "r" и "n". На голову выше по интеллекту структурно-дифференциальный классификатор, созданный программистами ABBYY. Название хорошо отражает принцип его работы.

Для окончательного принятия решения FineReader обращается к подсистеме проверки правописания. На данном этапе наибольшую проблему представляют собой ошибочно распознанные слова, которые, тем не менее, входят в словарь. Эти классические ошибки вы можете легко воспроизвести в своем текстовом редакторе. Например, MS Word 2003 в слове "хэш" видит слово "кэш", а в слове "сайт" -- свежую "сайку". Чему доверять -- словарю или скану? Специалистам ABBYY эту проблему удалось решить.

В конце цикла распознавания, конечно, необходимо экспортировать документ в электронной форме. В последнее время FineReader стал настоящим "экспертом экспорта": программа позволяет оформлять конечный текст в соответствии со структурой оригинала и сохранять его в большом количестве форматов.

К компьютеру с чеком

Два дня в гостях у ABBYY

Значительная часть презентаций была посвящена FormReader -- продукту, предназначенному для чтения форм как печатных, так и заполненных от руки. Арам Пахчанян, представлявший программу, отметил, что печатные документы нас покинут еще не скоро. Электронная форма представления документов устраивает далеко не всех из-за отсутствия стандартов, недостаточного уровня распространенности мобильных устройств, а также неудовлетворительной надежности и безопасности цифровых коммуникаций. Причины различные -- результат один. Каждый день тысячи компаний по всему миру имеют дело с контрактами, чеками, анкетами, представленными в бумажном виде.

FormReader появился в семействе продуктов ABBYY в 1996 г. и унаследовал от FineReader движок распознавания. Если первоначально чтение форм и чтение документов произвольной структуры были в целом различными задачами, то сегодня концепция "гибкости" (Flexing Technology) сблизила программы. Концепция "формы" подразумевает унификацию и стандартизацию структуры документа, и это позволяет надеяться на более надежное распознавание текста. К сожалению, действительность далека от теории, и даже стандартизированные формы после распечатки и пересылки могут иметь различный вид. Например, невозможно создать универсальный продукт, который "понимал" бы все виды чеков. И все же обычно 90% чеков приходится на нескольких ключевых поставщиков или партнеров корпорации. Поэтому, настроив FormReader на их распознавание и вводя прочие чеки по старинке вручную, можно значительно ускорить процесс обработки.

FormReader движется в направлении увеличения гибкости методики распознавания за счет выявления стандартных граф и полей документа на основании анализа их побочных признаков. Простейший пример, когда фамилию анкетируемого следует искать справа от слова "Фамилия:" над отпечатанной линией подчеркивания. Вообще, FormReader -- это продукт, который трудно использовать as is. Правильное внедрение -- важный этап жизненного цикла системы, именно этим и занимаются партнеры ABBYY.

Одним из наиболее значимых проектов для FormReader в России стало построение системы автоматической обработки результатов тестирования в рамках эксперимента по проведению единого государственного экзамена для поступления в вузы. Несмотря на сложность задачи, качество работы системы оказалось на высоком уровне.

В целом, помимо образовательных учреждений, основными пользователями продукта являются банки, страховые и маркетинговые компании, фармацевтические структуры.

Отдельный день тура был выделен для визита в офис компании-клиента. Фирма "Малакут Ассистанс", имеющая два процессинговых центра в Москве и около полутора тысяч региональных подразделений, занимается предоставлением услуг страховым компаниям по оформлению договоров и оказанию оперативной помощи владельцам полисов в области автомобильного страхования (ОСАГО). Журналистам продемонстрировали процесс работы приемного отделения, где заполненные клиентами анкеты моментально распознаются и вводятся в базу данных. Автоматизация предполагает, что теперь клиент должен сам побеспокоиться о правильном оформлении документов.

Таким образом прошли два дня с ABBYY, надеюсь, они показались интересными не только автору этих строк.

Стратегія охолодження ЦОД для епохи AI