Давным-давно в далекой европейской стране работало большое государственное учреждение. И скопилось у этого учреждения много (количество выражалось числом с пятью нулями) однотипных заполненных от руки формочек, на наши квитанции из химчистки похожие. Только размером по-более и чисел больше. И задумало это учреждение не просто создать электронный архив изображений, а извлечь все эти написанные от руки числа в специально созданную по такому случаю базу данных.
И был тендер. Как всегда прозрачный и честный. И был победитель тендера. И победителем был местный предприниматель, который обещал все сделать в лучшем виде. Реализовать он планировал простой и очевидный алгоритм: он предложил находить надпись подлежащую вводу на изображении с помощью отсчета постоянных для каждого поля геометрических координат от края листа, показывать ее в увеличенном виде на экране монитора и, таким образом, облегчать ручной ввод данных оператору.
Тендер выигран, началась реализация. Сканирование доверили внешней компании, которая быстро и качественно выполнила заказ и вернула все бумажные документы и отсканированные изображения.
А дальше оказалось, что способ идентификации объектов по их геометрическим координатам крайне сложно применим в данном случае , оказалось, что все изображения отсканированы с незначительными перекосами. Перекосов оказалось достаточно, чтобы нехитрый геометрический способ поиска объекта относительно края листа не просто не давал нужного результата, но и значительно затруднял работу оператора.
Видимо дальше был традиционный диалог:
Заказчик (З): – Что делать будем, не работает твоя система?
Предприниматель (П): – Так изображения перекошены, выровняйте их.
З: - А как выровнять-то, каждое изображение под своим индивидуальным углом повернуто ?
П:- Ну есть программа такая Adobe Photoshop называется. В нее загружаете изображение и поворачиваете, пока не выровняете.
З: - Но количество изображений представляет из себя число с пятью нулями !!!
П: - Проблемы чьи?
На этом этапе, уважаемое учреждение стало обращаться к разным специалистам с одним и тем же вопросом "А есть ли у Вас программа для поворота изображений?". Но это уже другая история…
Морали у басни две:
Первая и очевидная – пилотный поект бывает полезен. Вторая – визуально заметна работа далеко не всех технологий, которые обеспечивают успех. На самом деле технология поиска объекта для извлечения данных не менее сложна и изощрена, чем остальные компоненты. Пренебрежение этим фактом опасно для успеха проекта.