+810 голосов |
Давным-давно в далекой европейской стране работало большое государственное учреждение. И скопилось у этого учреждения много (количество выражалось числом с пятью нулями) однотипных заполненных от руки формочек, на наши квитанции из химчистки похожие. Только размером по-более и чисел больше. И задумало это учреждение не просто создать электронный архив изображений, а извлечь все эти написанные от руки числа в специально созданную по такому случаю базу данных.
И был тендер. Как всегда прозрачный и честный. И был победитель тендера. И победителем был местный предприниматель, который обещал все сделать в лучшем виде. Реализовать он планировал простой и очевидный алгоритм: он предложил находить надпись подлежащую вводу на изображении с помощью отсчета постоянных для каждого поля геометрических координат от края листа, показывать ее в увеличенном виде на экране монитора и, таким образом, облегчать ручной ввод данных оператору.
Тендер выигран, началась реализация. Сканирование доверили внешней компании, которая быстро и качественно выполнила заказ и вернула все бумажные документы и отсканированные изображения.
А дальше оказалось, что способ идентификации объектов по их геометрическим координатам крайне сложно применим в данном случае , оказалось, что все изображения отсканированы с незначительными перекосами. Перекосов оказалось достаточно, чтобы нехитрый геометрический способ поиска объекта относительно края листа не просто не давал нужного результата, но и значительно затруднял работу оператора.
Видимо дальше был традиционный диалог:
Заказчик (З): – Что делать будем, не работает твоя система?
Предприниматель (П): – Так изображения перекошены, выровняйте их.
З: - А как выровнять-то, каждое изображение под своим индивидуальным углом повернуто ?
П:- Ну есть программа такая Adobe Photoshop называется. В нее загружаете изображение и поворачиваете, пока не выровняете.
З: - Но количество изображений представляет из себя число с пятью нулями !!!
П: - Проблемы чьи?
На этом этапе, уважаемое учреждение стало обращаться к разным специалистам с одним и тем же вопросом "А есть ли у Вас программа для поворота изображений?". Но это уже другая история…
Морали у басни две:
Первая и очевидная – пилотный поект бывает полезен. Вторая – визуально заметна работа далеко не всех технологий, которые обеспечивают успех. На самом деле технология поиска объекта для извлечения данных не менее сложна и изощрена, чем остальные компоненты. Пренебрежение этим фактом опасно для успеха проекта.
Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365
+810 голосов |
Та и фиг с ним! деньги попилили, откатили, жипы покупили, в турцию слетали. А оператор пусть работает, не зря же зарплату получает, дармоед! %-)
Наверное нужные люди свой опыт в далекую европейскую страну завезли.
Так цель проекта то не достигнута. Это всегда чревато проблемами независимо от вопросов, затронутый Вами :)
Так ведь FineReader поворачивает...
FineReader автоматически определяет и выполняет необходимые процедуры исправления перекосов, выравнивания строк, коррекции объемных изображения при распознавании. Для поиска объекта, который не может быть распознан, на искаженном изображении используются несколько другие алгоритмы.
Писали уникальный алгоритм и тестировали на нескольких идеальных изображениях? Мягко говоря - легковажно.
Если Вы о проекте, то согласен с Вами. Видимо обошлись логической отладкой и этого оказалось мало.
У меня монитор поворотный!
Мдя... странно сканировали... на убогой технике видать.
Промышленные сканера использовались дорогие от известного производителя. Они работали в штатном режиме. Т.е. качество изображений получилось достаточно высоким с точки зрения сканирования, только технология извлечения не учитывала наличие перекосов в отсканированных изображениях.
Ну дык блондинки не включили на "дорогом промышленном сканере" опцию выравнивания. Поверьте, там как раз есть такая фишка. Очень помогает получать после сканирования идеальные неперекошенные бланки с боковыми метками позиционирования.
Дело было давно, но они аккуратно следовали рекомендациям поставщика и сервисного центра компании производителя.
Гыг, не смешите меня. Там талмуд к сканеру на сотню страниц, не меньше. Думаете кто-то это читает? Я лично начал читать, когда обнаружил тупость в работе прошивки аппарата. Как оказалась - это фича, описанная в документации где то на 60-ой странице.
Я хотел сказать что дающие рекомендации прошедщие специальное обучение у производителя сканеров инженеры Постащика сканеров не то чтобы читали документацию, им это все преподавали :)
Не все йогурты одинаково полезны. Запомните в будущем НИКОГДА не эксплуатировать низкофункциональное оборудование этой компании.
На рынке промышленных сканеров работает не так много производителей. В проекте использовался самый дорогой и многофункциональный сканер, из выпускаемых конкретным производителем. На мой взгляд, проблема как раз в стыковке двух внешне простых технологий. Показалось что это просто - вот и результат.
Вы противоречите сами себе. Я более чем уверен, что этот проект был провален не из-за ошибок планирования, а из-за халтуры субподрядчика.
Организационно все выглядит просто: есть два Соисполнителя проекта и Заказчик, который поддался на уговоры одного из Соисполнителей. Каждый из соисполнителей спрашивает у Заказчика "К пуговицам претензи есть?". И дейтвительно, претензии не к пуговицам :)
Расскажите уже историю с положительными героями, со счастливым завершением и позитивным будущим.
Обязательно !
Спасибо, весьма поучительная история.
1. Попытка на абсолютно типовой задаче «лепить горбатого» вместо использования готового решения, которое отрабатывалось десятки лет – по меньшей мере, неразумно. FireReader, тем более, работающий с рукописными формами – не зря своих денег стоит.
2. В ТЗ на сканирование была допущена ошибка в постановке задачи – должно было быть четко прописано геометрически верное расположение формы после сканирования, раз уж привязались к столь «продвинутому», чисто «геометрическому» алгоритму.
Опять красиво подчеркнуто управление проектом на крайне низком технологическом уровне и явно пропущена «защита от дурака».