О чем писали газеты ХХ лет назад? Или басня про создание электронного архива – 3. Оптимистическая

23 октябрь, 2009 - 17:34Михаил Бейрак

За много лет печатные издания прошли путь от небольших информационных листков до мощного инструмента формирования общественного мнения с помощью различных средств. Практически в каждой стране существуют издания с многолетней (а иногда и многовековой) историей. Естественно, в конце ХХ века редакции бумажных изданий задумались о создании электронного архива своих публикаций, многие реализовали публикацию своих материалов в интернет. Процесс создания такого архива представляет из себя последовательность классических операций : отсканировали бумажные оригиналы, атрибутировали каждый из номеров, вручную выполнили разметку на статьи, вручную выделили у каждой статьи автора и заголовок, слегка помучались с продолжениями статей на других страницах, распознали – и архив готов. Практически в каждой стране существует системный интегратор или компания-разработчик, которые бы реализовывали такой бизнес-процесс для потребностей организаций, занятых мониторингом средств массовой информации или для архивов журналов или газет. Каждый из таких разработчиков стремится продавать свои системы в других странах и у всех получается примерно одинаково плохо. У всех, кроме одной компании.

В далекой южной европейской стране есть компания, которая смогла найти свою нишу в этом простом процессе – они реализовалии технологию автоматической разметки изображения страницы газеты или журнала на статьи и автоматического выделения заголовка статьи и ее автора без участия человека. Достаточно быстро оказалось, что именно этот участок работ является непреодолимым барьером для реализации всех крупных проектов в этой области. Ведь если создавать электронный архив с той же скоростью с которой он накапливался – то многие могут не дождаться конца проекта. С тех пор все крупные проекты в мире по построению таких электронных архивов не происходят без их участия.

Мораль сей истории очень проста – в ИТ индустрии даже простой процесс можно усовершенствовать так, чтобы заработать на этом денег.