`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Михаил Бейрак

О чем писали газеты ХХ лет назад? Или басня про создание электронного архива – 3. Оптимистическая

+99
голосов

За много лет печатные издания прошли путь от небольших информационных листков до мощного инструмента формирования общественного мнения с помощью различных средств. Практически в каждой стране существуют издания с многолетней (а иногда и многовековой) историей. Естественно, в конце ХХ века редакции бумажных изданий задумались о создании электронного архива своих публикаций, многие реализовали публикацию своих материалов в интернет. Процесс создания такого архива представляет из себя последовательность классических операций : отсканировали бумажные оригиналы, атрибутировали каждый из номеров, вручную выполнили разметку на статьи, вручную выделили у каждой статьи автора и заголовок, слегка помучались с продолжениями статей на других страницах, распознали – и архив готов. Практически в каждой стране существует системный интегратор или компания-разработчик, которые бы реализовывали такой бизнес-процесс для потребностей организаций, занятых мониторингом средств массовой информации или для архивов журналов или газет. Каждый из таких разработчиков стремится продавать свои системы в других странах и у всех получается примерно одинаково плохо. У всех, кроме одной компании.

В далекой южной европейской стране есть компания, которая смогла найти свою нишу в этом простом процессе – они реализовалии технологию автоматической разметки изображения страницы газеты или журнала на статьи и автоматического выделения заголовка статьи и ее автора без участия человека. Достаточно быстро оказалось, что именно этот участок работ является непреодолимым барьером для реализации всех крупных проектов в этой области. Ведь если создавать электронный архив с той же скоростью с которой он накапливался – то многие могут не дождаться конца проекта. С тех пор все крупные проекты в мире по построению таких электронных архивов не происходят без их участия.

Мораль сей истории очень проста – в ИТ индустрии даже простой процесс можно усовершенствовать так, чтобы заработать на этом денег.

+99
голосов

Напечатать Отправить другу

Читайте также

Нет предела совершенству...

Да оптимистично, но вряд ли процесс можно назвать простым, если статья публикуется с разрывом в несклько (несколько десятков) страниц, что в свое время практиковал и КО.

Разрыв материалов в номере - нормальная практика всех журналов. Есть ощущение, что это даже элемент маркетинга. Если удается автоматически в обоих частях статьи выделить название статьи и автора, то автоматически соединять их а один текст не очень сложно. На этом и построено все.

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT