Хранилища данных — основа для принятия решений

5 сентябрь, 1997 - 23:39Вячеслав Рыбальченко

Информационные хранилища (Data Warehouse - DW) сегодня являются хитом рынка информационных технологий. Еще совсем недавно мало кому известная технология стала предметом всеобщего внимания. Ведущие фирмы-производители СУБД наперебой предлагают свои DW, не считая фирм, вышедших с ними на рынок информационных технологий.

Интерес к DW иллюстрируют исследования, проведенные Meta Group, согласно которым, в настоящее время 90% компаний из числа Global 2000 так или иначе реализуют проекты, связанные с DW. Для сравнения, в 1993 г. интерес к ним проявило лишь 5%.

По прогнозам Gartner Group, к 1999 г. объем рынка DW достигнет 7 млрд. долл. Чем обусловлен такой ажиотаж, почему потребителей не удовлетворяют традиционные (реляционные) базы данных? Что представляют собой DW и чем они отличаются от реляционных БД?

Потребителями DW, являются менеджеры всех уровней, использующие их для анализа и принятия решений в различных сферах бизнеса. Как правило, менеджеры работают в той или иной системе поддержки принятия решений (Decision Support System — DSS). DW хранят данные для эффективной работы в DSS и дают возможность решать следующие основные проблемы:

• анализ текущей деятельности компании(например, с целью ее последующей реорганизации);
• прогнозирование и отклонение от прогноза (например, эффект от проведения рекламной кампании);
• выявление закономерностей группирования клиентов и определение стереотипов поведения каждой группы.

Современные DSS, в основе которых лежат DW, позволяют прослеживать новые тенденции, новые взаимосвязи между данными и новые аналитические возможности.

Давайте посмотрим, в чем состоит различие между данными, предназначенными для операционной и аналитической обработок. Операционная обработка ориентирована на поддержку ежедневной деятельности компаний. В ее функции входят ввод заказов и отслеживание их выполнения, оформление платежей за товары и услуги и т. д. Испокон веков подобными вещами занимались системы, называемые сейчас обработкой транзакций в реальном времени (On-Line Transaction Processing — OLTP). Аналитическая обработка ориентирована на решение стратегических вопросов жизнедеятельности компаний в целом, чем всегда занимались в рамках систем поддержки принятия решений. Она получила название систем аналитической обработки в реальном времени (On-Line Analytical Processing — OLAP). Но именно они никогда не оперируют данными реального времени. Эти данные постоянно изменяются, и поэтому строить анализ на них невозможно. Например, пользователь хотел бы выявить своего лучшего торгового агента. Поскольку таких у него десятки (а может быть, и сотни), он начинает последовательно собирать сведения о количестве продаж, сделанных каждым. Тот агент, который находится в конце списка, всегда будет в выигрышном положении, пока дойдет очередь до него, он успеет сделать еще несколько продаж. Это подтверждает, что OLAP не только не работают, но и не могут работать с подобными данными. В рамках DSS обычно проводится сравнительный анализ, для которого нужны данные, не изменяющиеся во времени. Таким образом, операционные БД хранят данные, актуальные до минут и секунд, впоследствии они могут неоднократно модифицироваться. Актуальность сохраняется до конца отчетного периода (например, в течение года). БД для аналитической обработки должны хранить данные, актуальные на определенный период времени (день, но не минуту), и в дальнейшем не изменяющиеся. Продолжительность хранения исчисляется годами (примерно 5—10 лет). Кроме того, операционные данные всегда детальны, специфичны, локализованы. В самом деле, в OLTP задаются решением частных вопросов: ушел ли конкретный груз; каков счет со всеми деталями его образования в конкретном банке и т. д. OLAP оперирует итоговыми значениями: каков общий объем продаж за определенный период времени, без учета всякой специфики (например, особенностей отдельных продаж).

Следовательно, не является заблуждением разделение данных по разным БД, операционным и аналитическим, и фундаментальным различием между ними есть фактор времени. Но это лишь одна из причин, существуют еще и другие.

Первые операционные БД (иерархические и сетевые) удовлетворяли с точки зрения быстродействия, но были мало пригодны для сложных и гибких типов анализа (не предназначались для этого). Затем появились реляционные БД, в них стало возможным делать самые изощренные запросы для последующего анализа. Почему же их не приняли на вооружение в DSS? Поскольку альтернативы им не было, то приходилось работать с ними, даже без особого желания. Вся беда была в их структуре. Реляционные БД состоят из множества связанных между собою таблиц. Связь осуществляется посредством первичных и внешних ключей. Недостаток состоит в том, что при каждом запросе для соединения (join) таблиц связь будет заново устанавливаться. Это очень понижает быстродействие. В какой-то мере могут помочь всевозможные методы индексации, но проблема остается, особенно когда необходимо связать несколько десятков таблиц.

Другой недостаток реляционных БД заключается в том, что необходимо нормализовать их структуры — святая святых реляционного мира — для устранения избыточности (и по связям, и по содержанию таблиц). Это приводит к образованию очень сложных структур. Разобраться в них трудно даже специалистам, не говоря о пользователях. И наконец, последнее. Допустим, приложение с реляционным БД разработано и сдано в эксплуатацию. В нем фиксированы структура БД и запросы, которые пользователь может сделать. А если возникнет необходимость в нереализованном (ad hoc) запросе? Вряд ли пользователь сам станет выписывать нужный запрос на SQL, который для него не проще китайской грамоты. А вдруг ему понадобятся данные, которых нет в существующей БД, и потребуется хоть и немного, но переделать ее? Об этом пользователь может лишь мечтать, особенно если такая потребность временная.

Итак, реляционные БД (в традиционном их использовании) мало пригодны для OLAP в силу медлительности, сложности для понимания пользователем и необходимости привлечения специалистов по самым незначительным вопросам. Это еще один аргумент в пользу разделения операционных и аналитических данных. Аналитические БД для устранения указанных недостатков должны быть сконструированы иначе, другими должны быть также способы их конструирования. При разработке приложений для OLTP мы ставим во главу угла бизнес-процессы, протекающие в данной предметной области. Но необходимо разработать структуру БД, удовлетворяющую информационным потребностям этих бизнес-процессов. Достоинство реляционной модели в том, что все ее таблицы взаимосвязаны и согласованы, они прямо или косвенно связаны между собой, и поэтому то, какими могут быть запросы к БД, не столь существенно. Реляционная модель позволяет сконструировать любой запрос.

С тонки зрения аналитической обработки, все эти бизнес-процессы уже отработаны, и имеется множество данных, в которых предстоит разобраться. И прежде всего в том, насколько успешно в свое время протекали процессы. Таким образом, центр тяжести перемещается на то, какие запросы могут потребоваться для проведения подобного анализа.

Итак, разница между операционными и аналитическими данными достаточно существенная для разделения их друг от друга. Теперь посмотрим, как устроены БД для аналитических данных DW.

По способу получения они могут быть унаследованными (legacy), операционными (operational) или внешними (external). Унаследованные — те, которые достались из прошлого и могут находиться на БД мэйнфреймов, в реляционных БД и т. д. Об операционных мы уже говорили, источники внешних не требуют объяснения.

Форматы всех этих данных различны, и для сбора их под одной крышей необходимо ПО промежуточного слоя (midleware, часто переводится как «связующее ПО»). Полученные унифицированные данные складируются в DW (отсюда и название). Доставка их конечному пользователю может быть прямой либо через «информационные витрины» (data mart). В последних находятся подмножества данных из DW, собранные по некоторому тематическому признаку. Наличие информационных витрин необязательно, но поскольку каждый менеджер занят в узкой области деятельности, то у него нет необходимости во всей информации из DW. Иллюстрацией этого является рис. 1.