[Де]Централизация песочниц

5 май, 2010 - 12:01Дмитрий Гудков

Похоже мировая мысль как-то до сих пор не определилась, насколько анализируемые данные должны быть централизованы в чем-то типа хранилища данных. Аналитические хранилища данных появились в 90х как ответ на разобщенность и несогласованность данных, хранящихся в разных учетных системах, бурно размножившихся с середины 60х годов. Хранилища данных явились инициативой топ-менеджмента компаний, желающих получить цельное и достоверное представление о деятельности своей организации. С тех пор централизация была возведена в культ, к ней стремились как к абсолюту, как к недостижимой линии горизонта. Централизация данных в разнообразных хранилищах и хабах принесла не только ожидаемое цельное видение бизнеса, но и немало выгод для ИТ - с точки зрения разнесения нагрузки, сокращения избыточности данных, упрощения контроля доступа, экономии на оборудовании и т.д.

Однако сейчас похоже маятник начинает двигаться в обратную сторону. И основными двигателями этого процесса являются уже не топ-менеджеры, а среднее звено менеджмента и ключевые аналитики, которые все больше недовольны теми ограничениями свободы, которые налагают на них хранилища данных и традиционные BI-платформы. Они все чаще нуждаются в своей собственной "песочнице", где они могли бы самостоятельно манипулировать достаточно большими массивами данных, связывать данные из ХД с внешними источниками, готовить ad-hoc отчеты, строить аналитические приложения и т.д. Другими словами self-service BI становится уже не просто произвольным визуальным конструированием отчетов из фиксированного набора показателей и размерностей, описанных в модели метаданных, а еще и произвольным изменением этой самой модели, выполняемого нетехническими специалистами. Причем этому процессу активно оппонируют как раз ИТ подразделения, справедливо опасающиеся неконтролируемого роста всевозможных витрин, витриночек и витринищ (в общем того, что называют datamarts), с неконтролируемым качеством данных в них.

Приведу два примера, сигнализирующих об этой тенденции:

Gartner, в отчете 2010 года по BI платформам первым же пунктом отметила тенденцию учащающегося использования на уровне департаментов BI-инструментов, позволяющих пользователям быстро и самостоятельно манипулировать данными - таких как QlikView и некоторых других in-memory платформ, при том что в организациях в целом за стандарт принята другая, более традиционная, BI-платформа. Gartner отмечает, что для бизнес-пользователей выгоды от их применения перевешивают возможные риски увеличения разобщенности данных.

Еще один пример - интервью Рэнди Ли (Randy Lea) МЗ Product and Services Marketing Teradata, опубликованному сегодня на tdwi.org. В этом интервью г-н Ли объясняет вывод новых, нетипичных для Teradata аналитических устройств (analytical appliance) как раз возрастающей тенденцией к самостоятельной манипуляции данными на уровне департаментов, в стороне от которой Teradata не хотела бы оставаться.

Очевидно, есть две крайности. Одна крайность - это пытаться все запихнуть в хранилище данных. Со всем требуемым проектированием и переделыванием моделей, ETL-процедур, метаданных BI и т.д. Однако даже самые убежденные сторонники централизации признают, что достичь этого на 100% невозможно да и нецелесообразно. С другой стороны, возвращаться к хаосу разобщенных данных тоже не хотелось бы - эта крайность уже хорошо известна. Но как сформулировать однозначный, хорошо работающий критерий, по которому определять - какие данных необходимо включать в ХД, а какие - нет? И какой должен быть размер "песочницы" для тех, кому она необходима как воздух?

Хорошего ответа на этот вопрос я пока не слышал.