И снова о работе с большими данными

25 июль, 2012 - 15:35Александр Попов

Развитие любой компании приводит к отстраиванию бизнес-процессов и, как следствие, к внедрению автоматизированных систем по сбору информации.

Организация постепенно обрастает этими системами: учетными, финансовыми, аналитическими, CRM и т.д. А следом ее руководство сталкивается с проблемой – как из двух и более систем получить данные в один отчет.

Решается возникшая задача, как правило, тремя способами: вручную копированием информации (зачастую в Экселе), специальной настройкой (BI-системой) и построением единого корпоративного хранилища данных (ХД или DWH) с BI.

Тут важно отметить, что помимо интеграции данных, когда ХД позволяет хранить данные из различных систем, уменьшается нагрузка и на сами эти системы, т.к. пользователи не работают с самими системами, а с интегрированными данными из них.

Для бизнес-пользователей, далеких от ИТ, вероятно, не очень интересно знать какие ХД или BI используются, для чего и пр. Им важно получать определенные данные в заданное время.

Ниже в несколько популяризированном виде предлагаю информацию по системам, доставляющим интегрированную информацию пользователям, в виде своеобразного списка по производителям как баз данных для ХД, так и средств ETL, data mining, BI, т.е. всего того, что требуется серьезным организациям для работы с большими данными.

Дотошные ИТ-специалисты меня, возможно, упрекнут, что нельзя смешивать «коней и людей», т.е. сами платформы, средства визуализации и инструменты интеграции. Но для пущей наглядности пойду на такой риск.

Итак, чертова дюжина производителей, которых потенциальным заказчикам стоит рассмотреть при выборе системы:

  1. Teradata (www.teradata.com): широкое распространение благодаря хорошему сочетанию цена-качество. Номер 1 по данным квадрантов Gartner.
  2. Oracle (www.oracle.com): Oracle 11g, OBIEE (was Siebel), ODI, Hyperion, Essbase, Exadata, Golden Gate, Oracle OLAP. Хорошее распространение, хорошее качество, хорошая поддержка.
  3. IBM (www.ibm.com): DataStage/DataQuality, Infosphere, Cognos, TM1, DB/2, Express, Netezza. Гигант в DWH-BI, в ТОП-3.
  4. Informatica (www.informatica.com): PowerCentre, IDE, IDQ. Лучший ETL/DI инструмент. До сих пор не куплена большими компаниями.
  5. SAP (www.sap.com/solutions/sapbusinessobjects): BusinessObjects, Business Warehouse, Netweaver BI, Sybase, HANA. Гигант в DWH-BI.
  6. Microsoft (www.microsoft.com/BI): SQL Server, PDW, SSAS, SSIS, SSRS, Crescent, Performance Point, PowerPivot. Наиболее широкое распространение DWH-BI в мире.
  7. EMC/Greenplum (www.greenplum.com): хранилища с MPP (massively parallel processing), работает под Unix/Linux.
  8. HP/Vertica (www.vertica.com): Vertica – колоночная СУБД, прямой конкурент Sybase IQ от SAP.
  9. SAS (www.sas.com): аналитика, data mining, ETL/DI, DQ (DataFlux), MDM. В мире #1 по data mining.
  10. Tableau (www.tableausoftware.com): лучший SSAS клиент, хорошие графики/визуализация.
  11. MicroStrategy (www.microstrategy.com): комплексное решение по отчетности.
  12. QlikTech (www.qlikview.com): QlikView – продукт для аналитики, быстрый во внедрении (1-2 месяца).
  13. Jaspersoft (www.jaspersoft.com): сильный рост популярности в мире. Широко известен благодаря низкой стоимости. Включает: DI/ETL, Отчетность, Аналитика.


Первые 6 позиций в списке довольно широко применяются в Украине для решения задачи работы с большими данными. Из второй половины списка в Украине есть внедрения SAS, QlikView и пара на MicroStategy, но больше для решения конкретных частных задач. Остальные продукты, к сожалению, практически не получили распространения в нашей стране.