`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Александр Попов

И снова о работе с большими данными

+24
голоса

Развитие любой компании приводит к отстраиванию бизнес-процессов и, как следствие, к внедрению автоматизированных систем по сбору информации.

Организация постепенно обрастает этими системами: учетными, финансовыми, аналитическими, CRM и т.д. А следом ее руководство сталкивается с проблемой – как из двух и более систем получить данные в один отчет.

Решается возникшая задача, как правило, тремя способами: вручную копированием информации (зачастую в Экселе), специальной настройкой (BI-системой) и построением единого корпоративного хранилища данных (ХД или DWH) с BI.

Тут важно отметить, что помимо интеграции данных, когда ХД позволяет хранить данные из различных систем, уменьшается нагрузка и на сами эти системы, т.к. пользователи не работают с самими системами, а с интегрированными данными из них.

Для бизнес-пользователей, далеких от ИТ, вероятно, не очень интересно знать какие ХД или BI используются, для чего и пр. Им важно получать определенные данные в заданное время.

Ниже в несколько популяризированном виде предлагаю информацию по системам, доставляющим интегрированную информацию пользователям, в виде своеобразного списка по производителям как баз данных для ХД, так и средств ETL, data mining, BI, т.е. всего того, что требуется серьезным организациям для работы с большими данными.

Дотошные ИТ-специалисты меня, возможно, упрекнут, что нельзя смешивать «коней и людей», т.е. сами платформы, средства визуализации и инструменты интеграции. Но для пущей наглядности пойду на такой риск.

Итак, чертова дюжина производителей, которых потенциальным заказчикам стоит рассмотреть при выборе системы:

  1. Teradata (www.teradata.com): широкое распространение благодаря хорошему сочетанию цена-качество. Номер 1 по данным квадрантов Gartner.
  2. Oracle (www.oracle.com): Oracle 11g, OBIEE (was Siebel), ODI, Hyperion, Essbase, Exadata, Golden Gate, Oracle OLAP. Хорошее распространение, хорошее качество, хорошая поддержка.
  3. IBM (www.ibm.com): DataStage/DataQuality, Infosphere, Cognos, TM1, DB/2, Express, Netezza. Гигант в DWH-BI, в ТОП-3.
  4. Informatica (www.informatica.com): PowerCentre, IDE, IDQ. Лучший ETL/DI инструмент. До сих пор не куплена большими компаниями.
  5. SAP (www.sap.com/solutions/sapbusinessobjects): BusinessObjects, Business Warehouse, Netweaver BI, Sybase, HANA. Гигант в DWH-BI.
  6. Microsoft (www.microsoft.com/BI): SQL Server, PDW, SSAS, SSIS, SSRS, Crescent, Performance Point, PowerPivot. Наиболее широкое распространение DWH-BI в мире.
  7. EMC/Greenplum (www.greenplum.com): хранилища с MPP (massively parallel processing), работает под Unix/Linux.
  8. HP/Vertica (www.vertica.com): Vertica – колоночная СУБД, прямой конкурент Sybase IQ от SAP.
  9. SAS (www.sas.com): аналитика, data mining, ETL/DI, DQ (DataFlux), MDM. В мире #1 по data mining.
  10. Tableau (www.tableausoftware.com): лучший SSAS клиент, хорошие графики/визуализация.
  11. MicroStrategy (www.microstrategy.com): комплексное решение по отчетности.
  12. QlikTech (www.qlikview.com): QlikView – продукт для аналитики, быстрый во внедрении (1-2 месяца).
  13. Jaspersoft (www.jaspersoft.com): сильный рост популярности в мире. Широко известен благодаря низкой стоимости. Включает: DI/ETL, Отчетность, Аналитика.

Первые 6 позиций в списке довольно широко применяются в Украине для решения задачи работы с большими данными. Из второй половины списка в Украине есть внедрения SAS, QlikView и пара на MicroStategy, но больше для решения конкретных частных задач. Остальные продукты, к сожалению, практически не получили распространения в нашей стране.

+24
голоса

Напечатать Отправить другу

Читайте также

1. Ручне копіювання у тому числі у Екселі та "интеграция данных" - зовсім різні задачі. Якщо просто потрібно об'єднати декілька звітів, це можна зробити багатьма способами, але навіщо ж збирати дані у окремій базі даних для цього?
2. Замовнику потрібна одна система, що вирішує усі завдання і така система є це 1С Підприємство 8, навіть 1С Підприємство 7.7 нормально виконувало більшість задач. Тому що якщо почати розглядати любе прикладне рішення - виявиться, що усі дані у ньому тісно пов'язані між собою і навіть синхронізація даних між однотипними прикладними рішеннями представляє собою складне завдання. Конвертацію даних реалізувати, ще складніше.

Сергей, я позволю себе отвечать вам на русском, т.к. данный ресурс читает много граждан из других стран.

На оба ваши вопроса можно ответить, приведя один пример.
Например, есть банк. Вы знаете хоть один банк, у которого в качестве учетной системы банка (АБС) был бы установлен 1С?
Также существует множество задач по сбору/обработке информации, с которой не может справиться 1С. Поэтому они и существуют.
В тот же пример добавим: есть больше 100 сотрудников в организации. Пусть они все работают с 1С. Сейчас каждому требуется полная информация для принятия решений. Для этого нужно "лопатить" огромные массивы данных. Представьте, если хотя бы 10 человек начнет смотреть данные о клиентах/их платежах? Система (любая, не обязательно 1С) просто не выдержит.
Для этих целей придумали такое понятие как хранилище данных:
можно посмотреть определение что такое хранилище данных на википедии.

Еще про 1С, на одном из форумов одна очень известная компания озвучила размер своей базы данных на 1С = 700 гигабайт и утверждала, что это самая большая по размеру база в СНГ...

У 1С для банків наскільки я знаю нема поки прикладних рішень, але можливостей платформи 1С 8.2 для цього достатньо. А з переглядом даних про клієнтів та їх платежах 10 ма співробітниками одночасно и 1С 7.7 справиться без проблем навіть у DBF-ній версій на терміналі, якщо клієнтів буде декілька десятків тисяч, а у базі SQL можливості ще більші. Версія ж 1С Підприємства 8.2 спеціально оптимізована під великі обсяги даних, тому швидкодія залежить виключно від обчислювальних ресурсів та виду бази даних та лінійно від обсягу даних.

Не могу вспомнить в каком из аналитических отчетов была информация о градации больших данных. Вроде бы там было 1-5 терабайт, 5-30 ТБ и свыше 30 ТБ.
Типа 1-5 ТБ - это маленькие "большие данные", 5-30 - средние.
И я как то плохо представляю, как пусть даже 10 аналитиков ищут информацию в таких объемах на 1С.
Какая мощь аппаратных средств должна быть?
Вот например новинка от SAP под названием HANA имеет 2 ТБ оперативной памяти под это. А 1С только за счет алгоритмов/архитектуры?

В вашей практике, Сергей, какой самый большой объем базы 1С встречался?

В Украине по моим данным такими объемами оперируют только телекомы (Киевстар, МТС и т.п.), некоторые банки и только одна самая крупная сеть супермаркетов (АТБ / 600+ магазинов).

Якщо в Україні мало хто такими обсягами даних оперує то тим паче нічого крім 1С не потрібно!
Що стосується швидкості то вона залежить виключно від алгоритмів прикладного рішення та індексації, а також формуванню проміжних підсумків (що у 1С налагоджено нормально) баз даних, бо обробка правильно проіндексованих даних відбувається миттєво і не потребує суттєвих апаратних ресурсів.
Я взагалі не міряю обсяг баз даних з якими стикаюсь, окрім того я працю в основному з розрахунком зарплати, а для нього великих обсягів даних не потрібно.
А 1С успішно працює в багатьох супермаркетах.
І взагалі велика база даних це вірна ознака помилок при побудові структури бази даних.

1C для зарплат в нашей стране - неубиваемо :)
В Киевоблэнерго например все что только можно автоматизировано SAPом. Кроме расчета зарплаты, там 1С.
Т.к. проще с нашим правительством :)

А про ваше последнее предложение мне вспоминается фраза Б.Гейтса, что для работы всем достаточно 64Кб :)

Іронія з приводу 1С це не аргумент.
Я просто не можу вас зрозуміти, навіщо проводити інтеграцію даних з різних джерел тільки для їх аналізу? Коли можна просто використовувати для усього одну платформу та одну (нехай і розподілену) базу даних, наприклад 1С, яка має ряд переваг - найдешевша, десятки тисяч спеціалістів розробників та консультантів тільки в Україні, сотні тисяч користувачів, тисячі прикладних рішень, десятки або сотні тисяч розробок і так далі.

Отвечу тут на вопросы из facebook, т.к. у многих данный ресурс заблочен.

1. То Aleksey Movchaniuk
Статья не про Big Data, а по работе с большими данными :)
Я привел перечень производителей, которых любому ИТ-диру можно было бы учитывать при возникновение подобных задач.

И Big Data, скорее всего не новая технология, а термин, под которым подразумевают обычно:
а) данных обычно терабайты и более
б) данные есть как структурированные так и неструктурированные (из соцсетей, емейлов и т.п.)

Об этом термине уже была масса информации, началось по-моему с поста Геннадия Армашулы на КО:
http://ko.com.ua/big_data_kaming_57388

2. То Alexey Kononenko
Да, точно. Это верно практически для любого из производителей:
У каждого из них есть решения, которые хорошо (отлично) работают внутри продуктов других производителей.

3. Дмитрий Замуренко, спасибо за ваш минус :)
Я буду благодарен, если вы озвучите хоть одну компанию, где работают с Big Data на QlikView в Украине.
Хоть одну. Под большими данными мы понимаем терабайты информации, в т.ч. неструктурированной.

То Alexey Kononenko на вопрос из facebook добавлю.
В этом году был закончен самый масштабный проект внедрения системы бизнес-аналитики и построения хранилища данных в рознице в Украине:
http://citia.co.uk/experience/retail/ATB-Market/

Отличительных особенностей было очень много (см. ссылку), но как по мне очень интересно то, что процедуру выбора!!! решения написала компания из большой четверки "Эрнст и Янг".
И конечно, эта сеть имеет очень большие обьемы данных (из 600+ супермаркетов) и для этого, что тоже интересно, была использована СУБД с технологией колоночной работы - Sybase IQ.
Колоночные СУБД работают с данными не как традиционные СУБД (построчно), а по колонкам, что значительно сокращает время выборок.

- Oracle (www.oracle.com): Oracle 11g, OBIEE (was Siebel), ODI, Hyperion, Essbase, Exadata, Golden Gate, Oracle OLAP. Хорошее распространение, хорошее качество, хорошая поддержка. -

Спасибо за хорошие слова.

Александр, спасибо за статью, на мой взгляд полезная информация. Не смогла пройти мимо, попыталась все таки отделить «коней и людей», разделить платформы по классам -
http://irina-chubukova.blogspot.com/2012/07/blog-post_4790.html

Спасибо Ирина, за перепечатку поста.
Значит он действительно полезным оказался.
И красиво в mind-manager представлено.

Добавлю только, что таких схем и вариаций может быть огромное количество - сколько клиентов, столько перед ними и задач стоит - и у многих свои уникальные решения/комбинации требуются.

TO Дмитрий Замуренко

Исполнительный директор в RBC Group: Системы BI и ERP для управления предприятием

Вообще-то не в Тб нужно мерять объемы - а в количестве строк записей, количестве полей в них и так далее, так как неверная архитектура хранения данных может привести к потребности в огромных массивах. Например, в сотнях Тб можно хранить совсем немного данных.

Вообще вся статистика подведена к одному, что только продукты и клиенты Citia работают с большими данными...

Откуда информация, что АТБ - самая большая сеть? А как же Fozzy? Да и в других крупных сетях данных не меньше. В АТБ больше магазнов, а у них товаров, и так далее.

Дмитрий, по пунктам.
Вы по-моему так и не поняли что такое Big Data?
Нестуктурированную информацию в строках записей считать пытаетесь.
Мы говорим здесь про будущеее, что ждет многих, а не то, что вы решаете сейчас. Это как я уже говорил про цитату Б.Гейтса, что для работы всем хватит по 64Кб :)

Про компанию Ситиа, я не подводил, рынок подводит. Наша компания была первой в СНГ, кто построил хранилище (в Киевстаре), и наверное по количеству построенных хранилищ (а это наверное самые масштабные проекты, связанные с управлением информацией) мы в Украине действительно работаем с большими данными.
(Черт, реклама прямо вышла - неудобно, но вы сами назвали имя моей компании).

Данные, что АТБ - самая крупная - откройте сайты каждой из сетей и проверьте сами. АТБ говорит про 630 своих супермаркетах. У Фоззи до 400 по-моему.

Если данных у других больше, озвучьте, по кол-ву товаров считать? Считают уж по чекам ;)

Да я то понял что такое Big Data. Но тут важно примерами подкрепить!
Можете пару слов сказать о той неструктированной информации, которая хранится в хранилище АТБ или Киевстара?
Или например работу с неструктированной информацией у клиентов, которые используют продукты SAP?

Про Ситиа, ничего против не имею, хорошая команда, хорошие проекты и клиенты. Но то что сам назвал - как будто и так не понятно зачем этот пост.

Насчет АТБ и Fozzy думаю здесь не стоит дискутировать, смысла нет.

А вот насчет чеков - это поверхностный взгляд. С помощью чекового анализа решается очень ограниченное количество задач: анализ лояльности, нагрузка на кассы, пенетрация и т.п. И период хранения данных для этих задач - маскимум год, больше нет никой необходимости. А вот основные задачи связанные с продажами, запасами и закупками, как раз решаюся на измерениям магазин-товар. И тут глубина хранения в разы больше и данных в обработке в итоге больше.

Александр, вот есть вопрос по выбору Jaspersoft, почему например не Tibco Software? Чем обоснован выбор - опыт, исследование, просто личное мнение

 
 
IDC
Реклама
Каталог продукции. Услуги физическим и юридическим лицам.
nomer8-800.ru

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT