`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Ничто не забыто

+77
голосов

Тематика бизнес-аналитики вот уже который год продолжает оставаться одной из самых обсуждаемых в ИТ-индустрии. Самой «горячей» из современных аналитических технологий выступает хранение данных в оперативной памяти (in-memory BI, английский язык лапидарнее русского).

Скорости ради

Не будет преувеличением сказать: основной причиной того, что средства in-memory BI снискали популярность, выступает их исключительно высокая скорость работы. С точки зрения производительности, главное бутылочное горлышко традиционных BI-приложений — медленные диски или еще более медленный доступ к СУБД, в сотни раз уступающие скорости RAM-доступа (если говорить более точно: типичный промышленный сервер оснащается памятью со скоростью доступа как минимум 6400 MБ/c, это в 64 раза превышает скорость чтения жесткого диска и в 100 и более раз выше скорости дисковой записи).

Если приложение по сути очень быстрое, ему не требуются сложные структуры данных для дальнейшей оптимизации. Даже простые, малопроизводительные in-memory-программы, как правило, быстрее хорошо оптимизированных дисковых программ. При разработке и развитии ПО это обстоятельство позволяет существенно экономить ресурсы. Именно сравнительная легкость создания и гибкость in-memory BI — сильнейшие стороны данной концепции.

Ничто не забыто

Архитектура современной вычислительной системы

Слабая сторона данной модели кроется в насущной потребности обеспечивать хранение данных максимально компактно. Недопустимо просто загружать сведения в основную память, не заботясь об эффективности их размещения, необходимо тщательно продумывать и реализовывать алгоритмику компрессии. Наиболее проработанные in-memory-системы используют меньше пространства под данные, чем СУБД с традиционной архитектурой хранения. Как правило, здесь используются алгоритмы сжатия, позволяющие достигать 5-10-кратного уровня сжатия.

Прошлое, которое стало будущим

Известно, что подстегнули распространение этой концепции два фактора: удешевление чипов памяти и появление 64-битных процессоров. (Есть еще один фактор, с которым, правда, не все считаются, и состоит он в том, что современные компьютеры функционируют надежнее, чем системы прошлых поколений, следовательно, меньше риск потерь рабочих данных.)

На первый взгляд, 64-битные вычисления представляются главным прорывом, ведь именно они обеспечили возможность доступа к большим объемам памяти. В 32-битных системах стояло ограничение на адресуемую память в 4 ГБ. Хотя всегда имелись способы обойти его, воспользовавшись технологиями вроде переключения банков памяти. К примеру, во времена 16-битных компьютеров они позволяли выходить за пределы доступных 640 КБ. То же самое непременно произошло бы и с 32-битными программными системами, однако появление доступных 64-битных процессоров этому помешало.

Ничто не забыто

Самая популярная программа анализа данных Microsoft Excel всегда была построена с использованием in-memory-архитектуры

Поэтому настоящим толчком к популяризации in-memory-технологий на поверку оказались резко падающие цены на память. Благодарить нужно азиатскую полупроводниковую индустрию c ее крупными инвестициями в производством чипов памяти. И вызваны они были отнюдь не потребностями отрасли бизнес-аналитики, а растущим потребительским спросом на электронные устройства со всем большим объемом памяти. Так что волна интереса и потребления in-memory-технология исходит не от инноваций в сфере разработки ПО бизнес-назначения, а гонкой за гигабайты на рынке потребительских аппаратных средств. Ощутите разницу (pdf): в 2000 г. 1 ГБ памяти можно было приобрести за 1 тыс. долл., уже в конце прошлого года этот же объем стоил... $2, а по прогнозу в 2015 г. его цена будет $0,5, в 2018 г. — $0,06, в 2021 г. — $0,03, в 2024 г. — $0,008, в 2027 г. — $0,001, в 2030 г. — $0,0003. Для сравнения в прошлом году 1 ГБ серверной дисковой памяти обошелся бы в $0,1-0,15.

Любопытно, что средства бизнес-аналитики, использующие для размещения данных основную память, появились раньше использующих дисковые системы решений (по всей видимости, из-за того что in-memory ПО легче разрабатывать). Первым средством многомерного анализа можно считать интерактивный матричный язык программирования и интегрированную среду разработки APL (A Programming Language на базе математической нотации Айверсона), появившийся в 1960-х гг. Первая его рабочая реализация увидела свет в 1967 г. на мэйнфрейме IBM 1130. По иронии судьбы через 40 лет Голубому гиганту, пионеру in-memory, пришлось приобрести активы компании Cognos с продуктами TM1 и Cognos Planning (последний корнями уходит в основанный на IBM APL инструмент под названием Frango, созданный в начале 1980-х гг.) чтобы вновь выйти на этот рынок. К слову сказать, старейший компонент Cognos Planning, Analyst, написан на APL, а в новых подсистемах используется APL-подобный язык.

Ни для кого не секрет, что по-настоящему массовым BI-средством является Microsoft Excel (к слову, названный приложением прошлого десятилетия), а ведь данная программа всегда была построена на in-memory-архитектуре. Как и ее почивший в 1990-х гг. конкурент Lotus 1-2-3, и до этого VisiCalc. Не говоря уже о Lotus Improv, не принятой рынком многомерной электронной таблице. Конечно, электронные таблицы никогда не продвигались в качестве средств бизнес-анализа, если же говорить о традиционном ПО, можно вспомнить еще один продукт Cognos — PowerPlay — выпущенный в 1990 г.: «построенный на базе Windows инструмент для бизнес-анализа, установивший новый стандарт легкости применения и мощи в сфере ПО поддержки принятия решений». Правда, и здесь судьба сыграла шутку, PowerPlay, как и другие BI-продукты-долгожители, был перестроен под работу с дисковой памятью. Потребность в обработке увеличивающихся объемов данных и высокая стоимость оперативной памяти (в 1991 г. 1 ГБ оперативной памяти обошелся бы в 128 тыс. долл.) сделали свое дело. Скорость принесли в жертву.

Ничто не забыто

Старейший BI-продуктом, сохранившим свою in-memory-сущность, является Cognos TM1, так сложилось, что он и старейший BI-инструмент вообще

Старейшим BI-продуктом, до настоящего времени сохранившим свою in-memory-сущность (чистый in-memory OLAP-движок), является IBM Cognos TM1, так сложилось, что он и старейший BI-инструмент вообще.

На наш взгляд, было бы некорректно в рамках рассматриваемой темы обсуждать in-memory СУБД, поскольку лишь их подкласс ориентирован на решение задач бизнес-аналитики. К тому же они явно заслуживают отдельной статьи (она будет предложена читателям КО в скором времени). Здесь лишь отметим, что и в этой сфере пионером был Голубой Гигант, и продукт компании — иерархическая СУБД и система управления информацией IMS/VS с технологией Fast Path (pdf) — датируется 1976 г. Одним словом, и в контексте in-memory-CУБД можно смело говорить о том, что под луной оказалось опять хорошо забытое старое, которое становится будущим.

Остаться должен только один?

Разработчикам необязательно выбирать одну архитектуру хранения данных. Ничто не мешает поставщику ПО с применением дисковой системы добавить in-memory-вариант, например, как это сделала SAP, предложив поддержку HANA для своей BI-платформы SAP NetWeaver Business Warehouse. Либо же использовать большие кэши данных в оперативной памяти для оптимизации дисковой производительности, подобную схему приняла на вооружение Oracle, выпустив In-Memory Database Cache. Разумеется, решения, спроектированные и оптимизированные под чистые in-memory-архитектуры будут по скорости превосходить дисковые системы с кэшированием, поскольку в последних останутся медленные операции перемещения данных и избыточные операции индексирования.

В то время как в ПО с применением дисков применяют кэширование, in-memory-продукты при нехватке основной памяти автоматически используют виртуальную память (диски). А еще есть сравнительно доступная FLASH-память (SSD), это постоянное хранилище, как и дисковые системы, но с более быстрым временем отклика, ее можно эксплуатировать вместо дисковой памяти без необходимости в серьезной модернизации ПО. Ее в качестве кэша применяет в частности компания Oracle в своем аппаратно-программном комплексе Exadata (технология Exadata Smart Flash Cache). И этот вариант хранения данных еще больше путает картину.

Ничто не забыто

Не все in-memory-технологии одинаково полезны

Различия между двумя архитектурными подходами нередко имеются лишь в теории, на практике же они сосуществуют, и часто в рамках одного решения и даже одного приложения. И это оправданно, ведь серебрянных пуль не бывает, in-memory-технологии не панацея. Есть случаи, когда они в чистом виде вообще технически не применимы. Скажем, для мультитерабайтных хранилищ данных сегодня все же не обойтись без традиционной архитектуры с многоэтапными ETL-процедурами и витринами данных.

Тем не менее, с учетом продолжающегося падения цен на оперативную память, in-memory-технологии будут все более популярны. По версии, недавно озвученной экспертами Gartner, — уже к 2014 г. 30% аналитических приложений будут использовать in-memory-средства для ускорения вычислительных процедур.

Новые горизонты

По мнению отраслевых экспертов, следующим прорывом в области in-memory BI будет «раскрытие» потенциала многоядерных процессорных архитектур. Сегодня эксплуатируются серверные CPU с восемью (например, Intel Xeon E5-4620) и шестнадцатью ядрами (AMD Opteron 6366 HE, Oracle SPARC T3), но в будущем число ядер будет расти. И технологии работы in-memory BI должны быть оптимизированы для задействования всех ядер и эффективной работы с памятью, ведь бутылочное горлышко производительности теперь располагается между кэшем процессора и оперативной памятью.

Еще одна богатая на возможности развития BI-технологий сфера — использование GPU-ускорителей. По скорости обработки данных они могут превосходить универсальные процессоры в десятки и даже сотни раз (уже есть примеры в научных вычислениях). Соответствующие исследовательские проекты ведутся на протяжении последних нескольких лет (в том числе в HP Laboratories, pdf), все идет к тому, что в скором времени за ними последуют и коммерческие предложения, которые позволят существенно ускорить выполнение требующих интенсивных вычислений задач бизнес-аналитики.

+77
голосов

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT