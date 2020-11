+11

Гибридные системы хранения данных на флэш-памяти и механических дисках производительны, емки и экономичны.

В гибридных СХД сведены воедино достоинства SSD (низкие задержки) и HDD (дешевизна хранения). Их козыри: высокая производительность, простое масштабирование, доступная цена. Массивы all-flash еще продуктивнее, но намного дороже и не покрывают задачи обслуживания больших объемов данных.

Гибриды бывают программно-определяемыми или аппаратными, с кэшированием медленных дисков флэш-памятью или многослойной архитектуры, с автоматизацией переноса данных между носителями и без. Они появились на рынке хранения давно — как ответ взрывному росту объемов цифровых активов. Петабайтом cегодня никого не удивить.

Данные неравноценны и в разной степени востребованы приложениями. Брутто-данные (bulk data) держат на механических дисках, SSD-слой парирует нагрузки критичных приложений. Трафик гибридных систем наглядно описывают в терминах «горячего-холодного».

«Термодинамика» данных

Под «температурой» метафорически понимают частоту опроса данных приложениями. Массив хранимой информации подобен пирамиде. На ее пике — данные частого обращения, «горячие». Таких немного, они изменчивы, скорость доступа к ним критична. Чем меньше запросов к данным и реже их обновление — тем они «холоднее». Остывшие массы покоятся в основании, но остаются при этом в ротации, едином поле адресов, аналитики и поисковых запросов. Особняком стоят «замороженные» данные — обособленные статичные архивы, хранить которые обычно предписывают регуляторы.

Оптимизация хранения данных переменной температуры породила иерархическое управление HSM (Hierarchical Storage Management) — технологии автоматического распределения данных между быстрыми (дорогими) и медленными (дешёвыми) накопителями. В СХД с многослойным хранением и HSM основная масса данных размещается на механических дисках или ленте большого объёма. Следуя динамике запросов ввода/вывода, данные переносятся во флэш-память и обратно, в эконом-класс.

Данные дышат

Было бы удобно вообще все данные хранить в одном месте и пусть системы хранения сами следят за их температурой, сами перемещают между слоями. Этому есть несколько препятствий. Как свести данные разных источников в единое управляемое хранилище? Как предсказать пропорции горячего и холодного, какие объемы носителей предусмотреть под них? Не лучше ли вместо инвестиций в дорогостоящие системы хранения с HSM использовать стороннее ПО для анализа и перемещения данных между типовыми пулами хранения?

Активность данных распределена во времени и пространстве. Предприятия собирают данные на периферийных устройствах («тепло»), потом отправляют их в отстойники (data pools), где они остывают («холодно»). Потом с ними работают серверы баз данных или аналитические серверы («горячо»). Cоздаются резервные копии («тепло»). Наконец, данные хоронят в дальних архивах («глубокая заморозка»).

Создание и хранение данных постепенно меняют динамику, природу, географию. Растет спрос на периферийные вычисления. Предприятия готовятся к полуторакратному росту объемов хранения в год, на периферии оседает значительная часть цифровых данных.

«Никто никогда ничего не знает наверняка»

Ценность данных всегда относительна. Время покажет. Или так сложатся обстоятельства. Заранее неизвестно, какая камера видеонаблюдения зафиксирует момент преступления. Аномальные результаты выборов поверяются статистическими методами, после драки. Предугадать при создании книги или фильма, что они станут бестселлером, сложно.

Вот две истории про Пола Маккартни.

Мелодия Yesterday пришла ему во сне. Песня месяцами оставалась недоделанной, с рабочим названием «Яичница» и таким же случайным текстом «Scrambled eggs, Oh, my baby how I love your legs...». Продюсер Beatles Джордж Мартин успел записать и выпустить на американский рынок инструментальную версию пьесы (не привлекла внимания). Окончательный вариант текста пришел позже, а в записи не участвовали остальные битлы — только Маккартни и струнный квартет. По опросам и результатам продаж Yesterday сегодня называют лучшей песней XX столетия.

Последний записанный Beatles альбом Abbey Road завершает Her Majesty, короткая соло-композиция Маккартни. Ее там не должно было быть. Вернее, она могла войти в попурри второй стороны пластинки — между Mean Mr Mustard и Polythene Pam. Но не вошла. При сведении дорожек Пол решил, что песня ему не нравится и велел звукорежиссеру отправить ее в мусор. Тот послушно отрезал кусок мастер-ленты с записью. Но его научили ничего не выбрасывать. «Хазяйська дитина», он подобрал фрагмент с пола после ухода Маккартни из студии и подклеил в конец катушки. Обнаружив наутро Her Majesty в финале альбома, Пол принял случившееся как данность. А остальным было все равно — команда доживала последние дни.

Храним все, а там разберемся

Вот и хранят цифровые активы долго, не зная будущей значимости данных. В каждой компании есть свой спектр ценностей и своя стратегия использования классов хранения: в оперативной памяти, на SSD или емких механических дисках. Приятно помечтать об автоматическом перемещении данных между носителями в зависимости от требований к производительности. Но, чтобы было между чем перемещать, надо сперва иметь гибридную среду хранения. А средства автоматизации иметь в виде докупаемых сервисов.

Самый простой и естественный вариант — автономное хранилище на дисках SAS SSD/HDD . Оно позволяет данным всех уровней ценности быть доступными в едином поле — без барьеров для пользователей, без дополнительных затрат на размещение данных. В экономичном хранении нужен баланс: между холодными и горячими данными, ценой реализации слоев хранения и производительностью, между платой за сервис и эффектом от его внедрения.

Доступность данных

Хранилище — это не только емкость и производительность, но, главным образом, доступность. Ее описывают в процентах от общего времени, в течение которого система хранения нормально обслуживает запросы. Системы хранения высокой доступности (High Availability, HA) обычно имеют показатели в диапазоне от 99,9% до 99,999% («пять девяток» соответствуют приблизительно пяти минутам допустимого простоя в год).

Ключевая особенность хранилища высокой доступности — избыточность компонентов, отсутствие единой точки отказа (Single Points Of Failure, SPOF). В таком массиве минимум два контроллера, выход любого из строя не приводит к простою. Дублированы блоки питания, модули охлаждения, пути к дискам.

На живом примере

Гибридные системы хранения предлагают многие. Как правило, это двухконтроллерные массивы с сетевыми интерфейсами из спецификации вендора, на дисках с прошивками вендора и расширяемые дисковыми полками того же вендора. С одной стороны, жесткой политикой выбора конфигурации и накопителей производитель снижает риски покупателя. С другой, любые ограничения служат оправданием ценовой кабалы, в которую тот загоняется.

Пример открытого (модульного) подхода показывает QSAN — тайваньский разработчик систем хранения. Контроллеры систем QSAN обслуживают запросы параллельно (active-active). Такая архитектура удваивает доступную пропускную способность хоста и частоту попаданий в кэш, гарантируя, что в системе не будут потрачены впустую ресурсы. В базовую плату каждого контроллера можно ставить карты расширения (10-25Гбит Ethernet или 16-32Гбит FC) и добавлять оперативную память. Докупаемые опции SSD caching и Auto-Tiering позволяют использовать SSD и HDD слои в связке.

Физически же гибридное решение может выглядеть так.

QSAN XS5226 — базовая платформа под 26 дисков формата 2.5".

Поддерживаются стандартные SAS SSD и HDD. Ввиду роста объемов хранения, лучше поставить в головную систему SSD требуемого количества и емкости, а механические HDD вынести в полку расширения QSAN XD5324, подключаемую к голове по 12Гбит SAS:

Если и этого мало, выгодно подключать высокоемкую полку Western Digital Ultrastar Data60 высотой 4U на 60 дисках, а то ее 102-дисковую старшую сестру:

Таким может быть продуктивный кластер VMware vSphere:

В системах хранения QSAN реализованы такие функции, как тонкое выделение ресурсов, автоматическое многоуровневое размещение, создание моментальных снимков, а также локальное клонирование и удаленная репликация для аварийного восстановления, всё доступно через веб-браузер. К примеру, моментальные снимки ускоряют аварийное восстановление данных из хранилища резервных копий в удаленном центре обработки данных.

Их нравы

Швейцарская компания SFC оказывает услуги по IT-криминалистике, отслеживанию активов и комплексной проверке предприятий. Для этого нужна инфраструктура, позволяющая быстро собирать, хранить, искать и извлекать большие объемы информации. Для расследований сохраняются неструктурированные данные, такие как электронная почта, документы Word и множество других файлов, получаемых от клиентов. Метаданные, собираемые из файлов, хранятся в базе данных SQL, что позволяет быстро искать необходимые документы для последующей работы с ними.

Когда ядро работы — обработка и анализ больших массивов данных клиентов, а приложениям, особенно базам данных SQL, для эффективной работы требуется высокоскоростное надежное хранилище, гибридная СХД — очевидное решение. SFC выбрала QSAN XS5226 емкостью около 50TB на SSD, с расширением Western Digital Ultrastar Data60 JBOD на петабайт. Общую емкость хранения можно увеличить в разы подключением дополнительных полок.

Напоследок

«Фишкой» именитых систем хранения является богатая функциональность и декларируемая сервисная поддержка. В небогатой стране со скромными по мировым меркам цифровыми активами, правовым нигилизмом и скверной логистикой, приходится полагаться на себя. А значит, выбирать под решение задач оборудование, позволяющее добиваться частных целей доступными средствами. Чем меньше ограничений — тем обычно решение дешевле.

Хранение данных (как и обжигание горшков) — не божий промысел. Глаза боятся, руки делают.

