Кухня хранения: консервируем подручными средствами, с размахом

14 июль, 2010 - 15:04Юрий Жуковский

Сегодня индустрия систем хранения данных (СХД) стоит перед вызовом: объемы коммерческой информации продолжают расти, но организации вынуждены экономить на всем, сокращая бюджеты и персонал. Перед ИТ-службами ставят задачу оптимизировать инфраструктуру хранения, другими словами – снизить расходы на ее поддержание без ухудшения качества сервиса. Неоднородность и неравноценность данных уже становится очевидным и основным ресурсом оптимизации – через структурирование информации и обслуживающих устройств.

На сортировке данных по ценности, доступности, востребованности построены такие популярные концепции, как многоуровневое хранение (tiered storage), иерархическое управление системами хранения (HSM), управление жизненным циклом информации (ILM). Техники перемещения данных с дорогих носителей на более дешевые по установленным принципам и сценарию являются сутью управляющего ПО. Оно же вносит основной вклад в стоимость высокоразвитых СХД. Большие деньги берут не за оборудование, а за адресное жизнеобеспечение активных данных и способность своевременно разгружать СХД верхнего эшелона от устаревающей и обесценивающейся информации.

Жизненный цикл информации

Любая информация, независимо от формата и порождающих приложений, проходит на своем жизненном пути через четыре состояния:

  • Динамические данные оперативного доступа. Это объект и продукт работы активных приложений, для них характерны постоянные изменения. Находясь в фокусе множественных конкурентных запросов, они требуют максимальных усилий по обеспечению производительности, доступности, безопасного хранения.

  • Статичные данные оперативного доступа. Изменения в них уже не вносятся, но все еще требуется их высокая готовность. Отсутствие правок – сигнал к перемещению этой информации на устройства, менее дорогие в обслуживании. Ослабляя требование немедленного доступа, мы получаем еще большую свободу выбора поддерживающей СХД.

  • Статичные данные отложенного доступа. Такие данные не только не изменяются, но и редко запрашиваются, однако по необходимости должны быть доставлены приложению за разумно короткое время. В подобном состоянии пребывает большая часть сколь-нибудь значимой информации, здесь цена реализации хранения оказывается ключевым фактором выбора поддерживающей СХД.

  • Резервный архив. Информация, сохраняемая на случай аварийного восстановления. При худшем из сценариев должна существовать полная копия данных неважно на каком из носителей: дисках, ленте или оптике.

На каждой из перечисленных стадий предъявляются свои требования к производительности и времени отклика обслуживающих СХД, рассчитываются свои оценки риска потерь и простоя, работает своя экономика. Управление эволюцией данных состоит в том, чтобы назначить каждой единице информации место хранения, соответствующее ее ценности, в каждый момент ее жизненного цикла. Идея переноса устаревающих данных на менее дорогие устройства прямо следует из качественного анализа данных. Удешевление хранения с учетом особенностей целевых рынков, издержек на организацию плановой миграции, меняющихся рисков – основной вызов индустрии хранения данных.

Слоеные «пироги» хранения

Кухня хранения консервируем подручными средствами, с размахом
Стоимость хранящейся на предприятии информации со временем меняется

Многоуровневое хранение (tiered storage) – способ управления постоянно разрастающейся информацией, приведение инфраструктуры в соответствие с качественными и объемными характеристиками сохраняемых данных. Иерархическое расслоение СХД по уровням Tier 1 – Tier 2 (– Tier 3) исходит из требований бизнеса к производительности, непрерывности, безопасности, защите, сохранности, чувствительности к цене реализации. Целью является высвобождение дорогих ресурсов Tier 1 и снижение расходов на хранение за счет перемещения статичных данных на устройства нижних уровней Tier 2 (Tier 3) – например, дисковые массивы на более дешевых высокоемких накопителях SATA. В таблице приведены общие характеристики, по которым принято классифицировать СХД.

В действительности не так просто добиться экономии одной лишь сортировкой данных и последующей миграцией на соответствующие их статусу устройства. Во-первых, нет отраслевых стандартов. Разумеется, все ведущие вендоры СХД имеют в своем арсенале развитые инструменты миграции информации между устройствами разных уровней. Но работают они зачастую только с платформами конкретной компании. Поэтому требование однородности оборудования по всей вертикали СХД привязывает пользователя к поставщику и в какой-то степени делает его заложником. Во-вторых, несовершенны аппаратные технологии отделения «горячих» данных от «холодных», что приводит к расходованию дорогого ресурса высокопроизводительных носителей на малоценную информацию. В-третьих, процесс регулярной миграции данных отвлекает вычислительные ресурсы серверов и СХД, а массовая переадресация путей обращения к данным в сложных приложениях оставляет широкое поле для ошибок и увеличивает риск потери информации.

Реальный выигрыш может дать проектирование эффективной инфраструктуры СХД обратными методами: от специфики задачи, а не возможностей определенной линейки СХД; на основе открытых систем вместо закрытых; избегая избыточности и излишеств – в пользу стандартных средств управления. Естественно, в критичных для бизнеса приложениях должны использоваться адекватные по стоимости и функциональности решения Tier 1 от лидеров индустрии. В этом наиболее дорогом сегменте рынка не утихают «священные войны» брендов. Однако споров, где хранить статичную и устаревающую информацию, и там давно нет. Очевидно, что ресурсы массивов фронтального ряда Tier 1 применять для этого расточительно. Встречаются разные подходы к организации Tier 2 (Tier 3), но в целом можно сказать, что задача хранения неактивных данных обойдена вниманием. Обслуживающие их СХД называют не иначе как «вспомогательными», «второстепенными», «вторым ярусом хранения». Тем не менее будь они хоть «кухней» хранения, хоть «чуланом», это не умаляет их роли и ценности для бизнеса.

Пожиратели пространства

Порождать большие потоки данных могут приложения и регламент ведения бизнеса. Так, существенную нагрузку на СХД дает документооборот. Длительное консервирование может понадобиться уже не мега- или гига-, а терабайтам оцифрованных документов, особенно если их надо сберегать годами, прежде всего как действующий ссылочный ресурс. После фазы активного использования огромные объемы данных оседают в архивных хранилищах банков, страховиков, юридических центров, кадастровых бюро, логистических компаний, медицинских учреждений.

Конвергенция традиционных систем безопасности (видеонаблюдение, контроль доступа, охрана периметра) с ИТ-инструментами (распознавание образов, системы принятия решения) только усугубила требования к СХД. Объемы потребления дискового пространства здесь растут пропорционально запросам к разрешению изображения, цветности, частоте обновления кадров, длительности срока хранения архивов видеонаблюдения. Сходным образом используются СХД в центрах обработки вызовов компаний и службах телефонной поддержки клиентов, где запись переговоров операторов с клиентами – обязательная составная часть внутреннего регламента.

Мультимедийный контент вообще является одним из основных двигателей рынка СХД высокой емкости. Взять видеопроизводство. До того как попасть на глаза зрителей, «километры цифровой кинопленки» снимаются, записываются, обрабатываются и обращаются внутри студий, порождая на каждом этапе ветвления и резервные копии. Несколько дней работы «в поле» забивает данными массив в десятки терабайт. Переход медиаиндустрии на форматы высокого качества (HD-видео и многоканальный звук) первым делом ускоряет «проедание» дискового пространства. Конечно, пресловутая непрерывность бизнеса (и соответствующие СХД как центральный элемент инфраструктуры) для производственных студий важна. Но куда более острой проблемой для них является обеспечение коллективного доступа к большим объемам данных при разумной степени их защищенности, с разумной ценой реализации. Того же хотят масштабные потребители «видеоконсервов», те же файлообменные сети.

Заметный вклад в расширение спроса на СХД внесли основные драйверы современного корпоративного рынка – консолидация и виртуализация ИТ-инфраструктуры. Концентрация данных и приложений естественным образом ведет к увеличению объемов централизованного хранения, повышая при этом требования к управляемости, которые растут с более активным применением в бизнесе средств группового редактирования документов (с поддержкой версий) и средств мультимедиа (презентаций, деловой графики, видеороликов, подкастов). Все шире применяются многомерные аналитические базы данных. Получили развитие классические задачи, возлагаемые на файловые (NAS) серверы: хранение профилей пользователей, их локальных почтовых ящиков, документов. Автоматическое сохранение предыдущих копий документов современными ОС, пересылка в почтовых вложениях массы файлов, хранение образов виртуальных машин – все это тоже увеличивает требования к емкости СХД.

Простые рецепты хозяйке на заметку

Дисковый массив как любое хранилище информации требует специализированных программных и аппаратных средств. В массивах Tier 2 нет полного аппаратного дублирования всех компонентов. Надежное хранение данных на них обеспечивает широкий набор служебных процедур. Самая распространенная и часто используемая функция защиты от потери информации (если более точно, от случайной порчи последних экземпляров данных) – Snapshot, т. е. фактически создание «мгновенных снимков» состояния тома на определенный момент, после чего все изменения записываются как дополнения относительно этой точки. К ней пользователь всегда может откатиться. Современные массивы сохраняют десятки снимков (Snapshot), что дает довольно подробную хронологию изменений.

Статичность данных до точки фиксации снимка позволяет легко реализовать их резервное копирование на другой физический массив или том. Это можно делать не прерывая работы и не останавливая доступ к тому с помощью функции «теневого» (не ощутимого для пользователей) создания полной копии данных – ShadowCopy. Возможности Snapshot и ShadowCopy объединяет функция Snapclone – формирование мгновенных физических копий разделов. Более универсальная функция Data Replication создает образы исходных данных на других томах или устройствах, хотя при этом снижает производительность СХД и приостанавливает доступ к информации. Функция Mirrorclone выполняет непрерывное копирование разделов в процессе работы. Для требовательных к надежности пользователей в некоторых ОС для дисковых массивов предусмотрена программная функция кластеризации – Clustering. Она применяется для обеспечения безопасности хранения данных и для балансировки нагрузки между узлами кластера. Технология Single-Instance Storage (SIS) исключает резервное копирование дублирующей информации на общих томах – экономит место на дисках.

Кухня хранения консервируем подручными средствами, с размахом
Идет взрывной рост неструктурированных данных, для хранения которых требуются недорогие и емкие хранилища

При добавлении дисков или дисковых полок применяются технологии Online RAID capacity expansion and RAID level migration (расширение RAID добавлением новых дисков для увеличения емкости массива и одновременной смены уровня RAID), Drive insertion/removal detection and rebuilding (автоматическое определение удаления и вставки диска, запуск процедуры восстановления) и Background initialization (немедленная доступность дисков и их фоновая инициализация). Изменить уровень RAID и его свойства (размера полосы данных stripe size, алгоритма работы с кэш-памятью) можно с помощью Online RAID level/stripe size migration. За рациональным применением пользователями пространства присматривают службы Quota management (квотирование, ограничение на размер области данных, предохраняющее от исчерпания дискового пространства) и Content filtering (фильтрация содержания, разграничение доступа пользователей по типам файлов, позволяющее администраторам ограничивать виды данных, к которым обеспечивается совместный доступ).

Описанные функции не являются обязательным атрибутом всех дисковых массивов, а их суть и разнообразие не связаны с объемом хранения, принадлежностью к определенному слою хранения или бренду. Это разнообразие – рабочий инструментарий администратора и лишнее свидетельство тому, что надежное хранение не сводится к одному только обеспечению аппаратной отказоустойчивости и борьбе за минимум точек отказа. Уместным решением и способом удешевления здесь может быть использование открытых стандартов, заменяемых блоков и компонентов решений, возможно, более стандартных программных средств.

Определить оптимальный сценарий хранения данных в иерархической структуре позволит простой алгоритм в несколько шагов, которые желательно выполнить до проектирования новых СХД:

1. Классифицировать данные для многоуровневого хранения с учетом требований бизнеса.

2. Построить активный архив. Определить правила перемещения в него редко используемых или статичных данных.

3. Избавиться от повторяющихся данных, что прямо повлияет на цену хранения.

4. Настроить процедуры резервного копирования и восстановления данных.

5. Использовать Snapshot-полные копии рабочих данных. Это поможет резервированию и восстановлению информации (хотя и добавит нагрузку на диски и скажется на цене).

6. Применить виртуализацию. Виртуализация приложений и систем хранения значительно улучшает показатели утилизации мощностей серверов и СХД и, в конечном счете, экономит средства.

Серверы DSS в структуре хранения

Традиционно компании выстраивают слои хранения последовательно: от старших Tier 1 к младшим Tier 2 (Tier 3). Сделав инвестиции в СХД Tier 1, многие продолжают дооснащать их внешними полками расширения, в том числе на недорогих дисках SATA. Но массивы Tier 1 неравноценны и тоже делятся по классам «entry level – midrange – enterprise». СХД начального уровня не имеют запаса производительности управляющих модулей и расширяемости (количества подключаемых внешних полок). В этом случае и большой объем дискового пространства под второстепенные приложения не добавить, и ресурс отбирается у основных, критичных приложений. Покупать еще один массив начального уровня Tier 1? Переходить на midrange? Любой из сценариев потребует немалых дополнительных вложений. Возможно, проблема надежного хранения большого объема данных формулировалась неверно – в рамках стратегии прямолинейного развития инфраструктуры или в силу приверженности бренду.

Кухня хранения консервируем подручными средствами, с размахом
IDC прогнозирует быстро растущий спрос на системы NAS и IP SAN (iSCSI, FCoE), функции которых все чаще объединяются в устройствах класса Date Storage Server

Вообще говоря, на рынке давно и широко представлен универсальный инструмент хранения и гибкого управления большими объемами данных в составе корпоративной инфраструктуры – серверы хранения данных (DSS, Data Storage Server). Термин DSS ввели производители специализированных ОС. Так, Microsoft начала поход на рынок устройств хранения данных с ОС Windows Storage Server 2003 R2, работающей на файловом уровне. Ее развитие – платформа Windows Unified Data Storage Server 2003 – уже позволяла обслуживать сетевые устройства с файловым и блочным доступом к данным. Немецкий разработчик программного обеспечения для систем хранения данных Open-E) много лет продвигал Open-E DSS, объединяющий функциональность NAS и iSCSI (притом что продавал и отдельные инструменты Open-E NAS и Open-E iSCSI). Сегодня Microsoft распространяет через производителей OEM-серверов единую ОС Windows Storage Server 2008, базовые возможности которой объединяют функции файлового сервера с обслуживанием процедур и блочного доступа к данным по протоколу iSCSI. Равно как и Open-E свела все свои продукты в один универсальный DSS V6).

Современные программные средства управления хранением больших объемов данных в сети не сводятся к функциональности NAS-серверов. Это легко видеть по отношению самих разработчиков ПО к предполагаемой роли продуктов. Прежде Microsoft представляла Windows Storage Server 2003 R2 как «выделенный сервер файлов и печати на основе операционной системы Windows Server 2003 R2 и аппаратного устройства хранения данных в сети (NAS), предназначенный для построения высоконадежных, легко интегрируемых и экономичных сетевых СХД». Сегодня компания позиционирует Windows Storage Server 2008 как «комплексное решение для хранения данных, упрощающее управление хранением информации и снижающее его стоимость».

Фактически серверы DSS – это класс устройств на стыке серверов х86 общего назначения и специализированных СХД. Как и все серверы х86, они построены по открытым индустриальным стандартам. Похожими на СХД их делает большое количество дисковых накопителей, как следствие – высокая достижимая емкость на недорогих дисках SATA и программные средства управления хранением. Служебные процедуры – из числа описанных в предыдущей главе – реализуются поставщиком ОС или сторонними производителями сервисных утилит. Таким образом, серверы DSS решают задачу хранения большого объема данных, обеспечивая при этом:

  • файловый (NAS) и блочный (iSCSI, FC) доступ к данным;

  • поддержку гетерогенной инфраструктуры (клиентов различных ОС);

  • использование стандартных дисков SSD/SAS/SATA в разных комбинациях;

  • возможность дооснащения внешними интерфейсами (1Gb или 10Gb Ethernet, Fiber Channel, Infiniband) и их комбинациями;

  • хорошее масштабирование по числу сетевых подключений и емкости хранения дополнительными полками расширения.

В конечном итоге целью является создание эффективной инфраструктуры хранения. Эффективной – значит экономичной, расширяемой, с эластичностью по числу подключений и прогнозируемыми сценариями роста. Никакой бренд, даже исполненный лучших намерений, не заменит самостоятельного и осознанного проектирования среды хранения компанией-владельцем данных. Только учет всех специфических для бизнеса факторов (выделяемого бюджета; ценности информационных активов; стоимости простоя, поддержки; квалификации персонала; адаптируемости к меняющимся условиям) заставит данные работать на компанию, а не наоборот.

Класификация СХД
Характеристика Tier 1 Tier 2 Tier 3
Синонимы Primary storage Secondary, nearline storage, системы второго яруса Offline storage, архивы
Типы приложений и данных Критичные для бизнеса (mission-critical, business-critical) Статичные данные оперативного доступа Архивы, резервные копии
Производительность и доступность Высокая Умеренная Ограниченная
Носители FC и SAS HDD, SSD SAS и SATA HDD SATA HDD, ODD, лента