`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Erasure Coding против RAID

+55
голосов

На больших объемах данных стандартные политики RAID становятся неэффективными – из-за сложности управления дисковыми группами, перерасхода дисков, проседания производительности, угроз сохранности данных. Алгоритмы Erasure coding (кода избыточности) защищают данные лучше, но за счет усложнения вычислительной надстройки. Зато системы хранения с Erasure Coding хорошо масштабируются, не привязаны к отдельным устройствам хранения и даже площадкам размещения.

Традиционные RAID, аппаратные или программные, работают с зеркальными копиями данных (как в RAID 1), или с  данными и четностями (parity), одинарными или двойными (как в RAID 5 или 6). Копирование удваивает число требуемых дисков. RAID с четностями экономнее по расходу дисков, но, чем больше их емкость и масштабнее дисковые группы, тем выше риски потерь данных: реконструкция поврежденного массива может длиться сутками, если не неделями. С увеличением избыточности по дискам растет надежность, но производительность, особенно деградированного массива, остается низкой. Объединение RAID-массивов усложняет администрирование данных,  впридачу к перерасходу дисков и проблемам производительности.

В распределенном хранении сохранность информации обычно гарантирована репликацией - раскладыванием копий блоков данных по нодам кластера серверов. При факторе репликации RF = 2 (3, 4) для каждого блока данных создается еще одна (две, три) копии. В итоге, при RF = 2 пользователю доступно меньше половины суммарной «сырой» емкости дисков, при RF = 3 – меньше трети.

Когда счет идет на сотни дисков и петабайты (облачные сервисы, видео по запросу, медийные библиотеки, архивы видеонаблюдения)  такая расточительность бьет по карману. На смену объединениям RAID-массивов и репликации данных в распределенных системах архивного хранения приходит Erasure coding (EC) -  экономичный метод защиты данных, стоящий на мощном математическом фундаменте.

EC - это набор алгоритмов, позволяющий восстановить недостающие данные по имеющимся фрагментам. Подход состоит в том, что оригинальные данные разбиваются определенным образом на какое-то количество фрагментов,  для некоторых из них создаются копии (коды избыточности). Обычно говорят о формате N+M, например, 10+6.  Данные и коды избыточности распределяются по N+M дискам (в нашем случае их 16). При потере любых 6 фрагментов (дисков) оставшихся 10 достаточно для восстановления оригинальных данных. Если диски находятся в разных серверах, система хранения в целом переживет потерю шести таких устройств. При этом составные части СХД могут находиться на географически разнесенных площадках.

Оборотная сторона устойчивости к отказам дисков - усложнение расчета кодов избыточности при записи данных. В случае размещения устройств хранения на разных площадках – еще и увеличение глобального сетевого трафика. Репликация все же намного быстрее позволяет обрабатывать ошибки. Но дисков не напасешься.

Всем известные RAID 5 и 6 – частные, простейшие типы EC. Двадцать лет назад диски вмещали гигабайты данных, чтение диска занимало минуты, а RAID 5 считался надежным и экономичным. Массив на дисках современных емкостей можно вычитывать часами. Когда реконструкция массива длится неделю, за это время можно потерять еще диск или два – не спасет и RAID 6. Erasure coding в разных проявлениях привлекает разработчиков ПО объемного хранения надежностью и экономичностью. Так, на EC построены объектные хранилища Ceph и конвергентные системы Nutanix.

Под какие приложения, нагрузки и типы данных уместно использование Erasure coding? В первую очередь, это архивные данные, актуальные годами. Архивы - привлекательный для EС объект, потому что редко перезаписываются. У EC большие вычислительные расходы при записи и минимальные на чтение. Приложения, большей частью read-only, получают от EС максимум пользы: высокую надежность, устойчивость к множественным отказам дисков, небольшие накладные затраты, рациональный расход дисков. Сравнительная таблица дает представление о полезной утилизации дискового пространства в системах хранения с репликацией (RF = 2) и EC:

Erasure Coding против RAID

Реализации EC различаются, в том числе производительностью. Но дело не в выборе политик ЕС и наилучшего ПО с EC. Важнее в управлении данными отделить их «горячую часть» от «прохладной» – где это возможно. Обычно речь идет о производственных данных и первичных хранилищах. Где данные активно изменяются и критична производительность – архитектуру хранилища подбирают под якорное приложение, а надежность обеспечивают репликацией данных (двумя, тремя или большим числом копий – в зависимости от ПО и уровня озабоченности владельца).

Erasure Coding против RAID

Данные всех остальных типов стоит объединять в активные архивы – собрания информации продолжительного хранения, с доступом в реальном времени. Производительность для них не так важна как сохранность данных и масштабируемость. Системы активного архива, вероятно, станут основной областью применения Erasure coding.

+55
голосов

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT