Три возраста механических дисков

Статистика знает всё. Она не знает, сколько в СССР (было) стульев и сколько проживет отдельно взятый HDD. C наборами механических дисков проще — их перспективы предсказуемы и управляемы.

Жизненные циклы хранения обычно описывают как согласование классов устройств с разной скоростью доступа к данным: твердотельных / дисковых / ленточных. На деле, расслоение условно, а рассуждения про «горячее-холодное» сводятся к тарифной сетке оплат за сервис с нужным уровнем задержек обращения к данным. Держи данные на чем хочешь, но обеспечь качество сервиса.

Хотя основное внимание индустрии приковано к критичным приложениям и твердотельному хранению «горячего» ядра данных, его доля в общем объеме хранения невелика. Оно всегда специфично и привязано к программной модели движения данных.

На «холодном» фланге пока еще в ходу ленточные библиотеки, но многие архивы переезжают с них в емкие недорогие хранилища на HDD — за быстрым откликом.

Основное тело данных мира сегодня лежит на механических накопителях 3.5″ NL SAS/SATA 7200 rpm — из-за высокой емкости, приемлемой стоимости хранения и достаточной производительности. Дни остальных видов HDD сочтены.

Три возраста механических дисков

Coughlin Associates, 2018

Квант хранения

Облачные операторы, производители и распространители контента, видеонаблюдатели расходуют под объемные данные десятки и сотни HDD. Хотя логически объединяют диски, управляют данными и защищают информацию все по-разному, физическим квантом хранения давно следует считать не отдельные диски, а наборы накопителей.

Хранилища, программно-определяемые или аппаратные, блочные, файловые или объектные, устроены похожим образом: контроллеры управляют массивами HDD на интерфейсе SAS. В идеале, сети хранения разделяются на средства управления (серверы-контроллеры) и емкие JBOD, обычно на 60-100 HDD. Как отдельный класс внешних устройств, JBOD’ы практичны: продолжительность жизни дисков выше в однородной среде, с хорошим теплоотводом и минимумом вибраций. Не только реже отказы, проще развитие инфраструктуры, больше сервисной свободы.

Кривая отказов

На вопрос, сколько живут диски, простого ответа нет. Классическая «кривая надежности» (зависимости числа отказов от времени эксплуатации) выглядит так:

Три возраста механических дисков

Активная жизнь большинства HDD укладывается в срок 3-5 лет. В начале эксплуатации основной падеж происходит из-за скрытых производственных дефектов или вследствие неаккуратной перевозки (красная кривая «детской смертности»). Зеленый уровень — случайные сбои в работе головок или контроллера дисков. Желтая кривая — отказы, вызванные старением (износом поверхности, привода, головок). Их сумма, синяя чашеобразная кривая (bathtube curve), дает общее представление о рисках.

В расцвете сил

Оценкам детской смертности дисков и стратегиям замещения накопителей в больших системах хранения посвящают научные труды. Одни отслеживают статистику отказов по моделям HDD, другие нещадно критикуют их подходы и выводы. Без привязки к модели нагрузок любые чужие результаты будут «в огороде бузиной». Как обычно, размер имеет значение. «Что дозволено Юпитеру, не дозволено быку» — это про Google и местные мануфактуры контента.

Посему, ограничиваемся паспортными характеристиками дисков и принимаем как данность, что с возрастом частота отказов начинает нелинейно расти. Судьба отдельно взятого диска непредсказуема, для групповых оценок есть параметры MTBF (среднее время наработки на отказ) и AFR (среднегодовая норма отказов).

Так, для WD/HGST Ultrastar DC HC530 емкостью 14TB заявлен MTBF 2.5 миллиона часов. Это 2 500 000 / 8760 = 285 лет. Обольщаться не надо: MTBF — не прогноз продолжительности жизни индивидуального диска. Это вероятность выхода из строя одного диска в партии (в данном случае из 285 штук) за 1 год. AFR для этих же накопителей равен 0.35%. Получается, JBOD с 60 такими HDD за три года трудов встретится с одиночным отказом с вероятностью 63%.

Когда на покой?

Десять лет назад типичным для HDD промышленного класса был MTBF 1-1.2 миллиона часов. Сейчас — вдвое выше. Производители HDD заполняют камеры гелием, совершенствуют механизмы записи и даже заходят в бизнес JBOD — для улучшения условий содержания дисков и продления тем самым их ресурса. Общими усилиями удается отодвинуть «пенсионный возраст» систем хранения.

Приближают его тяжелые режимы работы и вызванный ими рост AFR. Неверно думать, будто только для SSD существует проблема ограниченного ресурса перезаписи ячеек NAND. Срок службы HDD тоже не бесконечен. Хотя данные в них пишутся по месту и нет усиления записи (как в SSD), на скорость износа механических компонентов и магнитной поверхности профиль нагрузок влияет. Косвенное тому подтверждение — появление счетчиков операций записи в современных HDD. Под разными нагрузками и AFR разный.

Истечение гарантии на диски еще не приговор. Решение об отставке принимает владелец, взвешивая риски и выгоды дальнейшей эксплуатации. С одной стороны, выбрасывать все диски на помойку расточительно. Но и оставлять их в продуктивной работе страшно. Самое разумное — перенести цифровые активы в новые хранилища, а старому контейнеру найти другое применение, целиком. В любой инфраструктуре кроме первичных хранилищ есть вторичные, а то и третичные. Случаются разовые задачи миграции больших объемов данных. Есть устройства временного использования. Дать новую жизнь старым вещам можно, смягчив нагрузки и изменив политики контроля сохранности данных.

Посильная работа

Потоковые операции с преобладанием чтения щадят механику дисков и поверхность, против попеременных чтения/записи со случайной выборкой. Можно добиться большей устойчивости к отказам дисков, чем RAID 6 (RAID DP), тем более, RAID 5. Контроль за целостностью данных и своевременная изоляция сбойных зон позволят эксплуатировать дисковые группы долгие годы. Время от времени какие-то диски будут отказывать, требовать замены — но не все же 60!

Разработчики ПО систем хранения берут многообразием политик управления дисками. Посмотрим, что можно делать, на примере RAIDIX — ОС под видеопроизводство, видеонаблюдение, документооборот.

RAID 7.3 и N+M

В RAID 7.3 чередуются блоки с тройным распределением четности, что позволяет восстанавливать данные при отказе до трех дисков массива, с высокой производительностью и без дополнительной нагрузки на процессор.

RAID N+M — уровень чередования блоков с произвольным распределением четности. Пользователь сам может определить количество дисков, выделяемых под хранение контрольных сумм. Такие алгоритмы относятся к классу Erasure coding (EC). Оригинальные данные разбиваются определенным образом на фрагменты, для которых создаются копии (коды избыточности). К примеру, в стратегии 10+6, данные и коды избыточности распределяются по 16 дискам. При потере любых 6 фрагментов (дисков) оставшихся 10 достаточно для восстановления оригинальных данных

Такая степень надежности требует жертв. Для расчета кодов избыточности нужны большие вычислительные ресурсы, а в профиле нагрузок не должно быть перезаписи случайного доступа. Системы хранения с EC — как правило, активные архивы, статичные библиотеки под считывание данных.

За массивами-пенсионерами нужен глаз да глаз — поэтому увеличение избыточности хранения будет разумной страховкой от серийных отказов дисков. Сопутствующий рост вычислительной нагрузки на самих дисках не сказывается — его парируют серверы-контроллеры. А интенсивной записи на вcпомогательные массивы взяться неоткуда.

Тихие ошибки

Скрытое повреждение данных (silent data corruption) возникает из-за ошибок в работе драйверов, памяти, эрозии поверхности диска, программных и аппаратных сбоев. Такие ошибки не распознаются контроллерами жестких дисков и ОС, пока не приведут к повреждению структуры данных.

Есть специализированные файловые системы, которые защищают данные от тихих ошибок на уровне своей структуры. RAIDIX исправляет ошибки на уровне блоков, обеспечивая совместимость с любой ОС и файловыми системами по выбору. Для этого используется анализ стандартных метаданных RAID, а дополнительные операции хранения или чтения не нужны — отсюда высокая производительность. Сканирование и исправление скрытых ошибок выполняется в фоновом режиме в периоды низкой степени активности СХД.

Частичная и упреждающая реконструкция

В RAIDIX реализован механизм частичной реконструкции, позволяющий восстанавливать только те области жесткого диска, которые содержат поврежденные данные. Так можно уменьшить время восстановления RAID для массивов больших объемов.

Три возраста механических дисков

Упреждающая реконструкция позволяет оптимизировать скорость чтения во время восстановления данных на дисках. Нужный эффект достигается исключением из процесса дисков, скорость чтения с которых ниже, чем у остальных.

По выбору, система «запоминает» диски с наибольшим временем отклика и перестает отправлять им запросы, восстанавливая данные по другим дискам, или диску присваивается статус «медленный» (сигнал администратору заменить его).

Обустраиваем жизнь после жизни

«Консервы» с десятками негарантийных дисков не равнозначны просроченным продуктам питания. Как наша мебель переезжает со временем из квартиры на дачу, а одежда из гардеробной в подсобку на огороде, так и хранение данных имеет жизненные циклы. Критичным приложениям и данным важны производительность и высокие стандарты. От вспомогательных архивов требуется прежде всего сохранность. Владельцу данных достаточно здраво оценивать целесообразность вложений и осмысленно переносить данные между устройствами — когда это нужно.

Стратегія охолодження ЦОД для епохи AI

Чи використовує ваша компанія ChatGPT в роботі?

Колонка

BEST CIO

Человек года

Продукт года

Читайте также

Останні обговорення

ТОП-новини

ТОП-блоги

ТОП-статті