RAID Rebuild, Auto-Rebuild – краткие практические рекомендации

14 августа 2015 г., 10:15

В случае выхода из строя даже 1-го из дисков в RAID-массиве крайне соблазнительным выглядит воспользоваться HotSpare диском, либо же заменить вышедший из строя диск на аналогичный, и насладиться функцией Auto-Rebuild (если таковая есть у RAID-контроллера), или же запустить Rebuild вручную.

Если вам дороги ваши данные – абсолютно неверный путь!

Почему – поясню на примере.

Массив, RAID 6, из порядка 16 HDD, уже пару лет поработавший.

Понятно, что все диски в нем в более-менее одинаковом состоянии.

Выходит из строя 2 диска.

Пока – ничего страшного.

А при запуске процедуры Rebuild – выходит из строя еще 3 диска.

И это – как раз нормальная, типичная ситуация.

Исходя из практики, при выходе из строя диска в массиве, наличии HotSpare-диска и включенной опции Auto-Rebuild можно с вероятностью порядка 20-50% прогнозировать потерю данных, хранившихся на массиве.

Каков правильный путь в случае выхода из строя даже 1-го диска в массиве?

1. Останавливаем всякую работу с наиболее ценными данными. По возможности – со всем массивом. Задача – исключить или минимизировать запись.

2. Делаем Backup вначале наиболее ценных данных, затем всех остальных. Backup всех ценных данных разворачиваем и проверяем, что он «не битый», данные действительно корректны. Если удалось сделать полный backup, все данные развернуты на тестовой площадке и корректны – считаем, что крупно повезло.

3.1. Идеально – вынимаем аккуратно каждый диск и делаем его копию на аналогичный. Дале работаем с копией. Если находящаяся на дисках информация ценна, и не удалось сделать ее полноценны Backup – это единственно правильный путь. Не удалось самостоятельно восстановить данные на копии массива – обращаемся в специализированные компании, передавая им оригиналы дисков из массива.

3.2. Если сильно спешим, готовы рискнуть, полного комплекта дисков на замену нет, и успешно выполнился Backup (и проверена целостность данных) – вставляем диск «на замену» и запускаем Rebuild. Если больше ни одни диск не «отвалится» (а мы помним, что диски находятся в плюс-минус одинаковой степени износа) – за относительно короткое время массив будет восстановлен.

4. Если массив удалось восстановить процедурой Rebuild – радуемся, работаем дальше и наблюдаем по SMART за состоянием дисков.

5. Если массив восстановить не удалось – то либо создаем новый и восстанавливаем информацию из backup, либо ждем результатов от специализирующееся на восстановлении данных компании.

Оптимально воздержаться от использования функцией Auto-Rebuild в RAID-массивах, т.к. это крайне небезопасно.
К примеру, в Microsoft Storage Spaces функции Auto-Rebuild нет.

P.S.: Спасибо коллегам, что обратили внимание.
Описанный подход применим к одиночным дисковым массивам,
и не применим к отказоустойчивым дисковым массивам с нулевым окном обслуживания в SLA.

Стратегія охолодження ЦОД для епохи AI