Про надійність серверів та серверних компонентів

4 август, 2022 - 15:46Андрій Тищенко

Будь-який користувач, особливо корпоративний, зацікавлений у безперебійній роботі систем. Якщо поломку простого персонального пристрою пережити відносно легко, то відмова серверів і СЗД загрожує великими втратами. Є дві моделі поведінки системних адміністраторів: а) віддати все на відкуп іншим (обкластися сервісними контрактами, в ідеалі – вивести критичні операції в хмару) і б) самому вжити запобіжні заходи (з урахуванням ризиків, тривалості та складності позаштатних процедур: дублювання функцій, міграції, резервування даних, їх відновлення). Перша приваблива делегуванням відповідальності, але є витратною для власника. Друга заощаджує кошти, але потребує кваліфікації.

Ще не перевелися ентузіасти, які докопуються до природи речей: стежать за прес-релізами, читають порівняльні огляди, аналізують чужі звіти – щоби вплинути на рішення про закупівлю нових серверів. Читання корисне у будь-якому випадку. Проблема в тому, що надійність, на відміну від продуктивності або інших більш очевидних метрик – погано вимірний показник. У специфікаціях компонентів характеристики надійності є, наприклад Endurance (ресурс перезапису в пам'ять SSD), MTBF – середній час напрацювання HDD на відмову або URE (ймовірність помилки читання даних з носія). Як будь-які “середні по лікарні” значення, вони мало чим допоможуть адміністратору-начітнику. Йому, звичайно, не пощастить.

До відкритих публікацій варто відноситися виважено. Самі виробники ніколи не діляться статистикою відмов обладнання. А коли це роблять сторонні оглядачі, завжди треба звертати увагу на охоплення (супутню статистичну похибку) і цілі, що переслідуються. Так, хмарний оператор Backblaze з 2013 року публікує щоквартальні звіти про відмови HDD. Їхня маркетингова цінність зрозуміла. Практична цінність для покупця серверів та жорстких дисків – ні. Саме тому, що "середня температура по лікарні" ніяк не співвідноситься з конкретно вами. Тому що у вас все по-іншому: профіль навантажень, умови експлуатації, засоби забезпечення доступності даних, швидкість реагування та гарантійні зобов'язання постачальника. Зрештою, коробка з дисками на шляху до вас може впасти, а через рік ви звинувачуватимете виробника в серійному браку.

Вибирати треба не виробника, а постачальника. Такого, щоб був залучений до особливостей вашої серверної інфраструктури та пропонував рішення з найменшими ризиками залежно від обставин непереборної сили.