Закон Мерфи никто не отменял

5 июль, 2012 - 13:34Тимур Ягофаров

«Если что-то может поломаться, то когда-нибудь это обязательно произойдет, нанеся максимально возможный ущерб». Недавнее отключение ЦОД Amazon стало еще одной иллюстрацией этого эмпирического закона

Наверняка многие наслышаны о том, что в прошлую пятницу произошло временное отключение целого ряда популярных облачных сервисов, в том числе Instagram, Netflix и Pinterest. А причиной тому стало «падение» одного из дата-центров Amazon. Казалось бы, известная компания располагает всем необходимым для обеспечения непрерывности работы своих ЦОДов, но как всегда, злую шутку сыграло совпадение целого ряда непредсказуемых факторов.

В этот день – 29 июня – на Атлантическое побережье США обрушился сильный ураган, который обесточил значительные территории страны. Попали под раздачу и дата-центры Amazon, относящиеся в ее структуре к региону US East-1. Всего здесь с десяток площадок, причем все они работают попарно, что должно обеспечить повышенную устойчивость к неприятным неожиданностям. И вот в одной из таких пар в результате скачка напряжения в энергосети сработала автоматика и перевела энергосистему ЦОД на автономное питание. Были запущены генераторы, которые прежде неоднократно проверялись, причем по несколько часов. Но в этот раз что-то произошло, и в отпущенный отрезок времени оба резервных генератора не смогли выйти в нормальный режим работы. Автоматическая коммутационная система переключила снабжение на ИБП, ресурсов которых хватило на какое-то время. Впрочем, через некоторое время централизованное энергоснабжение возобновилось.

Но примерно через полчаса после первого отключения случилась второе, во время которого все повторилось: генераторы опять не смогли нормально стартовать, а заряд батарей в ИБП уже был израсходован во время первого броска. Поэтому ЦОД упал довольно быстро – уже через 10 минут начали гаситься сервера.

Впрочем, генераторы таки удалось запустить в течение часа в ручном режиме, и ЦОД возобновил свою работу. Но вызванный его остановкой процесс как снежный ком накрыл всю систему Amazon.

На самом деле, серверная инфраструктура компании построена весьма грамотно: ведь упавший дата-центр работал в паре с другим, где все процессы перехода на резервное питание прошли гладко. И если бы все было правильно организовано с точки обработки запросов и балансировки нагрузки, то сбой энергоснабжения ограничился бы лишь временным отказом лишь тех ресурсов, что базировались непосредственно на данном ЦОДе. По оценке компании, всего 7% ресурсов облака в регионе US-EAST-1 было затронуто сбоем. Но оказалось, что возникшая волна запросов к ресурсам отказавшего ЦОДа была неверно обработана. Не буду погружать вас в технические детали, с ними можно разобраться в отчете Amazon. Но если коротко, то дело было в том, что в системе формировалась единая очередь запросов, с которой не удалось справиться. Поэтому компания пообещала сделать правильные выводы из инцидента и в дальнейшем эту очередь обрабатывать частями. Это позволит избежать формирования непрерывно нарастающей волны запросов.

Что же касается аспектов, связанных с оборудованием, то планируется не только разобраться с конкретными генераторами, но и увеличить временное окно для их вывода на стабильную работу. Да и штат для обслуживания дата-центров Amazon пообещала увеличить, чтобы в случае чего можно было успеть избежать подобных инцидентов, использовав ручное управление оборудованием.

Компания заверила, что используемые ею механизмы дублирования и резервирования вполне дееспособны, поэтому заказчикам можно не волноваться за хранящиеся в облаке данные. Другое дело, что во время инцидента возникло рассогласование БД, которое в короткий срок устранится.

Случай, этот, безусловно, интересный и заставляет задуматься о том, чтобы все же держать и локально важные для вас данные. А как вы считаете, оно того стоит, или все же «облако» надежнее, чем дубликат, хранящийся в «стеклянной банке»?