`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Тимур Ягофаров

Закон Мерфи никто не отменял

+810
голосов

«Если что-то может поломаться, то когда-нибудь это обязательно произойдет, нанеся максимально возможный ущерб». Недавнее отключение ЦОД Amazon стало еще одной иллюстрацией этого эмпирического закона

Наверняка многие наслышаны о том, что в прошлую пятницу произошло временное отключение целого ряда популярных облачных сервисов, в том числе Instagram, Netflix и Pinterest. А причиной тому стало «падение» одного из дата-центров Amazon. Казалось бы, известная компания располагает всем необходимым для обеспечения непрерывности работы своих ЦОДов, но как всегда, злую шутку сыграло совпадение целого ряда непредсказуемых факторов.

В этот день – 29 июня – на Атлантическое побережье США обрушился сильный ураган, который обесточил значительные территории страны. Попали под раздачу и дата-центры Amazon, относящиеся в ее структуре к региону US East-1. Всего здесь с десяток площадок, причем все они работают попарно, что должно обеспечить повышенную устойчивость к неприятным неожиданностям. И вот в одной из таких пар в результате скачка напряжения в энергосети сработала автоматика и перевела энергосистему ЦОД на автономное питание. Были запущены генераторы, которые прежде неоднократно проверялись, причем по несколько часов. Но в этот раз что-то произошло, и в отпущенный отрезок времени оба резервных генератора не смогли выйти в нормальный режим работы. Автоматическая коммутационная система переключила снабжение на ИБП, ресурсов которых хватило на какое-то время. Впрочем, через некоторое время централизованное энергоснабжение возобновилось.

Но примерно через полчаса после первого отключения случилась второе, во время которого все повторилось: генераторы опять не смогли нормально стартовать, а заряд батарей в ИБП уже был израсходован во время первого броска. Поэтому ЦОД упал довольно быстро – уже через 10 минут начали гаситься сервера.

Впрочем, генераторы таки удалось запустить в течение часа в ручном режиме, и ЦОД возобновил свою работу. Но вызванный его остановкой процесс как снежный ком накрыл всю систему Amazon.

На самом деле, серверная инфраструктура компании построена весьма грамотно: ведь упавший дата-центр работал в паре с другим, где все процессы перехода на резервное питание прошли гладко. И если бы все было правильно организовано с точки обработки запросов и балансировки нагрузки, то сбой энергоснабжения ограничился бы лишь временным отказом лишь тех ресурсов, что базировались непосредственно на данном ЦОДе. По оценке компании, всего 7% ресурсов облака в регионе US-EAST-1 было затронуто сбоем. Но оказалось, что возникшая волна запросов к ресурсам отказавшего ЦОДа была неверно обработана. Не буду погружать вас в технические детали, с ними можно разобраться в отчете Amazon. Но если коротко, то дело было в том, что в системе формировалась единая очередь запросов, с которой не удалось справиться. Поэтому компания пообещала сделать правильные выводы из инцидента и в дальнейшем эту очередь обрабатывать частями. Это позволит избежать формирования непрерывно нарастающей волны запросов.

Что же касается аспектов, связанных с оборудованием, то планируется не только разобраться с конкретными генераторами, но и увеличить временное окно для их вывода на стабильную работу. Да и штат для обслуживания дата-центров Amazon пообещала увеличить, чтобы в случае чего можно было успеть избежать подобных инцидентов, использовав ручное управление оборудованием.

Компания заверила, что используемые ею механизмы дублирования и резервирования вполне дееспособны, поэтому заказчикам можно не волноваться за хранящиеся в облаке данные. Другое дело, что во время инцидента возникло рассогласование БД, которое в короткий срок устранится.

Случай, этот, безусловно, интересный и заставляет задуматься о том, чтобы все же держать и локально важные для вас данные. А как вы считаете, оно того стоит, или все же «облако» надежнее, чем дубликат, хранящийся в «стеклянной банке»?

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365

+810
голосов

Напечатать Отправить другу

Читайте также

А как вы считаете, оно того стоит, или все же «облако» надежнее, чем дубликат, хранящийся в «стеклянной банке»?

Прогресс неумолим.

Никто уже не держит корову в городе (в селах - еще случается). Каких нибудь лет сорок назад - в городах встречались не только курятники, но и крольчатники.
Индпошив, столь популярный еще в 80-тые, окончательно вытеснен массовым производством готовой одежды.

Хранение данных на локальном компьютере - это явление того же разряда: увы, это становится уделом кустаря-одиночки без мотора.

Еще несколько лет - и данные будут уходить в облако по умолчанию, сразу после установки ОС (если еще останется возможность ее устанавливать).
Причем отправка эта будет с согласия и одобрения большинства пользователей - так как быстро, надежно, выгодно удобно.

Ну а для несогласных оставят возможность нажать кнопку "нет".

Данные приходится держать и в облаке, и в "стеклянной банке". В облаке все-таки надежнее, а в "банке" - потому что с подключением к Интернету даже в черте города Киева - масса белых пятен.

Amazon как-бы все объяснил, но осадок остался: ведь резервирование вычислительных мощностей как раз для катаклизмов и делается. А оказалось - не умеют запускать генераторы, очереди какие-то неправильно обрабатываются... Генераторы поставили, но не проверяли, включаются ли они при сбое электропитания.

Ну сбой-то специально никто создавать не будет: говорят, что тестировали и не раз запуск, но вот как "пожар", так и застопорилось. Воистину, закон Мерфи :)

"сбой-то специально никто создавать не будет"

Насколько я понимаю - была озвучена официальная версия произошедшего.
О случаях саботажа обычно помалкивают.

"..потому что с подключением к Интернету даже в черте города Киева - масса белых пятен..."

"Зимой, зимой" (с) Мимино

Всему свое время.

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT