Інцидент з AWS. Хмара не є гарантією відмовостійкості...

27 октября 2025 г., 18:16

Минулими днями світ ІТ-інфраструктури отримав гучне нагадування: навіть технологічні гіганти, які здаються непохитними, не застраховані від фатальних помилок. Amazon Web Services (AWS) визнала, що масштабний збій, який вивів з ладу частину Інтернету на кілька днів, був спричинений конфліктом у системі автоматизації DNS (Domain Name System). Проблема торкнулася величезної кількості сервісів — від сайтів і хмарних застосунків до онлайн-ігор і «розумних» пристроїв.

Почалося все з того, що конфігурація DNS для бази даних Amazon DynamoDB у регіоні us-east-1 була пошкоджена й опублікована через сервіс Amazon Route 53. Це запустило ефект доміно: сервіси, які залежали від DynamoDB, перестали працювати, а нові екземпляри в Amazon EC2 не могли створюватись. Черги запитів почали накопичуватись, і навіть внутрішні системи AWS відчули наслідки. Ключова технічна причина — класична race condition: два компоненти — «DNS Planner» і «DNS Enactors» — одночасно обробляли оновлення. Один із них почав виконувати старий «план» змін, тоді як інший вже перейшов до нового. У результаті система отримала суперечливий стан: старі записи були застосовані поверх нових, а в деяких випадках DNS-таблиці опинились у стані «порожніх записів». Саме це й призвело до того, що частина хмарної інфраструктури «осліпла», не розуміючи, куди спрямовувати трафік.

AWS підкреслила, що автоматизовані системи — це необхідність для управління мільйонами ресурсів, але вони потребують надзвичайно ретельного проєктування. Цей випадок став ілюстрацією того, що навіть найкраща автоматизація може накопичувати технічний борг. Помилка в одній підсистемі здатна перетворитись на каскадну кризу, якщо не передбачені захисні механізми. Ситуація також показала межі масштабування: коли один ключовий елемент хмарної архітектури падає, ланцюгова реакція охоплює десятки інших сервісів. Балансувальники навантаження почали позначати робочі ноди як «мертві» через некоректні DNS-відповіді, що лише поглиблювало колапс. AWS заявила, що основний збій тривав близько трьох годин — із 19 жовтня 23:48 до 20 жовтня 02:40 — однак наслідки користувачі відчували ще протягом декількох днів.

Аналіз The Register виявив більше нюансів. По-перше, збій не мав жодного стосунку до АІ: автоматизація, яка керує хмарними системами, — це далеко не «штучний інтелект» у сенсі популярних уявлень. Автор підкреслив, що сценарій «це через АІ» — це міф. По-друге, ідея про те, що «багато-хмарність» (multi-cloud) є панацеєю на всі випадки відмови — теж міф. Переходячи до ще однієї платформи, організації часто отримують не другу точку відмови, а ще одну повноцінну точку провалу, що дає багато більше складнощів, ніж резерв. Третє: проблема «довгого хвоста» (long tail) — тобто, що якщо все ще не працює через тиждень-два, це вже не наслідок тієї аварії. Як зазначено: «Якщо ви досі маєте проблеми через тиждень — це не про цей інцидент».

Для українського ІТ-середовища ця історія має особливу вагу. Вона нагадує, що навіть найпотужніша «хмара» не може гарантувати абсолютної стабільності. Компаніям варто враховувати, що навіть глобальний провайдер хмари може упасти, і тому потрібно мати власні сценарії відмовостійкості. Важливо розділяти критичні елементи архітектури, проєктувати резервні канали доступу та регулярно перевіряти сценарії аварійного відновлення. Крім того, моніторинг і «health checks» мають бути гнучкими: якщо система автоматично виводить вузли з балансу лише через те, що не може коректно прочитати DNS-записи — це сигнал про слабкість самої архітектури. Гнучкі механізми ручного втручання мають бути обов’язковими у будь-якому середовищі, де від доступності залежить бізнес.

І нарешті, цей випадок ще раз доводить, що фраза «це просто DNS» часто означає набагато більше. Один незначний збій у фоновому процесі може перетворитися на глобальну кризу. У світі, де «хмара» означає тисячі взаємопов’язаних компонентів, ключовими стають не лише масштаб і швидкість автоматизації, а й уважність до деталей, ретельне тестування й готовність до непередбачуваного.

Стратегія охолодження ЦОД для епохи AI