Станом на цей момент компанія Amazon повідомила про майже повне відновлення роботи своїх хмарних сервісів після масштабного збою, спричиненого перегрівом в одному з ключових дата-центрів.
Як повідомляє видання Reuters, інцидент стався у штаті Північна Вірджинія, де різке зростання температури на одному об'єкті призвело до відключення електроенергії. Хоча більшість послуг вже доступна, представники AWS зазначають, що повне відновлення всіх уражених збоєм систем може тривати ще кілька годин.
Збій безпосередньо вплинув на роботу великих клієнтів хмарної платформи, зокрема на криптовалютну біржу Coinbase. Торговий майданчик був змушений тимчасово обмежити операції через недоступність інфраструктури, проте згодом повідомив про повне усунення проблем та відновлення торгів у всіх маркет-зонах. За даними сервісу Downdetector, кількість скарг на роботу AWS на піку досягала майже 600 звернень, але до 08:12 ранку за часом Східного узбережжя цей показник знизився до 72.
У компанії пояснили, що для стабілізації ситуації трафік було перенаправлено з ураженої «зони доступності» (Availability Zone), яка складається з одного або кількох фізичних дата-центрів, спроектованих для незалежної роботи всередині регіону. Незважаючи на запуск додаткових потужностей систем охолодження, процес відновлення зайняв більше часу, ніж очікувалося. Фахівці наголошують, що безпечне повернення серверів до роботи потребує поступового зниження температури до критично важливих показників, аби уникнути термічного пошкодження обладнання.
Ця подія знову підняла питання енергоефективності та терморегуляції в епоху бурхливого розвитку АІ. Сучасні сервери, що обслуговують складні нейромережі та хмарні обчислення, споживають колосальну кількість енергії та виділяють інтенсивне тепло. Традиційне повітряне охолодження дедалі частіше виявляється недостатнім, що змушує операторів переходити на використання води або спеціалізованих холодоагентів, які в тисячі разів ефективніші за повітряні системи.
Нинішній збій став другим великим інцидентом за останні місяці, пов'язаним із перегрівом інфраструктури. Раніше, у листопаді минулого року, біржа CME Group зіткнулася з тривалою зупинкою торгів через відмову систем охолодження в дата-центрах CyrusOne. Аналітики нагадують, що подібні вразливості стають дедалі небезпечнішими для світової економіки, особливо після масштабного інциденту з CrowdStrike у 2024 році, який паралізував роботу лікарень, банків та аеропортів по всьому світу.
Інцидент у Північній Вірджинії підсвічує фізичну межу, до якої наближається сучасна хмарна інфраструктура. Гонка за потужністю АІ обчислень змушує компанії підвищувати щільність серверів, що створює критичні ризики для терморегуляції. Навіть одиничний збій у системі охолодження одного дата-центру здатний спровокувати ланцюгову реакцію, що впливає на глобальні фінансові ринки та криптоактиви. Це ставить перед AWS та іншими гіперскейлерами необхідність прискореного переходу на рідинне охолодження та впровадження більш агресивних протоколів розподілу навантаження.
Стратегічним ризиком залишається надмірна концентрація критичних сервісів у обмеженій кількості географічних зон. Незважаючи на архітектурну ізоляцію «зон доступності», реальна взаємозалежність цифрових платформ часто виявляється вищою, ніж декларується у технічних специфікаціях. Для бізнесу це черговий сигнал про необхідність впровадження мультихмарних стратегій, аби уникнути повної зупинки операцій у разі локальних техногенних аварій у великих провайдерів. Подальша стабільність цифрового світу залежатиме від здатності інфраструктурних гігантів синхронізувати ріст обчислювальних потужностей із надійністю інженерних систем життєзабезпечення.
Стратегія охолодження ЦОД для епохи AI