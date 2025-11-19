19 ноября 2025 г., 12:30

Компанія Cloudflare офіційно підтвердила, що масштабний збій, який напередодні паралізував роботу значної частини інтернету, був спричинений внутрішньою помилкою, а не кібератакою. Головний технічний директор (CTO) компанії Дейн Кнехт (Dane Knecht) публічно вибачився за інцидент, назвавши його неприпустимим.



За словами Кнехта, компанія підвела своїх клієнтів та інтернет-спільноту загалом. Причиною аварії стала рутинна зміна конфігурації, яка активувала прихований баг ("latent bug") у сервісі, що відповідає за захист від ботів. Це призвело до каскадного збою, який вплинув на доступ до таких платформ, як Twitter, ChatGPT та навіть сервісу моніторингу збоїв Downdetector. Керівництво наголосило, що це не було наслідком зовнішньої атаки, хоча спочатку симптоми нагадували масовану DDoS-атаку.



Збій розпочався приблизно о 11:20 UTC (13:20 за київським часом), коли інженери змінили права доступу в базі даних ClickHouse у межах планового оновлення безпеки. Ця, на перший погляд, рутинна операція спричинила неочікувану вибірку дубльованих метаданих, через що система автоматичної генерації конфігурацій для модуля Bot Management створила «роздутий» файл функцій — так званий feature-file. Він виявився значно більшим за допустимі параметри, і коли його поширили по всій глобальній мережі Cloudflare, програмне забезпечення проксі-серверів не змогло його коректно обробити. Оскільки Bot Management працює в режимі inline і є частиною ланцюга обробки трафіку, його аварійне завершення призвело до блокування легітимних запитів та масового повернення помилок HTTP 5xx.



Окремі сервіси Cloudflare постраждали значно сильніше за інші. Альтернативна система CAPTCHA — Turnstile — у більшості регіонів перестала працювати. Сервіс Workers KV почав повертати помилки під час доступу до ключових даних, а система Cloudflare Access, що відповідає за корпоративну автентифікацію, не справлялася з логінами користувачів через збої в основному проксі-ядрі. Навіть панель Cloudflare Dashboard виявилася частково недоступною, оскільки для входу вона також використовує Turnstile.



Інженерам компанії вдалося доволі швидко визначити корінь проблеми. Генерацію дефектного конфігураційного файлу було негайно зупинено, після чого команда вручну розгорнула попередню стабільну версію. Масштаби інциденту, однак, ускладнювали відновлення — довелося перезавантажувати низку вузлів та проксі-серверів, щоб переконатися, що жодні локальні кеші не містять пошкоджених конфігів. За офіційними даними, основний трафік почав повертатися до норми приблизно о 14:30 UTC, а повна стабілізація інфраструктури у всіх регіонах була завершена лише о 17:06.



Керівництво Cloudflare визнало інцидент одним із наймасштабніших у своїй історії. Дейн Кнехт зазначив, що компанія вже розпочала роботу над додатковими рівнями контролю, які мають запобігти впровадженню некоректних конфігурацій. Розглядається можливість створення розширеної схеми попередньої валідації, а також впровадження механізмів екстреного відключення — так званих kill-switches — для сервісів, які працюють у режимі реального часу та можуть стати одною точкою відмови для глобального трафіку.



Аналітики відзначають, що цей інцидент став уже третім великим збоєм інфраструктури за останній місяць після проблем у AWS та Microsoft Azure. На Cloudflare припадає приблизно 19% всього інтернет-трафіку, тому навіть невелика помилка в конфігурації може мати каскадні наслідки для значної частини онлайн-екосистеми. Саме тому інцидент знову порушив питання про крихкість інтернету та ризики надмірної залежності від централізованих сервісів, які фактично виконують роль міжмережевого «ядра».



У професійному середовищі вже почали лунати дискусії про необхідність диверсифікації критичних сервісів та впровадження резервних рішень, особливо для компаній, що залежать від Cloudflare у сфері безпеки та маршрутизації. Деякі експерти закликають до створення додаткових незалежних рівнів перевірки конфігурацій перед їх поширенням у глобальній мережі, наголошуючи, що саме чіткі механізми контролю можуть запобігти повторенню аналогічних ситуацій.



У Cloudflare пообіцяли оприлюднити детальний технічний звіт із повним розбором помилки та оновленим протоколом безпеки. Рейн Кнехт наголосив, що команда зробить усе можливе, щоб унеможливити повторення подібного інциденту, визнавши, що довіра клієнтів тепер є для компанії найважливішим пріоритетом.

