`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Виталий Кобальчинский

Ошибка настройки повлекла за собой крупнейший отказ служб Интернета

+55
голосов

Очередной иллюстрацией уже высказывавшегося нами тезиса, что никакие хакеры не сравнятся по разрушительности с криворукими администраторами, стало воскресное утро, ознаменовавшееся одним из величайших технических сбоев в работе Глобальной Сети, который привёл к падению веб-трафика на 3,5%.

Ошибка настройки повлекла за собой крупнейший отказ служб Интернета

Виновником инцидента стал американский Интернет-провайдер CenturyLink: ошибка конфигурации его датацентра в городе Миссиссога возле Торонто (Канада), распространяясь по сети, послала в нокаут Reddit, Hulu, AWS, EA, Blizzard, Steam, Microsoft (Xbox Live), Discord, Twitter, Duo Security, Imperva, NameCheap, OpenDNS и десятки других компаний, включая и Cloudflare.

Сервисы Cloudflarе как раз и предназначены для предотвращения сбоев веб-сайтов в аварийных ситуациях, однако масштаб происшествия, охватившего, по данными DownDetector, все Соединенные Штаты и часть Западной Европы, превзошёл их возможности.

По сведениям самой CenturyLink, камушком, вызвавшим лавину, стал ошибочный анонс Flowspec. Это расширение стандартного протокола внешних шлюзов, Border Gateway Protocol (BGP), позволяет компаниям использовать маршруты BGP для распространения правил межсетевых экранов в своих сетях.

Маршруты BGP информируют провайдера, какой массив IP-адресов доступен в его сети, и являются «клеем», скрепляющим вместе Интернет.

Анонсы Flowspec обычно используются при инцидентах, таких как перехват BGP или DDoS-атаки. Они позволяют компаниям за считанные секунды изменить всю свою сеть для реагирования на атаки и смягчения из последствий.

Cloudflare, наблюдавшая за инцидентом со стороны, считает, что Level 3/CenturyLink (L3/CTL) сначала замкнула всю свою сеть, объявив новый набор маршрутов BGP, а затем случайно сбросила все маршруты неправильно настроенным правилом Flowspec. Некоторые из её роутеров начали объявлять неправильные маршруты BGP другому, соседнему Интернет-сервису 1-го уровня, что привело к «эффекту домино».

Для устранение сбоя L3/CTL пошла на неординарный шаг, сказав всем другим интернет-провайдерам уровня 1 отключить все пиринговые сессии и игнорировать любой трафик, исходящий из её сети. Компании редко предпринимают такие меры, поскольку это приводит к полной потере связи для всех их клиентов.

На перезапуск оборудования L3/CTL с чистыми таблицами маршрутизации BGP ушло около семи часов.

Следует отметить, что у CenturyLink это не первый подобный инцидент. В 2018 году аналогичный сбой, который расследовавшая его Федеральная комиссия по связи США (FCC) назвала недопустимым и неприемлемым, более чем на сутки вывел из строя мобильные сети Verizon, банкоматы, цифровую систему работы с больничной документацией, лотерею, звонки 911 и другие сервисы в ряде штатов.

26 ноября — не пропустите Dell Technologies Forum EMEA!

+55
голосов

Напечатать Отправить другу

Читайте также

 

Slack подает жалобу на Microsoft и требует антимонопольного расследования от ЕС

 
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT