`

Schneider Electric - Узнайте все про энергоэффективность ЦОД


СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Что для вас является метрикой простоя серверной инфраструктуры?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Виталий Кобальчинский

Google назвала причины «катастрофического» сбоя в работе её облака

+55
голосов
Компания Google предоставила клиентам полный технический анализ «катастрофической» как она её охарактеризовала, аварии, нарушившей 2 июня работу ключевых веб-сервисов на четыре с половиной часа. Пострадали службы на только самой Google, но и пользователей Google Cloud, включая Snapchat, Vimeo, Shopify, Discord и Pokemon GO. 
 
Вице-президент Google по инженерным вопросам, Бенджамин Трейнор Слосс (Benjamin Treynor Sloss), на прошлой неделе принёс извинения, признав, что нормализация ситуации после происшествия заняла гораздо больше времени, чем предполагала компания. Он заявил, что ошибка конфигурации привела к падению трафика YouTube на 10% и Google Cloud Storage — на 30%. Также инцидент затронул один процент из более миллиарда пользователей Gmail.
 
 «Клиенты, возможно, столкнулись с увеличенной задержкой, периодическими ошибками и потерей подключения к экземплярам (инстансам) в регионах us-central1, us-east1, us-east4, us-west2, northamerica-northeast1 и southamerica-east1.  Экземпляры Google Cloud в us-west1 и во всех европейских и азиатских регионах не испытывали перегрузки в региональных сетях», – говорится в техническом отчете Google. Самыми худшими оказались последствия для Google Cloud Storage в регионе us-west2, там доля ошибок для корзин достигала 96,2%, и southamerica-east1 – 79,3%. Потери пакетов в Google Cloud Interconnect составляли от 10 до 100 процентов.
 
Среди попавших под удар служб Google Cloud Platform названы Google Compute Engine, App Engine, Cloud Endpoints, Cloud Interconnect, Cloud VPN, Cloud Console, Stackdriver Metrics, Cloud Pub/Sub, Bigquery, G Suite, региональные инстансы Cloud Spanner и региональные корзины Cloud Storage.
 
Сильно упрощенное объяснение того, что произошло, звучит так: изменения конфигурации, предназначенные для небольшой группы серверов в одном регионе были ошибочно применены к большему количеству серверов в нескольких соседствующих регионах. Из-за этого данные регионы работали на половине доступных им ресурсов.
 
Во следующем приближении Google трактует ситуацию таким образом: «Две обычно безобидные ошибки конфигурации и особый программный баг, наложившись, вызвали сбой». 
 
Во-первых, задания плоскости управления сетью и поддерживающая их инфраструктура в затронутых регионах были сконфигурированы так, чтобы останавливаться на время технического обслуживания. Во-вторых, инстансы кластерного ПО, поддерживающего функционирование плоскости управления сетью, были помечены как подходящие для включения в конкретный, относительно редкий тип события обслуживания. В-третьих, в программе, инициирующей события обслуживания, оказалась ошибка, позволяющая одновременно выводить из эксплуатации несколько независимых программных кластеров, в том числе находящихся в разных физических локациях.
 
Вдобавок, методы поддержания готовности инфраструктуры Google отреагировали на непредвиденную ситуацию парадоксальным образом, вызвав дополнительное снижение производительности работы сети. В отчёте Слосса говорится, что инженеры Google обнаружили сбой уже через две минуты после того, как он произошёл, однако нахождению и устранению причин аварии «существенно мешал отказ инструментов, конкурирующих за использование перегруженной сети».
 
Свой вклад в разразившийся хаос внесли неполадки в коммуникационных средствах Google, не давая инженерам связаться с пострадавшими клиентами и оценить масштабы инцидента. 
 
В настоящее время Google приостановила свое ПО автоматизации датацентров, отвечающее за перераспределение работ на время техобслуживания. Оно будет вновь запущено после того, как Google убедится, что проблема, вызывающая одновременные отключения в нескольких физических локациях, гарантированно устранена.
 
«Инструменты и процедуры реагирования на чрезвычайные ситуации Google будут пересмотрены, обновлены и протестированы, чтобы гарантировать их устойчивость к подобным сбоям в сети, включая наши средства для связи с клиентской базой. Кроме того, мы расширим режим непрерывного тестирования аварийного восстановления, включив в него этот и другие аналогичные катастрофические сбои», – подытожила свой отчёт Google. Компания не исключает, что после дальнейшего расследования обстоятельств инцидента будут определены дополнительные действия по повышению устойчивости её инфраструктуры.

Вы можете подписаться на наш Telegram-канал для получения наиболее интересной информации

+55
голосов

Напечатать Отправить другу

Читайте также

 
 
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT