Как падал Amazon и почему от этого не пострадал Netflix

3 май, 2011 - 11:20Александр Москалюк

Итоговый отчет Амазона касательно падения серверов и практически недельного дауна EC2 описывает ряд проблематичных действий, которые самостоятельно вроде как влияния на систему не имеют, однако в комплекте приводят к катастрофическим последствиям, как это было у Skype.

Между своими дата-центрами Амазон поддерживает два типа сетевых соединений – дорогой и быстрый, для работы с клиентами, и дешевый и медленный, для репликации данных. Ошибка в конфигурации сети перевела клиентский трафик на медленный канал, после чего ряд серверов внезапно обнаружил, что репликация, которая на амазоновских машинах обязательна, не работает. Поскольку система спроектирована под минимальную потерю данных, все больше и больше серверов в одном дата-центре сигнализировали о критических ошибках, и отказывались принимать на себя дополнительные обьемы работы.

По этому поводу интересен ответ Netflix, которая отгружает контент через AWS, однако хранит контроль над распределением трафика у себя. Netflix изначально использовала дата-центры Амазона по максимуму (большинство клиентов предпочитают устанавливать сервера в конкретной географической точке, справедливо полагая, что нужно быть ближе к клиенту), что помогло в нужное время просто переправить крупные обьемы запросов на работающие машины Амазона. Аналогично ни одна критическая система не существовала в одном-единственном варианте.