Суперкомпьютеры: проблемы устойчивости наступают

26 ноября 2012 г., 10:05

С ростом мощности суперкомпьютеров увеличивается и число составляющих их компонентов, что вызывает повышение рисков отказа оборудования. На на прошедшей неделе в Солт Лейк Сити (США) конференции SC12 были предложены способы снижения рисков отказа суперкомпьютеров.

Сейчас HPC-система включает 100 тыс. и более узлов, каждый из которых, в свою очередь, состоит из нескольких компонентов памяти, процессоров, шин, пр. микросхем, каждый элемент оборудования может отказать, что скажется на работе системы в целом. Запущенный в 2001 г. в Национальной лаборатории Министерства энергетики США в Ливерморе (Lawrence Livermore National Laboratory) суперкомпьютер White (600 тыс. узлов) имел среднее время наработки на отказ всего 5 часов, именно за счет рисков отказа компонентов оборудования. Сейчас, после настройки, этот показатель составляет около 55 часов. Принимая во внимание, что уже в следующем десятилетии мощность суперкомпьютеров вырастет в 10 раз, риски отказов будут только увеличиваться. По оценкам ученых HPC из 100 тыс. узлов будет продуктивно работать только 35% времени, остальное уйдет на профилактику и восстановление.

Исследователи Университета Северной Каролины предложили технологию повышения надежности HPC, за счет решения проблемы незаметного повреждения данных, т.е. невыявленных ошибок записи данных на диск. По сути, новый подход состоит в одновременном запуске нескольких копий программы RedMPI, работающих параллельно с Message Passing Interface (MPI), библиотекой для распределения работающих приложений по разным серверам. RedMPI копирует каждое сообщение MPI и передает в клон приложения. Если вычисления разных клонов программы отличаются, можно на лету произвести контрольный расчет, что позволит сохранить время и ресурсы, необходимые для выполнения повторных вычислений.

Специалисты Университета Иллинойса в Урбане и Шампейне предложили метод анализа лог-файлов для прогнозирования отказа системы. В работе использованы элементы анализа сигналов (используется для описания нормального поведения) и добычи данных (для поиска корреляций между отдельными сообщениями об ошибках — как правило, отказ одного компонента влияет на производительность других). Как выяснилось в ходе экспериментов, 70% коррелированных ошибок дают временное окно около 10 с — этого достаточно для сохранения работы либо переноса процесса на другой узел. Таким образом, воздействие на вычислительный процесс серьезных отказов можно минимизировать.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365