«День высокопроизводительных вычислений»

Современные достижения в науке и технике, медицине и биологии и в ряде других областей были бы невозможны без использования суперкомпьютеров. И если Украина в недалеком будущем планирует занять достойное место в ряду развитых стран, то, в сложившихся сегодня обстоятельствах, нужно, как минимум, сохранить имеющийся в этой области потенциал. Этому способствовала, в частности, четвертая по счету Международная конференция High Performance Computing Day (hpc-ua.org), которая прошла в середине октября в Институте кибернетики им. В. М. Глушкова НАНУ.

Конференция была разделена на две сессии: индустриальную и научную. По понятным причинам, мы сосредоточимся на первой. Она открылась докладом сотрудника департамента HP HPC & POD EMEA Владимира Савяка, в котором он представил анализ достоинств и недостатков двух методов охлаждения суперкомпьютеров: прямого водяного и посредством атмосферного воздуха.

«День высокопроизводительных вычислений»

Владимир Савяк: «Обслуживание суперкомпьютеров с водяной системой охлаждения Dry-Disconnect ничем не отличается от обслуживания „сухих“ машин»

Очевидно, что проблема охлаждения больших вычислительных систем далеко не второстепенная. В отличие от небольших комплексов, которые не требуют высокой плотности размещения, в суперкомпьютерах, обычно, большое количество вычислительных узлов размещается в небольшом объеме. Это приводит к необходимости их интенсивного охлаждения. (В дальнейшем нам понадобится коэффициент эффективности потребления энергии PUE, который определяется как отношение всей энергии, потребляемой ЦОД, к потребляемой непосредственно ИТ).

Для промышленности считается хорошим иметь значение PUE примерно 1,37. Правда, существуют технологии, которые обещают снизить его до значения 1,07. Одна из них называется охлаждение атмосферным воздухом (free air cooling), хотя в ней таятся некоторые особенности, которые не очевидны для тех, кто эту технологию не использует.

Эффективность воздушного охлаждения была проверена в HP Lab на восьмиузловом кластере на базе двухпроцессорных серверов ProLiant SL230. Исследовалось, как изменяется энергопотребление кластера в зависимости от температуры окружающего воздуха. Безусловно, при повышении температуры воздуха потребление энергии увеличивается как вследствие увеличения токов утечки, так и за счет повышения числа оборотов вентиляторов. Результаты таковы, что для выбранной конфигурации при повышении температуры воздуха от 20 °С до 35 °С его суммарный поток увеличивался на 60%. При этом общее потребление энергии возрастало на 25%. В данном случае возрастает также и энергопотребление кластера. Поэтому PUE может измениться очень незначительно. Это значит, что оценка эффективности охлаждения окружающим воздухом с помощью PUE является не совсем корректной. Поэтому в ЦОД нужно вычислять не PUE, а скорее J/GFLOPS.

Таким образом, использование окружающего воздуха в качестве хладагента при высокой плотности вычислительных узлов не совсем правильно. В то же время, вода уже давно используется для охлаждения и отвода тепла наружу. При этом эффективность этого метода по сравнению с воздушным охлаждением примерно в 50–100 раз выше в зависимости, откуда отводится тепло. Расчеты показали, что затраты энергии для отвода 24×103 Дж с помощью воды на порядок меньше, чем с помощью воздуха.

Весьма оригинальная система жидкостного охлаждения была использована в Cray 2. В этом суперкомпьютере все вычислительные элементы были погружены в непроводящую жидкость, которая и служила хладагентом. Если сегодня посмотреть на рынок вычислительных систем с водяным охлаждением, то также можно увидеть очень много интересных примеров. В свою очередь, НР предложила систему водяного охлаждения собственной разработки, в которой решена проблема утечки воды в местах соединений трубок. Дело в том, что внутрь вычислительного узла вода непосредственно не поступает. Таким образом, отсутствует соединение при выводе воды из корпуса компьютера наружу. Это значит, что обслуживание таких машин практически ничем не отличается от «сухих» компьютеров. Эту технологию иногда называют Dry-Disconnect, поскольку отсоединение охлаждающих узлов «сухое». Охлаждаются все критические компоненты: CPU, GPU и память. Охлаждающая способность системы — до 100 кВт. Система имеет модульную структуру, что позволяет упростить ее монтаж и обслуживание. Эта система охлаждения реализована в суперкомпьютерах HP Apollo.

«День высокопроизводительных вычислений»

Алексей Нечуятов: «Виртуальный суперкомпьютер позволит использовать НРС как сервис»

Последние несколько лет наблюдается явная тенденция движения в сторону «цифровой экономики», или цифрового/электронного производства (e-manufacturing). При этом ожидается, что стабильность экономики будут обеспечивать малые и средние предприятия, которые будут располагаться в непроизводственных регионах. Это будут частные инновационные компании, производящие продукты на заказ небольшими партиями и быстро его распродающие. Появится спрос на моделирование и симуляцию, решение вопросов снижения стоимости продукции и сокращения времени вывода ее на рынок, оптимизации производства. Все это приведет к повышению спроса на высокопроизводительные вычисления. Однако SMB не может позволить себе приобрести высокопроизводительный кластер. Поэтому необходимы механизмы демократизации HPC. О новой парадигме HPC as a Service на базе облачных технологий рассказал директор по маркетингу компании Massive Solutions Алексей Нечуятов. Он отметил, что, по мнению специалистов, как только HPCaaS станет услугой, сразу же появится большой спрос. Ожидается, что HPC в течение ближайших 10 лет покинут свою узкую нишу и станут доступны для большого количества пользователей.

В то же время сегодня существует ряд факторов, препятствующих распространению HPC Cloud. В числе основных — проблемы безопасности, малое количество приложений, трудности с передачей данных, недостаток платформ HPC Cloud по запросу, низкий уровень знаний о высокопроизводительных вычислениях и нехватка специалистов.

В то же время в Европе формируется ряд альянсов — CloudSME, UberCloud, Fortissimo, — которые заинтересованы в появлении НРС-провайдеров. В них объединяются производители ПО, пользователи из академических кругов, представители SME, OEM, эксперты из индустрии. Ожидается, что к 2020 г. появятся около 30 млн новых пользователей, нуждающихся в НРС.

Далее докладчик сделал краткий обзор виртуального суперкомпьютера (VSC) от Massive Solutions, разработанного с целью организации НРС в облаке. Пока еще проект предусматривает ряд ограничений, однако, в итоге, инсталляция VSC не будет требовать изменения архитектуры ЦОД и подсистемы управления. Рассматривается две версии VSC: одна для публичных облаков и другая — для частных. Обе версии предоставляют услуги PaaS и SaaS. Сейчас VSC проходит бета-тестирование.

Прошел год со времени проведения предыдущей конференции НРС Day. За это время появилась новая генерация базовых компонентов для построения высокопроизводительного кластера. Это 40GbE, семейство процессоров Intel E5-2600 v3, GPU-ускорители на архитектуре Tesla 40/80, Xeon Phi 7120, память DDR4, HDD 6 ТБ (InfiniBand EDR был заявлен, но готовых продуктов на рынке пока нет). Все это приводит к пересмотру рекомендаций по построению недорогого сбалансированного кластера, соответствующего имеющимся в Украине реалиям (до 200 ядер). Возможное решение такой задачи представил директор компании «Терминал-Сервис» Сергей Дудинов.

«День высокопроизводительных вычислений»

Сергей Дудинов: «Если заранее не известно, для каких задач строится кластер, и не ясно, какой прирост дадут GPU, то целесообразнее вернуться к классической архитектуре и на сэкономленные деньги установить в два раза больше узлов»

Отметим, что в прошлом году оптимальный узел для такого кластера базировался на гибридном решении: два CPU Intel Xeon E5-2680v2, два GPU-ускорителя Tesla Kepler и InfiniBand FDR от Mellanox как межкомпонентная связь.

Далее докладчик проанализировал целесообразность использования тех или иных компонентов с точки зрения соотношения цена/производительность. Если цены на InfiniBand FDR в этом году практически не изменились, то на QDR они значительно снизились. Поэтому для 10-узлового кластера имеет смысл рассмотреть эту технологию. Для межкомпонентной связи можно также использовать 40GbE и контроллеры Intel Fortville. При выборе ускорителя следует учесть, что пиковое быстродействие Tesla К40 примерно на 15% выше, чем у Tesla К20, то есть, радикального улучшения нет. Кроме того, за стоимость Tesla К40 можно поставить в кластер два дополнительных узла. Использование в качестве ускорителя процессора Xeon Phi дает увеличение производительности на научных задачах примерно в 1,5 раза. С учетом цены и энергопотребления здесь также стоит задуматься, устанавливать ли его в систему.

С появлением процессоров Intel Xeon E5-2600 v3 и памяти DDR4 можно задать вопрос, нужно ли вообще строить гибридный кластер? Здесь рекомендации докладчика таковы: если заранее не известно, для каких задач строится кластер, ПО для кластера не разрабатывается внутри организации и не ясно, какой прирост дадут GPU, то целесообразнее вернуться к классической архитектуре и на сэкономленные деньги установить в два раза больше узлов.

Обычно, когда говорят о высокопроизводительных кластерах, то интересуются количеством ядер, производительностью, объемами памяти и жестких дисков. По мнению технологического директора «Терминал-Сервис» Владимира Оснача, это только надводная часть айсберга. Однако есть еще и «подводная часть». Пользователь ее вообще не видит, а техперсонал, возможно, боится туда заглянуть. Речь идет об инфраструктуре, в общем, о помещении, в котором установлен кластер. Более конкретно, об охлаждении, об электропитании, о физическом состоянии кластера.

«День высокопроизводительных вычислений»

Владимир Оснач: «Решение DCIM представляет точную и содержательную информацию об активах ЦОД, используемых ресурсах и операционном состоянии каждого узла»

Стабильную и бесперебойную работу кластера можно обеспечить с помощью набора соответствующих инструментов, которые можно объединить под зонтичным названием Data Center Infrastructure Management (DCIM). Это категория решений, которые были разработаны для управления всеми физическими активами и ресурсами, находящимися в здании и в ИТ-домене. DCIM Suite включает специализированное ПО, аппаратные средства и датчики.

Сегодня многие компании предлагают системы DCIM. В частности, такие известные производители, как APC, Emerson, CA Technologies, Panduit. Решение DCIM представляет точную и содержательную информацию об активах ЦОД, используемых ресурсах и операционном состоянии — от самого низкого уровня в сетях питания до самого высокого — в объединенном интерфейсе. Комплексное решение включает компоненты, которые обеспечивают, в общем, следующие функции: управление активами, управление изменениями, управление мощностями, мониторинг и управление энергопотреблением, мониторинг окружающей среды.

Архитектура DCIM должна быть гибкой, чтобы подстраиваться под нужды пользователей, облегчать работу инженерам поддержки и включать необходимые модули, чтобы решать реально возникающие в ЦОД проблемы.

Что касается научной сессии, то она включала десять докладов, рассматривающих использование суперкомпьютеров для решения задач в таких областях, как медицина, биология, геофизика, теория случайных процессов.

Стратегія охолодження ЦОД для епохи AI