HPC Day 2017

10 ноябрь, 2017 - 17:45Леонид Бараш

Высокопроизводительные вычислительные системы (НРС), благодаря своим архитектурным особенностям и характеристикам стали технической основой высокопроизводительной аналитики (НРА) и ИИ. В этих областях для ускорения вычислений используется один и тот же принцип — параллелизм. В то же время с точки зрения архитектуры аппаратных средств оно требуют внимания к разным компонентам и иного их баланса. Тому, как развиваются архитектуры, компоненты и ПО для высокопроизводительных вычислений, была посвящена конференция HPC Day 2017, прошедшая в сентябре в Киеве. Она была организована компанией НРЕ совместно с рядом партнеров, среди которых были Intel, Altair, Mellanox и NVidia.

В этот раз мероприятие проходило в течение трех дней. Первый был посвящен докладам о технологических новинках, архитектурах и ПО, во второй день проходили тренинги для разработчиков и руководителей проектов, в третий — проводились практические работы в группах с ориентацией на решение задач крупнейших заказчиков в Украине в сфере телекоммуникаций и финансов. Ниже будет представлен ряд докладов, состоявшихся в первый день.

Конференция открылась кратким вступительным словом управляющего директора НРЕ Украина Андрея Пищикова. Он отметил, что хотя сегодня вклад НРС в бизнесе компании не достигает и 20%, но это одна из точек роста во всем мире. Это растущий рынок, растущая часть бизнеса НРЕ, и компания очень много инвестирует в разработки, в партнерство. Хотя в Украине сейчас трудные экономические условия для внедрения таких систем, но интерес к ним есть, и в украинском офисе есть специалисты по системам НРС и их компонентам.

HPC Day 2017

Андрей Пищиков: «НРС — это растущий рынок, растущая часть бизнеса НРЕ, и компания очень много инвестирует в разработки в этой области»

Затем менеджер по продажам HPC&POD в СНГ и Восточной Европе Владимир Савяк представил стратегию НРЕ в области высокопроизводительных вычислений. Он обратил внимание участников на то, что НРЕ является лидером по количеству поставок суперкомпьютеров в списке Тор 500. Прежде чем переходить к основной теме, докладчик остановился на причинах, по которым суперкомпьютеры выделяются в отдельный класс. Поскольку основной целью их разработки является достижение максимальной производительности вычислений, то их архитектура отличается от корпоративных вычислительных систем, в которых на первое место выходит высокая доступность. В числе этих отличий — высокая плотность узлов, быстрые каналы связи компонентов, быстрая масштабируемая СХД и высокоэффективная инфраструктура, обеспечивающая работу системы.

НРЕ разрабатывает суперкомпьютеры для четырех областей применения. Первая включает традиционные вычисления, используемые в моделировании, нефтегазовой промышленности, производстве, биологии и медицине. Вторая — это ИИ, глубокое обучение, высокопроизводительный анализ данных, вычисления в памяти. Третья область охватывает СХД на базе архитектур для НРС, используемых в медиа-секторе и в видеонаблюдениях. К четвертой относятся модульные и мобильные ЦОД (Performance Optimized DC). В целом, НРЕ поставляет готовые решения, которые слагаются из инфраструктуры (если необходимо), вычислительных элементов и системного ПО.

В прошлом году НРЕ приобрела активы компании SGI. Это был важный шаг, потому что это позволило компании выйти в средний и верхний сегмент систем НРС (выше Тор 100).

Стратегия НРЕ на рынке НРС заключается в ускорении достижения лидерства сегодня и удержания его в будущем. Для того чтобы расширить свой портфель продуктов, НРЕ делает инвестиции в решения в области ИИ, глубокого обучения и СХД для НРС. Кроме этого, сформирована команда, которая работает над технологиями будущего. Она ориентирована на разработку суперкомпьютеров со скоростью вычислений порядка EFLOPS. Проблема здесь состоит в том, что если строить такие машины с использованием современных технологий и компонентов, то они получаются очень дорогими и энергоемкими.

HPC Day 2017

Владимир Савяк: «Ключевым компонентом в компьютере на основе архитектуры Memory-Driven Computing становится память, и к ней подключаются те процессоры, которые наилучшим образом подходят для выполнения конкретных задач»

Сегодня в портфеле компании, кроме типичных серверов, есть системы для НРС с водяным охлаждением. Водяное охлаждение позволяет существенно увеличить плотность и обеспечить хорошую энергоэффективность, то есть, коэффициент PUE (Power Usage Effectiveness). В типичном случае он достигает значения 2, то есть, 50% энергии тратится на инфраструктуру. Водяное охлаждение позволяет снизить это значение до 10%. Кроме этого, есть набор ПО, которое позволяет эффективно использовать системы НРС. Компания также предлагает широкий спектр решений в области мобильных ЦОД (MDC), от небольших (4–5 стоек) до масштабных (до 44 стоек).

Физические ограничения уже не позволяют удваивать производительность процессора каждые два года, в то время как данные показывают экспоненциальный рост. Для их эффективной обработки нужна новая концепция вычислений. НРЕ предложила новую идею, которая называется Memory-Driven Computing (вычисления, управляемые памятью). Ожидается, что новая архитектура позволит получить намного большую производительность с использование имеющихся элементов по сравнению с традиционной. Согласно концепции, ключевым компонентом в компьютере становится память, и к ней подключаются те вычислительные модули (процессоры), которые наилучшим образом подходят для выполнения конкретных задач. Компоненты архитектуры должны обладать определенными особенностями. Так, память должна быть энергонезависимой, шины — высокоскоростными, необходимо также адаптировать ПО.

В этом году был продемонстрирован прототип такой машины с объемом ОЗУ 160 ТБ, распределенной по 40 физическим узлам. Тесты показали, что определенные задачи выполняются от 15 до 10 тыс. раз быстрее, по сравнению с аналогичными системами традиционной архитектуры.

В контексте ИИ, машинного обучения и больших данных, как правило, присутствует и НРС. При этом часто забывают о роли сетевой части в ускорении процессов машинного обучения и обработки больших данных. На это обратил внимание старший системный инженер Борис Нейман из Mellanox.

Компания с 1999 г. занимается разработкой внутренних соединений для суперкомпьютеров. Однако вначале она вышла на рынок как производитель чипов для сетевых устройств — сетевых карт и коммутаторов. Сейчас Mellanox известна как производитель устройств на базе технологии InfiniBand, в том числе с использованием кремниевой оптики. Самая большая система на сегодня, использующая InfiniBand, это 40 тыс. узлов в агентстве NASA.

Машинное обучение предъявляет требования к сети близкие к НРС. В следующем году компания планирует поставлять на рынок сетевые адаптеры с пропускной способностью 200 Гб/с. В портфеле имеются также коммутаторы Quantum, 40 портов HDR InfiniBand, 200 Гб/с, Spectrum, 32 порта, 100 Гб/с, трансиверы, от 10 до 200 Гб/с. По словам выступающего, Mellanox — это единственная компания, которая предоставляет полноценное сетевое решение для СХД, вычислительных узлов и коммутаторов.

HPC Day 2017

Борис Нейман: «Очень часто забывают о роли сетевой части в ускорении процессов машинного обучения и обработки больших данных»

Процесс машинного обучения требует обработки большого объема данных. Сеть Mellanox позволяет выполнять обработку более эффективно, в частности, используя RDMA (Remote Direct Memory Access) для передачи данных внутри сервера или между серверами. Это позволяет предоставить сетевому уровню прямой доступ к памяти приложения и разгрузить ЦП, обеспечить низкую задержку и высокую полосу пропускания для приложений. В общем, если сделать сеть интеллектуальной и перенести в нее часть вычислительной нагрузки, то это позволит увеличить производительность и улучшить масштабирование. Интеллектуальная сеть прокладывает путь к эксафлопсным вычислениям. Именно такой является сеть Mellanox, которая выполняет ряд операций по обработке данных с помощью встроенных в сетевые устройства ASIC. Это сокращает количество пересылок между узлами как минимум в два раза. Таким образом, интеллектуальная сеть Mellanox позволяет не только ускорить вычисления, но и сократить затраты, поскольку снижает требования к мощности вычислительных ресурсов, необходимых для данного объема вычислений.

Компания НРЕ регулярно обновляет свои семейства серверов. О том, что принесло на рынок новое поколение серверных систем HPE Gen10 Servers, рассказал менеджер по категории серверных продуктов Александр Головченко из НРЕ.

Направление развития ИТ диктуется бизнесом, производством, , наукой, медициной, всеми, кому ИТ помогает эффективно работать. Ключевыми требованиями, по словам докладчика, являются возможность доступа к данным практически в любой среде, высокая скорость их обработки, удобство и гибкость аппаратных средств.

Если говорить о серверах, то у НРЕ наиболее широкий модельный ряд компьютеров этого класса. В нем имеются модели, принадлежащие к среднему уровню, на которых можно строить относительно недорогие системы для высокопроизводительных вычислений. В серверах НРЕ Gen10 для повышения эффективности работы таких систем были введены пять инноваций.

HPC Day 2017

Александр Головченко: «Уже есть готовые инженерные образцы 40-процессорных систем нового типа The Machine, имеющих огромные перспективы в плане использования памяти как для оперативного, так и для долговременного хранения данных»

Как правило, НРС-системы обрабатывают довольно чувствительные к взлому данные, например, от камер видеонаблюдения или медицинскую информацию. Поэтому в моделях Gen10 была усилена безопасность. В них также повышена производительность за счет оптимизации всех участвующих в вычислениях компонентов. Улучшена управляемость — мониторинг состояния критических узлов позволяет заменить слабое звено до его полного выхода из строя и обеспечить непрерывность работы системы. Простота использования делает систему доступной любыми техническими специалистами. Наконец, гибкость позволяет подобрать конфигурацию, которая наиболее соответствует выполняемым задачам.

Одной из весьма важных особенностей серверов НРЕ является защита от сбоев, в том числе и вызываемых памятью. Технология Fast Fault Tolerance позволяет локализовать сбой чипа или модуля памяти таким образом, чтобы не деградировала вся система. Для аналитических систем, требующих скорости выполнения почти в режиме реального времени, компания предлагает сверхбыстрые модули для хранения данных небольшого объема HPE Persistent Memory.

Еще один важный элемент в серверах Gen10 — это Intelligent System Tuning. Эта система позволяет настроить сервер для более эффективного выполнения задачи. Она основана на трех технологиях. Workload Matching позволяет настроить установки BIOS и контроллеров с помощью преконфигурированного профиля сервера, чтобы привести их в соответствие с типом нагрузки; Jitter Smoothing подавляет изменения частоты в режиме Turbo Boost, снижает задержки и улучшает пропускную способность рабочей нагрузки; Core Boosting максимизирует производительность всех ядер процессора (доступна только на процессорах Intel Xeon Gold 6143, разработанных эксклюзивно для НРЕ). Последняя позволяет повысить производительность на 14%.

Далее докладчик перешел к вопросу применения серверных продуктов и новых технологий непосредственно для НРС. Для построения высокопроизводительных систем можно использовать почти любую модель сервера семейства Gen10. Однако часто это не всегда эффективно. Наиболее подходящими для этого являются серверы линейки Apollo. Они могут использоваться для обработки больших данных и аналитику. Есть очень большая система HPE SGI 8600. НРЕ также располагает высокоскоростными коммутаторами и внутренними соединениями от Mellanox.

Если говорить о будущем, то НРЕ смотрит на новые архитектуры. Это уже упомянутый выше Memory-Driven Computing. Уже есть готовые инженерные образцы 40-процессорных систем нового типа The Machine, имеющих огромные перспективы в плане использования памяти как для оперативного, так и для долговременного хранения данных.