Представлены новые системы NVIDIA HGX A100

29 июнь, 2021 - 14:55

Компания NVIDIA объявила о приросте мощности платформы HGX AI, что было достигнуто благодаря добавлению в нее трех ключевых технологии: GPU NVIDIA A100 80GB PCIe, NVIDIA NDR 400G InfiniBand и ПО NVIDIA Magnum IO GPUDirect Storage.

«HPC-революция зародилась в научных кругах и сейчас стремительно захватывает различные отрасли промышленности, — говорит Дженсен Хуанг (Jensen Huang), учредитель и генеральный директор NVIDIA. — Ключевым драйвером развития стал суперэкспоненциальный рост производительности, который сделал высокопроизводительные вычисления полезным инструментом для промышленности. Платформа NVIDIA HGX обеспечивает исследователям несравненные высокопроизводительные вычислительные возможности для решения сложнейших задач, с которыми сталкиваются компании из разных отраслей».

Графические процессоры NVIDIA A100 Tensor Core обеспечивают беспрецедентное ускорение HPC-вычислений для решения сложных задач ИИ, анализа данных, обучения моделей и симуляций в промышленности. Графические процессоры A100 80 ГБ PCIe располагают на 25% более широкой полосой пропускания по сравнению с A100 40 ГБ — до 2 ТБ/с — и снабжены 80 ГБ высокоскоростной памяти HBM2e.

Значительный объем памяти A100 80 ГБ PCIe и широкая полоса пропускания позволяют хранить в памяти больше данных и более крупные сети, минимизируя коммуникации между узлами и снижая энергопотребление. В сочетании с более широкой полосой пропускания это обеспечивает исследователям более высокую пропускную способность и быстрое получение результатов, что повышает отдачу от инвестиций в ИТ.

A100 80 ГБ PCIe основан на архитектуре NVIDIA Ampere, которая поддерживает технологию Multi-Instance GPU (MIG) для ускорения небольших рабочих нагрузок, таких, как инференс. MIG позволяет HPC-системам уменьшать объем вычислений и объем памяти с гарантированным качеством сервиса. В дополнение к PCIe есть четырех- и восьми-модульные конфигурации NVIDIA HGX A100.

Партнерами NVIDIA по системам A100 80GB PCIe стали Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT и Supermicro. Платформа HGX на базе графических процессоров A100 с коммутацией NVLink также доступна через облачные сервисы от Amazon Web Services, Microsoft Azure и Oracle Cloud Infrastructure.

Системы HPC, для которых требуется высокая скорость передачи данных, усилены NVIDIA InfiniBand, заявленным, как единственный в мире полностью разгружаемый интерконнект, поддерживающий сетевые вычисления. NDR InfiniBand масштабирует производительность для решения сложных задач на промышленных и научных HPC-системах. Системы коммутации с фиксированной конфигурацией NVIDIA Quantum-2 имеют 64 порта со скоростью передачи NDR 400 Гб/с InfiniBand на порт (или 128 портов по NDR200), что обеспечивает втрое выше плотность портов по сравнению с HDR InfiniBand.

Модульные коммутаторы NVIDIA Quantum-2 могут иметь до 2048 портов NDR 400 Гб/с InfiniBand (или 4096 портов NDR200) с общей пропускной способностью в обоих направлениях 1,64 петабит в секунду, что в 5 раз выше, чем у предыдущего поколения. У коммутатора с 2048 портами в 6,5 раз выше масштабируемость по сравнению с предыдущим поколением, и он способен подключать свыше миллиона узлов в три шага с помощью топологии сети DragonFly+.

Третье поколение технологии сжатия данных NVIDIA SHARP In-Network Computing повышает производительность высокопроизводительных промышленных и научных приложений с 32-кратным ускорением ИИ по сравнению с предыдущим поколением.

Передовые возможности управления включают возможности самовосстановления сети и движки ускорения NVIDIA In-Network Computing. Время простоя центра обработки данных снижено еще больше благодаря платформе NVIDIA UFM Cyber-AI.

Основанные на промышленных стандартах коммутаторы NVIDIA Quantum-2, поставки которых начнутся к концу года, имеют прямую и обратную совместимость, что обеспечивает простоту миграции и расширение существующих систем и программного обеспечения.
Ведущие в индустрии производители инфраструктуры, включая Atos, DDN, Dell Technologies, Excelero, GIGABYTE, HPE, Lenovo, Penguin, QCT, Supermicro, VAST и WekaIO, планируют интегрировать коммутаторы Quantum-2 NDR 400Gb/s InfiniBand в свои корпоративные и HPC-системы. Поставщики облачных сервисов, включая Azure, также применяют технологию InfiniBand.

Технология Magnum IO GPUDirect Storage устанавливает прямую связь между памятью GPU и накопителем. Благодаря прямому доступу снижаются задержки при работе с приложениями и полностью используется пропускная способность сетевых адаптеров, при этом снижается нагрузка на CPU и контролируется повышенное потребление данных.

Технологию Magnum IO GPUDirect Storage, которая уже доступна, взяли на вооружение такие промышленные лидеры, как DDN, Dell Technologies, Excelero, HPE, IBM Storage, Micron, NetApp, Pavilion, ScaleFlux, VAST и WekaIO.