GPU-серверы изнутри

Рост популярности GPU-вычислений породил новое поколение серверных платформ. У движения два локомотива – NVIDIA и AMD.

Современные графические процессоры (GPU) вытесняют типовые центральные процессоры (CPU) из параллельных вычислений. Машинное обучение, нейросети, распознавание голоса и изображений, математическое моделирование, визуализация в играх и проектировании – задачи для GPU-серверов. Разброс вариантов огромен: пока «премьер-лига» осваивает топовые NVIDIA DGX A100 производительностью 5 петафлопс и стоимостью $200K, рядовые пользователи обходятся демократичными платформами на акселераторах NVIDIA A10/A30/A40 и A4000/A5000/A6000.

Процессоры AMD EPYC идеальны под GPU-серверы. У них до 64 ядер и 128 линий PCIe Gen4. Не случайно же NVIDIA переводит свои серверы на AMD EPYC. У нынешних Intel Xeon SP второго поколения - до 28 ядер и 48 линий PCIe Gen3. В третьем поколении Intel Xeon SP, которое появится к осени, будет 64 линии PCIe Gen 4. И технологически, и экономически преимущество - за AMD.

Как устроены графические платформы

На рынке есть много вариаций GPU-платформ на одном и двух AMD EPYC под разное количество GPU-акселераторов. Есть и на двух Intel Xeon SP. Самым продуктивным вариантом можно считать соотношение четырех графических процессоров к одному центральному.

К числу таких относится однопроцессорный сервер ASUS ESC4000A-E10 на AMD EPYC. Он вмещает четыре GPU двойной ширины или восемь одинарной.

GPU-серверы изнутри

У платформы высотой 2U «купейная» планировка.

GPU-серверы изнутри

GPU-акселераторы для установки в серверы отличаются от бытовых – у них двойная ширина против почти тройной, продольный продув (турбина) вместо вентиляторов с боковым отводом тепла.

GPU-серверы изнутри

Перед установкой в сервер графические процессоры монтируются попарно в кассеты.

GPU-серверы изнутри

Высоты платформы 2U достаточно для горизонтального размещения четырех GPU.

Из блок-схемы виден запас шинных линий для подключения не только GPU, но и контроллеров периферии и NVMe SSD.

GPU-серверы изнутри

Наш тестовый интерес

Остановимся на задачах визуализации в проектировании, видеопроизводстве, играх, приложениях дополненной реальности. Мы хотим проверить как на расчет сложных сцен влияет GPU-масштабирование - добавление в систему графических процессоров. Воспользуемся стандартными программами рендеринга.

V-Ray

Рендеринг V-Ray работает как плагин для Autodesk 3ds Max, Cinema 4D, SketchUp, Rhino, Revit, ArchiCAD, Maya, Blender и многих других. Разработан и оптимизирован создателями для использования всех возможностей всех аппаратных компонентов: CPU, GPU, RAM, хранилища, сети и материнской платы. CPU и GPU могут использоваться одновременно с V-Ray - например, ядра центрального процессора для собственно рендеринга, а графический процессор - для шумоподавления и оптических эффектов. Или наоборот, V-Ray работает на графических картах, но задействует CPU под вычисление Light cache GI. Возможен гибридный рендеринг в V-Ray GPU, когда компоненты GPU и CPU могут рендерить одновременно.

Разработчик предлагает набор тестов V-Ray Benchmark для оценки возможностей рабочей станции под V-Ray.

Octane Render

Это рендер реального времени, использующий CUDA и работающий на графических процессорах nVidia. Построен на трассировке лучей. Поддерживает и масштабирует производительность в конфигурациях с несколькими GPU. Ускорение наиболее заметно в сложных сценах. Для тестирования пользуются утилитой RTX OctaneBench.

Redshift

Мощный рендер с ускорением на графическом процессоре, Redshift предлагает набор разнообразных функций и интегрируется со стандартными приложениями компьютерной графики. Демо-версия функционально идентична коммерческой, бесплатна, содержит плагины для Maya, 3dsMax, Softimage, C4D, Houdini, Katana.

Тестовый стол

GPU-серверы изнутри

Вообще говоря, в профессиональных приложениях должны использоваться профессиональные же графические акселераторы NVidia. Например, A6000 вместо RTX3090.

Потребители успели полюбить карты RTX 3090 Turbo – двойной ширины, с турбиной, они становятся в GPU-серверы по нескольку штук. С бытовыми версиями RTX 3090 так не получится.

NVidia недолго мирилась с каннибализацией продаж своих же «истинно cерверных» GPU Аxxx. Прошло полгода и производителям «настоятельно порекомендовали» прекратить выпуск турбо-версий RTX 3090. Фактически, наши тесты – «дембельский аккорд» RTX 3090 Turbo. В сервере с 4 GPU мы по очереди отключали акселераторы, чтобы оценить падение производительности.

Тесты

В сервере с 4 GPU мы по очереди отключали акселераторы, чтобы оценить падение производительности.

GPU-серверы изнутри

V-Ray и OctaneBench показывают практически линейное масштабирование производительности по количеству активных GPU.

GPU-серверы изнутри

В RedShift добавление GPU не приводит к пропорциональному сокращению времени рендеринга, но существенная экономия времени очевидна. В визуализации сложных сцен, требующих многочасовых расчетов, каждый час на счету.

Послевкусие

Если речь об одном GPU на сервер (рабочую станцию), конструктивное решение подобрать несложно. Но для двух, а тем более четырех GPU, нужна специализированная платформа. Когда все четыре графических процессора работают на полной мощности, температура на них превышает 80 ° C. Не только турбины самих GPU, но и системы охлаждения сервера должны иметь «запас хода» вентиляторов – с учетом высокой температуры окружающей среды и тепла, выделяемого другими компонентами. Такие серверы шумят и прожорливы по энергопотреблению. В нашем случае источника питания 1600 Вт хватало впритык. Имеет смысл выбирать платформы с более мощными блоками питания – например, 2200 Вт.

Мы нагружали сервер рендерингом. В других областях GPU-вычислений эффекты будут другими. Выбор акселераторов из предложения NVIDIA A10/A30/A40 и A4000/A5000/A6000 диктуют задачи.

Очевидно одно: графические процессоры становятся популярнее, а спрос на GPU-серверы устойчиво растет. Формат 2U / 1 x AMD EPYC / 2 … 4 GPU - наиболее демократичный и востребованный из них.

Стратегія охолодження ЦОД для епохи AI