Wave Computing ускорит тренировку нейросетей в 1000 раз

19 март, 2018 - 14:53

За исключением Google Tensor Processing Unit (TPU), большинство систем глубокого обучения сегодня работают на стандартных серверах с процессорами Xeon и графическими ускорителями Nvidia. Но один из бесчисленных ИИ-стартапов, Wave Computing, по словам его исполнительного директора, Дерека Майера (Derek Meyer), разрабатывает абсолютно новую архитектуру, Dataflow Processing Unit (DPU), сокращающую время обучения сложных нейросетей до нескольких часов.

Wave DPU не нуждается в центральном процессоре, операционной системе или приложениях. Он также не имеет общего кэша, благодаря чему не нужно заботиться о когерентности процессов. Первое поколение таких чипов изготовлено на мощностях TSMC по 16-нанометровой технологии. Один DPU содержит 1024 кластера, каждый из которых имеет 16 8-разрядных процессорных ядер и дополнительные 32-разрядные вычислительные блоки MAC (multiply-accumulate) для ключевых арифметических функций свёрточных нейросетей (Convolutional Neural Networks, CNN). Производительность может достигать 181 трлн 8-битных целочисленных операций в секунду или до 16 тераопс с учётом блоков MAC.

Тестировавшаяся более года версия будущей системы имеет 4 DPU, 256 ГБ системной памяти DDR4 и 8 ГБ высокопроизводительной DRAM (Hybrid Memory Cube). Четыре такие платы Wave Compute Appliance могут быть установлены в стойке 3U. Пиковое быстродействие такого узла достигает 11,6 пета операций в секунду.

Майер намекнул, что коммерческая система, которую готовится анонсировать Wave Computing, может выглядеть совсем по другому. Это может быть не стоечный сервер, а, например, рабочая станция наподобие Nvidia DGX1 Station, комплектующейся четырьмя Tesla V100 GPU. Не исключено, что Wave также предложит свои DPU как сервис — самостоятельно или через облачного партнёра.

Впервые Wave анонсировала DPU в 2016 г. на Linley Processor Conference, где пообещала примерно 10-кратное ускорение по сравнению с современными GPU. В дальнейшем компания заявила уже о 1000-кратном превосходстве по отношению к CPU, GPU и FPGA, и подкрепила свои слова результатами прогонки на узле из 64 DPU тестов распознавания изображений с несколькими CNN и машинного перевода на рекуррентных нейросетях (RNN). Майер утверждает, что производительность коммерческой системы может оказаться ещё более высокой.