Суперкомпьютеры сокращают время тренировки нейросетей в сотни раз

14 ноябрь, 2017 - 09:58
Суперкомпьютеры сокращают время тренировки нейросетей в сотни раз

Сегодня при создании новых моделей глубокого обучения исследователи используют метод проб и ошибок. Это значит, что им приходится прогонять. тренировочный процесс многократно — десятки и сотни раз.

Относительно небольшая скорость обучения накладывает ограничения на круг проблем, которые учёные берутся решать этим способом. Например, исследователи в Google считают приемлемым если срок обучения нейросети составляет от одного до четырёх дней. В тех случаях, когда тренировка затягивается на несколько (до четырёх) недель, метод (по их мнению) можно использовать только для экспериментов, имеющих очень важное значение. Если же нейросеть требуется обучать больше месяца, за это лучше даже и не браться.

Статья, опубликованная на Arxiv.org в этом месяце, демонстрирует возможность значительно ускорить глубокое обучение — для большинства сегодняшних моделей его вполне можно начать и закончить за обеденный перерыв.

Новый алгоритм Layer-Wise Adaptive Rate Scaling (LARS) позволил команде учёных из калифорнийских университетов Беркли и Дэвиса и компьютерного центра TACC (Texas Advanced Computing Center) Техасского университета в Остине эффективно использовать 1024 чипа Skylake суперкомпьютера Stampede2, чтобы закончить 100 итераций (epoch) тренировки нейросети глубокого обучения (DNN) AlexNet на эталонном массиве изображений ImageNet за 11 минут — быстрее, чем когда-либо.

LARS эффективно распределяет данные между многими процессорам и позволяет использовать на каждой итерации беспрецедентно большое количество обучающих образцов (до 32 тыс.). Новый алгоритм также адаптивно настраивает скорость обучения для каждого слоя в зависимости от результатов прохождения предыдущей итерации.

Все это позволило одновременно задействовать большое количество процессоров Skylake и Intel Xeon Phi, предоставляемых системой Stampede2, и при этом сохранить высокую точность распознавания (более 99%).

На 1600 процессорах Skylake авторы исследования смогли улучшить последний рекорд Facebook, пройдя 90 итераций обучения модели ResNet-50 за 32 минуты и с более высокой точностью для количества образцов 20 тыс. ResNet-50 это разработанная Microsoft свёрточная нейросеть, которая два года назад выиграла соревнования по крупномасштабному визуальному распознаванию на массиве ImageNet, обогнав по результативности в том числе и людей.

Данное исследование продемонстрировало, что ресурсы, подобные Stampede2, которые сегодня имеются в открытом доступе для научного сообщества, представляют реальную альтернативу сегодняшнему тренду использования для глубокого обучения специализированного оборудования: графических ускорителей, чипов Tensor Flow, FPGA и пр.

Эксперты TACC написали код, базирующийся на фреймворке Caffe и использующий Intel-Caffe с поддержкой много-узлового обучения. Они показали, что при масштабировании ПО Caffe на 1024 процессора Skylake (модель ResNet-50) оно работает с эффективностью примерно 73% — почти в 750 раз быстрее, чем на одном чипе Skylake.