Алгоритм CERL ускорит обучение моделей ИИ

14 июнь, 2019 - 10:49

Новым результатом инвестиций корпорации Intel в теоретические исследования искусственного интеллекта стал алгоритм, способный ускорить разработку сложных моделей машинного обучения.

Разработчики Intel представили его 11 июня в Калифорнии на ICML — авторитетной международной конференции по машинному обучению. Они обещают, что алгоритм, получивший название Collaborative Evolutionary Reinforcement Learning (CERL), сократит тренировочную фазу — наиболее длительную часть цикла разработки ИИ-проектов.

Нейронная сеть, обучение которой основывается на поощрениях за успехи, часто выбирает «безопасный путь», чтобы максимизировать количество получаемых баллов. ИИ становится менее склонным к риску и к экспериментам с новыми подходами. Это в конечном итоге ограничивает эффективность как обучения модели, так и её прикладного использования.

Данная проблема особенно характерна для наиболее распространённых методов машинного обучения, основанных на градиенте политик. Свободный от этого ограничения альтернативный подход — эволюционное обучение с подкреплением — неудобен тем, что требует значительно больше аппаратных ресурсов. Алгоритм Intel CERL представляет собой компромиссное решение, объединяющее ключевые концепции вышеназванных методов в гибридный рабочий процесс.

CERL начинает работу с генерирования группы нейросетей, имеющих произвольные настройки. Затем он оставляет только те из них, которые получают больше всего баллов поощрения, и генерирует новое поколение нейросетей уже на их основе. Таким образом, нейросети улучшаются с каждым следующим поколением.

«Мы также вводим мутации (клонирование с небольшими возмущениями)... в элите, чтобы создать высокопроизводительное потомство на место отброшенных сетей», — объясняет Сомдеб Маюмдар (Somdeb Majumdar), руководитель инженерных исследований лаборатории ИИ компании Intel.

В целях ускорения обучения, исследователи Intel оснастили CERL так называемым буфером воспроизведения. Это канал связи, который позволяет нейронным сетям каждого поколения обмениваться между собой приобретённым опытом. Параллельно, другой механизм оптимизирует распределение вычислительных ресурсов, так что больше всего их доступно для моделей с самым быстрым обучением — это ещё больше ускоряет процесс.

Чтобы измерить производительность CERL, компания опробовала свой алгоритм на Humanoid, ИИ-задаче, которая включает в себя обучение ходьбе трехмерной человекоподобной модели. CERL справился с заданием после всего 4000 развертываний (roll-out) или взаимодействий с симуляцией, тогда как традиционная эволюционная система обучения с подкреплением потребовала 62,5 миллиона развертываний.

По мнению разработчиков, преимущества CERL лучше всего проявляются в задачах из таких областей, как физическая робототехника, сложные игры или автономное вождение, в которых имеются множественные иерархии требований.