Новый метод улучшения машинного обучения имитирует поведение детей

22 июля 2019 г., 11:49

Несмотря на значительный прогресс, достигнутый в последнее время в области искусственного интеллекта (ИИ), большинству виртуальных агентов по-прежнему требуются сотни часов обучения, чтобы справляться с некоторыми задачами не хуже человека. Сами же люди могут научиться выполнять те же задачи за несколько часов или даже меньшее время.

Психологические исследования показывают, что в свои первые годы жизни люди постоянно экспериментируют со своим окружением, формируя основы понимания мира. Более того, когда дети сталкиваются с результатами, противоречащими их предыдущему опыту (так называемое нарушение ожиданий), это поощряет их к дальнейшим экспериментам, чтобы прояснить ситуацию.

Группа учёных Корейского продвинутого института науки и техники (Korea Advanced Institute of Science and Technology, KAIST) попыталась воспроизвести это человеческое поведение в ИИ-агентах, используя метод подкрепленного машинного обучения. В своей работе они сначала создали графическую физическую сеть, которая изучает физические взаимодействия между объектами и может предсказывать их дальнейшее поведение в 3D-среде. Затем, они интегрировали эту сеть с моделью глубокого подкреплённого обучения. Введённая в неё методика внутренней нормализации наград побуждала ИИ-агент изучать и идентифицировать действия, способные постоянно улучшать его модель интуиции.

С помощью 3D-движка физики корейские учёные продемонстрировали, что их графическая физическая сеть способна эффективно предугадывать местоположение и скорость различных объектов. Кроме того было установлено, что такой подход позволил сети глубокого подкреплённого обучения постоянно улучшать свою модель интуиции, побуждая её взаимодействовать с объектами, руководствуясь только внутренней мотивацией.

Сообщается, что разработанная группой KAIST методика, достигла замечательной точности, благодаря тому, что ИИ-агент выполнял множество различных исследовательских действий. В будущем это может послужить основой для разработки инструментов машинного обучения, способных быстрее и эффективнее учиться на своем прошлом опыте.

Стратегія охолодження ЦОД для епохи AI