Nvidia представила детальну інформацію про Eureka, систему штучного інтелекту, яка може автоматично навчати роботів виконувати нові завдання.
У внутрішньому дослідженні виробник використовував Eureka для навчання 10 симульованих роботів 29 різним діям.
Багато роботів працюють на основі типу нейронної мережі, яка називається моделлю навчання з підкріпленням (RL, reinforcement learning). RL-моделі вчаться виконувати завдання методом спроб та помилок: вони повторюють завдання багато разів у симульованому середовищі, поки не зрозуміють, як виконувати його правильно. Імітоване навчальне середовище включає віртуального робота, який функціонує як тестовий майданчик для нейронної мережі.
У таких проектах процес навчання АІ контролюється фрагментом коду, відомим як функція винагороди. Ця функція "винагороджує" RL-модель робота, коли він робить правильний висновок під час сеансу навчання, і «карає» його за помилки. Таким чином, RL-модель спрямовується на пошук правильного способу керування роботом.
Написання функцій заохочення для RL-моделей історично було трудомістким і високотехнологічним завданням. За словами Nvidia, її нова система Eureka автоматизує цей процес. Система може генерувати функції винагороди на основі інструкцій на природній мові, таких як "навчити роботизовану руку грати в шахи".
В основі Eureka лежить GPT-4 від OpenAI, який перетворює підказки користувачів на функції винагороди. Окрім самих підказок, система також приймає на вхід так званий код оточення. Це код, який описує симуляцію робота, якого навчають виконувати нове завдання.
За словами Nvidia, система Eureka не просто генерує функції заохочення, але й удосконалює їх з часом. При цьому створюються кілька версій функції винагороди та оцінює, наскільки добре вони працюють, застосовуючи їх до змодельованого робота. Потім Eureka аналізує результати оцінки, щоб визначити можливості для вдосконалення.
Система також може враховувати відгуки розробників під час цього процесу. Зокрема, Eureka дозволяє інженерам надавати пропозиції щодо того, як покращити функцію винагороди робота. Ці пропозиції враховуються в процесі оптимізації коду.
Nvidia стверджує, що функції винагороди, розроблені Eureka, перевершили код, написаний людиною, у більш ніж 80% протестованих дій робота. В результаті 10 симульованих роботів, які були розроблені в рамках проекту, виконували поставлені перед ними завдання більш ефективно. Дослідники Nvidia зафіксували покращення продуктивності роботів на 52%.
Nvidia виклала на GitHub ключові компоненти Eureka та наукову статтю з описом її роботи. Інженери можуть запускати програмне забезпечення за допомогою програми Isaac Gym - інструменту моделювання, спеціально розробленого для підтримки розробки роботів зі штучним інтелектом.