Роботи, які пишуть свій власний код

14 ноября 2022 г., 14:56

Software

Джекі Лян (Jacky Liang), стажер-дослідник, і Енді Цзен (Andy Zeng), науковий співробітник відділу робототехніки Google, опублікували цікавий блог про досягнення в області робототехніки.

Загальний підхід, який використовується для керування роботами, полягає в програмуванні їх за допомогою коду для виявлення об’єктів, послідовності команд для переміщення приводів і циклів зворотного зв’язку, щоб визначити, як робот має виконувати завдання. Але перепрограмування політик для кожного нового завдання може зайняти багато часу та потребуватиме досвіду в галузі.

Що якби, отримавши вказівки від людей, роботи могли б автономно писати власний код для взаємодії зі світом? Виявилося, що мовні моделі останнього покоління, такі як PaLM, здатні до складних міркувань і також навчені на мільйонах рядків коду. Враховуючи інструкції на природній мові, поточні мовні моделі добре вміють писати не лише загальний код, але, як виявилось, код, який також може контролювати дії роботів. Якщо надати кілька прикладів інструкцій (у форматі коментарів) у поєднанні з відповідним кодом (через навчання в контексті), мовні моделі можуть приймати нові інструкції та автономно генерувати новий код, який перекомпонує виклики API, синтезує нові функції та виражає цикли зворотного зв’язку, щоб створити нову поведінку під час виконання.

Щоб дослідити цю можливість, було розроблено Code as Policies (CaP), орієнтовану на робота формулювання програм, згенерованих моделлю мови, які виконуються на фізичних системах. З CaP пропонується використовувати мовні моделі для безпосереднього написання коду робота за допомогою кількох підказок. CaP дозволяє одній системі виконувати різноманітні складні та різноманітні роботизовані завдання без спеціального навчання.

Щоб створити код для нового завдання з інструкціями природною мовою, CaP використовує модель мови написання коду, яка, коли з’являється запит із підказками і приклади, пише новий код для нових інструкцій. Центральним у цьому підході є ієрархічна генерація коду, яка спонукає мовні моделі рекурсивно визначати нові функції, накопичувати власні бібліотеки з часом і самостійно створювати динамічну кодову базу.

Моделі мови для написання коду можуть виражати різноманітні арифметичні операції та цикли зворотного зв’язку, засновані на мові. Програми мовної моделі Pythonic можуть використовувати класичні логічні структури, наприклад, послідовності, вибір (if/else) і цикли (for/while), щоб створити нову поведінку під час виконання. Ці моделі не лише узагальнюють нові інструкції, але й можуть транслювати точні значення (наприклад, швидкості) до неоднозначних описів («швидше» та «ліворуч») залежно від контексту, щоб виявити здоровий глузд у поведінці.

Але код як політика сьогодні обмежений сферою (i) того, що можуть описати API сприйняття (наприклад, на сьогоднішній день небагато моделей візуальної мови можуть описати, чи є траєкторія «вибоїстою» чи «більш С-подібною»), і (ii), які примітиви керування доступні. Лише кілька іменованих примітивних параметрів можна налаштувати без надмірного насичення підказок. Використаний підхід також передбачає, що всі дані інструкції здійснимі, і не можна сказати, чи буде згенерований код корисним апріорі. CaPs також важко інтерпретувати інструкції, які є значно складнішими або працюють на іншому рівні абстракції, ніж кілька прикладів, наданих для підказок мовної моделі.

Який же можна зробити висновок?
Код як політика — це крок до роботів, які можуть змінювати свою поведінку та відповідно розширювати свої можливості. Це може бути сприятливим, але гнучкість також підвищує потенційні ризики, оскільки синтезовані програми (якщо їх не перевірено вручну під час виконання) можуть призвести до ненавмисної поведінки фізичного обладнання. Ці ризики можна пом’якшити за допомогою вбудованих перевірок безпеки, які зв’язують контрольні примітиви, до яких система має доступ, але потрібно більше працювати, щоб переконатися, що нові комбінації відомих примітивів однаково безпечні.

Ready, set, buy! Посібник для початківців - як придбати Copilot для Microsoft 365