DeepMind научилась побеждать в играх, не зная правил

30 декабрь, 2020 - 12:48Виталий Кобальчинский

Британская исследовательская лаборатория искусственного интеллекта DeepMind, в 2014 году ставшая частью Google, спустя два года стала знаменитой благодаря AlphaGo, первой программе, превзошедшей людей в древней игре Го. Ещё через пару лет, более совершенный потомок AlphaGo, система  AlphaZero, продемонстрировала способность с нуля самостоятельно достигать мастерства в Го, шахматах и японских сёги.

С программой MuZero, о которой рассказывает статья Nature от 23 декабря, DeepMind сделала существенный следующий шаг к универсальным ИИ-алгоритмам. Для того, чтобы в совершенстве овладеть навыками игры MuZero не требуется даже знать её правила: она побеждает в Го, шахматах, сёги и в консольных играх Atari благодаря способности выстраивать выигрышные стратегии в незнакомой обстановке.

DeepMind научилась побеждать в играх, не зная правил


Исследователи давно ищут методы, которые позволяли бы сначала обучать модель, описывающую окружение, а затем использовать её для планирования оптимальных действий. Однако из-за сложности моделирования каждого аспекта среды эти алгоритмы проигрывают в визуально насыщенных средах со сложной динамикой, таких как Atari.

MuZero, впервые представленная в предварительной статье в 2019 году, решает эту проблему, тренируя глубокую нейросеть, которая концентрируется лишь на наиболее критичных для планирования аспектах:
    • Оценка: насколько хороша текущая позиция?
    • Политика: какое действие лучше всего предпринять?
    • Награда: насколько хорошо было последнее действие?

Объединив такую модель с мощным поиском по дереву предвидения (look-ahead tree) AlphaZero, MuZero не только установила новый рекорд на тестах Atari, но одновременно сравнялась с AlphaZero по производительности решения классических задач планирования в Го, шахматах и ​​сёги. Этим MuZero демонстрирует значительный скачок в возможностях алгоритмов обучения с подкреплением.

Избранный подход позволяет MuZero многократно использовать изученную модель для улучшения планирования, без сбора новых данных из среды. Так, в тестах пакета Atari этот вариант, MuZero Reanalyze, в 90% случаев использовал обученную модель для перепланирования того, что должно было быть сделано в прошлых эпизодах.

Предшественник MuZero – AlphaZero – уже применяется для решения ряда сложных задач химии, квантовой физики и других областей. Идеи, лежащие в основе мощных алгоритмов MuZero, способны открыть новые горизонты для искусственного интеллекта, проложив ему путь к поиску ответов на вызовы всевозможных ситуаций реального мира, где «правила игры» неизвестны.