+24 голоса |
Британская исследовательская лаборатория искусственного интеллекта DeepMind, в 2014 году ставшая частью Google, спустя два года стала знаменитой благодаря AlphaGo, первой программе, превзошедшей людей в древней игре Го. Ещё через пару лет, более совершенный потомок AlphaGo, система AlphaZero, продемонстрировала способность с нуля самостоятельно достигать мастерства в Го, шахматах и японских сёги.
С программой MuZero, о которой рассказывает статья Nature от 23 декабря, DeepMind сделала существенный следующий шаг к универсальным ИИ-алгоритмам. Для того, чтобы в совершенстве овладеть навыками игры MuZero не требуется даже знать её правила: она побеждает в Го, шахматах, сёги и в консольных играх Atari благодаря способности выстраивать выигрышные стратегии в незнакомой обстановке.
Исследователи давно ищут методы, которые позволяли бы сначала обучать модель, описывающую окружение, а затем использовать её для планирования оптимальных действий. Однако из-за сложности моделирования каждого аспекта среды эти алгоритмы проигрывают в визуально насыщенных средах со сложной динамикой, таких как Atari.
MuZero, впервые представленная в предварительной статье в 2019 году, решает эту проблему, тренируя глубокую нейросеть, которая концентрируется лишь на наиболее критичных для планирования аспектах:
• Оценка: насколько хороша текущая позиция?
• Политика: какое действие лучше всего предпринять?
• Награда: насколько хорошо было последнее действие?
Объединив такую модель с мощным поиском по дереву предвидения (look-ahead tree) AlphaZero, MuZero не только установила новый рекорд на тестах Atari, но одновременно сравнялась с AlphaZero по производительности решения классических задач планирования в Го, шахматах и сёги. Этим MuZero демонстрирует значительный скачок в возможностях алгоритмов обучения с подкреплением.
Избранный подход позволяет MuZero многократно использовать изученную модель для улучшения планирования, без сбора новых данных из среды. Так, в тестах пакета Atari этот вариант, MuZero Reanalyze, в 90% случаев использовал обученную модель для перепланирования того, что должно было быть сделано в прошлых эпизодах.
Предшественник MuZero – AlphaZero – уже применяется для решения ряда сложных задач химии, квантовой физики и других областей. Идеи, лежащие в основе мощных алгоритмов MuZero, способны открыть новые горизонты для искусственного интеллекта, проложив ему путь к поиску ответов на вызовы всевозможных ситуаций реального мира, где «правила игры» неизвестны.
Стратегія охолодження ЦОД для епохи AI
+24 голоса |