`

СПЕЦІАЛЬНІ
ПАРТНЕРИ
ПРОЕКТУ

Чи використовує ваша компанія ChatGPT в роботі?

BEST CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Виталий Кобальчинский

DeepMind научилась побеждать в играх, не зная правил

+24
голоса

Британская исследовательская лаборатория искусственного интеллекта DeepMind, в 2014 году ставшая частью Google, спустя два года стала знаменитой благодаря AlphaGo, первой программе, превзошедшей людей в древней игре Го. Ещё через пару лет, более совершенный потомок AlphaGo, система  AlphaZero, продемонстрировала способность с нуля самостоятельно достигать мастерства в Го, шахматах и японских сёги.

С программой MuZero, о которой рассказывает статья Nature от 23 декабря, DeepMind сделала существенный следующий шаг к универсальным ИИ-алгоритмам. Для того, чтобы в совершенстве овладеть навыками игры MuZero не требуется даже знать её правила: она побеждает в Го, шахматах, сёги и в консольных играх Atari благодаря способности выстраивать выигрышные стратегии в незнакомой обстановке.

DeepMind научилась побеждать в играх, не зная правил

Исследователи давно ищут методы, которые позволяли бы сначала обучать модель, описывающую окружение, а затем использовать её для планирования оптимальных действий. Однако из-за сложности моделирования каждого аспекта среды эти алгоритмы проигрывают в визуально насыщенных средах со сложной динамикой, таких как Atari.

MuZero, впервые представленная в предварительной статье в 2019 году, решает эту проблему, тренируя глубокую нейросеть, которая концентрируется лишь на наиболее критичных для планирования аспектах:
    • Оценка: насколько хороша текущая позиция?
    • Политика: какое действие лучше всего предпринять?
    • Награда: насколько хорошо было последнее действие?

Объединив такую модель с мощным поиском по дереву предвидения (look-ahead tree) AlphaZero, MuZero не только установила новый рекорд на тестах Atari, но одновременно сравнялась с AlphaZero по производительности решения классических задач планирования в Го, шахматах и ​​сёги. Этим MuZero демонстрирует значительный скачок в возможностях алгоритмов обучения с подкреплением.

Избранный подход позволяет MuZero многократно использовать изученную модель для улучшения планирования, без сбора новых данных из среды. Так, в тестах пакета Atari этот вариант, MuZero Reanalyze, в 90% случаев использовал обученную модель для перепланирования того, что должно было быть сделано в прошлых эпизодах.

Предшественник MuZero – AlphaZero – уже применяется для решения ряда сложных задач химии, квантовой физики и других областей. Идеи, лежащие в основе мощных алгоритмов MuZero, способны открыть новые горизонты для искусственного интеллекта, проложив ему путь к поиску ответов на вызовы всевозможных ситуаций реального мира, где «правила игры» неизвестны.

Стратегія охолодження ЦОД для епохи AI

+24
голоса

Напечатать Отправить другу

Читайте также

 

Ukraine

 

  •  Home  •  Ринок  •  IТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Мережі  •  Безпека  •  Наука  •  IoT