AlphaZero побеждает, зная только правила игры

11 декабрь, 2018 - 11:05

Уже прошло более 20 лет после того, как суперкомпьютер Deep Blue одержал решающую победу над чемпионом мира по шахматам Гарри Каспаровым. С тех пор, компьютеры, постоянно совершенствовались и превзошли людей не только в шахматах, но и в шоги (японские шахматы) и в игре Го. Но в каждом из случаев верх одерживала узкоспециализированная система, предназначенная только, чтобы играть в одну определённую игру.

Новый более универсальный игровой компьютер, AlphaZero, создала команда британских инженеров из компании DeepMind Technologies и Университетского Колледжа (Лондон). Он не только играет на мастерскому уровне сразу в три игры, но и обучается с нулевого уровня самостоятельно.

AlphaZero это, так называемая, система обучения с подкреплением (reinforcement learning), то есть такая, которая учится во взаимодействии с некоей средой — в данном случае — играя и суммируя полученный опыт. В этом AlphaZero напоминает людей, они тоже впервые садятся за игровую доску, зная лишь базовые правила игры, но в отличие от них компьютер играет сам с собой.

Постепенно система совершенствуется настолько, что может выигрывать не только у людей, но и у специализированных игровых компьютеров. Период обучения занимает совсем немного времени, благодаря использованию экономного алгоритма вероятностного поиска (Monte Carlo Tree Search, MCTS) и 5 тысяч интеллектуальных процессорных модулей TPU.

В шахматах AlphaZero впервые превзошла шахматную ИИ-систему Stockfish после 4 часов обучения. Чтобы победить Elmo в игре шоги потребовалось всего два часа. Больше всего — 30 часов — у AlphaZero заняла подготовка к разгрому той версии компьютера AlphaGo, которая в 2016 г. отобрала звание чемпиона у легендарного игрока в Го — Ли Седоля.

На момент публикации статьи в декабрьском номере журнала Science, AlphaZero освоил лишь три упомянутые игры, но его разработчики в качестве следующего шага рассматривают возможность расширения таких систем на покер или даже на видеоигры.