Футбол − все же пока не хватает интеллекта

1 июля 2016 г., 20:59

ЧЕ-2016 достиг стадии четвертьфиналов. Можно сказать, что теперь начался настоящий футбол среди оставшихся восьми команд. Остальные могут воспользоваться разработками Google − если, конечно, смогут реализовать их на поле.

После освоения десятков 2D игр для Atari и победы над чемпионом Го, искусственный интеллект (Artifical Intellect, AI) Google DeepMind переходит к 3D-навигации и играм, требующих принятия лучшего решения в определенной ситуации (puzzle-solving games). Исследователи Google в области AI DeepMind разработали новый алгоритм, который улучшает способности геймплея.

Одна из таких новых игр − «муравьиный футбол» (Ant Soccer), в которой DeepMind AI обучается тому, как найти мяч, провести дриблинг, и затем забить гол.
Впечатляет то, − написал в своем блоге* руководитель проектов DeepMind Дэвид Сильвер (David Silver), − что AI способен к решению проблем муравьиного футбола «без любых предварительных знаний динамики», на основе метода проб и ошибок (reinforcement learning, RL).

Чтобы получить такие результаты, DeepMind объединил RL с глубоким обучением в нейронных сетях (deep learning of neural networks). Разработанный алгоритм Deep Q-Network (DQN) хранит опыт, полученный муравьем и оценивает пользу (rewards), которая может быть получена после выполнения тех или иных действий.

Именно этот алгоритм позволил справляться с десятками 2D игр на Atari 2600, − однако Сильвер говорит, что теперь они имеют намного лучшую версию алгоритма. Например, теперь возможно обучение единственной нейронной сети многим играм Atari (алгоритм, который победил в Го, имел две нейронные сети).

«Мы также построили в крупномасштабную распределенную систему RL Gorila, которая использует платформу Google Cloud, чтобы сократить время обучения», − отметил Сильвер.

Способность научить тому, как играть в футбол, связана с недавно разработанным «asynchronous actor-critic algorithm, A3C», что примерно можно перевести как «асинхронный алгоритм, который позволяет придираться к действиям исполнителя».

В соответствующем релизе** Google, который вышел в середине июня, указывается, что для решения задач управления движением и ориентации в случайных 3D лабиринтах в аппаратной части системы используются стандартные многоядерные процессоры, − вместо часто применявшихся в последнее время для быстрых объемных вычислений графических процессоров (GPU).

Это стало возможным за счет использования DQN (сокращение времени тренировки) и Gorila (снижение потребления вычислительных ресурсов).

DeepMind тестировал эту концепцию на Labyrinth, который определяется как «решающий набор правил для навигации и решения задач в 3D окружающей среде». Согласно Сильверу, алгоритм A3C уже «прямо из коробки» достигает уровня человека на многих задачах Labyrinth.

Обойдемся без заключения, повторив только тезис о том, что «алгоритм самостоятельно обучается тому, как найти мяч, провести дриблинг, и затем забить гол». Как говаривал Остап Бендер, − «Хорошо излагает, собака. Учитесь, Киса».

* Этот блог хорошо иллюстрирован и настоятельно рекомендуется хотя бы просмотреть его

** В этом релизе, собственно, и разъясняется, − применительно к футболу, − как использовать местных футболистов вместо того, чтобы привлекать иностранных легионеров.

Стратегія охолодження ЦОД для епохи AI