`

СПЕЦИАЛЬНЫЕ
ПАРТНЕРЫ
ПРОЕКТА

Архив номеров

Как изменилось финансирование ИТ-направления в вашей организации?

Best CIO

Определение наиболее профессиональных ИТ-управленцев, лидеров и экспертов в своих отраслях

Человек года

Кто внес наибольший вклад в развитие украинского ИТ-рынка.

Продукт года

Награды «Продукт года» еженедельника «Компьютерное обозрение» за наиболее выдающиеся ИТ-товары

 

Александр Черников

Хроники Го-2. Google DeepMind

+33
голоса

На днях пришло сообщение, что Фань Хой (Fan Hui), трехкратный чемпион Европы по игре Го, проиграл программе AlphaGo от DeepMind в пяти играх подряд (0-5 во всех играх серии). Демис Хассабис и сотня сотрудников его подразделения в Google теперь бросили вызов чемпиону мира, – и он не отказался. Матч из пяти игр состоится в Сеуле в марте.

Гарри Каспаров проиграл шахматному компьютеру Deep Blue в 1997 г. Таким образом, тогда IBM установила веху в истории развития искусственного интеллекта. Почти 20 лет спустя, в январе 2016 г., в статье в авторитетном издании Nature, компания Google также получила свое место в истории, объявив, что купленная ею небольшая британская компания DeepMind реализовала систему AlphaGo, возможно, способную победить чемпиона мира по восточноазиатской настольной игре Го.

Хроники Го-2. Google DeepMind

Многие любители и у нас в стране знают ее правила. На поле размером 19х19 соперники попеременно выкладывают фишки, стараясь окружить и удалить фишки своего соперника. Для компьютера это намного более сложная игра, чем шахматы

Д-р Тангуй Човард (Tanguy Chouard), главный редактор Nature, который наблюдал некоторые игры матча, описал победу как «действительно крутую для стороннего наблюдателя». «Это был один из самых захватывающих моментов за все время, что я работаю в Nature», – сказал он.

Это – первая такая победа для компьютерной программы, причем она произошла на десять лет раньше, чем ожидалось. Только-только, в 2014 г. Реми Кулом (Rémi Coulom), разработчик предыдущей программы для игры в Го, Crazy Stone, предсказал, что потребуется еще не менее 10 лет для машины, чтобы выиграть у профессионального игрока в Го, имеющего самый высокий рейтинг в мире. Теперь программа AlphaGo превзошла все ожидания, решая проблему совершенно другим способом, чем прежнее ПО.

В своих ранних AI-подвигах DeepMind научила свою программу самостоятельно играть в классические старые видеоигры на Atari-80. Теперь AlphaGo использует то, что компания называет «глубокое обучение», (Deep Learning), чтобы построить собственную модель и понимание игры.

При обучении компьютера играть в ту или иную игру самый простой метод заключается в том, чтобы научить ее оценивать каждый возможный ход, от лучшего до худшего, и затем всегда выбирать лучший.

Такая стратегия давно работает в тривиальных играх типа крестиков-ноликов, которые давно и успешно решены компьютерами. Они полностью перебирают все варианты и выбирают такой, который ведет, по крайней мере, к ничьей.

Однако в сложных играх уровня шахмат, такой «дубовый» подход терпит неудачу. Шахматы слишком вариативны – всегда есть около 35 вариантов ходов, а игра может длиться до 70-80 ходов. Быстрый обсчет каждого положения становится затруднительным или требует большой вычислительной мощности, почему и потребовалось столько лет для команды IBM, чтобы найти способ победить Каспарова.

Хроники Го-2. Google DeepMind

Диаграмма из статьи в Nature. Как видно, в самом мощном своем варианте сегодня AlphaGo играет на уровне профессионала пятого дана, опережая побежденного Fan Hui (третий дан) и далеко уйдя вперед от других аналогичных программ (любительский уровень). Бледно-розовым цветом показан прогресс таких программ за последние четыре года

Го еще сложнее в вычислительном отношении. Правил в Го всего два. Они легки для новичка и очень сложны для мастера. Фишки должны выкладываться по крайней мере с одним пустым местом рядом с ним или с частью группы камней того же цвета по крайней мере с одним пустым местом, и если они теряют свою «свободу» (закрываются со всех сторон), то удаляются с доски.

В то время, как у шахмат 35 вариантов каждого хода, в Го их обычно около 250, включая одну только 361 (19х19) стартовую позицию. Если игра в шахматы длится приблизительно 50-80 ходов, то игра в Го типично продолжается примерно до 150 хода.

Если бы Google DeepMind попыталась просчитать игру таким же образом, как крестики-нолики, ее программа должна была бы исследовать и оценить невероятное количество возможных положений – примерно 10^169. Google со своим названием, которое, как известно, обозначает «гугол», т.е. 10^100, просто отдыхает.

Это делает невозможным полный поиск, и даже селективный поиск, который был использован Deep Blue, чтобы победить Каспарова, – который, в свою очередь, делал эффективные ходы интуитивно, полагаясь, так сказать, на собственную нейронную сеть.

Сложности к проблеме Го добавляет и то, что, в отличие от шахмат, здесь очень трудно смотреть на доску и пытаться математически определить, кто побеждает в данный момент.

В шахматах игрок, имеющий ферзя, вероятно, победит игрока, ферзь которого взят, – и так далее. То есть, в принципе, возможно назначить определенное ранжирование, рейтинг ценности для каждой фигуры и выработать правила текущего счета, который примерно оценивает перспективы каждого игрока после каждого хода.

В отличие от шахмат, в Го фишки редко удаляются с доски и нет никакого простого математического способа определить, кто из соперников находится в более сильном положении, пока игра не зашла слишком далеко. Поэтому разработчики AlphaGo сосредоточились на совершенно другой стратегии.

Дэвид Сильвер (David Silver), ведущий соисследователь проекта DeepMind, говорит по этому поводу следующее: «AlphaGo смотрит вперед, заканчивая оставшуюся часть игры в своем воображении много раз».

Программа параллельно использует две нейронных сети. Главная из них подражает структуре человеческого мозга, чтобы соединить очень простые текущие одиночные решения в сложный выбор общей стратегии. Эта, стратегическая, сеть обучается на примере миллионов записей игр Го по архиву.

Используя наблюдения, программа создает прогнозную модель ожидаемого будущего. В результате она в состоянии точно предположить следующее движение опытного соперника примерно в 57% случаев (по сравнению с 44% для профессионального игрока-человека).

После этого нейронная сеть пытается сыграть против самое себя, извлекая уроки из возможных побед и потерь и обсчитывая миллионы вариантов. Затем второй фильтр помогает выбирать лучший текущий ход.

Разработка AlphaGo была важна для DeepMind не просто как бриллиант в ее короне. Компания утверждает, что совершенствование программы и глубокое изучение игровых методов крайне важны для ее будущей работы. Демис Хассабис сказал, что «в конечном счете, мы хотим применить эти методы в важных реальных проблемах, – от медицинской диагностики до моделирования климата». Например, о том, как Google DeepMind учится читать и понимать прочитанное, смотри в обозрении MIT.

Тем не менее, в данный момент команда DeepMind сосредоточена на достижении заключительной цели – победе в матче с чемпионом мира по Го Ли Си-долом (Lee Se-dol). Сам Ли говорит, что «независимо от результата, это будет знаковое событие в истории «baduk» (корейское название Го).

«Я слышал, что искусственный интеллект Google DeepMind удивительно силен в Го, и становится все сильнее день ото дня. Но я уверен, что смогу победить, – по крайней мере, на сей раз», – сказал Ли.

Я ставлю на AlphaGo

Теперь уже привычнее и увереннее отвечу на традиционный вопрос – «Что будет дальше?».

Хроники Го-2. Google DeepMind

Ну вот… Вместо мудрой неторопливой игры в наш мир опять врывается компьютер… и делает все ненужным и неинтересным

Понятно, что все алгоритмические игры обречены. Вопрос о введении драконовской системы наблюдения и охраны в казино обсуждать не будем. Обратимся лучше к ситуационным неопределенным играм, – в первую очередь неконтактным с мячом. Я не вижу особых технических проблем, чтобы сделать, например, робота для игры в большой теннис.

Нужна просто большая быстрая двухкоординатная система перемещения. Такие уже давно используются в графопостроителях, системах CAD и 3D-принтерах. Дело только в масштабе.

Добавим технологии машинного зрения, распознавания и самообучения. Получаем механическую руку с глазами и ракеткой. Можно пофантазировать, как машина намеренно проигрывает первый гейм, изучая повадки соперника-человека: скорость его перемещения, стратегию ударов, их силу и траекторию и т.д. А затем уверенно начинает гонять его по углам и набирать очки.

Думаю, в течение ближайших лет подобный образец появится. Его поначалу будут широко использовать для спарринга, но в целом теннис, – как и шахматы, и Го, – утратит свою исключительность и обаяние.

То же касается настольного тенниса (скорость выше, но масштабы меньше), снукера и т.д., и т.п. Так что, видимо, у людей скоро останется только традиционная игра «махнем не глядя». Хотя, кто знает?..

Хроники Го-1. DeepMind

+33
голоса

Напечатать Отправить другу

Читайте также

 
 
IDC
Реклама

  •  Home  •  Рынок  •  ИТ-директор  •  CloudComputing  •  Hard  •  Soft  •  Сети  •  Безопасность  •  Наука  •  IoT