Разработчики DeepMind представили MuZero — алгоритм, который может справиться с любой игрой, не зная правил на начальном этапе. Вместо построения модели игровой среды MuZero использует информацию о текущем и предыдущем шаге, а также о возможном исходе одного из следующих шагов, в результате чего обучается играть самостоятельно. Алгоритм научили играть не только в классические для алгоритмов DeepMind го, сёги и шахматы, на также 57 игр для приставки Atari, включая Ms. Pac-Man. Статья опубликована в журнале Nature.
Одна из ключевых задач машинного обучения — это создание алгоритмов, которые могут эффективно взаимодействовать с какой-либо средой: это может быть какое-то открытое пространство (например, дорога для беспилотного автомобиля) или массив больших данных (например, текстовый корпус для алгоритмов обработки естественного языка). Для ее решения сначала необходимо научиться решать много маленьких задач, одна из которых — планирование дальнейших действий в среде.
В свою очередь, чтобы научить алгоритм планировать действия, нужно дать ему либо набор правил, которым он будет пользоваться при взаимодействии со средой, либо все необходимые данные об этой среде. Например, представленная компанией DeepMind в конце 2017 года AlphaGo Zero (или просто AlphaGo) умеет играть в шахматы, сёги и го (причем в последней даже обыгрывает знаменитый AlphaGo — первый подобный алгоритм компании), но изначально требует свода правил, которым может пользоваться: например, информации о том, как могут ходить шахматные фигуры.
Из-за того, что алгоритмам необходима информация о среде или правилах в ней, их до сих пор не удавалось сделать универсальными: их применение ограничивается только несколькими играми. Исправить это решили разработчики из DeepMind под руководством Дэвида Сильвера (David Silver). Вместо того, чтобы учить алгоритм взаимодействовать с известной средой или попытаться смоделировать ее полностью уже во время игры, исследователи решили сосредоточиться на нескольких важных для игры аспектах, которые оцениваются и обновляются на каждом шаге: понимание текущей позиции, поиск лучшего варианта следующего шага и оценка предыдущего сделанного шага.
На каждом шаге MuZero проводит поиск по дереву методом Монте-Карло: на каждом шаге у алгоритма есть информация о его текущем состоянии и предыдущем состоянии, а также об исходе только что предпринятого действия. На основании этого глубокая нейросеть учится оценивать возможные исходы следующего шага, пользуясь уже полученной и сохраненной информацией, и предпринимать его, исходя из возможного исхода действия (например, полученной награды или ответного шага противника).
Количество действий, которые может делать алгоритм во время игры, изначально ограничено. Например, MuZero обучили играть в классические для алгоритмов DeepMind настольные игры — шахматы, cёги и го — изначально дав ей всего пять возможных шагов. Производительность алгоритма оказалась сравнима с AlphaZero, а в го MuZero даже удалось научиться играть лучше предшественника. Также MuZero опробовали в 57 играх на платформе для машинного обучения Atari (например, Ms. Pac-Man) — и ему удалось научиться качественно играть и в них, даже имея шесть-семь возможных шагов.