Новый алгоритм DeepMind самостоятельно освоил игры Atari
Разработчики DeepMind представили MuZero — алгоритм, который может справиться с любой игрой, не зная правил на начальном этапе. Вместо построения модели игровой среды MuZero использует информацию о текущем и предыдущем шаге, а также о возможном исходе одного из следующих шагов, в результате чего обучается играть самостоятельно. Алгоритм научили играть не только в классические для алгоритмов DeepMind го, сёги и шахматы, на также 57 игр для приставки Atari, включая Ms. Pac-Man. Статья опубликована в журнале Nature.
Одна из ключевых задач машинного обучения — это создание алгоритмов, которые могут эффективно взаимодействовать с какой-либо средой: это может быть какое-то открытое пространство (например, дорога для беспилотного автомобиля) или массив больших данных (например, текстовый корпус для алгоритмов обработки естественного языка). Для ее решения сначала необходимо научиться решать много маленьких задач, одна из которых — планирование дальнейших действий в среде.