MuZero - MuZero

MuZero это компьютерная программа разработан искусственный интеллект исследовательская компания DeepMind осваивать игры, ничего не зная об их правилах.[1][2][3] Его первый выпуск в 2019 году включал тесты производительности в идти, шахматы, сёги, и стандартный набор Atari игры. В алгоритм использует подход, аналогичный AlphaZero Он соответствовал производительности AlphaZero в шахматах и ​​сёги, улучшил его производительность в Идти (установив новый мировой рекорд), и улучшил состояние дел в освоении набора из 57 игр Atari (Arcade Learning Environment), визуально сложной области.

MuZero был обучен путем самостоятельной игры и игры против AlphaZero, без доступа к правилам, открывающим книгам или финальным столам. Обученный алгоритм использовал те же сверточные и остаточные алгоритмы, что и AlphaZero, но с 20% меньшим количеством шагов вычислений на узел в дереве поиска.[4]

История

19 ноября 2019 года команда DeepMind выпустила препринт Представляем MuZero.

Производные от AlphaZero

MuZero (MZ) представляет собой комбинацию высокопроизводительного планирования AlphaZero (AZ) алгоритм с подходами к безмодельному обучению с подкреплением. Комбинация позволяет более эффективно обучаться в классических режимах планирования, таких как Go, а также обрабатывать области с гораздо более сложными входами на каждом этапе, например, визуальные видеоигры.

MuZero был получен непосредственно из кода AZ и разделяет свои правила настройки поиска. гиперпараметры. Различия между подходами включают:[5]

  • Процесс планирования AZ использует симулятор (который знает правила игры и должен быть явно запрограммирован человеком) и нейронную сеть (которая предсказывает политику и ценность будущей должности). Совершенное знание правил игры используется при моделировании переходов состояний в дереве поиска, действий, доступных в каждом узле, и завершения ветки дерева. MZ не имеет доступа к идеальному набору правил и заменяет его изученными нейронными сетями, которые используются для вышеупомянутого моделирования.
  • АЗ имеет единую модель игры (от состояния доски до прогнозов); MZ имеет отдельные модели для представление текущего состояния (из состояния платы во внутреннее вложение), динамика состояний (как действия изменяют представление состояний доски), и прогноз политики и ценности будущей позиции (с учетом представительства государства).
  • Скрытая модель MZ может быть сложной, и может оказаться, что она может кэшировать в ней вычисления; изучение деталей скрытой модели в успешно обученном экземпляре MZ - это путь для будущих исследований.
  • MZ не ожидает игры двух игроков, в которой победители получают все. Он работает со стандартными сценариями обучения с подкреплением, включая среды с одним агентом с непрерывным промежуточным вознаграждением, возможно, произвольной величины и со скидкой с течением времени. AZ был разработан исключительно для игр двух игроков, которые можно было выиграть, сыграть вничью или проиграть.

Сравнение с R2D2

Предыдущим передовым методом обучения игре в набор игр Atari был R2D2, Recurrent Replay Distributed DQN.[6]

MuZero превзошел как среднюю, так и медианную производительность R2D2 по набору игр, хотя и не во всех играх.

Обучение и результаты

MuZero использовал 16 третьего поколения блоки тензорной обработки [TPU] для обучения и на 1000 TPU для самостоятельной игры (для настольных игр, с 800 симуляциями на шаг) и 8 TPU для обучения и 32 TPU для самостоятельной игры (для игр Atari, с 50 симуляциями на шаг).

AlphaZero использовала 64 TPU первого поколения для обучения и 5000 TPU второго поколения для самостоятельной игры. Поскольку конструкция TPU улучшилась (чипы третьего поколения по отдельности в два раза мощнее чипов второго поколения, с дальнейшим улучшением пропускной способности и сетевого взаимодействия между чипами в модуле), это довольно сопоставимые настройки обучения.

R2D2 обучался в течение 5 дней за 2 миллиона шагов обучения.

Предварительные результаты

MuZero сравнялся с AlphaZero в шахматах и ​​сёги примерно после 1 миллиона тренировочных шагов. Он соответствовал показателям AZ в го после 500 тысяч тренировочных шагов и превзошел его на 1 миллион шагов. Он соответствовал средней и средней производительности R2D2 в игровом наборе Atari после 500 тысяч шагов обучения и превзошел его на 1 миллион шагов; хотя он никогда не работал хорошо с 6 играми из набора.[5]

Реакции и связанные с ними работы

MuZero рассматривался как значительный прогресс по сравнению с AlphaZero,[7] и обобщающий шаг вперед в методах обучения без учителя.[8][9] Работа рассматривалась как продвижение понимания того, как составлять системы из более мелких компонентов, разработка на системном уровне больше, чем разработка чисто машинного обучения.[10]

Хотя команда разработчиков выпустила только псевдокод, Вернер Дюво создал на его основе реализацию с открытым исходным кодом.[11]

MuZero использовался в качестве эталонной реализации в других работах, например, как способ создания поведения на основе модели.[12]

Смотрите также

Рекомендации

  1. ^ Виггерс, Кайл. «MuZero от DeepMind учит себя побеждать в Atari, шахматах, сёги и го». VentureBeat. Получено 22 июля 2020.
  2. ^ Фридель, Фредерик. «MuZero разбирается в шахматах, правилах и всем остальном». ChessBase GmbH. Получено 22 июля 2020.
  3. ^ Родригес, Иисус. «DeepMind представляет MuZero, нового агента, который освоил шахматы, сёги, Atari и ход, не зная правил». KDnuggets. Получено 22 июля 2020.
  4. ^ Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Хуберт, Томас; Симонян, Карен; Сифре, Лоран; Шмитт, Саймон; Гез, Артур; Локхарт, Эдвард; Хассабис, Демис; Грэпель, Тор; Лилликрап, Тимоти (19.11.2019). «Освоение Атари, Го, шахмат и сёги путем планирования с учёной моделью». arXiv:1911.08265 [cs.LG ].
  5. ^ а б Сильвер, Дэвид; Хуберт, Томас; Шриттвизер, Джулиан; Антоноглоу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан; Грэпель, Тор; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с использованием общего алгоритма обучения с подкреплением». arXiv:1712.01815 [cs.AI ].
  6. ^ Каптуровски, Стивен; Островский, Георг; Куан, Джон; Муньос, Реми; Дабни, Уилл. ПОВТОРНЫЙ ОПЫТ В РАСПРЕДЕЛЕННОМ ОБУЧЕНИИ УСИЛЕНИЯ. ICLR 2019 - через Открытый обзор.
  7. ^ Сократите, Коннор (2020-01-18). «Эволюция AlphaGo в MuZero». Середина. Получено 2020-06-07.
  8. ^ «[AN # 75]: решение Atari and Go с использованием изученных игровых моделей и мысли сотрудника MIRI - LessWrong 2.0». www.lesswrong.com. Получено 2020-06-07.
  9. ^ Ву, июн. «Обучение с подкреплением, партнер глубокого обучения». Forbes. Получено 2020-07-15.
  10. ^ «Машинное обучение и робототехника: мое (необъективное) состояние в 2019 году». cachestocaches.com. Получено 2020-07-15.
  11. ^ Дуво, Вернер (2020-07-15), Вернер-Дюво / Генерал-музеро, получено 2020-07-15
  12. ^ ван Сейен, Харм; Некоэй, Хади; Рака, Эван; Чандар, Сарат (06.07.2020). «Сожаление LoCA: постоянный показатель для оценки модельно-ориентированного поведения в обучении с подкреплением». arXiv:2007.03158 [cs.stat ].

внешняя ссылка