まず戻ってから探索せよ
Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley & Jeff Clune
Uber社からのNature論文.新しい種類の強化学習アルゴリズムGo-exploreを提案し,Atariで最難とされる「Montezuma逆襲」や「Pitfall」を人間のプロレベルより桁違いのスコアをたたき出す性能が得られた.これらのタスクのように報酬がスパースなタスクは一般に学習が難しく,網羅的な探索が重要となる.このモデルは盤面の要点間をつなぐ効率的なパスを明示的に記憶したうえで探索を行うため,効率よく探索が可能となる.2018年の時点でpreprintは出ていて話題になっていたが,ようやくNatureにてpublish.
手法
探索phase
ロバスト化phase
ゴールから逆算して近い要点への経路をPPOを用いて学習する.PPOもゴールからの逆算も実は過去に研究されている.
結果
横軸に各種アルゴリズムが開発された年,縦軸に「Montezumaの逆襲」スコアを示す.
https://gyazo.com/6930ccfc28c6b8fe819f2a1186d54694
これまでの主要なアルゴリズムでは人間の平均に到達するのも難しく,RNDなど好奇心を加え始めたあたりからようやく人間レベルに到達.一方今回のGo-Ecplore(赤枠)の登場で他のアルゴリズムを圧倒し人間プレイヤーのプロを超えるレベルに到達し,ドメイン知識(オレンジ色の点.例えば鍵のある部屋という場所の要点に対して高い価値を設定する)を加えると人間の世界記録よりも桁違いに高いスコアを達成.
感想
「有望な状態に戻る」という点を加えただけで,探索効率が上がり,桁違いに性能が上がっていて驚いた.しかもこの点には深層学習は使われていない.発想次第でアルゴリズムの性能が桁違いに変わる可能性があるというのは夢があると思った.
また,ゴールから遡ってサブゴール(要点)までの経路を計算するという点,新奇な箇所に訪れようとする点は脳にも備わっているかもしれないとも思うので,生物の戦略とも比較して考えていきたい.