Curiosity-driven Exploration by Self-supervised Prediction
強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い学習性能を記録することができた。Doomとマリオブラザーズのデモ有
https://github.com/arXivTimes/arXivTimes/issues/308
#内発的動機づけ #curiosity
https://gyazo.com/6b6bc70b7e387126fde23cd0a424139f
実装
https://github.com/pathak22/noreward-rl
Curiosity-driven Exploration by Self-supervised Prediction
Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, Trevor Darrell
University of California, Berkeley
https://pathak22.github.io/noreward-rl/