Curiosity-driven Exploration by Self-supervised Prediction
強化学習において、特に高次元になると報酬が得られる機会はとても少なくなる。そこで「好奇心」、つまり新規性のある環境への到達について報酬を設定することで学習速度を上げる試み。これによりベースライン(A3C)よりも高い学習性能を記録することができた。Doomとマリオブラザーズのデモ有 https://gyazo.com/6b6bc70b7e387126fde23cd0a424139f
実装