経験再生
学習
においてあるタイミングで得た
データ
を
リプレイバッファ
に保存し,あるタイミングでそれを
ランダム
に複数抜き出して
ニューラルネットワーク
の
学習
に用いる手法.
学習
に用いる
データ
の時間的偏りを軽減して
学習
の安定化を図っている.