経験再生
学習においてあるタイミングで得たデータをリプレイバッファに保存し,あるタイミングでそれをランダムに複数抜き出してニューラルネットワークの学習に用いる手法.
学習に用いるデータの時間的偏りを軽減して学習の安定化を図っている.