ターゲットネットワーク
DQN
で用いられている,過去の
ニューラルネットワーク
に
教師
のような役割をさせることで
価値推定
を安定させる手法.
TD誤差
を
教師データ
のように用いる.