ターゲットネットワーク - らぎメモ

ターゲットネットワーク

DQNで用いられている，過去のニューラルネットワークに教師のような役割をさせることで価値推定を安定させる手法．

TD誤差を教師データのように用いる．