ターゲットネットワーク
DQNで用いられている,過去のニューラルネットワークに教師のような役割をさせることで価値推定を安定させる手法.
TD誤差を教師データのように用いる.