ダブルDQN
Q値
の評価を行う
ネットワーク
と
行動
を決定する
ネットワーク
を別にすることで,推定値が過大評価される傾向を回避する手法.