ダブルDQN
Q値の評価を行うネットワークと行動を決定するネットワークを別にすることで,推定値が過大評価される傾向を回避する手法.