ダブルDQN - らぎメモ

ダブルDQN

Q値の評価を行うネットワークと行動を決定するネットワークを別にすることで，推定値が過大評価される傾向を回避する手法．