DQN
Deep Q-Network: 深層Q学習
2013年にDeepMindから発表された深層強化学習の基本的な手法.
Q学習で用いられる価値関数や方策をディープラーニングで出力する
経験再生やターゲットネットワークが導入されている
ノイジーネットワーク
ε-greedy方策を導入している
行動の選択とQ値の評価を同じネットワークで行う場合に,推定値が過大評価される傾向がある.
ダブルDQNでこれを対応している.