デュエリングネットワーク
DQN
の
学習
を効率的に進めるために
ネットワーク
の途中で
状態
のみから計算できる部分と
行動
のみから計算できる部分に分岐させる仕組み.