デュエリングネットワーク
DQNの学習を効率的に進めるためにネットワークの途中で状態のみから計算できる部分と行動のみから計算できる部分に分岐させる仕組み.