DQN
関連サイト一覧
今さら聞けない強化学習(1):状態価値関数とBellman方程式 - triwave33@Qiita
Sutton本「強化学習」 / Grid world / 状態価値 / Policy(方策) / 状態価値関数 $ V\pi (s)/ 行動価値関数 $ Q^\pi(s, a)
Deep-Q-Networkを用いた迷路の学習 - 国立情報学研究所
つくりながら学ぶ!深層強化学習 - ⼩川雄太郎@電通国際情報サービス
DQN(Deep Q Network)を理解したので、Gopherくんの図を使って説明 - ishizakiiii@qiita
遷移状態確率(transition probability function) / Policy(方策) / Q-Learning, Q-table / $ \epsilon-greedy
MDP(マルコフ決定過程) / 行動価値関数 / 最適行動価値関数 / Experice Replay / Fixed Target Q-Network / Reward clipping /
REINFORCEMENT LEARNING (DQN) TUTORIAL - A. Paszke
Gymnasium / Replay Memory / DQN Algorithm / Q-network / Policy net / Target-net / Soft target-net update / random batch,
【強化学習】DQNを解説・実装 - pocokhc@Qiita
Fixed Target Q-Network / Error clipping / Experience Replay / Annealing e-greedy / window length / Reward clipping / Frame skip / Image preprocessor