DQN - takalab

DQN

Sutton本「強化学習」 / Grid world / 状態価値 / Policy(方策) / 状態価値関数 $ V\pi (s)/ 行動価値関数 $ Q^\pi(s, a)

つくりながら学ぶ！深層強化学習 - ⼩川雄太郎@電通国際情報サービス

遷移状態確率(transition probability function) / Policy(方策) / Q-Learning, Q-table / $ \epsilon-greedy

MDP(マルコフ決定過程) / 行動価値関数 / 最適行動価値関数 / Experice Replay / Fixed Target Q-Network / Reward clipping /

Gymnasium / Replay Memory / DQN Algorithm / Q-network / Policy net / Target-net / Soft target-net update / random batch,

Fixed Target Q-Network / Error clipping / Experience Replay / Annealing e-greedy / window length / Reward clipping / Frame skip / Image preprocessor