DQN
関連サイト一覧
Sutton本「強化学習」 / Grid world / 状態価値 / Policy(方策) / 状態価値関数 $ V\pi (s)/ 行動価値関数 $ Q^\pi(s, a)
つくりながら学ぶ!深層強化学習 - ⼩川雄太郎@電通国際情報サービス
遷移状態確率(transition probability function) / Policy(方策) / Q-Learning, Q-table / $ \epsilon-greedy
MDP(マルコフ決定過程) / 行動価値関数 / 最適行動価値関数 / Experice Replay / Fixed Target Q-Network / Reward clipping /
Gymnasium / Replay Memory / DQN Algorithm / Q-network / Policy net / Target-net / Soft target-net update / random batch,
Fixed Target Q-Network / Error clipping / Experience Replay / Annealing e-greedy / window length / Reward clipping / Frame skip / Image preprocessor