Q-learning - 183Lab

Q-learning

モデルフリー強化学習(Model-Free RL)の一つ

マルコフ決定過程(MDP)が未知でも使える

その代わり、データを自分で試行錯誤して集める必要がある

自分が次に取る行動ではなく、次の状態で最も報酬がもらえそうな行動を元に学習するため、off-policy

Cliff walkingで崖から落ちまくることで有名

$ \delta_t = r_{t+1} + \gamma \max_{a'\in A}Q(s_{t+1},a') - Q(s_t,a_t)