Q-learning
モデルフリー強化学習(Model-Free RL)
の一つ
マルコフ決定過程(MDP)
が未知でも使える
その代わり、データを自分で試行錯誤して集める必要がある
自分が次に取る行動ではなく、次の状態で最も報酬がもらえそうな行動を元に学習するため、
off-policy
Cliff walking
で崖から落ちまくることで有名
$ \delta_t = r_{t+1} + \gamma \max_{a'\in A}Q(s_{t+1},a') - Q(s_t,a_t)