Q-Learning - kyoyo-ds2019-007

Q-Learning

最適な行動の価値を「Q値(状態行動価値)」として、試行錯誤および結果から、このQ値が最大になるような行動を選択していく学習手法