Q-Learning
最適な行動の価値を「Q値(状態行動価値)」として、試行錯誤および結果から、このQ値が最大になるような行動を選択していく学習手法
#強化学習
#テーマ5