強化学習
半教師あり学習
と呼ばれることもある
試行錯誤
による成功・失敗から学習する
アルゴリズム
のタスク実行結果に基づいて報酬または罰が渡されるようになっており、アルゴリズムは報酬を可能な限り多く、罰を可能な限り少なくできる結果の集合を求める
参考文献
AI 白書 2022