強化学習 - nobuoka-pub

強化学習

人工知能 (AI) が、環境の中で行動し、その結果として得る報酬 (Reward) を最大化するように学ぶ学習方法

試行錯誤による成功・失敗から学習する

短期的な得をする行動だけでなく、将来の成果も見越した連続した意思決定を扱える点が重要

アルゴリズムのタスク実行結果に基づいて報酬または罰が渡されるようになっており、アルゴリズムは報酬を可能な限り多く、罰を可能な限り少なくできる結果の集合を求める

半教師あり学習と呼ばれることもある

生成 AI の文脈では、人の好みや安全性に沿った出力に近づけるために RLHF (人間のフィードバックによる強化学習) が広く使われている

参考文献