強化学習
人工知能 (AI) が、環境の中で行動し、その結果として得る報酬 (Reward) を最大化するように学ぶ学習方法 短期的な得をする行動だけでなく、将来の成果も見越した連続した意思決定を扱える点が重要
アルゴリズムのタスク実行結果に基づいて報酬または罰が渡されるようになっており、アルゴリズムは報酬を可能な限り多く、罰を可能な限り少なくできる結果の集合を求める 生成 AI の文脈では、人の好みや安全性に沿った出力に近づけるために RLHF (人間のフィードバックによる強化学習) が広く使われている 参考文献