RLHF
Reinforcement Learning from Human Feedback
機械学習
によって
生成
された
出力
が適切かどうかを
人間
が判断し,それを
強化学習
に用いること.