RLHF
Reinforcement Learning from Human Feedback
機械学習によって生成された出力が適切かどうかを人間が判断し,それを強化学習に用いること.