RLHF
Reinforcement Learning with Human Feedback
人間のフィードバックを用いた強化学習