人間のフィードバックによる強化学習(RLHF)
「人間のフィードバックによる強化学習(Reinforment Learning from Human Feedback, RLHF)」