RLHF
Reinforcement learning from human feedback
の略
人間のフィードバックによる強化学習(英: reinforcement learning from human feedback、RLHF)は、AIモデルの出力において「人間の価値基準(人間の好み)」が反映されるための学習プロセスで、主にChatGPTなど高性能な会話型AIの学習プロセスに採用されている。
https://ja.m.wikipedia.org/wiki/人間のフィードバックによる強化学習#:~:text=人間のフィードバックによる強化学習%EF%BC%88英%3A%20reinforcement%20learning%20from,に採用されている%E3%80%82