RLHF - omoikane

RLHF

Reinforcement learning from human feedbackの略

人間のフィードバックによる強化学習（英: reinforcement learning from human feedback、RLHF）は、AIモデルの出力において「人間の価値基準（人間の好み）」が反映されるための学習プロセスで、主にChatGPTなど高性能な会話型AIの学習プロセスに採用されている。

https://ja.m.wikipedia.org/wiki/人間のフィードバックによる強化学習#:~:text=人間のフィードバックによる強化学習%EF%BC%88英%3A%20reinforcement%20learning%20from,に採用されている%E3%80%82