RLHF
Reinforcement Learning with Human Feedback
人間によるフィードバックありの強化学習
ChatGPTはこれを使っている?
のもとになったと言われているInstructGPTでは使われているnomadoor.icon
/work4ai/雑に読む 「ChatGPT 人間のフィードバックから強化学習した対話AI」