RLHF
Reinforcement Learning with Human Feedback
人間によるフィードバック
ありの
強化学習
ChatGPT
はこれを使っている?
のもとになったと言われている
InstructGPT
では使われている
nomadoor.icon
/work4ai/雑に読む 「ChatGPT 人間のフィードバックから強化学習した対話AI」