RLHF (Reinforcement Learning from Human Feedback)
最近話題になった 強化学習 技術のまとめ|npaka|note https://note.com/npaka/n/n67db55e28021
#LLM