RLVR
RLVR(Reinforcement Learning with Verifiable Rewards)
https://allai.jp/tulu-3/Tulu-3モデルの技術解説記事より強化学習の箇所を引用
RLVR(Reinforcement Learning with Verifiable Rewards)
最後の事後学習として、RLVR(Reinforcement Learning with Verifiable Rewards)を行います。この手法はこれまでにはない新しい強化学習の手法です。従来の強化学習手法(Reinforcement Learning from Human Feedback/RLHF)では、複雑な報酬モデルと呼ばれるAIモデルを用いていたのに対して、RLVRではより直接的なアプローチでLLMのお能力を向上させています。この強化学習は明確な解答が存在するタスクに適用されます。具体的には、モデルが生成した応答に対して、正しい回答をした場合は正の報酬を与えることで、モデルを最適化していきます。
この強化学習により、数学的な推論能力を測るベンチマーク(GSM8KやMATH)において、モデルの正答率が向上しました。また、IFEval(制約をどれだけ厳密に守れるかというベンチマーク)においても、モデルの性能が向上しました。
DeepSeek-R1で採用されたことで一躍有名になった強化学習の手法。
所謂報酬Hackを防ぐために「数学問題などの明確に答えのある問題」を解かせることでモデルが自主的にReasoning Modelになっていくと言うもの
Tulu-3