Kimi-k1.5
https://github.com/MoonshotAI/Kimi-k1.5MoonshotAI/Kimi-k1.5
https://arxiv.org/abs/2501.12599Kimi k1.5: Scaling Reinforcement Learning with LLMs
https://gyazo.com/4d2587559ced75dcf12ef45563b8f699
https://gyazo.com/5239d190f71fbd3c6280f68cb43fef09
OpenAI o1レベルのMLLM
スケーリング補強学習(RL)は、人工知能の継続的な改善のための新しい軸のロックを解除し、大規模な言語モデル(LLM)が報酬で探索することを学ぶことでトレーニングデータをスケーリングできるという約束を提供します。
ただし、以前に公開された作業は競争結果を生み出していません。これに照らして、RLトレーニング技術、マルチモーダルデータレシピ、インフラストラクチャの最適化など、RLでトレーニングされた最新のマルチモーダルLLMのトレーニングプラクティスについて報告します。
長いコンテキストのスケーリングと改善されたポリシー最適化方法は、モンテカルロツリー検索、値関数、プロセス報酬モデルなどのより複雑な手法に依存することなく、単純で効果的なRLフレームワークを確立するアプローチの重要な要素です。
特に、当社のシステムは、複数のベンチマークとモダリティで最新の推論パフォーマンスを達成します。
たとえば、AIMEで77.5、Math 500で96.2、Codeforces で94.2パーセンタイル、Mathvistaで74.9 --- OpenaiのO1と一致します。
さらに、ショートCoTモデルを改善するためにロングCoT技術を使用する効果的なLong2Shortメソッドを提示し、最先端のショートCoT推論結果をもたらします。
-GPT-4OやClaude Sonnet 3.5などの既存のショートコットモデルを大きなマージン(最大 +550%)で実行します。