Kimi-k1.5

https://gyazo.com/4d2587559ced75dcf12ef45563b8f699

https://gyazo.com/5239d190f71fbd3c6280f68cb43fef09

OpenAI o1レベルのMLLM

スケーリング補強学習（RL）は、人工知能の継続的な改善のための新しい軸のロックを解除し、大規模な言語モデル（LLM）が報酬で探索することを学ぶことでトレーニングデータをスケーリングできるという約束を提供します。

ただし、以前に公開された作業は競争結果を生み出していません。これに照らして、RLトレーニング技術、マルチモーダルデータレシピ、インフラストラクチャの最適化など、RLでトレーニングされた最新のマルチモーダルLLMのトレーニングプラクティスについて報告します。

長いコンテキストのスケーリングと改善されたポリシー最適化方法は、モンテカルロツリー検索、値関数、プロセス報酬モデルなどのより複雑な手法に依存することなく、単純で効果的なRLフレームワークを確立するアプローチの重要な要素です。

特に、当社のシステムは、複数のベンチマークとモダリティで最新の推論パフォーマンスを達成します。

たとえば、AIMEで77.5、Math 500で96.2、Codeforces で94.2パーセンタイル、Mathvistaで74.9 --- OpenaiのO1と一致します。

さらに、ショートCoTモデルを改善するためにロングCoT技術を使用する効果的なLong2Shortメソッドを提示し、最先端のショートCoT推論結果をもたらします。

-GPT-4OやClaude Sonnet 3.5などの既存のショートコットモデルを大きなマージン（最大 +550％）で実行します。