Kimi-k1.5
https://gyazo.com/4d2587559ced75dcf12ef45563b8f699
https://gyazo.com/5239d190f71fbd3c6280f68cb43fef09
スケーリング補強学習(RL)は、人工知能の継続的な改善のための新しい軸のロックを解除し、大規模な言語モデル(LLM)が報酬で探索することを学ぶことでトレーニングデータをスケーリングできるという約束を提供します。
ただし、以前に公開された作業は競争結果を生み出していません。これに照らして、RLトレーニング技術、マルチモーダルデータレシピ、インフラストラクチャの最適化など、RLでトレーニングされた最新のマルチモーダルLLMのトレーニングプラクティスについて報告します。
長いコンテキストのスケーリングと改善されたポリシー最適化方法は、モンテカルロツリー検索、値関数、プロセス報酬モデルなどのより複雑な手法に依存することなく、単純で効果的なRLフレームワークを確立するアプローチの重要な要素です。
特に、当社のシステムは、複数のベンチマークとモダリティで最新の推論パフォーマンスを達成します。
さらに、ショートCoTモデルを改善するためにロングCoT技術を使用する効果的なLong2Shortメソッドを提示し、最先端のショートCoT推論結果をもたらします。 -GPT-4OやClaude Sonnet 3.5などの既存のショートコットモデルを大きなマージン(最大 +550%)で実行します。