s1
s1 は、わずか 1,000 個の例に基づいて Qwen2.5-32B-Instruct から微調整された推論モデルです。o1-preview と一致し、予算の強制によるテスト時間のスケーリングを示します。
AIに論文を要約させた文
テストタイムスケーリングを簡素化する手法「s1」を提案した論文で、OpenAIの非公開手法を再現しつつオープンソース化を実現しています。主要なアプローチは以下の2点です:
1. 高品質データセットs1Kの構築
数学競技問題を中心に1,000問を精選し、各問題に推論過程を付与。難易度・多様性・品質の3基準で検証したデータセットを用いて、Qwen2.5-32B-Instructモデルをファインチューニングしています1。
2. 予算強制(budget forcing)手法の開発
推論プロセスを動的に制御する新手法で:
早期終了:不要な計算を強制終了
延長処理:「Wait」トークン追加で再考を促す
これにより誤答修正を実現し、計算リソースを効率的に活用します。
評価結果では競技数学ベンチマークで顕著な改善を示し:
OpenAIのo1-previewを最大27%上回る(MATH/AIME24)
AIME24スコアが50%→57%に向上
モデル・データ・コードは全て公開され、再現性を確保しています1。
この手法は、追加計算リソースを使わずに推論精度を向上させる点で、効率的な言語モデル運用への新たな道筋を示しています。特に数学的推論タスクでの有効性が実証されたことが特徴です。
わずか1000件ほどの高難易度データで微調整、且つ半手動(Waitトークン)でReasoning強制続行で無理やりReasoning Model化させる。 手動でよく考える(Reasoning)かを選べるので簡単に解けるなら計算コストを軽く、難しいならその分追加でコストをかけることで性能を引き上げる。
推論性能の従量課金制…morisoba65536.icon