GPT-5開発に向けたo-1の位置づけ
推論時のトークン生成による熟考にリソースを割いて高品質な応答を生成するo-1(strawberry)は,次世代の基盤モデル(GPT-5)を訓練するための合成データ生成用のモデルと位置づけられている.(Cf. 1) 複数のベンチマークの結果から,o-1は人間の博士学生相当の応答精度を持つと考えられており(Cf. 2),これまで入手困難であった高品質かつ大規模なデータセットの作成が可能になる.
合成データ(Synthetic Data)に基づく学習(つまり,既存モデルで時間をかけて高品質なデータを生成し,それをもとに高品質な基盤モデルを作成するループ)が実現すれば,人間による誤りやバイアスに依らない言語モデルの誕生が期待できる(Cf. 3). 関連
参考
2024/9/13 14:41