JanusFlow
画像の理解と生成を単一のモデルに統合する強力なフレームワーク、JanusFlow を紹介します。JanusFlow は、自己回帰言語モデルと、生成モデリングの最先端の手法である修正フローを統合する最小限のアーキテクチャを導入します。重要な発見は、修正フローを大規模な言語モデル フレームワーク内で簡単にトレーニングでき、複雑なアーキテクチャの変更が不要であることを示しています。統合モデルのパフォーマンスをさらに向上させるために、(i) 理解エンコーダと生成エンコーダを切り離す、(ii) 統合トレーニング中にそれらの表現を調整するという 2 つの重要な戦略を採用しています。広範な実験により、JanusFlow は、それぞれのドメインの専門モデルと同等またはそれ以上のパフォーマンスを達成し、標準的なベンチマーク全体で既存の統合アプローチを大幅に上回るパフォーマンスを発揮することが示されています。この研究は、より効率的で用途の広い視覚言語モデルへの一歩を表しています。