OneDiffusion
多様なタスクにわたって双方向の画像合成と理解をシームレスにサポートする、多用途で大規模な拡散モデルである OneDiffusion を紹介します。テキスト、深度、ポーズ、レイアウト、セマンティック マップなどの入力からの条件付き生成を可能にすると同時に、画像のぼかし除去、アップスケーリング、深度推定やセグメンテーションなどの逆処理などのタスクも処理します。さらに、OneDiffusion では、連続画像入力を使用して、マルチビュー生成、カメラ ポーズ推定、インスタント パーソナライゼーションが可能です。このモデルは、トレーニング中にすべてのタスクをさまざまなノイズ スケールのフレーム シーケンスとして扱うことで、単純でありながら効果的なアプローチを採用しており、推論時に任意のフレームをコンディショニング画像として機能させることができます。統合されたトレーニング フレームワークにより、特殊なアーキテクチャが不要になり、スケーラブルなマルチタスク トレーニングがサポートされ、あらゆる解像度にスムーズに適応して、一般化とスケーラビリティの両方が向上します。実験結果では、比較的小規模なトレーニング データセットにもかかわらず、テキストから画像への変換、マルチビュー生成、ID 保存、深度推定、カメラ ポーズ推定などの生成と予測の両方のタスクで競争力のあるパフォーマンスが実証されています。