IV-VAE
変分オートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraやその他の潜在ビデオ拡散生成モデルで重要な役割を果たしています。既存のビデオVAEのほとんどは、事前トレーニング済みの画像VAEを3D因果構造に膨張させて時空間圧縮を行っていますが、この論文では2つの驚くべき発見を示しています。(1)同じ潜在次元を持つ十分にトレーニングされた画像VAEからの初期化は、後続の時間圧縮機能の向上を抑制します。(2)因果推論の採用は、フレーム間の不均等な情報相互作用と不均衡なパフォーマンスにつながります。これらの問題を軽減するために、ビデオVAE(IV-VAE)をさらに改善するためのキーフレームベースの時間圧縮(KTC)アーキテクチャとグループ因果畳み込み(GCConv)モジュールを提案します。具体的には、KTC アーキテクチャは潜在空間を 2 つのブランチに分割します。半分は、低次元画像 VAE からキーフレームの圧縮事前条件を完全に継承し、もう半分は 3D グループ因果畳み込みによる時間圧縮を行い、時間的空間的競合を減らしてビデオ VAE の収束速度を加速します。上記の 3D 半分の GCConv は、各フレーム グループ内で標準畳み込みを使用してフレーム間の等価性を確保し、グループ間で因果論理パディングを使用して可変フレーム ビデオの処理における柔軟性を維持します。5 つのベンチマークでの広範な実験により、提案された IV-VAE (この https URL ) の SOTA ビデオ再構築および生成機能が実証されています。