BLIP3-o
画像理解と画像生成の統合モデル
①画像表現(VAE特徴 vs. CLIP特徴)、②損失関数(MSE vs. Flow Matching)、③トレーニング戦略(同時学習 vs. 逐次学習)の3軸にわたる設計選択を系統的に調査しています
https://gyazo.com/4075b37c5be38acae108450b48b9653b
CLIP特徴+Flow Matchingを用いた拡散トランスフォーマが、従来のVAE潜在空間よりも学習効率と生成品質に優れる
画像理解タスクを学習させてから、画像生成を学習させたほうが、同時に学習させるよにも両方の性能のバランスが良かった
CLIP特徴空間での拡散生成ってなあに?nomadoor.icon
ChatGPT.icon
CLIP 特徴空間での拡散生成とは「CLIP モデルが出力する高次元埋め込み(特徴ベクトル)自体」を拡散モデルの対象データとする手法を指します。DALL·E 2 の「Diffusion Prior」がまさにこのアーキテクチャで、テキストから CLIP テキスト埋め込みを得た後、それを条件として CLIP 画像埋め込みを生成し、さらに別の拡散デコーダで最終的に画像化します。