BLIP3-o
https://github.com/JiuhaiChen/BLIP3oJiuhaiChen/BLIP3o
https://arxiv.org/abs/2505.09568BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
https://huggingface.co/BLIP3o/BLIP3o-ModelBLIP3o/BLIP3o-Model
画像理解と画像生成の統合モデル
①画像表現(VAE特徴 vs. CLIP特徴)、②損失関数(MSE vs. Flow Matching)、③トレーニング戦略(同時学習 vs. 逐次学習)の3軸にわたる設計選択を系統的に調査しています
https://gyazo.com/4075b37c5be38acae108450b48b9653b
CLIP特徴+Flow Matchingを用いた拡散トランスフォーマが、従来のVAE潜在空間よりも学習効率と生成品質に優れる
画像理解タスクを学習させてから、画像生成を学習させたほうが、同時に学習させるよにも両方の性能のバランスが良かった
https://www.reddit.com/r/StableDiffusion/comments/1kqqt91/chat_with_the_blip3o_author_your_questions_welcome/Chat with the BLIP3-o Author, Your Questions Welcome!
CLIP特徴空間での拡散生成ってなあに?nomadoor.icon
ChatGPT.icon
CLIP 特徴空間での拡散生成とは「CLIP モデルが出力する高次元埋め込み(特徴ベクトル)自体」を拡散モデルの対象データとする手法を指します。DALL·E 2 の「Diffusion Prior」がまさにこのアーキテクチャで、テキストから CLIP テキスト埋め込みを得た後、それを条件として CLIP 画像埋め込みを生成し、さらに別の拡散デコーダで最終的に画像化します。