Imagen
https://imagen.research.google/
https://mobile.twitter.com/multimodalart/status/1635645597104459780
https://www.youtube.com/watch?v=N6lJvkoku9s
GLIDE / DALL-E 2(unCLIP) / Stable Diffusion
CLIPを使って画像を生成する
画像とそれのテキストを埋め込んだモデル
Imagen
テキストのみの大規模言語モデル
画像生成はDiffusion Model
https://gyazo.com/6e81da2490cd8af33a75f2a0b6328ffa
ImagenはText Conditioningにテキストのみの言語モデルを使っている
生成画像の方向性をコントロールする方法
Classifier guidance
Classifier-free guidance
Imagenはこちら
弱点
Guidanceを強くかけるとアライメントは向上するが、生成結果の品質が劣化する
原因も解決策も示されているがよくわからないnomadoor.icon
モデルアーキテクチャ
Cascaded Diffusion
https://gyazo.com/e06ee0bea662dbaf539ad881e1632fbe
生成する画像の文脈?を決めるのが一番大変だから、最初は64×64の小さいものを作り、それを大きくする
Efficient U-Net
64×64 → 256×256 → 1024 × 1024の部分
学習済言語モデル
BERT / T5 / CLIP のなかでT5が一番良かった
他モデルのとの人間による比較(DrawBench)
https://gyazo.com/33cd2cd911f0e2fc6a5cb9cba354c210
DALL-E 2で難しい例もうまく描ける
e.g. 色とオブジェクトがちゃんとリンクしている / 文字がちゃんと生成される
面白い応用例 ドメイン変換のようなものができる
GANがやる、元の画像を変化させるやつ?
e.g. 男の顔を女に / 表情を笑顔に
Imagen#63c918ade2dacc0000a60e3aの通り、低解像度の元をだんだん高解像度にしていく
解像度を増やしていくときに追加で指示を与えればそのとおりになる
https://gyazo.com/ba82b64a9eaf5f5038cd90b9fa4a48c2
Limitation
プロンプトに"人"が入ると評価が低下する
アライメント税?
Social Impact
倫理的な問題からモデル・デモは公開しない
→ DeepFloyd IF「…」