Imagen - work4ai

Imagen

https://www.youtube.com/watch?v=N6lJvkoku9s

GLIDE / DALL-E 2(unCLIP) / Stable Diffusion

CLIPを使って画像を生成する

画像とそれのテキストを埋め込んだモデル

Imagen

テキストのみの大規模言語モデル

https://gyazo.com/6e81da2490cd8af33a75f2a0b6328ffa

ImagenはText Conditioningにテキストのみの言語モデルを使っている

生成画像の方向性をコントロールする方法

Imagenはこちら

弱点

Guidanceを強くかけるとアライメントは向上するが、生成結果の品質が劣化する

原因も解決策も示されているがよくわからないnomadoor.icon

https://gyazo.com/e06ee0bea662dbaf539ad881e1632fbe

生成する画像の文脈？を決めるのが一番大変だから、最初は64×64の小さいものを作り、それを大きくする

64×64 → 256×256 → 1024 × 1024の部分

学習済言語モデル

BERT / T5 / CLIP のなかでT5が一番良かった

他モデルのとの人間による比較(DrawBench)

https://gyazo.com/33cd2cd911f0e2fc6a5cb9cba354c210

DALL-E 2で難しい例もうまく描ける

e.g. 色とオブジェクトがちゃんとリンクしている / 文字がちゃんと生成される

面白い応用例ドメイン変換のようなものができる

GANがやる、元の画像を変化させるやつ？

e.g. 男の顔を女に / 表情を笑顔に

Imagen#63c918ade2dacc0000a60e3aの通り、低解像度の元をだんだん高解像度にしていく

解像度を増やしていくときに追加で指示を与えればそのとおりになる

https://gyazo.com/ba82b64a9eaf5f5038cd90b9fa4a48c2

Limitation

プロンプトに"人"が入ると評価が低下する

アライメント税？

Social Impact

倫理的な問題からモデル・デモは公開しない

→ DeepFloyd IF「…」