Imagen
https://www.youtube.com/watch?v=N6lJvkoku9s
画像とそれのテキストを埋め込んだモデル
Imagen
テキストのみの大規模言語モデル
https://gyazo.com/6e81da2490cd8af33a75f2a0b6328ffa
ImagenはText Conditioningにテキストのみの言語モデルを使っている
生成画像の方向性をコントロールする方法
Imagenはこちら
弱点
Guidanceを強くかけるとアライメントは向上するが、生成結果の品質が劣化する 原因も解決策も示されているがよくわからないnomadoor.icon
https://gyazo.com/e06ee0bea662dbaf539ad881e1632fbe
生成する画像の文脈?を決めるのが一番大変だから、最初は64×64の小さいものを作り、それを大きくする
64×64 → 256×256 → 1024 × 1024の部分
学習済言語モデル
BERT / T5 / CLIP のなかでT5が一番良かった https://gyazo.com/33cd2cd911f0e2fc6a5cb9cba354c210
DALL-E 2で難しい例もうまく描ける
e.g. 色とオブジェクトがちゃんとリンクしている / 文字がちゃんと生成される
GANがやる、元の画像を変化させるやつ?
e.g. 男の顔を女に / 表情を笑顔に
解像度を増やしていくときに追加で指示を与えればそのとおりになる
https://gyazo.com/ba82b64a9eaf5f5038cd90b9fa4a48c2
Limitation
プロンプトに"人"が入ると評価が低下する
アライメント税?
Social Impact