テキストから画像生成 :DALL·E: Creating Images from Text
https://cdn.openai.com/research-covers/dall-e/2x-no-mark.jpg
Information
Important features 1
「子供の大根がtutuを着て犬を散歩するイラスト」「アボカドの形をした椅子」「openai店の看板に書いてあるお店」
など実際にはありえない概念を理解して、複雑な物体を生成することができている。
https://gyazo.com/36d11d926766955aa692556a948e5a1b
Important features 2
テキストから画像を生成するためには$ x画像 $ yテキストとしたときに、
最終的なタスクは、画像とテキストの同時分布$ p(x,y)を得ることなのだが、これを2つに分解して
VAEを使って画像をトークン$ zに埋め込む
$ (x,z) の同時分布を得るために、transformer $ p_\psiをつかって自己回帰モデルを学習する
$ \begin{aligned} \ln p_{\theta, \psi}(x, y) \geqslant \underset{z \sim q_{\phi}(z \mid x)}{\mathbb{E}} &\left(\ln p_{\theta}(x \mid y, z)-\right.\\ &\left.\beta D_{\mathrm{KL}}\left(q_{\phi}(y, z \mid x), p_{\psi}(y, z)\right)\right) \end{aligned}
https://gyazo.com/fb0c6d763e0d924d80f07b6f8ae7aae2
一度,$ q_\phi (z|x)でエンコードしたトークンから画像を生成することを考える。
Important features 2 dVAE
トークンの埋め込みのために、離散化されたVAEを使う。
離散化されたVAEでも再構成が上手く行っていることがわかる。
また離散化のためにはGumbel-softmaxトリックをつかう。
https://gyazo.com/78df845fa5d588786b225f4ff2173804
Important feature 3 Sparse Transformer
基本的には
を使っている
を使う事によって、計算効率よく画像を生成することができる。
https://gyazo.com/57c2840a552bd7e747f37ce99d286b93
Important features 4 PowerSGD
をつかうことによって、並列計算を素早くすることができる。
Important features 5 Result
https://gyazo.com/ee719c2e19df6e2c6669c551af07a260