GLIDE(2021)
Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. 拡散モデルは最近、特に多様性と忠実度をトレードオフするガイダンス手法と組み合わせた場合に、高品質の合成画像を生成することが示されている。
We explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: テキスト条件付き画像合成の問題に対する拡散モデルを探求し、2つの異なるガイダンス戦略を比較する。CLIPガイダンスと分類器なしガイダンスである。
We find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples.
後者は写実性とキャプションの類似性の両方において人間の評価者に好まれ、写実的なサンプルを生成することが多いことがわかった
Samples from a 3.5 billion parameter text-conditional diffusion model using classifier-free guidance are favored by human evaluators to those from DALL-E, even when the latter uses expensive CLIP reranking. 分類器不要のガイダンスを用いた35億パラメータのテキスト条件付き拡散モデルからのサンプルは、人間の評価者によってDALL-Eからのサンプルより好まれる(DALL-Eが高価なCLIP rerankingを用いた場合でも)
Additionally, we find that our models can be fine-tuned to perform image inpainting, enabling powerful text-driven image editing.
さらに、このモデルを微調整することで、画像合成を行うことができ、テキスト駆動型の画像編集が可能になる
We train a smaller model on a filtered dataset and release the code and weights at this https URL.
フィルタリングされたデータセットでより小さなモデルを訓練し、このhttpsのURLでコードと重みを公開しています。
2021
21年、OpenAIが提案したGLIDEと呼ばれるモデルでは、文章から画像の生成を行う際に、拡散確率モデルを採用している。GLIDEは文章から非常に多様な画像を生成することができ、まさに近年の深層生成モデルの研究の集大成となる成果と言えるだろう。 これ以前のdiffusion modelは条件なしで、もしくはクラスによって条件付けて画像を生成したものが主流
画像とテキストの類似度をとらえる CLIP をテキストエンコーダーとして使う
分類器不使用型の拡散モデルを使う
拡散モデルと、「テキストからの画像生成 (text2image)」を組み合わせたものは、ネット上のコミュニティによって草の根的に開発されたものが 2021 年の夏頃から既に存在していまいました
論文として正式に発表されたものとしては GLIDE が最も代表的なものです。
OpenAI および Google の各社から、高品質な「テキスト→画像」生成モデルが次々と発表されました。
OpenAI の DALL·E 2 は、基本的に GLIDE と同じ仕組みでテキストから高品質な画像を生成します Google の Imagen も、拡散モデルをベースとしながら、強力なテキストエンコーダーが画像生成の質に重要な役割を果たしていることを示しました。 https://www.youtube.com/watch?v=344w5h24-h8