GLIGEN
https://gligen.github.io/images/same_box.gif
https://gligen.github.io/
Demo : https://dev.hliu.cc/gligen_mirror1/
https://github.com/gligen/GLIGEN
https://www.marktechpost.com/2023/01/23/meet-gligen-an-ai-approach-that-extends-the-functionality-of-existing-pre-trained-text-to-image-diffusion-models-by-enabling-conditioning-on-grounding-inputs/GLIGENの紹介
GLIGENとは、既存のテキストから画像を生成する拡散モデルに、追加的な入力モダリティ(例えば、画像や音声)を条件付けすることで、生成結果をより制御できるようにするAI手法です。
GLIGENは、画像や音声などの入力モダリティを「grounding input」と呼びます。grounding inputは、テキスト入力と関連性が高く、生成される画像に影響を与えるものです。
GLIGEN : Open-Set Grounded Text-to-Image Generation
Grounded(接地)というのは、枠を指定したらそこに描いてくれるという意味かな?
Text Grounded T2I Generation (Bounding box)
https://gyazo.com/90b81428520ba726d7a7e6fc6c2cd67f
nvidiaのeDiff-Iっぽい
Image Grounded T2I Generation (Bounding box)
https://gyazo.com/86dec95fa63843bbceb10dbbca5d13bc
Paint by Exampleと同じかな?
Grounded T2I Generation (Keypoints)
https://gyazo.com/e02b77f9632c2773f24875c28607c4d3
やりたかったやつううううう❗❗❗nomadoor.icon
Grounded Inpainting
https://gyazo.com/54146308affd41fe6748354ec2a22962
モデルとかどうなっとるのか
学習済みdiffusion modelに基づいて、別のモデルを訓練してるっぽいmiyamonz.icon
元のモデルは固定しつつ、
各々のtransformer blockにGated Self-Attention layerなるものを追加する
という感じなので、現状、使いたいモデルごとに専用のGLIGENのモデルを学習する必要がある?miyamonz.icon
#Microsoft