GLIGEN - work4ai

GLIGEN

https://gligen.github.io/images/same_box.gif

GLIGENとは、既存のテキストから画像を生成する拡散モデルに、追加的な入力モダリティ（例えば、画像や音声）を条件付けすることで、生成結果をより制御できるようにするAI手法です。

GLIGENは、画像や音声などの入力モダリティを「grounding input」と呼びます。grounding inputは、テキスト入力と関連性が高く、生成される画像に影響を与えるものです。

GLIGEN : Open-Set Grounded Text-to-Image Generation

Grounded(接地)というのは、枠を指定したらそこに描いてくれるという意味かな？

Text Grounded T2I Generation (Bounding box)

https://gyazo.com/90b81428520ba726d7a7e6fc6c2cd67f

nvidiaのeDiff-Iっぽい

Image Grounded T2I Generation (Bounding box)

https://gyazo.com/86dec95fa63843bbceb10dbbca5d13bc

Paint by Exampleと同じかな？

Grounded T2I Generation (Keypoints)

https://gyazo.com/e02b77f9632c2773f24875c28607c4d3

やりたかったやつううううう❗❗❗nomadoor.icon

Grounded Inpainting

https://gyazo.com/54146308affd41fe6748354ec2a22962

モデルとかどうなっとるのか

学習済みdiffusion modelに基づいて、別のモデルを訓練してるっぽいmiyamonz.icon

元のモデルは固定しつつ、

各々のtransformer blockにGated Self-Attention layerなるものを追加する

という感じなので、現状、使いたいモデルごとに専用のGLIGENのモデルを学習する必要がある？miyamonz.icon