GLIGEN
https://gligen.github.io/images/same_box.gif
GLIGENとは、既存のテキストから画像を生成する拡散モデルに、追加的な入力モダリティ(例えば、画像や音声)を条件付けすることで、生成結果をより制御できるようにするAI手法です。
GLIGENは、画像や音声などの入力モダリティを「grounding input」と呼びます。grounding inputは、テキスト入力と関連性が高く、生成される画像に影響を与えるものです。 GLIGEN : Open-Set Grounded Text-to-Image Generation
Grounded(接地)というのは、枠を指定したらそこに描いてくれるという意味かな?
Text Grounded T2I Generation (Bounding box)
https://gyazo.com/90b81428520ba726d7a7e6fc6c2cd67f
Image Grounded T2I Generation (Bounding box)
https://gyazo.com/86dec95fa63843bbceb10dbbca5d13bc
Grounded T2I Generation (Keypoints)
https://gyazo.com/e02b77f9632c2773f24875c28607c4d3
やりたかったやつううううう❗❗❗nomadoor.icon
Grounded Inpainting
https://gyazo.com/54146308affd41fe6748354ec2a22962
モデルとかどうなっとるのか
元のモデルは固定しつつ、
という感じなので、現状、使いたいモデルごとに専用のGLIGENのモデルを学習する必要がある?miyamonz.icon