gligen-gui
https://gyazo.com/73a2ecebd8c623560eaae4dd3b27126d
@xiaohuggg: Reddit的一个大佬说因为找不到GLIGEN的直观图形用户界面(GUI),所以他就自己制作了一个。 你可以指定图像对象的大小、位置以及它们之间的空间关系来控制生成图像,很牛P !
也就是你可以决定图片里的东西应该放在哪里。
比如,你可以具体指定那只猫应该坐在图片的哪个角落,草地有多大,甚至是天空中云的形状是什么样。
让我们用一个简单的例子来解释
文字描述:
"一只穿着宇航服的猫坐在月球上,背景是繁星点点的夜空。"
你的具体要求:
猫的位置:画面中央
猫的大小:相对较大,占据画面的主要部分
宇航服的颜色:亮银色
月球的表面:画面下方,带有一些陨石坑
夜空:画面的背景,充满了星星
使用GLIGEN,你可以不仅仅通过上述文字描述来告诉它你想要什么样的图片,还可以具体指定每个元素的布局和位置。比如,你可以通过一个简单的界面来画出猫的大致位置和大小,指定月球和夜空的排布。 GLIGEN的主要功能和特点包括:
1、文本到图像生成:GLIGEN能够根据自然语言描述生成高质量的图像,这些描述可以包含对象、场景、活动等元素。
2、几何布局控制:与其他文本到图像生成模型不同,GLIGEN允许用户通过定义对象的几何布局来精确控制图像中的元素位置。用户可以指定对象的大小、位置以及它们之间的空间关系。
3、提高生成图像的一致性和准确性:通过允许用户指定对象的具体布局,GLIGEN提高了生成图像的一致性和准确性,使得最终图像更加忠实于用户的初始描述。
4、灵活性和创造性:GLIGEN提供了一个灵活的框架,支持用户的创造性输入。用户不仅可以通过文本描述来引导图像生成的内容,还可以通过几何布局来进一步细化和个性化生成的图像。