前半Qwen-Image、後半Wan2.2でサンプリングする

https://www.reddit.com/r/StableDiffusion/comments/1miofcl/psa_wan_worlflow_can_accept_qwen_latents_for/Qwen ImageとWan2.x 14Bは同じvaeを使うので、Qwen Imageで画像を生成してvaeデコードせずにそのままWanの開始フレームに渡すと言う考え？(なのかな？)morisoba65536.icon

Qwenでtext2imageしてWanでimage2videoにするときに、ピクセル画像にデコードせずにlatentのまま受け渡すよってことかnomadoor.icon

アーキテクチャは同じだけど、テキストが潰れないようにQwenのVAEは再学習されてるのでまったく同じでは無いっぽい

なるほどmorisoba65536.icon

t2iをする分には中解像度(1024x1024)程度ではvae差し替えても違いがわからなかった、文字を出さないと違いがわかりにくい？morisoba65536.icon

text2imageでも後半のサンプリングをWan low noiseを使うことでQwenのAIっぽさを消そうとしてるのか

Qwen-ImageとWan2.2(2.1)はVAEが基本的に同じなのでlatentを受け渡しできる

Qwen-ImageはAI Lookになりやすいので、Wan2.2のlow noiseで仕上げることでリアルな画像にできるかも？

https://gyazo.com/85d94490ebfbcf0ff9797acccf5d0151

全体50step分の21stepをQwen-Image

全体50step分の20stepをWan2.2

ノイズの除去度合いが違うので全体50stepとして、綺麗に25stepずつでええやん、とやるとデノイズしすぎてのっぺらするnomadoor.icon

めちゃめちゃパラメータの調整むずい割にそこまで性能が上がるわけでもなく、めちゃめちゃ生成時間+するのでやる価値はあんまりない

やるなら素直にimage2imageでいい

https://gyazo.com/f5126505b7799728302735bfb975fba0https://gyazo.com/67707a53071feffb0ba3bec50221e691

Qwen Only / Qwen + Wan2.2

絶対もっといいパラメータあると思うけど突き詰めるものでもないかな…nomadoor.icon

逆版を(Wan2.2+Qwen)作ったmorisoba65536.icon

Wan2.2-t2v-High noiseにWan2.2-Lightningで8step/4stepまで指定、Qwenに8step Qwen-Image-Lightningで8step/4stepから

高速化lora対応以外は↑のWorkflowを逆にしてlowをHighにしただけ

多分Qwenにありがちな構図がガチガチ問題の解決に使える…かも？(↑のWorkflowのプロンプト(そして↓添付Workflowのプロンプトでもある)だとあんまりseed変わっても構図変わらなかった、他のプロンプト試したら割と変わるのもあったので)

構図の自由度(もといガチャ度)…と言う点ではWan2.1あたりをHigh noise替わりにおいても良いと思う