前半Qwen-Image、後半Wan2.2でサンプリングする
https://www.reddit.com/r/StableDiffusion/comments/1miofcl/psa_wan_worlflow_can_accept_qwen_latents_for/Qwen ImageとWan2.x 14Bは同じvaeを使うので、Qwen Imageで画像を生成してvaeデコードせずにそのままWanの開始フレームに渡すと言う考え?(なのかな?)morisoba65536.icon
Qwenでtext2imageしてWanでimage2videoにするときに、ピクセル画像にデコードせずにlatentのまま受け渡すよってことかnomadoor.icon
アーキテクチャは同じだけど、テキストが潰れないようにQwenのVAEは再学習されてるのでまったく同じでは無いっぽい
なるほどmorisoba65536.icon
t2iをする分には中解像度(1024x1024)程度ではvae差し替えても違いがわからなかった、文字を出さないと違いがわかりにくい?morisoba65536.icon
text2imageでも後半のサンプリングをWan low noiseを使うことでQwenのAIっぽさを消そうとしてるのか
https://www.reddit.com/r/StableDiffusion/comments/1mj49nc/qwenwanqwenwan/Qwen/Wan/Qwen+Wan
https://www.reddit.com/r/StableDiffusion/comments/1mk175g/qwen_wan_22_low_noise_t2i_2k_gguf_workflow/Qwen + Wan 2.2 Low Noise T2I (2K GGUF Workflow Included)
Qwen-ImageとWan2.2(2.1)はVAEが基本的に同じなのでlatentを受け渡しできる
Qwen-ImageはAI Lookになりやすいので、Wan2.2のlow noiseで仕上げることでリアルな画像にできるかも?
https://gyazo.com/85d94490ebfbcf0ff9797acccf5d0151
Qwen-Wan2.2.json
全体50step分の21stepをQwen-Image
全体50step分の20stepをWan2.2
ノイズの除去度合いが違うので全体50stepとして、綺麗に25stepずつでええやん、とやるとデノイズしすぎてのっぺらするnomadoor.icon
めちゃめちゃパラメータの調整むずい割にそこまで性能が上がるわけでもなく、めちゃめちゃ生成時間+するのでやる価値はあんまりない
やるなら素直にimage2imageでいい
https://www.reddit.com/r/StableDiffusion/comments/1mjys5b/18_qwenimage_realism_lora_samples_first_attempt/リアリズムLoRAも着々と出てきているのでそれ使えばいい
https://gyazo.com/f5126505b7799728302735bfb975fba0https://gyazo.com/67707a53071feffb0ba3bec50221e691
Qwen Only / Qwen + Wan2.2
絶対もっといいパラメータあると思うけど突き詰めるものでもないかな…nomadoor.icon