前半Qwen-Image、後半Wan2.2でサンプリングする
Qwenでtext2imageしてWanでimage2videoにするときに、ピクセル画像にデコードせずにlatentのまま受け渡すよってことかnomadoor.icon
アーキテクチャは同じだけど、テキストが潰れないようにQwenのVAEは再学習されてるのでまったく同じでは無いっぽい
なるほどmorisoba65536.icon
t2iをする分には中解像度(1024x1024)程度ではvae差し替えても違いがわからなかった、文字を出さないと違いがわかりにくい?morisoba65536.icon
text2imageでも後半のサンプリングをWan low noiseを使うことでQwenのAIっぽさを消そうとしてるのか
Qwen-ImageはAI Lookになりやすいので、Wan2.2のlow noiseで仕上げることでリアルな画像にできるかも? https://gyazo.com/85d94490ebfbcf0ff9797acccf5d0151
全体50step分の21stepをQwen-Image
全体50step分の20stepをWan2.2
ノイズの除去度合いが違うので全体50stepとして、綺麗に25stepずつでええやん、とやるとデノイズしすぎてのっぺらするnomadoor.icon
めちゃめちゃパラメータの調整むずい割にそこまで性能が上がるわけでもなく、めちゃめちゃ生成時間+するのでやる価値はあんまりない
やるなら素直にimage2imageでいい
https://gyazo.com/f5126505b7799728302735bfb975fba0https://gyazo.com/67707a53071feffb0ba3bec50221e691
Qwen Only / Qwen + Wan2.2
絶対もっといいパラメータあると思うけど突き詰めるものでもないかな…nomadoor.icon