Wan2.1
https://gyazo.com/706c07816d81a12cd0ad74f520ae4715
結構珍しい非蒸留なモデルである
上記のオリジナルのモデルはComfyUIでは直接使わないので注意(後述の専用リポジトリから落としてくる)
2025/03/11現在時点では、ゆるくお試しなら標準+1.3bかgguf、速度や機能を求めるならkijaiを試す感じかmorisoba65536.icon
有志による量子化など
標準ノードで使うTextEncoderは後述のkijai版と互換性がないため注意(U-Net相当の拡散モデルは共有できる) FP16モデルのほうがBF16より品質が良いといっているがマ?morisoba65536.icon
ついでにkijai氏のKJNodeでTeaCasheに対応した
Native版BlockwSap
TextEncoderに標準ノードとの互換性がないため注意、標準版と両方使うなら両方必要
基本的にfloat8_e4m3モデルだが、ComfyUI公式のモデルと違いwait以外はFP32で保持している分おそらく精度はこっちのほうが高い
ComfyUI版のfloat8_e4m3モデルはすべての層をfloat8_e4m3で保存されている
ただし現在ComfyUIで正式に対応してるのはtext2videoとimage2videoのみ。 ただしレイヤーは互換性があるためt2vで学習したLoraはi2vでも使える模様 一応1フレーム出力することでComfyUIでもtext2imageは普通に出せる(オリジナルのコードのt2iと同じタイプの処理になるのかは不明)
大きい方で14Bなので量子化対応すればFlux.1の動く環境なら動くはず。 fp8モデルもあるのでVRAM16GB環境なら動かすことはそこまで難しくはない
そっちが厳しそうなら1.3Bモデルも有るようだ。
動画でファインチューニングした方が、ID・空間の一貫性も学習させられるので、計算コストだけどうにかなれば、これから出てくるモデルは動画生成ベースが主流になるのかなnomadoor.icon
中国語モデルだからか漢字も書けるみたいね…(流石に全文字は学習してないだろうけど)morisoba65536.icon
出ることは出るがやや崩れがち、FLUX.1レベルのはっきりした文字を期待するのは難しいので割と雰囲気文字(漢字が出るのはそれでもとてもレアな機能だが) 文字数が少なければ(簡単な文字なら)割とちゃんと出るようだ。
軽く調べた感じ、英単語で約3単語位を目安にしたほうが文字は安定する感じ、Flux.1と同じ感覚で文章出させようとするとほぼ崩壊する。(勝手に文章変えたり単語スキップしたり混ざったりする)
TextEncoderはmT5と言う多言語対応モデルがベースとなっている。
その為か、特別には学習してないはずだが日本語でプロンプトが割と通る。
ただ、t2iでは割と通るもののi2vではあまり効果がないようでmt5の学習してる日本語量的に使えればラッキーくらいの感覚のようだ。
とは言え英語プロンプトとちょっと画が変わるので詰めの作業等は英語で指示するほうが良いかも。
text2video及びtext2imageでは止め絵としてみると14Bモデルでもフォトリアル方面では平均値はFlux.1にはさすがに及ばない感じ。ただしプロンプトで明確に"documentary photoreal"などと細かく状況やカメラワークなども指定すると質を上げやすい。アニメ絵は近代的な絵柄と素朴な絵柄のブレ幅が非常に激しい(同じプロンプトでもseedで大きく変わる)ので今後ファインチューンモデル等で絵柄安定してくれるのを待ちたい所。(こちらもスタイル指定をちゃんとしたら暴れないかもしれない) ただ、指などの細部の破綻率は低めなのは大きな強み。
有名なゲームのキャラなどは過学習気味なのか要素が被ると突然生えてくる
(14Bで確認)何故か作成するフレーム数やステップ数によって同じseedでも画風や絵面が大きく変わる
ステップ数を変えると書き込みが増えるが別人が別のスタイルで描いたみたいに激変していく(構図などはほぼ同じ)
フレーム数を変えると構図すら別物になりt2iだとちゃんと出た絵が全然違うイメージ映像になったりしてほんとに挙動が謎。
t2vはあんまり長いプロンプトだと破綻するのかも…?(まだ検証不足)morisoba65536.icon
長尺の動画を作るのはVRAMや処理速度的に辛いが動きはかなりしっかりしてて、他の動画モデルより明らかな破綻率は低い(たまにはある)
i2vだと何故かnsfwをめっちゃ素通しする
1.3B版はおてがるさ以外あまり強みがなさそうなので量子化版欲しいなーと思ってたらでてきたmorisoba65536.icon
「mat1 and mat2 shapes cannot be multiplied (154x768 and 4096x5120) 」とかなんか一致しないエラーが出る場合TextEncoderが一致していない
公式ノード版とkijaiノード版で今の所TextEncoderに互換性がないため一致する方を使いましょう…(両方使う場合両方必要なのでサブフォルダなどで分けると良い)
webm保存しないならノードを削除しても良い