CogView4-6B

https://gyazo.com/f36b77fa8c9f7e9eb0ac78f8687e5446

https://github.com/THUDM/CogView4THUDM/CogView4

https://huggingface.co/THUDM/CogView4-6BTHUDM/CogView4-6B

(中国語に対応しており)漢字も出せる画像生成モデル。

9bクラスのllmをTextEncoderに使っている為かプロンプト入力については日本語でもかなり反映してくれるようだ(どの程度まで有効かは不明)

なんかテキストエンコーダーが9B(本体よりでかい)もあるのでオフロード設定をちゃんとしないと意外と重たいので注意(オフロード+エンコーダーの4bit推論指定でなら6B相当に収まるが…)

https://huggingface.co/THUDM/CogView4-6B/discussions/3テキストエンコーダーモデルのベースとなっているGLM-4とライセンスが違う(GLM-4のほうが厳しい)のは(開発元が同じなので)開発者によると「画像生成用に改造されてるから基本的にはllmとして使えないし、画像生成用に使う分にはApache2.0扱いで大丈夫(ただし再改造してllmとして使う場合元のライセンス適用されるよ)」と言うことらしいので画像生成目的でセットで使う分には少なくとも制作側的には問題ないようだ。

https://zenn.dev/discus0434/articles/cogview4-6b-commentaryとうとう現れたSDXLの後継？CogView4-6Bを解説する

https://github.com/chflame163/ComfyUI_CogView4_Wrapper非公式なComfyUI対応(最適化されてないので)VRAM13GBほど使い重たいので注意

https://note.com/mayu_hiraizumi/n/ne58aa30477a5(2025/03/06)現時点では色々修正も必要

https://x.com/ostrisai/status/1897344493747355990どうやらモデル本体は量子化に非常に弱いようで品質維持に難航しているようだ…

https://note.com/hakomikan/n/ne3e483adb45bhttps://zenn.dev/platina/articles/30f9e02f316a64どうやらテキストエンコーダーのほうが画質に影響しやすいらしい？

https://note.com/hakomikan/n/nace9ad2d7f34頑張ればVRAMをかなり削れるようだが速度の問題もあり中々大変そうだ