CogView4-6B
https://gyazo.com/f36b77fa8c9f7e9eb0ac78f8687e5446
https://github.com/THUDM/CogView4THUDM/CogView4
https://huggingface.co/THUDM/CogView4-6BTHUDM/CogView4-6B
(中国語に対応しており)漢字も出せる画像生成モデル。
9bクラスのllmをTextEncoderに使っている為かプロンプト入力については日本語でもかなり反映してくれるようだ(どの程度まで有効かは不明)
なんかテキストエンコーダーが9B(本体よりでかい)もあるのでオフロード設定をちゃんとしないと意外と重たいので注意(オフロード+エンコーダーの4bit推論指定でなら6B相当に収まるが…)
GLM-4-9B
https://huggingface.co/THUDM/CogView4-6B/discussions/3テキストエンコーダーモデルのベースとなっているGLM-4とライセンスが違う(GLM-4のほうが厳しい)のは(開発元が同じなので)開発者によると「画像生成用に改造されてるから基本的にはllmとして使えないし、画像生成用に使う分にはApache2.0扱いで大丈夫(ただし再改造してllmとして使う場合元のライセンス適用されるよ)」と言うことらしいので画像生成目的でセットで使う分には少なくとも制作側的には問題ないようだ。
https://zenn.dev/discus0434/articles/cogview4-6b-commentaryとうとう現れたSDXLの後継?CogView4-6Bを解説する
https://github.com/chflame163/ComfyUI_CogView4_Wrapper非公式なComfyUI対応(最適化されてないので)VRAM13GBほど使い重たいので注意
https://note.com/mayu_hiraizumi/n/ne58aa30477a5(2025/03/06)現時点では色々修正も必要
https://x.com/ostrisai/status/1897344493747355990どうやらモデル本体は量子化に非常に弱いようで品質維持に難航しているようだ…
https://note.com/hakomikan/n/ne3e483adb45bhttps://zenn.dev/platina/articles/30f9e02f316a64どうやらテキストエンコーダーのほうが画質に影響しやすいらしい?
https://note.com/hakomikan/n/nace9ad2d7f34頑張ればVRAMをかなり削れるようだが速度の問題もあり中々大変そうだ
CogView
CogView4
#画像生成AI
#Apache_2.0