HiDream-I1

https://gyazo.com/f7a452bc84fc749f3d7b0d81b0caa722

ひとまず使用報告として、TextEncoderに3.1ベースのSwallow0.3を使ったが、ノイズが出力されるだけだったのでllama部分はいじらないほうが良さげかも…

本体17B、Llama 3.1-8B、(多分使われてない)T5xxlが11B(のうちEncoder部分のみ9Bほど)と言う中々のパラハラサイズのモデルだ…morisoba65536.icon

パラメータのデカさがデカいだけ性能はあるようでベンチマークで一時トップに立つ(リアルタイムで更新されてるので今は違うかも知れない)等、純粋な画像生成モデルとしての基本性能はとても高いようだ。

https://www.reddit.com/r/StableDiffusion/comments/1jvkbat/hidreami1_fp8_proof_of_concept_command_line_code/意外にもかなり頑張れば（理論上）VRAM10GBで動く？

https://www.reddit.com/r/StableDiffusion/comments/1juszdc/hidream_i1_nf4_runs_on_15gb_of_vram/実測で15GB での動作例が出てきた

https://www.reddit.com/r/StableDiffusion/comments/1jxggjc/hidream_on_rtx_3060_12gb_windows_its_working/12GB(Windows)での報告、NVIDIAグラボのメモリオフロードを使って無理やり動かしている…(おそらくBlockSwapも実装可能だと思われる)

https://www.reddit.com/r/StableDiffusion/comments/1jxgkm5/hidream_training_support_in_simpletuner_on_24g/VRAMが24GBあればトレーニング出来るらしい…

学習時にはFull版を使うことが推奨されるようだ

https://www.reddit.com/r/StableDiffusion/comments/1ka3jp7/hidream_not_all_dreams_are_hd_quality_evaluation/どうやらFull版はjpeg画像で学習されたのか圧縮ノイズが生成されやすいようだ

ライセンス

MITライセンス

地味にllamaをTextEncoderに使ってるよう？なので(かなりレアケースだろうが)1億ユーザー超えるプロダクトでは注意が必要

T5もTextEncoderに使ってるようだけど何にllamaを使用してるのだろうか…？

むしろLlama以外いらなさそうnomadoor.icon

@ostrisai: HiDream Text Encoder Dependency test. HiDream has 4 text encoders. Having more than 1 will always lead to one text encoder carrying all the weight so I tested dropping them all but one at a time. It is 100% dependent on the llama 8B encoder. The rest can be removed.

https://pbs.twimg.com/media/Gn-a7ytXgAAuyML.jpg

軽量なclip辺りはともかくまあまあ重たいT5まで積んでるのほんとになんでだろう…(単に外してないだけかもしれないけど)morisoba65536.icon

試した感じ、複数人物を指定するときなどはllamaだけでは人物同士が特徴混ざったのでその予防に効果があるのかもしれないmorisoba65536.icon

https://www.reddit.com/r/StableDiffusion/comments/1jtvgyy/comment/mly5eaf/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_button推定8.5B(公式のPythonコードから？)のアクティブパラメータのようだ

画像生成モデル