HiDream-I1
https://gyazo.com/f7a452bc84fc749f3d7b0d81b0caa722
ひとまず使用報告として、TextEncoderに3.1ベースのSwallow0.3を使ったが、ノイズが出力されるだけだったのでllama部分はいじらないほうが良さげかも… 本体17B、Llama 3.1-8B、(多分使われてない)T5xxlが11B(のうちEncoder部分のみ9Bほど)と言う中々のパラハラサイズのモデルだ…morisoba65536.icon パラメータのデカさがデカいだけ性能はあるようでベンチマークで一時トップに立つ(リアルタイムで更新されてるので今は違うかも知れない)等、純粋な画像生成モデルとしての基本性能はとても高いようだ。
学習時にはFull版を使うことが推奨されるようだ
ライセンス
地味にllamaをTextEncoderに使ってるよう?なので(かなりレアケースだろうが)1億ユーザー超えるプロダクトでは注意が必要
T5もTextEncoderに使ってるようだけど何にllamaを使用してるのだろうか…?
むしろLlama以外いらなさそうnomadoor.icon
@ostrisai: HiDream Text Encoder Dependency test. HiDream has 4 text encoders. Having more than 1 will always lead to one text encoder carrying all the weight so I tested dropping them all but one at a time. It is 100% dependent on the llama 8B encoder. The rest can be removed. https://pbs.twimg.com/media/Gn-a7ytXgAAuyML.jpg
軽量なclip辺りはともかくまあまあ重たいT5まで積んでるのほんとになんでだろう…(単に外してないだけかもしれないけど)morisoba65536.icon
試した感じ、複数人物を指定するときなどはllamaだけでは人物同士が特徴混ざったのでその予防に効果があるのかもしれないmorisoba65536.icon