DreamBooth
Stable DIffusionで使われているような学習モデルは様々なものを参照しているため、汎用的な単語が与えられると何を描けばよいかわからない
例えば「はやぶさ」
鳥 なのか バイク なのか 探査機 なのか アニメキャラ なのか
そこでいくつかの画像を与えることで言葉の定義を行う
はやぶさ(鳥) はやぶさ(探査機)
ここまでの技術はTextual Inversion
textual inversionが単語だけなのに対し、モデル全体を最適化するのがDreamBooth
この解釈だと、学習データにジブリっぽい絵が一つもなかったら、どれだけサンプル与えてジブリっぽさを定義しても意味ないなnomadoor.icon
https://dskjal.com/others/sd-fine-tune.html
Hypernetwork
画風の調整に向いてる。学習時間が短く準備の手間も少ない。ファインチューニングは、まず Hypernetwork から挑戦してみるのがいい。
Textual Inversion
デフォルトの状態で呼び出せる人や物を語に覚えさせたり、トークンを節約したりするのに使う。描く能力はあるが呼び出し方がわからない人や物を呼び出せることがある。Hypernetwork に比べて学習に時間がかかり、背景を塗りつぶしたり、タグ修正したりする手間が追加で発生する。
Dreambooth
デフォルトの状態で呼び出せない人や物を呼び出せる。
https://gyazo.com/fb052b683c5ca0559f0b21fe3937c5c1
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth:Stable Diffusionに自分の好きなキャラクターを描いてもらう事は可能
フォーク?
EveryDream-trainer 🌐
nishio.icon
やっぱDreamBoothが本命中の本命な気がする
DreamBoothが高コストなので「もっと簡単な手法はこちら!」的な感じでAesthetic GradientなどがWebUIに搭載されたりしてるけども…
Hypernetworkは、DreamBoothより低コストに画風特化ができるかもしれないんだけど、これは論文にもなっておらず詳しい情報も非開示で「NovelAI社がそれを使ってNovelAIDiffusionを使ったらしい」「ソースコードが流出した!」な状態なので情報が錯綜している…
これもアテンションをいじる方法なので、元々Stable Diffusionが描けるものしか描けないと思う
Danbooruの大量のタグで学習したのでアニメ絵に関してのコントロールが効きやすくなっただけ
from /villagepump/2022/11/06
/villagepump/基素.iconDreamBoothが手軽に使えるようになるらしい
https://twitter.com/_akhaliq/status/1588376931615256576
from /villagepump/2022/09/30
/villagepump/shoya140.iconDreamBoothで遊んでみた
未踏のロゴをDreamBoothで学習
https://gyazo.com/49c0c1875981d3073592d8099482eac7
こういうロゴ的なものを出すのはDreamBoothならではだし、企業ユースを考えるとニーズの高いところだと思うnishio.icon
学習済みモデルの配布がかなり簡単
from /villagepump/2022/10/17
/villagepump/nishio.icon計算コストが高価なので現時点では一般向けにサービスとして提供されてないけど、将来的にDreamBooth的機能が安価に使えるようになったらもう一回絵師が悲鳴を上げる(既に起こった未来)