DreamBooth

Stable DIffusionで使われているような学習モデルは様々なものを参照しているため、汎用的な単語が与えられると何を描けばよいかわからない

例えば「はやぶさ」

鳥なのかバイクなのか探査機なのかアニメキャラなのか

そこでいくつかの画像を与えることで言葉の定義を行う

はやぶさ(鳥)　はやぶさ(探査機)

ここまでの技術はTextual Inversion

textual inversionが単語だけなのに対し、モデル全体を最適化するのがDreamBooth

この解釈だと、学習データにジブリっぽい絵が一つもなかったら、どれだけサンプル与えてジブリっぽさを定義しても意味ないなnomadoor.icon

画風の調整に向いてる。学習時間が短く準備の手間も少ない。ファインチューニングは、まず Hypernetwork から挑戦してみるのがいい。

デフォルトの状態で呼び出せる人や物を語に覚えさせたり、トークンを節約したりするのに使う。描く能力はあるが呼び出し方がわからない人や物を呼び出せることがある。Hypernetwork に比べて学習に時間がかかり、背景を塗りつぶしたり、タグ修正したりする手間が追加で発生する。

デフォルトの状態で呼び出せない人や物を呼び出せる。

https://gyazo.com/fb052b683c5ca0559f0b21fe3937c5c1

フォーク?

nishio.icon

やっぱDreamBoothが本命中の本命な気がする

DreamBoothが高コストなので「もっと簡単な手法はこちら！」的な感じでAesthetic GradientなどがWebUIに搭載されたりしてるけども…

Hypernetworkは、DreamBoothより低コストに画風特化ができるかもしれないんだけど、これは論文にもなっておらず詳しい情報も非開示で「NovelAI社がそれを使ってNovelAIDiffusionを使ったらしい」「ソースコードが流出した！」な状態なので情報が錯綜している…

これもアテンションをいじる方法なので、元々Stable Diffusionが描けるものしか描けないと思う

Danbooruの大量のタグで学習したのでアニメ絵に関してのコントロールが効きやすくなっただけ

/villagepump/基素.iconDreamBoothが手軽に使えるようになるらしい

/villagepump/shoya140.iconDreamBoothで遊んでみた

未踏のロゴをDreamBoothで学習

https://gyazo.com/49c0c1875981d3073592d8099482eac7

こういうロゴ的なものを出すのはDreamBoothならではだし、企業ユースを考えるとニーズの高いところだと思うnishio.icon

学習済みモデルの配布がかなり簡単

/villagepump/nishio.icon計算コストが高価なので現時点では一般向けにサービスとして提供されてないけど、将来的にDreamBooth的機能が安価に使えるようになったらもう一回絵師が悲鳴を上げる(既に起こった未来)