追加学習ってなんぞや

学習させたい画像をIdentifierとして emdedding 空間に埋め込み、それを元にText Transformer , U-net をファインチューニングし、画像を出力させます。言語として表しにくい画像やその画像の絵柄を元にした画像が出てきます。Textual Inversion と比べてこちらのほうが忠実に再現できますが、時間とリソースが要求されます。https://note.com/te_ftef/n/n48926bfae747

タグに結びつける感じかなwogikaze.icon

textual inversionも同じことやってるの？

https://webbigdata.jp/ai/post-15059Stable Diffusionに天空の城ラピュタの飛行石の紋章を描いて貰う

textual inversionは画像からstable diffusionに新しい概念を学ばせる手法

なるほど、同じだ

StableDiffusionと書いているがWaifuDiffusionでもできるのかhttps://webbigdata.jp/ai/post-15374

モデルが公開されていたらできるってことかな

ACertainThingあたりもできるのかなwogikaze.icon

いやこれがそもそもDreamboothされたモデルだ、ならできそう

使う：https://note.com/lisa_s/n/n5fb5468e8998AIで特定キャラを描く(DreamBoothで追加学習)

(ソース確認してみると)少数概念を覚えるために特化したファインチューン手法の一つとして提案・実装された。基本的には少ない概念を覚えるのには向いており(当時としては)小コストで使える技術だった。morisoba65536.icon

ただ、モデル全体を弄ってしまう都合上軽いと言っても大掛かり。更に軽量化の為に通常のファインチューンより尖り過ぎており汎用的な学習には向かず、より低資源で学習可能なLoraが登場することでほぼ役割を終えてしまった…LoraはアダプターとしてhyperNetwork代わりとしても、汎用的なチューンとしても、DreamBooth的な特化学習も全部できてしまうので…

Textual inversionとHypernetwork,DreamBoothの違いがよくわからない

関連：DreamBoothとファインチューニングの違いは？

Textual Inversion versus Dreambooth : StableDiffusion

Comparison of DreamBooth and Textual Inversion : StableDiffusion

画風を学習させる場合、Textual Inversion より Hypernetwork の方がよい。なぜなら学習時間が短いからだ。Use deepbooru for caption を使えばタグ付けも自動化できる。http://dskjal.com/deeplearning/sd-fine-tune.html#ti-hn-tag

table:http://dskjal.com/deeplearning/sd-fine-tune.html#ti-hn-tag

Textual Inversion Hypernetwork

覚えさせたいタグ Initialization Text に入れるタグファイルに書く

覚えさせたくないタグタグファイルに書くタグファイルに書く

使用法 embedding 名をプロンプトに入れるキャラ/オブジェクトに関係のあるタグをプロンプトに入れる

Textual Inversion も Hypernetwork も Aesthetic Gradients もデフォルトの状態で出せないような絵は出力できない。

Textual Inversion

画像生成AIのStable Diffusionに数枚の画像を学習させ、AIモデル全体を再学習させて調整(ファインチューニング)を行う手法

学習させたい画像の "スタイル" を「擬似単語」として emdedding 空間に埋め込み、それを元に画像を出力させます。言語として表しにくい画像やその画像の絵柄を元にした画像が出てきます。https://note.com/te_ftef/n/n48926bfae747

https://gyazo.com/e8ced1f7439d3238b7bd76985e361874https://note.com/septendec/n/nb8c8fa1e89a2

無限ループものかw?wogikaze.icon

ここも後に引用されるのであった…nomadoor.icon

embeddingsは、.ptファイル名と同じワードをプロンプトに入れることで影響させる。

指定したワードで背景も変えられる

星の数のように公開されてて笑うhttps://cyberes.github.io/stable-diffusion-textual-inversion-models/

シンプルに書くと(かなりコンピューター側に寄った)プロンプトの塊をファイルにまとめてモデルに渡すのがTextual Inversionの仕組み。例えば「ピンク髪、Tシャツ、斜めアングル状態(斜め具合の角度、見たいな言語化しにくい所も学習できる)」と言ったプロンプトの塊を渡してる感じmorisoba65536.icon

例えば某ぼっちちゃんを(ぼっちちゃん未学習で)知らないモデルに学習させると「ピンク髪ロング、ピンクジャージ、顔色が悪い、etc...」といった形で覚えれるが、ゼリーみたいなヘアゴムは概念的に持ってないので学習されない…見たいな

Hypernetwork

画風ファイルを追加することで、元のモデルにはない画風や概念・キャラの特徴などを追加することができる。

latent diffusion Model の追加学習の一つです。学習済みモデルのパラメーターを変化させずに学習させます。

ファイルのつくり方https://note.com/te_ftef/n/n7483e886d654

Stable Diffusion web UIでできるらしい

hypernetworksは、Settingから変更することで全体に影響させる。

こっちもかなりの数公開されているhttps://bookyakuno.com/aiart-hypernetwork/#%E9%85%8D%E5%B8%83%E3%82%B5%E3%82%A4%E3%83%88

全身絵を学習するときはHypernetwork-MonkeyPatch-Extension

使う：https://note.com/te_ftef/n/n7483e886d654Stable Diffusion : ハイパーネットワーク学習ガイド

Imagic

lora