Fooocus
https://gyazo.com/d67b7022ef7cc2edab443668bab5c81a
https://github.com/lllyasviel/Fooocuslllyasviel/Fooocus
MidjourneyのUIに学び、プロンプト以外のパラメータを排除したStable Diffusion UI
Advancedに隠されているパラメータも画像サイズ、Seed、Negative Prompt、スタイルのみ
Fooocusに組み込まれているいくつかのトリック
single k-sampler
一つのk-samplerでbaseとrefinerを切り替える
これにより、refinerはbaseモデルが集めた情報(momentumやODEと呼ばれるもの)を再利用して、より一貫性のあるサンプリングを行うことができます
この結果アニメイラスト系の出力が高いのかもwogikaze.icon
Negative ADM guidance
XL Baseの最高解像度レベルにはクロスアテンションがないため、XLの最高解像度レベルのポジティブ信号とネガティブ信号は、CFGサンプリング中に十分なコントラストを受け取ることができず、その結果、場合によっては少し可塑的に見えたり、過度に滑らかに見えたりします。
そうなの?nomadoor.icon
スタイルテンプレート
sd_xl_offset_example-lora_1.0.safetensors
このLoRAを0.5以下の強さでかけたとき、常にLoRAなしのときよりも良い結果になる
画像サイズの指定
SDXLではpositional encodingを採用しており、positional encodingは学習中に使った解像度以外ではうまく動かないので、いくつかハードコーディングで指定してある
cf. SDXL Resolution Cheat Sheet
transformerのpositional encodingとは別物?nomadoor.icon
baseの2つのtext encoderには同じプロンプトを入力
cf. SDXL baseでのCLIPの使い分け
サンプラーはDPMファミリーがSDXLに適している
https://github.com/lllyasviel/Fooocus/discussions/117Fooocus V2
旧Prompt Expansion and Raw Mode
「Fooocus V2」は、AI(実際はGPT2)を使って適応的にスタイルを追加し、画像をより魅力的にする非常にユニークなダイナミック・スタイルである
FABRICみたいなものが実装されると、ローカルなMidjourneyとしてComfyUIとは別の路線で戦っていけそうnomadoor.icon
VRAM少なくても解像度の高い画像を生成できるらしい、逆にRAMを多く使うぽいwogikaze.icon