SDXLのRefinerモデルとは
https://scrapbox.io/files/6814d4addbae5d9d5e4c15e8.png
Refinerモデルとは?
Refinerは、SDXLの2段階構成のうちの第2段階を担うモデル
役割
Baseモデルによって生成されたラフな画像(低解像度/中解像度)を、より高品質な画像へと洗練させる
ノイズや不明瞭な部分をクリアにし、テクスチャやエッジ、ディテールの向上を行う
モデルの負荷を分散させることで、拡張性やカスタマイズ性の向上も実現
添付画像の解説
画像は、SDXLの2段階生成プロセスを視覚的に示している
1. Prompt(プロンプト)
テキストなどの入力。例:「a fantasy castle on a hill」など。
2. Baseモデル(左の青いブロック)
プロンプトから**128x128の潜在画像(Latent)**を生成。
この潜在画像は、粗い構図・色・雰囲気を持つイメージの「下絵」に相当。
3. Latent表現
解像度128×128の潜在空間画像
直接視覚化されることはないが意味を含んだデータ
4. Refinerモデル(右の緑のブロック)
Baseモデルが出力したLatent画像を受け取り、同時にプロンプトも受け取って条件付け。
より高解像度である1024x1024の最終画像を生成。
ここでディテール、シャープさ、質感が加えられる。
5. 最終画像
実際にユーザーが見る、または保存する出力画像。
なぜ2段階構成(Base + Refiner)なのか?
効率よく高品質な画像の生成が可能
Baseモデルだけ使ったり、Refinerモデルだけを別にFTするなども可能らしい
補足:「潜在空間(Latent Space)」とは?
定義
潜在空間とは、元の画像やテキストなどの高次元・複雑な情報を、意味のある圧縮表現で表現した内部表現空間のこと
特徴
効率的な学習と生成
→ 128×128の**圧縮された潜在画像(latent image)**にすることで、高速かつ安定して生成処理が行える
意味的な特徴を持つ
→ 潜在空間はただの圧縮データではなく
「明るい」「モダンなスタイル」「猫らしさ」など、意味的な特徴が反映される空間
高品質な再構成が可能
→ この空間上で加工してから、最後にRefinerで高解像度画像に復元する構造にすれば、情報損失が最小限で効率のよい画像生成が可能。