SDXLのRefinerモデルとは

https://scrapbox.io/files/6814d4addbae5d9d5e4c15e8.png

Refinerモデルとは？

Refinerは、SDXLの2段階構成のうちの第2段階を担うモデル

役割

Baseモデルによって生成されたラフな画像（低解像度/中解像度）を、より高品質な画像へと洗練させる

ノイズや不明瞭な部分をクリアにし、テクスチャやエッジ、ディテールの向上を行う

モデルの負荷を分散させることで、拡張性やカスタマイズ性の向上も実現

添付画像の解説

画像は、SDXLの2段階生成プロセスを視覚的に示している

1. Prompt（プロンプト）

テキストなどの入力。例：「a fantasy castle on a hill」など。

2. Baseモデル（左の青いブロック）

プロンプトから**128x128の潜在画像（Latent）**を生成。

この潜在画像は、粗い構図・色・雰囲気を持つイメージの「下絵」に相当。

3. Latent表現

解像度128×128の潜在空間画像

直接視覚化されることはないが意味を含んだデータ

4. Refinerモデル（右の緑のブロック）

Baseモデルが出力したLatent画像を受け取り、同時にプロンプトも受け取って条件付け。

より高解像度である1024x1024の最終画像を生成。

ここでディテール、シャープさ、質感が加えられる。

5. 最終画像

実際にユーザーが見る、または保存する出力画像。

なぜ2段階構成（Base + Refiner）なのか？

効率よく高品質な画像の生成が可能

Baseモデルだけ使ったり、Refinerモデルだけを別にFTするなども可能らしい

補足：「潜在空間（Latent Space）」とは？

定義

潜在空間とは、元の画像やテキストなどの高次元・複雑な情報を、意味のある圧縮表現で表現した内部表現空間のこと

特徴

効率的な学習と生成

→ 128×128の**圧縮された潜在画像（latent image）**にすることで、高速かつ安定して生成処理が行える

意味的な特徴を持つ

→ 潜在空間はただの圧縮データではなく

「明るい」「モダンなスタイル」「猫らしさ」など、意味的な特徴が反映される空間

高品質な再構成が可能

→ この空間上で加工してから、最後にRefinerで高解像度画像に復元する構造にすれば、情報損失が最小限で効率のよい画像生成が可能。