画像系（画像生成・LoRAなど）論文まとめ

本記事では、画像生成やその周辺技術に関する論文をまとめています。

画像生成

High-Resolution Image Synthesis with Latent Diffusion Models

https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf

CVPR

2022

Stable Diffusion及び、潜在拡散モデルの元論文

VAEを利用し、潜在空間上でノイズ除去をおこなうことで、計算量を削減しつつ綺麗な画像が生成可能になった

SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

https://openreview.net/pdf?id=di52zR8xgf

ICLR

2024

Stable Diffusion XL元論文

Refinerを付けることで、簡単なプロンプトでも綺麗な画像が生成可能になった

パラメータ数増加

生成画像の標準サイズが1024*1024pxに変更

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

https://arxiv.org/pdf/2403.03206

arxiv（国際会議に通っていないか定期的に確認する）

2024

Stable Diffusion 3 の元論文

生成精度向上

画像内にテキストを描画するのが得意になった

文脈を把握しづらい複雑で長いプロンプトにも対応可能

LoRA

LoRA: Low-Rank Adaptation of Large Language Models

https://openreview.net/forum?id=nZeVKeeFYf9

ICLR

2022

LoRA（Low-Rank Adaptation）の提案

Implicit Style-Content Separation using B-LoRA

https://arxiv.org/pdf/2403.14572

ECCV

2024

1枚の画像から被写体・スタイルを個別に学習するB-LoRA学習手法の提案

Stable Diffusion内の画像生成に影響を与えるTrasnformerブロックの特定

B-LoRAは低い計算コストで高い精度

利用データセット

被写体画像データセット：「既存のパーソナライゼーション作品」

4参考文献　メモ（15,33,45,52）

スタイル画像データセット

2参考文献　メモ（22,48）

Stylus: Automatic Adapter Selection for Diffusion Models

NeurIPS 2024

画像生成時に最適なLoRAモデルを入力されたプロンプトを基に検索し統合するシステムの提案

ユーザが入力した画像生成時のプロンプトを参考にした最適な複数のLoRA検索とその統合

よりプロンプトに忠実な画像生成

LoRAモデルのメタデータを複数利用しVLMでLoRAモデル説明文を生成

説明文をembeddingしLoRAベクトルとして利用

プロンプトとの類似度が高いLoRAモデルを選別しプロンプトと最も関連するLoRAモデルをLLMで特定

通常のSD1.5による生成画像よりも高品質で多様な画像

UnZipLoRA:SeparatingContentandStylefromaSingleImage

1枚の画像から被写体・スタイルを個別にLoRA学習

学習された２つのLoRAは直接加算で簡単にマージ可能

Diffusion-Based Neural Network Weights Generation

https://openreview.net/pdf?id=j8WHjM9aMm

ICLR

2025

拡散モデルを用いて、ニューラルネットワークの重みを生成する手法を提案

ゼロからニューラルネットワークを学習するコストを抑えつつ、同等かそれ以上の性能をもつニューラルネットワークの作成に成功

学習時の重みの初期値として生成重みを用いると、学習が低コストで実現可能

Conditional LoRA Parameter Generation

https://arxiv.org/abs/2408.01415

arxiv

2024

拡散モデルを用いて、LoRAの重みを生成する手法を提案

必要なタスクを条件づける生成が可能

A LoRA is Worth a Thousand Pictures

https://arxiv.org/abs/2412.12048

arXiv

2024

画像生成モデルのLoRAの重みが、画像のスタイルの特徴表現として利用可能であるかを分析、検証

LoRAの重みをflatten後、PCAによる次元圧縮

画像の生成を必要とせず、LoRAの重み（＝safetensors）さえあれば、似たスタイルのLoRAを知ることで、手元のLoRAがどのようなものかを知ることが可能

ArtBenchデータセットからLoRAを自作

AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation

https://www.arxiv.org/abs/2508.02107

arxiv

2025

画像生成モデルのLoRAの検索とマージ

手法全体の入出力は、「テキストプロンプト→生成画像」

検索フェーズ

入力：画像生成時のテキストプロンプト

出力：テキストに関連するLoRAのランキング

マージフェーズ

入力：検索結果の上位k件のLoRA

出力：マージLoRA

LoRAの重み（Weight）から埋め込み獲得

検索結果のLoRAを複数使用

テキストとLoRAを同一空間上にマッピング

※対象とする生成モデルは、FLUX.1-dev

モデルマージ

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

https://arxiv.org/pdf/2311.13600

ECCV

2024

マージ係数の最適化による２つの学習済みLoRAのモデルマージ

利用データセット

被写体参照：DreamBooseデータセット

スタイル画像：StyleDropデータセット

Evolutionary Optimization of Model Merging Recipes

https://arxiv.org/abs/2403.13187

arxiv

2024

Sakana AIによる進化的モデルマージ

https://sakana.ai/evolutionary-model-merge-jp/

進化的アルゴリズムを用いたモデルマージ

パラメータ空間とデータフロー空間の両方でモデルの最適化を行い統合

その他

Learning Transferable Visual Models From Natural Language Supervision

https://proceedings.mlr.press/v139/radford21a/radford21a.pdf

ICML

2021

CLIPの元論文

CLIPについての記事はこちら

Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation

https://openaccess.thecvf.com/content/CVPR2023/papers/Otani_Toward_Verifiable_and_Reproducible_Human_Evaluation_for_Text-to-Image_Generation_CVPR_2023_paper.pdf

CVPR

2023

Text2Imageモデルの評価用フレームワークの提案

CyberAgentの方の論文

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

https://arxiv.org/pdf/2208.12242

CVPR

2023

DreamBoothデータセット:https://github.com/google/dreambooth

30オブジェクト

各オブジェクト4－5枚の画像

StyleDrop:Text-to-ImageGenerationinAnyStyle

https://arxiv.org/pdf/2306.00983

StyleDropデータセット：https://github.com/styledrop/styledrop.github.io/blob/main/images/assets/data.md

スタイル画像データセット

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

https://arxiv.org/pdf/2208.01618

arxiv

2022

「Textual Inversion」という手法を提案

少量の画像を、新しい擬似単語としてT2Iモデルのテキストエンコーダの空間内で表現

自然言語で指示しづらい表現を生成可能に

Stable Diffusion Web UIの拡張機能としても利用可能

Masked Autoencoders Are Scalable Vision Learners

https://openaccess.thecvf.com/content/CVPR2022/papers/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.pdf

CVPR

2022

Vision Transformerの事前学習として、Masked Autoencoder（MAE）が有効であることを示した

#daichi

#Yuro_Kanada

#Yuma_Oe