画像系(画像生成・LoRAなど)論文まとめ
本記事では、画像生成やその周辺技術に関する論文をまとめています。
画像生成
High-Resolution Image Synthesis with Latent Diffusion Models
https://openaccess.thecvf.com/content/CVPR2022/papers/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.pdf
CVPR
2022
Stable Diffusion及び、潜在拡散モデルの元論文
VAEを利用し、潜在空間上でノイズ除去をおこなうことで、計算量を削減しつつ綺麗な画像が生成可能になった
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
https://openreview.net/pdf?id=di52zR8xgf
ICLR
2024
Stable Diffusion XL元論文
Refinerを付けることで、簡単なプロンプトでも綺麗な画像が生成可能になった
パラメータ数増加
生成画像の標準サイズが1024*1024pxに変更
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
https://arxiv.org/pdf/2403.03206
arxiv(国際会議に通っていないか定期的に確認する)
2024
Stable Diffusion 3 の元論文
生成精度向上
画像内にテキストを描画するのが得意になった
文脈を把握しづらい複雑で長いプロンプトにも対応可能
LoRA
LoRA: Low-Rank Adaptation of Large Language Models
https://openreview.net/forum?id=nZeVKeeFYf9
ICLR
2022
LoRA(Low-Rank Adaptation)の提案
Implicit Style-Content Separation using B-LoRA
https://arxiv.org/pdf/2403.14572
ECCV
2024
1枚の画像から被写体・スタイルを個別に学習するB-LoRA学習手法の提案
Stable Diffusion内の画像生成に影響を与えるTrasnformerブロックの特定
B-LoRAは低い計算コストで高い精度
利用データセット
被写体画像データセット:「既存のパーソナライゼーション作品」
4参考文献 メモ(15,33,45,52)
スタイル画像データセット
2参考文献 メモ(22,48)
Stylus: Automatic Adapter Selection for Diffusion Models
NeurIPS 2024
画像生成時に最適なLoRAモデルを入力されたプロンプトを基に検索し統合するシステムの提案
ユーザが入力した画像生成時のプロンプトを参考にした最適な複数のLoRA検索とその統合
よりプロンプトに忠実な画像生成
LoRAモデルのメタデータを複数利用しVLMでLoRAモデル説明文を生成
説明文をembeddingしLoRAベクトルとして利用
プロンプトとの類似度が高いLoRAモデルを選別しプロンプトと最も関連するLoRAモデルをLLMで特定
通常のSD1.5による生成画像よりも高品質で多様な画像
UnZipLoRA:SeparatingContentandStylefromaSingleImage
1枚の画像から被写体・スタイルを個別にLoRA学習
学習された2つのLoRAは直接加算で簡単にマージ可能
Diffusion-Based Neural Network Weights Generation
https://openreview.net/pdf?id=j8WHjM9aMm
ICLR
2025
拡散モデルを用いて、ニューラルネットワークの重みを生成する手法を提案
ゼロからニューラルネットワークを学習するコストを抑えつつ、同等かそれ以上の性能をもつニューラルネットワークの作成に成功
学習時の重みの初期値として生成重みを用いると、学習が低コストで実現可能
Conditional LoRA Parameter Generation
https://arxiv.org/abs/2408.01415
arxiv
2024
拡散モデルを用いて、LoRAの重みを生成する手法を提案
必要なタスクを条件づける生成が可能
A LoRA is Worth a Thousand Pictures
https://arxiv.org/abs/2412.12048
arXiv
2024
画像生成モデルのLoRAの重みが、画像のスタイルの特徴表現として利用可能であるかを分析、検証
LoRAの重みをflatten後、PCAによる次元圧縮
画像の生成を必要とせず、LoRAの重み(=safetensors)さえあれば、似たスタイルのLoRAを知ることで、手元のLoRAがどのようなものかを知ることが可能
ArtBenchデータセットからLoRAを自作
AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation
https://www.arxiv.org/abs/2508.02107
arxiv
2025
画像生成モデルのLoRAの検索とマージ
手法全体の入出力は、「テキストプロンプト→生成画像」
検索フェーズ
入力:画像生成時のテキストプロンプト
出力:テキストに関連するLoRAのランキング
マージフェーズ
入力:検索結果の上位k件のLoRA
出力:マージLoRA
LoRAの重み(Weight)から埋め込み獲得
検索結果のLoRAを複数使用
テキストとLoRAを同一空間上にマッピング
※対象とする生成モデルは、FLUX.1-dev
モデルマージ
ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs
https://arxiv.org/pdf/2311.13600
ECCV
2024
マージ係数の最適化による2つの学習済みLoRAのモデルマージ
利用データセット
被写体参照:DreamBooseデータセット
スタイル画像:StyleDropデータセット
Evolutionary Optimization of Model Merging Recipes
https://arxiv.org/abs/2403.13187
arxiv
2024
Sakana AIによる進化的モデルマージ
https://sakana.ai/evolutionary-model-merge-jp/
進化的アルゴリズムを用いたモデルマージ
パラメータ空間とデータフロー空間の両方でモデルの最適化を行い統合
その他
Learning Transferable Visual Models From Natural Language Supervision
https://proceedings.mlr.press/v139/radford21a/radford21a.pdf
ICML
2021
CLIPの元論文
CLIPについての記事はこちら
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
https://openaccess.thecvf.com/content/CVPR2023/papers/Otani_Toward_Verifiable_and_Reproducible_Human_Evaluation_for_Text-to-Image_Generation_CVPR_2023_paper.pdf
CVPR
2023
Text2Imageモデルの評価用フレームワークの提案
CyberAgentの方の論文
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
https://arxiv.org/pdf/2208.12242
CVPR
2023
DreamBoothデータセット:https://github.com/google/dreambooth
30オブジェクト
各オブジェクト4-5枚の画像
StyleDrop:Text-to-ImageGenerationinAnyStyle
https://arxiv.org/pdf/2306.00983
StyleDropデータセット:https://github.com/styledrop/styledrop.github.io/blob/main/images/assets/data.md
スタイル画像データセット
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
https://arxiv.org/pdf/2208.01618
arxiv
2022
「Textual Inversion」という手法を提案
少量の画像を、新しい擬似単語としてT2Iモデルのテキストエンコーダの空間内で表現
自然言語で指示しづらい表現を生成可能に
Stable Diffusion Web UIの拡張機能としても利用可能
Masked Autoencoders Are Scalable Vision Learners
https://openaccess.thecvf.com/content/CVPR2022/papers/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.pdf
CVPR
2022
Vision Transformerの事前学習として、Masked Autoencoder(MAE)が有効であることを示した
#daichi
#Yuro_Kanada
#Yuma_Oe