ReflectionFlow
https://gyazo.com/6a3c4ef78fc78fc70485108081b01457
https://diffusion-cot.github.io/reflection2perfection/
Project
https://github.com/Diffusion-CoT/ReflectionFlow
Diffusion-CoT/ReflectionFlow
https://huggingface.co/collections/diffusion-cot/reflectionflow-release-6803e14352b1b13a16aeda44
ReflectionFlow release
https://arxiv.org/abs/2504.16080
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
同一プロンプトで複数枚を生成し、それぞれの画像に対してマルチモーダル検証機が修正点を指示(場合によってはプロンプトを修正)
Correctorモデル(今回は
GenRef
で
Reflection-Tuning
されたFlux.1-dev)がその指示に従い画像を修正(再生成)
これを所定の回数繰り返すことで
Chain-of-Thought
っぽいことをする
幅 vs 深さ
幅は最初に生成する画像の枚数
深さは修正を繰り返す回数
同じ予算ならば幅を増やすよりも、深さを増やしたほうがスコアが高い