Flow-GRPO

https://gyazo.com/f1f7f2d67d4ca3617c16d219d545e9d5

flow-matching modelにオンライン強化学習(RL)を統合した

flow-matching modelはODEを使うためRLが使えないため、SDEへ変換する

GenEvalベンチマークにおける複雑な画像構成タスクにおいて、Flow-GRPOを適用したStable Diffusion 3.5 Mediumが精度を63%から95%に大幅に向上させ、先行研究やGPT-4o (84%) を凌駕しました

LoRAモデル

ComfyUI_workflow

https://gyazo.com/c59a37735b73fe9b5228080e4c4b2b5a

🟩普通にLoRAとして読み込む

https://gyazo.com/e879ed9110537d2c6879d519f7cd9a0ehttps://gyazo.com/0945857917a435bbbe342144da0ebd8e

a photo of a pink Pikachu and a blue tomato.

LoRAなし / あり