Flow-GRPO
https://github.com/yifan123/flow_grpoyifan123/flow_grpo
https://www.arxiv.org/abs/2505.05470Flow-GRPO: Training Flow Matching Models via Online RL
https://gyazo.com/f1f7f2d67d4ca3617c16d219d545e9d5
flow-matching modelにオンライン強化学習(RL)を統合した
flow-matching modelはODEを使うためRLが使えないため、SDEへ変換する
GenEvalベンチマークにおける複雑な画像構成タスクにおいて、Flow-GRPOを適用したStable Diffusion 3.5 Mediumが精度を63%から95%に大幅に向上させ、先行研究やGPT-4o (84%) を凌駕しました
LoRAモデル
https://huggingface.co/jieliu/SD3.5M-FlowGRPO-GenEvaljieliu/SD3.5M-FlowGRPO-GenEval
https://huggingface.co/jieliu/SD3.5M-FlowGRPO-Textjieliu/SD3.5M-FlowGRPO-Text
https://huggingface.co/jieliu/SD3.5M-FlowGRPO-PickScorejieliu/SD3.5M-FlowGRPO-PickScore
ComfyUI_workflow
https://gyazo.com/c59a37735b73fe9b5228080e4c4b2b5a
Flow-GPRO_GenEval.json
🟪Stable Diffusion 3.5 Mediumベース
🟩普通にLoRAとして読み込む
https://gyazo.com/e879ed9110537d2c6879d519f7cd9a0ehttps://gyazo.com/0945857917a435bbbe342144da0ebd8e
a photo of a pink Pikachu and a blue tomato.
LoRAなし / あり