ファッション性にフォーカスした画像生成
書誌情報
タイトル:Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models
掲載元 :WACV Workshop(2nd Workshop on the Applications of Computational Imaging)
掲載年 :2025
著者  :Qice Qin, Yuki Hirakawa, Ryotaro Shimizu, Takuya Furusawa, Edgar Simo-Serra
リンク :https://openaccess.thecvf.com/WACV2025_workshops/WACI
何をしている論文?
あるファッションスナップを、よりファッショナブルに変換する手法を提案
潜在拡散モデル、特にStable Diffusion v-1.5を利用
学習データはWEARから作成
手法の概要
拡散モデルによる画像編集
入力のファッションスナップ(ある一名の人物が衣服を身に着けた画像)をノイズに崩壊させる
入力のファッションスナップから、セグメンテーションマップを得る
逆拡散過程の途中で、画像のファッション性を考慮する(the fashion loss、Mid-U)
拡散モデルの出力とセグメンテーションマップを合わせることで、被写体の特徴(顔、手足、ファッションアイテムなど)を維持した編集(生成)が可能
データセットの作成
ファッション性に関するデータの付いたファッションスナップが必要→WEARの画像を専門家がアノテーション
OpenSkill ベースのデータセット
OpenSkill :オンライン対戦ゲームのユーザのスコア付け用フレームワーク
Mid-U分類器の学習用データ
6,000枚のWEARの画像で構成
数百名のアノテータグループを二つ用意
ある2枚のファッションスナップを見て、どちらがよりファッショナブルであるかを判定する(アノテータはグループから無作為に1名選ばれる)
判定結果をもとに、パラメータを更新する
このアノテーションを、二つのグループの判定の相関係数が飽和するまで繰り返す
判定されたファッション性は、1~3の整数値で正規化
5-scoreベースのデータセット
専門家が特に必要と考える5つの観点(清潔感、調和、シルエット、スタイリング、トレンド性)をペアワイズ比較で点数付け
831枚のWEARの画像で構成
アノテータ数不明
ある2枚のファッションスナップを見て、5つの観点においてそれぞれどちらが良いか判定する
最終的な判定結果をもとに、各スナップの5観点それぞれを、1~5のスコアに変換
5観点のスコアの平均値が、各スナップのFashion Score
工夫している点
Classifier GuidanceとControlNetを組み合わせる
オリジナルのClassifier Guidanceではなく、Mid-U Guidanceを採用したのは、計算効率をあげるため
セグメンテーションマップによる品質補完
SDXLのRefiner的な役割
エキスパートアノテーションによるデータセット作成(超大規模)
評価実験の方法と結果
ファッション性予測モデルの精度
OpenSkillベース(3分類)と5-scoreベース(5分類)それぞれでファッション性の予測モデルを作成、評価
ImageNet 1kで事前学習したResNetをベースとする
OpenSkillベースは60%、5-scoreベースは65%の分類精度を獲得
主観的であるファッション性をこの精度で分類できた、として、十分信頼できるものとする
ファッションスコアの比較
前述した2種の分類器で生成画像のファッションスコアが増加したか計測
ベースラインはFashion++ [1]
ベースラインと比較して、2種の分類器ともに、提案手法の生成結果においてファッション性が増加した割合が高く、減少した割合が低いことが明らかになった
生成画像のクオリティの定性評価
生成画像の品質を評価
ベースラインのFashion++では、被写体を細く見せるような生成をおこなう傾向あり→四肢の欠損等が発生
セグメンテーションマップによる構図補完により、提案手法は品質を落とさずに画像をおしゃれにできていた
ユーザによるファッション性の定性評価
ベースラインのFashion++による生成結果、提案手法による生成結果それぞれに対し、生成結果のファッション性が上昇しているかを被験者実験で評価
被験者数は5名
5名全てにおいて、提案手法の生成結果のファッション性上昇がベースラインと比較して観測された
面白いと感じた点
ファッションに関するエキスパートによるアノテーションを実施
OpenSkillという、採点方法を採用
アノテーション対象にはWEAR内の画像を利用
評価用分類器の自主制作&精度評価も実施
そのほかの感想
ZOZOや早稲田大所属の、ファッション関連の研究をされている方々の論文
やはり「ファッション性は本質的には主観的なものである」という前提の上での研究
専門家による大規模アノテーションができるのが強い...
(To_do)ControlNetを自作できるか調査する、Classifier Guidanceについて理解する
参考文献
[1]Hsiao, Wei-Lin, et al. "Fashion++: Minimal edits for outfit improvement." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
#Yuma_Oe
#paper