Diffusion Modelによるパーソナライズされたコーディネートの生成
書誌情報
タイトル:Diffusion Models for Generative Outfit Recommendation
著者名:Yiyan Xu、Wenjie Wang、Fuli Feng、Yunshan Ma、Jizhi Zhang、Xiangnan He
会議名:SIGIR 2024
この論文でやっていること
パーソナライズされたコーディネートを生成するタスク「GOR(Generative Outfit Recommendation)」の提案
ユーザが過去に閲覧したファッションアイテムを条件とする、パーソナライズされたコーディネートの生成
(コーディネートとは「ファッションアイテム画像の集合」を指す)
GOR(Generative Outfit Recommendation)
ユーザの嗜好(過去に閲覧したファッションアイテムなど)を入力とし、ユーザにパーソナライズされたコーディネートを生成するタスク
以下の3観点でタスクの達成度合いを評価
Fidelity(忠実性):ファッションアイテムのディテールを正確に描画できているか
Compativility(相性):コーディネート全体の調和が取れているか
Personalization(パーソナライズ):特定のユーザの嗜好と合致しているか
DiFashion(GORを達成するための提案手法)
条件付きDiffusion Modelがベース
複数のファッションアイテム画像を同時に生成(T-シャツ、デニムパンツ、スニーカーなど)
「アイテムカテゴリ」「ユーザの嗜好」「アイテム間の相性」を条件に、画像生成を実行
「アイテムカテゴリ」はデータセット内のファッションアイテム画像に付与されているものを使用
例:カテゴリが「shirt」なら、「a photo of a shirt」のようにプロンプト化
「ユーザの嗜好」は、ユーザが過去に閲覧したファッションアイテムの画像を使用
例:生成するカテゴリが「shirt」なら、あるユーザが過去に閲覧した「shirt」カテゴリのファッションアイテム画像を取得
ユーザが過去に閲覧したファッションアイテム画像の平均特徴量を条件付けに使用
ユーザが過去に閲覧したファッションアイテムと似た見た目の画像を生成可能に
「アイテム間の相性」は、同時に生成する他アイテムの平均特徴量を使用
例:shirtを生成するとき、同時に生成するbottomsやsneakersから影響を受ける
shirtを除いた他アイテムの平均特徴量を生成の条件に利用
(この平均特徴量がアイテム間の相性を保障するロジックは不明)
自動評価と被験者評価(GORタスクにおける生成ベースの手法との比較のみ掲載)
自動評価
生成された画像を元に、以下の尺度で評価
FID
IS
IS accuracy
CLIP Score
CLIP Image Score(CLIPの画像エンコーダで獲得した、生成画像と実データの画像特徴量のコサイン類似度)
LPIPS
Personalization(ユーザが過去に閲覧したアイテムの画像との画像類似度)
比較手法より良い精度
CLIP Scoreのみ低い(テキスト以外の条件を入れたことが原因か)
被験者評価
GORタスクの達成度「Fidelity」「Compatibility」「Personalization」を評価
Fidelity:各手法で生成した画像を提示し、「どちらのほうがリアルなファッションアイテムを表現できているか」
Compatibility:コーディネート(ファッションアイテム画像の集合)を提示し、アイテム間の相性がよいか
Personalization:生成したコーディネートと、ユーザが過去に閲覧したアイテムを提示し、ユーザの嗜好が表現できているか
sd-v1.5、sd-v2よりも提案手法は良い評価を獲得
まとめ
アイテム間の相性を条件付けする機構の仕組みがやや不明
ファインチューニング方法、実験時の比較手法によるGORタスクの取り組み方がやや不明
コーディネートを「ファッションアイテムの集合」としている点が自分の研究と異なる
「ユーザは、自身が過去に閲覧したアイテムに近いアイテムを好むであろう」という仮定に基づいた条件付けや評価方法は参考になった