テキスト入力に基づきコーディネートを構築する「Text2Outfit」
書誌情報
タイトル:Text2Outfit: Controllable Outfit Generation with Multimodal Language Models
掲載元 :ICCV
掲載年 :2025
著者  :Yuanhao Zhai, Yen-Liang Lin, Minxu Peng, Larry S. Davis, Ashwin Chandramouli, Junsong Yuan, David Doermann
リンク :https://openaccess.thecvf.com/content/ICCV2025/papers/Zhai_Text2Outfit_Controllable_Outfit_Generation_with_Multimodal_Language_Models_ICCV_2025_paper.pdf
何をしている論文?
テキスト入力からコーディネートを検索するフレームワークを提案
単に、完成済みのコーディネートを検索するのではなく、アイテム集合から個々のアイテムを選び、組み合わせることでコーディネートを構築する
手法の概要
Text-to-Outfit Generation
テキストを入力すると、テキスト内のコーディネートや個々のアイテムの特徴に合うコーディネートを構築し、出力する
https://scrapbox.io/files/69bb7fa2b9e150750aea6ab5.png
上図のアーキテクチャで、以下の3つの損失の重み付き和で学習する
LLMには、テキストクエリと同時に、各カテゴリに該当するイメージトークンを追加する
CLIPのように、イメージトークンとアイテムの埋め込みの表現が近づくように学習
Outfit Retrieval Loss
同一カテゴリのアイテム・イメージトークンのそれぞれの埋め込みが近づくように学習する
Attention Mask Loss
Self-Attention機構において、同一カテゴリのアイテム・画像にAttentionが働くようにガイドする
Compatibility Loss
Outfit全体で、アイテム間の相性が良くなるように学習する
既存モデル「Outfit Transformer」のCompatibility Scoreを最大化するように学習
Seed-to-Outfit Generation
コーディネートの記述と1枚のアイテム画像を入力すると、記述に合うように他アイテムを選択し、コーディネートを完成させる
https://scrapbox.io/files/69bb807db9e150750aea6c92.png
上記のText-to-Outfit Generationモデル内のAttention Mask Lossの代わりに、Composition Lossを導入する
Composition Loss
ファッションアイテムの埋め込み
画像とテキストをそれぞれFashionCLIPで埋め込み→Concat & MLP
テキストは、Claude3でアノテーション
工夫をしている点
各カテゴリのイメージトークンに、該当するカテゴリのテキストの注意が向くようなガイド(Attention Mask Loss)
VLM(Claude-3)による自動アノテーション
人間によるアノテーションとの一致度まで計測
評価実験の方法と結果
既存手法GILLとの比較
アイテム間の相性がより向上
正解データ内のコーディネートに近いコーディネートが構築可能に
アブレーションスタディ
LLMの重みを固定せず、モデル全体をE2Eで学習させることでP@10が大きく改善
面白いと感じた点
コーディネートを構築する手法
集合単位で検索・生成するのではなく、個々のアイテムを探し、相性も考慮して組み合わせている
VLMによるアノテーション
Claude-3を使用
人間によるアノテーションの一致度を評価
全体で94.7%一致(色:97.3%、アイテムの特徴:95.5%、シーン:92.2%、季節:93.6%)
その他感想
LLM as a Judgeや自動アノテーションが一般化している
その上で、人間の出力との一致度まで図っている点は参考になる
学習後の推論でコーディネートを検索する仕組みに関する説明が簡略過ぎる気がする
先行研究の論文内に載っているかもしれないので要チェック
#Yuma_Oe
#paper