テキスト入力に基づきコーディネートを構築する「Text2Outfit」

書誌情報

タイトル：Text2Outfit: Controllable Outfit Generation with Multimodal Language Models

掲載元　：ICCV

掲載年　：2025

著者　　：Yuanhao Zhai, Yen-Liang Lin, Minxu Peng, Larry S. Davis, Ashwin Chandramouli, Junsong Yuan, David Doermann

リンク　：https://openaccess.thecvf.com/content/ICCV2025/papers/Zhai_Text2Outfit_Controllable_Outfit_Generation_with_Multimodal_Language_Models_ICCV_2025_paper.pdf

何をしている論文？

テキスト入力からコーディネートを検索するフレームワークを提案

単に、完成済みのコーディネートを検索するのではなく、アイテム集合から個々のアイテムを選び、組み合わせることでコーディネートを構築する

手法の概要

Text-to-Outfit Generation

テキストを入力すると、テキスト内のコーディネートや個々のアイテムの特徴に合うコーディネートを構築し、出力する

https://scrapbox.io/files/69bb7fa2b9e150750aea6ab5.png

上図のアーキテクチャで、以下の３つの損失の重み付き和で学習する

LLMには、テキストクエリと同時に、各カテゴリに該当するイメージトークンを追加する

CLIPのように、イメージトークンとアイテムの埋め込みの表現が近づくように学習

Outfit Retrieval Loss

同一カテゴリのアイテム・イメージトークンのそれぞれの埋め込みが近づくように学習する

Attention Mask Loss

Self-Attention機構において、同一カテゴリのアイテム・画像にAttentionが働くようにガイドする

Compatibility Loss

Outfit全体で、アイテム間の相性が良くなるように学習する

既存モデル「Outfit Transformer」のCompatibility Scoreを最大化するように学習

Seed-to-Outfit Generation

コーディネートの記述と１枚のアイテム画像を入力すると、記述に合うように他アイテムを選択し、コーディネートを完成させる

https://scrapbox.io/files/69bb807db9e150750aea6c92.png

上記のText-to-Outfit Generationモデル内のAttention Mask Lossの代わりに、Composition Lossを導入する

Composition Loss

ファッションアイテムの埋め込み

画像とテキストをそれぞれFashionCLIPで埋め込み→Concat & MLP

テキストは、Claude3でアノテーション

工夫をしている点

各カテゴリのイメージトークンに、該当するカテゴリのテキストの注意が向くようなガイド（Attention Mask Loss）

VLM（Claude-3）による自動アノテーション

人間によるアノテーションとの一致度まで計測

評価実験の方法と結果

既存手法GILLとの比較

アイテム間の相性がより向上

正解データ内のコーディネートに近いコーディネートが構築可能に

アブレーションスタディ

LLMの重みを固定せず、モデル全体をE2Eで学習させることでP@10が大きく改善

面白いと感じた点

コーディネートを構築する手法

集合単位で検索・生成するのではなく、個々のアイテムを探し、相性も考慮して組み合わせている

VLMによるアノテーション

Claude-3を使用

人間によるアノテーションの一致度を評価

全体で94.7%一致（色：97.3％、アイテムの特徴：95.5％、シーン：92.2％、季節：93.6％）

その他感想

LLM as a Judgeや自動アノテーションが一般化している

その上で、人間の出力との一致度まで図っている点は参考になる

学習後の推論でコーディネートを検索する仕組みに関する説明が簡略過ぎる気がする

先行研究の論文内に載っているかもしれないので要チェック

#Yuma_Oe

#paper