大江が読んだ論文リスト(画像生成・ファッション系)

※調査の記録用として、論文以外の記事も含んでいます！

Stable Diffusionを基礎から理解したい人向け論文攻略ガイド

萩原正人(ステート・オブ・AIガイド)

必読論文リストとその概要

キーワード：「拡散モデル」「VAE」「U-Net」「Vision Transformer」「CLIP」

拡散モデル：

U-Net：ニューラルネットワーク

CLIP：Stable Diffusionのテキストエンコーダ、テキストと画像の意味的類似度を計算

https://ja.stateofaiguides.com/20221012-stable-diffusion/

IPO-LDM: Depth-aided 360-degree Indoor RGB Panorama Outpainting via Latent Diffusion Model

https://arxiv.org/abs/2307.03177

(多分)オックスフォード大の生徒の論文

2023

パノラマOutpaintingにLDMを用いた⇒成果あり

GANによる画像補完は汎化性能が低いらしい

アブストだけ

Personalized fashion outfit generation with user coordination preference learning

https://www.sciencedirect.com/science/article/pii/S0306457323001711?casa_token=DoMfgdAnh1MAAAAA:TZRGVzxasEUGamj3kxTX_12a2ZwG-beLupLOxlipWUtX0sudQHV8S_HBNodv00MIzeLPYqYB51Y

EVSEVIER、ACM

2023

ユーザの好みを学習し、互換性のあるファッションアイテムを推薦する→総じて「コーディネート」とする

服装の推薦：よりパーソナライズに重きを置いている

アブストだけ(読んでみたい)

図を見る感じ、アイテムの組み合わせ画像だけを生成：着用画像ではない

Image classification of fine-grained fashion image based on style using pre-trained convolutoonal neural network

https://ieeexplore.ieee.org/abstract/document/8367713

IEEE

商品カテゴリごとにラベル付けされた画像データセットの作成

アブストだけ

Reccomendation of Contemporary Fashon Trends via AI-Enhanced Multimodal Search Engine and Blockchain Integration

https://ieeexplore.ieee.org/abstract/document/10193587

IEEE

no content

アブストだけ★

Multimodal High-order Relationship Inference Network for Fashion Compatibility Modeling in Internet of Multimedia Things

https://ieeexplore.ieee.org/abstract/document/10149524

IEEE

ファッション適合性モデリング(提案手法は優れている)

マルチモーダル：テキスト、画像、動画、音声など、異なる種のデータを組み合わせて学習する(そのモデル)

アブストだけ★

Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework

https://ieeexplore.ieee.org/abstract/document/9893574

IEEE

OutfitGAN：服装生成洋フレームワークの提案、データセット構築

英論文で「コーディネート」は「Outfit」と表記されることが多い！

アブストだけ(ダウンロード済み)⇒読解中

Generative adversarial networks: introduction and outlook

https://ieeexplore.ieee.org/abstract/document/8039016

IEEE

GAN(敵対的生成ネットワーク)のサーベイ論文

仮想現実技術との適合性なども調査

アブストだけ

Anime-to-Real Clothing: Cosplay Costume Generation via Image-to-Image Translation

https://link.springer.com/content/pdf/10.1007/s11042-022-12576-x.pdf

Multimedia Tools and Applications（雑誌）

桂井さんの論文

アニメのキャラクター画像から、コスプレ衣装の画像を生成

GANベースの生成モデル

評価指標

FID：生成画像のクオリティ評価、低いほどよい

LPIPS：画像の多様性をあらわす

いずれも既存手法より提案手法の方がよい結果が出た

アブストだけ

Fashion Style-Aware Embeddings for Clothing Image Retrieval

https://scholar.archive.org/work/hcb4qo7p2bbc3me24mrxy7jpg4/access/wayback/https://dl.acm.org/doi/pdf/10.1145/3512527.3531433

ICMR（short）

2022

桂井さん×ZOZONEXTの論文

画像とメタデータを併用したファッション検索フレームワークの構築

画像＋タグ(季節、身長、スタイル）

同一空間に埋め込むことで、相互的に検索可能に（画像→タグ、タグ→画像）

画像特徴抽出用のResNet-50は、FashionStyle14で事前学習済み

WEARの投稿を利用

対象期間：2017年10月〜2018年9月

投稿数：21,139件（全て女性ユーザーの投稿）

訓練データ：19,830件

テストデータ：1,309件

各投稿には以下の情報が含まれる：

全身画像

ユーザーの身長

タグ（日本語）

2023/10/25発表

ViBE: Dressing for Diverse Body Shapes

https://openaccess.thecvf.com/content_CVPR_2020/papers/Hsiao_ViBE_Dressing_for_Diverse_Body_Shapes_CVPR_2020_paper.pdf

2020

桂井さんの論文(2)の参考文献

人の画像を入力として受けとり、体形を認識して適切な服装を提案する

アブストだけ

Methods and advancement of content-based fashion image retrieval:

https://arxiv.org/pdf/2303.17371.pdf

2023

桂井さんの論文(2)を参照した文献

コンテンツベースのファッション画像検索のサーベイ論文

アブストだけ

Smart Fashion: A Review of AI Applications in Virtual Try-On & Fashion Synthesis

https://www.researchgate.net/profile/Seyed-Omid-Mohammadi/publication/356566875_Smart_Fashion_A_Review_of_AI_Applications_in_Virtual_Try-On_Fashion_Synthesis/links/61a86e86092e735ae2d312d9/Smart-Fashion-A-Review-of-AI-Applications-in-Virtual-Try-On-Fashion-Synthesis.pdf?_sg%5B0%5D=started_experiment_milestone&origin=journalDetail

Journal of Artificial Intelligence and Capsule Networks

2021

Seyed Omid Mohammadi 著

AI×ファッションのサーベイ論文(二年前なので少し古いか...)

アブストだけ

Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags

https://www.sciencedirect.com/science/article/pii/S0957417422021856?via%3Dihub

早稲田×ZOZO

上の論文の前章

ファッションに関する曖昧の表現を認識することに成功

アブストだけ（2024/04/03論文紹介）

Computational Technologies for Fashion Recommendation: A Survey

https://dl.acm.org/doi/abs/10.1145/3627100

ACM

2023

コーディネート推薦のサーベイ論文

アブストだけ

/icons/hr.icon

2023/11/07

VeuModel

https://vue.ai/jp/products/automated-on-model-fashion-imagery/

モデルの着用画像を自動生成サービス

広告向け

人種、体形、ポーズもカスタマイズ可能

/icons/hr.icon

2023/11/08

Body Shape-Aware Object-Level Outfit Completion for Full-Body Portrait Images

https://www.mdpi.com/2076-3417/13/5/3214

2023

雑誌論文

着用画像内のあるアイテム部分をマスクしたとき、着用者の体形検知と、着用アイテムの物体検知を用いることで、マスク部分に適したアイテムを検索することができた

穴埋め問題ではなく、あくまで検索タスク

2023/11/08に論文紹介済み

参考文献として掲載OK

/icons/hr.icon

2023/11/09

An edge guided coarse-to-fine generative network for image outpainting

https://www.sciencedirect.com/science/article/pii/S0925231223003776?casa_token=T-h73ouZ7B4AAAAA:9ZCQDeLsaIjSr6EMiWvk-7sZ69GildNeJ-P9g9yHzMuek0Mhn_ytAYdIlEZtXK0faIAHi_xdhUE

2023

Neurocomputing　雑誌

情報量の少ない画像から、その外郭を補完した画像を生成する

恐らくだけど、「Tシャツから四肢と頭を生やす」にかなり近い

アブストだけ、ど、一度読んでみる

検索scholarWord：「image outpainting + 2023以降」

2023/11/22紹介

/icons/hr.icon

2023/11/20

【YOLOv3】スナックエンドウの収穫に物体検出をつかってみる

https://farml1.com/snackpea_2/

ブログ記事

YOLOv3を追加学習させて、スナップエンドウを検出できるようにしている

追加学習の方法

まずはYOLOの実装

アノテーション付きの教師データを用意する

指定のディレクトリに画像を保存して学習

マシンの都合でいつ試せるかわからない

/icons/hr.icon

2023/12/08

ファッションと機械学習

https://www.ai-gakkai.or.jp/resource/my-bookmark/my-bookmark_vol34-no2/

人工知能学会の記事

いろんな研究をざっくりまとめてくれている

コーディネート・生成の記事にある論文を読む

ファッションに関する研究は最近盛んになってきたらしい

/icons/hr.icon

2023/12/12

VITON: An Image-based Virtual Try-on Network

https://arxiv.org/pdf/1711.08447.pdf

CVPR

2018年

着用画像と衣服の画像が与えられたとき、着用画像を入力された衣服に着せ替える：「仮想試着」という

今回は2Dの画像ベースでおこなう

着用画像の被服部分のマスク画像を利用し、衣服の画像を変形させることで、服が持つ特徴を欠落させることなく着せ替えることができる

VGG19でU-Netを構成したエンコーダデコーダ構造

自然な着用画像であるかどうかは、被験者実験をおこない評価している

12/13 論文紹介

/icons/hr.icon

2023/12/28

Fashion Outfit Complementary Item Retrieval

https://openaccess.thecvf.com/content_CVPR_2020/papers/Lin_Fashion_Outfit_Complementary_Item_Retrieval_CVPR_2020_paper.pdf

CVPR

2020

アブストだけ

/icons/hr.icon

2024/01/07

Hierarchical Fashion Graph Network for Personalized Outfit Recommendation

https://arxiv.org/pdf/2005.12566.pdf

ACM

2020

ファッションアイテム間の相性とユーザの好みの双方を反映したコーディネート推薦

アブストだけ

/icons/hr.icon

2024/01/09

Style-Controlled Synthesis of Clothing Segments for Fashion Image Manipulation

https://ieeexplore.ieee.org/abstract/document/8770290

IEEE

2023

テキストを用いたファッション画像生成のための、画像-テキストペアデータセットの紹介（提案？）

diffusionベースの生成モデルでの有用性が先行研究でも示されている

アブストだけ：被引用論文を探すと、拡散モデル関連の研究が出てくる

（outfit systhesisで検索）

SGDiff: A Style Guided Diffusion Model for Fashion Synthesis

https://arxiv.org/pdf/2308.07605.pdf

2023

既存の拡散モデル（txt2img）＋ガイド用画像により、ファッションアイテムア画像の生成をおこなう

2024/01/12 論文紹介

/icons/hr.icon

2024/01/17

An interactive attribute-preserving fashion recommendation with 3D image-based virtual try-on

https://link.springer.com/article/10.1007/s13735-023-00294-5

Springer

2023

仮想試着＋レコメンデーション（３Dモデル）

/icons/hr.icon

2024/01/22

OutfitTransformer: Outfit Representations for Fashion Recommendation

https://openaccess.thecvf.com/content/CVPR2022W/CVFAD/html/Sarkar_OutfitTransformer_Outfit_Representations_for_Fashion_Recommendation_CVPRW_2022_paper.html]

CVPR

2022

Transformerを用いたファッションアイテムの推薦

推薦するアイテムはデータセット内から取ってくる

アイテムの集合をコーディネートとして提案する（≠着画ではない）

アイテムの相性をスコア化する

アブストだけ

OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data

https://link.springer.com/chapter/10.1007/978-3-031-43148-7_21

ICIAP

2023

ファッション特化CLIPモデルの作成と評価

アブストだけ

Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit Retrieval

https://openaccess.thecvf.com/content/WACV2024/papers/Jang_Lost_Your_Style_Navigating_With_Semantic-Level_Approach_for_Text-To-Outfit_Retrieval_WACV_2024_paper.pdf

WACV

2024

テキストからコーディネートを推薦する

例えば、「夏と秋の間の季節の変わり目に着れるオフィス向けのコーディネート」と入力すれば、アイテム一式を組み合わせてくれる

アイテムはデータセット内

詳しくはこちら

/icons/hr.icon

2024/01/22

DressUp! Outfit Synthesis Through Automatic Optimization

https://craigyuyu.github.io/home/papers/fashion_low_res.pdf

ACM

2012(?)

AnyDoor: Zero-shot Object-level Image Customization

https://arxiv.org/abs/2307.09481

2023

arxiv

ある画像内のオブジェクトを、別の画像に対して違和感なくテレポーテーションさせる

ある種inpaintに近いことがしたい

画像から識別特徴と詳細特徴を獲得して拡散モデルに食わせると、物体の特徴を維持したまま別の画像にテレポーテーションさせることができる

特徴獲得の際に、背景除去やコラージュ作成が有効である

自己教師あり表現学習をおこなうことにより、アノテーションなしの大量データで学習が可能

Zero-shotで未知のオブジェクトも扱うことが可能

アリババグループの最新論文である

2024/01/26論文紹介

/icons/hr.icon

2024/04/08

RecSysの論文調査

Multi-Modal Dialog State Tracking for Interactive Fashion Recommendation

/icons/hr.icon

2024/04/30

POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion

https://dl.acm.org/doi/10.1145/3292500.3330652

2019

SIGKDD（データマイニング系のトップカンファレンス）

ファッションアイテム間の相性とユーザの嗜好を利用したTransformerアーキテクチャのコーディネート推薦システムの提案

マルチモーダルEmbeddingでアイテムの画像、アイテム名、ユーザのクリック履歴をベクトル化

コーディネート内のマスクされたアイテムを補完するタスク（Fill in the blank）を解くことで、アイテム間の相性を学習

Transformerのデコーダでユーザの嗜好信号とアイテムのベクトルを入力とし、コーディネートを生成

提案手法はCTRにおいて、協調フィルタリングを上回った

2024/04/30論文紹介

/icons/hr.icon

2024/05/01

OutfitTransformer: Learning Outfit Representations for Fashion Recommendation

https://openaccess.thecvf.com/content/WACV2023/papers/Sarkar_OutfitTransformer_Learning_Outfit_Representations_for_Fashion_Recommendation_WACV_2023_paper.pdf

2023

WACV

Learning to LankとTransformerを使ったコーディネート推薦

アイテムベース推薦

アブストのみ

Toward Explainable Fashion Recommendation

https://openaccess.thecvf.com/content_WACV_2020/papers/Tangseng_Toward_Explainable_Fashion_Recommendation_WACV_2020_paper.pdf

2020

WACV

コーディネートの良し悪しをスコア化＆その説明を可能に

「Recommending Outfits from Personal Closet」の続きの研究

Outfit Graderの分類結果をコーディネートのスコアとして利用

ファッションアイテムが持つ特徴のうち、人間が解釈可能な特徴として「色、形状・テクスチャ」の二つを利用

色：k-meansクラスタリングで主要3色を獲得→9次元のベクトル化

形状・テクスチャ：Cannyエッジ検出器でエッジマップを獲得→CNNでベクトル化

「ファッションアイテムの特徴がコーディネートのスコアに与える影響度」として「IFIV」という指標を定義

アイテムの特徴から得たベクトルと、「スコアの、アイテムの特徴に対する微分」のアダマール積から算出

各アイテムの特徴毎に算出

IFIVが最大のアイテムの特徴＝スコアに最も影響力のあるアイテムの特徴

評価実験を自働化

Outfit Graderによるスコアが高いコーディネートに含まれるアイテム、またはその色/エッジマップを置換したコーディネートを作成

評価の低いコーディネートの原因となったアイテム/特徴を正しく当てることができるか、で評価

アイテム/エッジマップの置換は高精度で検出、色は精度まちまち（置換の前後でスコアの変化小が原因か）

「XAI」の研究

2024/06/18論文紹介

/icons/hr.icon

2024/05/02

Recommending Outfits from Personal Closet

https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w32/Tangseng_Recommending_Outfits_From_ICCV_2017_paper.pdf

2017

ICCV

東北大学、サイバーエージェント、理研の共同研究

コーディネートの良し悪しを分類

二値分類タスクとして学習

データセット内のコーディネートに関して、いいねが1つでもついていれば「良いコーディネート」とする（正例）

良いコーディネートの構成アイテムをランダムにひとつ別のアイテムに入れ替えたものを「悪いコーディネート」とする（負例）

定量評価により、8割ほどの分類精度を誇る

「Polyvore dataset」を作成

アイテム及びコーディネートを含む

メタデータあり

このデータセットを使った論文を探す

「Toward Explainable Fashion Recommendation」の元となった論文

「いいねを使うのは一般的である」的な感じで引用可能

2024/05/17 論文紹介

/icons/hr.icon

2024/05/21

Learning Fashion Compatibility with Bidirectional LSTMs

https://arxiv.org/pdf/1707.05691

2017

arXiv

LSTMによるコーディネート推薦

Polyvoreのデータセットを使用した研究（新たに自作している）

引用数がかなり多め

アブストのみ

ZOZOの論文紹介サイトより

Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data

https://arxiv.org/pdf/1608.03016

2017

arXiv（他の会議にも出ているようだが）

外見とメタデータに基づくコーディネートのスコアリング

メタデータによるコーディネートの評価を利用（おそらく「いいね」）

Polyvoreのデータセットを使用した研究

アブストのみ

ZOZOの論文紹介サイトより

/icons/hr.icon

Disentangling Features for Fashion Recommendation

https://dl.acm.org/doi/pdf/10.1145/3531017

ACM Transactions on Multimedia Computing, Communications, and Applications（ジャーナルの論文）

2023

ファッションに関するレコメンデーションのためのDisentandled Represantatioの獲得

アブストのみ

/icons/hr.icon

2024/06/18

Fashion Coordinates Recommender System using Photographs from Fashion Magazines

https://www.kecl.ntt.co.jp/as/members/iwata/ijcai2011.pdf

IJCAI

2011

ファッションアイテム画像を入力とすると、それに相性のいい他アイテムを推薦する（確率的トピックモデルを利用）

著者が日本人

人手による評価は無し

アブストだけ（読む予定あり）

/icons/hr.icon

2024/07/16

Aesthetic-based Clothing Recommendation

CNNから得た画像特徴に加えて、美学的特徴（the aesthetic feature）を用いたコーディネート推薦

美学的特徴はBDN（Brain-inspired Deep Network）から獲得

構造はCNN

AVA（Aesthetic Visual Analysis）データセットで学習

ベースラインを上回る推薦精度を獲得

アブストだけ

/icons/hr.icon

2024/07/24

“Hi, Magic Closet, Tell Me What to Wear!”

https://dl.acm.org/doi/10.1145/2393347.2393433

ACM international conference on Multimedia

2012

オケージョンからコーディネート画像を検索/推薦可能にするためのデータセット、分類器の提案

オケージョン＝機会、目的

例えば「結婚式に出席したい！」というニーズがあるとき、オケージョンは「結婚式」となり、このオケージョンに適するコーディネート画像を出力

分類器はSVMベースで作成

データセット「WoW」は、オケージョンやアイテムに関する情報をアノテーションしたコーディネート画像データセット

引用件数が多く、コーディネート推薦分野の先駆けとなった論文

2024/07/19論文紹介

詳しくはこちら

SHIFT15M: Fashion-specific dataset for set-to-set matching with several distribution shifts

https://openaccess.thecvf.com/content/CVPR2023W/CVFAD/papers/Kimura_SHIFT15M_Fashion-Specific_Dataset_for_Set-to-Set_Matching_With_Several_Distribution_Shifts_CVPRW_2023_paper.pdf

CVPR

2023

大規模なデータセットの公開＋分布シフトを考慮した分析基盤の提案

データセット「SHIFT15M」

ファッションアプリ「IQON」（現在はサービス終了）から収集したコーディネートを基に作成

2010年～2020年までのデータを利用

コーディネートやアイテムの情報に加えて、投稿日時、いいね数、ジャンル・カテゴリなども含む

分布シフトを考慮した分析基盤

そもそも機械学習を行なう際、訓練データとテストデータはそれぞれ独立同値分布に従うという仮定を置いている

しかしファッションには「流行・トレンド」という概念が存在し、データセットの収集時期によって含まれるアイテムやコーディネートに偏りが生じる

時間によってデータの分布が変わることを「分布シフト」と呼ぶ

分類器の損失関数に確率の密度比を重みとすることで、分布シフトを考慮した学習が可能となる

ZOZO Researchから出た論文

データセットの中身の確認や試運転は未完了

Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation

https://openaccess.thecvf.com/content/CVPR2023/papers/Otani_Toward_Verifiable_and_Reproducible_Human_Evaluation_for_Text-to-Image_Generation_CVPR_2023_paper.pdf

CVPR

2023

Text-to-Image系論文のサーベイ＋被験者評価用プロトコルの提案

主要なText-to-Image系の論文では、自動評価のみor自動評価＋被験者評価でモデルを評価している場合が多い

しかし既存の自動評価手法は、人間の認識と矛盾が生じることが指摘されている（FID，CLIPScore）

一方で被験者評価の標準的な評価方法が存在しないため、基準や質問の粒度もバラバラ...

標準的被験者評価用プロトコルの提案

モデルが生成した画像に対して、「忠実度（fidelity）」と「連合度（alignment）」の二観点で評価

リッカート尺度を用いた評価の質問・項目に具体性を持たせる

改善前（例）Q.この画像のクオリティについて評価してください

1. 全くよくない

2. あまりよくない

改善後（例）Q. この画像はAIが生成した画像に見えますか？実際の写真に見えますか？

1. AIが生成した画像

2. 恐らくAIが生成した画像であるが、写実的である

「比較評価」ではなく「絶対評価」

「比較評価」：「この画像群の画像に、クオリティに関してランキングを付けてください」では、モデル間の性能差ではなく画像間の違いしか明らかにならない

2024/07/30 論文紹介

Diffusion Models for Generative Outfit Recommendation

https://dl.acm.org/doi/10.1145/3626772.3657719

SIGIR

2024

拡散モデルを用いたコーディネート推薦（タイトルのまんま）

2024/09 論文紹介

詳しくはこちら

/icons/hr.icon

2024/10/09

TryOnDiffusion: A Tale of Two UNets

https://openaccess.thecvf.com/content/CVPR2023/papers/Zhu_TryOnDiffusion_A_Tale_of_Two_UNets_CVPR_2023_paper.pdf

CVPR

2023

拡散モデルを用いた仮想試着（Virtual Try-On）

OutfitAnyoneが、このアーキテクチャを参考に設計された

2つのU-Netを統合したDiffusionベースのアーキテクチャにより、服のディテールを維持しつつ自然な着用画像の生成に成功

アブストだけ

/icons/hr.icon

2024/11/02

ReVisE: Emulated Visual Outfit Generation from User Reviews Using Generative-AI

SEDE（Software and Data Engineering）

2024

ユーザレビューから衣服を生成するフレームワークの提案

大規模言語モデルと画像生成AIの併用

専門家による評価あり

ざっくり読み

Item-region-based style classification network (IRSN): a fashion style classifier based on domain knowledge of fashion experts

Applied Intelligence（Springer論文誌）

2024

アイテムレベルでの特徴と組み合わせに焦点を当てたスタイル分類ネットワークの提案

分類対象はファッションスナップ画像

「FashionStyle14」というデータセットを利用

アブストのみ

What Makes a Style: Experimental Analysis of Fashion Prediction

ICCV

2017

スタイル分類のためのデータセット「FashionStyle14」の提案

国産のファッションデータセット

被写体1名が写ったファッションスナップ画像と、スタイルを表すタグのデータセット

スタイルは全部で14種（カジュアル、フェミニンなど）

スタイル分類タスクの評価

ResNet-50が最も高精度で分類

人間 VS 機械学習モデル

ファッションに詳しい被験者 VS ファッションに詳しくない被験者 VS ResNet50

スタイル分類タスクを実施

ファッションに詳しい人間（精度82%） > ResNet50（72%） > ナイーブユーザー（62%）

ResNet50の注目領域可視化

ResNet50は色・模様・アクセサリー（例: フリル・サングラス・ベルト）に強く反応

一方で人間はスタイルの文脈的理解やアイテムの組み合わせに基づいて判断する傾向

早稲田大学シモセラ研の方々の論文

シモセラ研では他にも様々なデータセットを公開中

https://esslab.jp/~ess/ja/data/

もしかしたら何かに使えるかも？

アブストのみ

Neuroaesthetics in Fashion: Modeling the Perception of Fashionability

CVPR

2015

ファッション性のモデリングのためのデータセット「Fashion144k」の提案

引用件数200件超えのシモセラさんの論文

ユーザ評価からファッション性（Fashionability）のモデリング

ユーザ評価＝いいね数（論文内では「the number of VOTE」）

「ファッション性は専門家が評価するのが一番だし、見る人によって左右されるだろう」→「ファッショナブルさの代わりに大衆の嗜好を活用」

2024/11/19論文紹介

/icons/hr.icon

2024/11/11

Uni-DlLoRA: Style Fine-Tuning for Fashion Image Translation

https://dl.acm.org/doi/pdf/10.1145/3664647.3681459

SIGMM

2024

ファッション画像生成用のLoRA学習手法の提案

画像生成には拡散モデルを利用

アブストのみ（紹介予定）

Show Me The Best Outfit for A Certain Scene: A Scene-aware Fashion Recommender System

https://www.researchgate.net/profile/Qi-Zhang-339/publication/368544413_Show_Me_The_Best_Outfit_for_A_Certain_Scene_A_Scene-aware_Fashion_Recommender_System/links/6405d8320d98a97717e2e2d4/Show-Me-The-Best-Outfit-for-A-Certain-Scene-A-Scene-aware-Fashion-Recommender-System.pdf

WWW

2023

シーン（≒場所）に着目したコーディネート推薦システムの提案

アイテム、コーディネート、シーンをそれぞれ推薦可能

それぞれの評価を実施

アブストのみ（紹介予定）

/icons/hr.icon

2024/11/18

A Fashion Item Recommendation Model in Hyperbolic Space

https://openaccess.thecvf.com/content/CVPR2024W/CVFAD/papers/Shimizu_A_Fashion_Item_Recommendation_Model_in_Hyperbolic_Space_CVPRW_2024_paper.pdf

CVFAD（Workshop on Computer Vision for Fashion, Art, and Design）（CVPR）

2024

ファッションアイテム推薦モデルの学習に、双曲空間における距離尺度を導入

ZOZO研究所の方々の論文

「CVFAD」とは、CVPR内で開催されるファッションやアートに焦点を当てたワークショップ

2024年が7度目の開催

査読あり、採択率低

アブストのみ

/icons/hr.icon

2024/11/20

FashionVQA: A Domain-Specific Visual Question Answering System

https://openaccess.thecvf.com/content/CVPR2023W/CVFAD/papers/Wang_FashionVQA_A_Domain-Specific_Visual_Question_Answering_System_CVPRW_2023_paper.pdf

CVFAD（CVPR）

2023

ファッション領域におけるVQAタスクのためのデータセットの設計手法の提案

メタデータをテンプレートに入力することで、自然言語の質問文・回答文を生成

画像-質問-回答の三つ組みを作ることで、既存のVLMの訓練に利用可能

人間 VS VLM

作ったデータセットで学習したVLMは、人間の回答精度を上回る

一般的な検索や推薦に加え、最近注目される「対話型検索・推薦」にも利用可能

2024/11/26 論文紹介

/icons/hr.icon

2024/11/28

FashionVLP: Vision Language Transformer for Fashion Retrieval With Feedback

https://openaccess.thecvf.com/content/CVPR2022/papers/Goenka_FashionVLP_Vision_Language_Transformer_for_Fashion_Retrieval_With_Feedback_CVPR_2022_paper.pdf

CVPR

2022

ファッション領域に対応したVision and Languageモデルの提案

ファッション関連のVLM論文をここから芋づる式に探す

アブストのみ

/icons/hr.icon

2024/12/02

StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

https://openaccess.thecvf.com/content/CVPR2024/papers/Kim_StableVITON_Learning_Semantic_Correspondence_with_Latent_Diffusion_Model_for_Virtual_CVPR_2024_paper.pdf

CVPR

2024

Diffusionモデルを利用した仮想試着の提案

事前学習済みモデルに蓄積された知識を利用

（2024/12/17追記）「VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization」のフォローアップ研究

アブストのみ

Street TryOn: Learning In-the-Wild Virtual Try-On from Unpaired Person Images

https://openaccess.thecvf.com/content/CVPR2024W/CVFAD/papers/Cui_Street_TryOn_Learning_In-the-Wild_Virtual_Try-On_from_Unpaired_Person_Images_CVPRW_2024_paper.pdf

CVFAD（CVPR）

2024

Diffusionモデルを利用した仮想試着の提案

様々な場所、ポーズに対応

アブストのみ

Artifact Does Matter! Low-artifact High-resolution Virtual Try-On via Diffusion-based Warp-and-Fuse Consistent Texture

https://openaccess.thecvf.com/content/CVPR2024W/CVFAD/papers/Tseng_Artifact_Does_Matter_Low-artifact_High-resolution_Virtual_Try-On_via_Diffusion-based_Warp-and-Fuse_CVPRW_2024_paper.pdf

CVFAD（CVPR）

2024

DIffusionモデルを利用した仮想試着の提案

衣服の詳細な特徴保持に強い

アブストのみ

/icons/hr.icon

2024/12/05

DAtRNet: Disentangling Fashion Attribute Embedding for Substitute Item Retrieval

https://openaccess.thecvf.com/content/CVPR2022W/CVFAD/papers/Bhattacharya_DAtRNet_Disentangling_Fashion_Attribute_Embedding_for_Substitute_Item_Retrieval_CVPRW_2022_paper.pdf

CVFAD（CVPR）

2022

ファッションアイテム検索のためのDisentangledな特徴量獲得（そのためのネットワークの提案）

検索や推薦領域における「Disentangled Representation」の利用の一例 in Fashion

アブストのみ

/icons/hr.icon

2024/12/06

OutfitGAN: Learning Compatible Items for Generative Fashion Outfits

https://openaccess.thecvf.com/content/CVPR2022W/CVFAD/papers/Moosaei_OutfitGAN_Learning_Compatible_Items_for_Generative_Fashion_Outfits_CVPRW_2022_paper.pdf

CVFAD（CVPR）

2022

コーディネートを補完するためのアイテム画像をGANで生成する手法を提案

生成時、コーディネート間の各アイテムの相性を測る機構（Fashion Item Compatibility Network）を利用

コーディネートを入力すると、相性の良いコーディネートかどうかを判定する

ファッションアイテムは画像として利用（学習済みCNNで特徴量化）

アブストのみ

「Diffusion Models for Generative Outfit Recommendation」で引用されている。コーディネートの相性評価の際に利用。

本文では「検索」や「推薦」に利用する、とは明言されていない

（OutfitGANという名称の手法が他論文にもあるが、どちらがオリジナルなのか???）

/icons/hr.icon

2024/12/17

仮想試着のデータセット

https://paperswithcode.com/datasets?task=virtual-try-on

様式は様々（例：服とその着用画像のペア）

Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference Feedback

https://genai-ecommerce.github.io/assets/papers/GenAIECommerce2024/paper8.pdf

Workshop on Generative AI for E-Commerce（CIKM2024のワークショップ）

2024

マルチモーダルモデルを利用したコーディネート推薦

Fill-in-the-blankとアイテム検索において良い精度を獲得

アブストのみ

/icons/hr.icon

2024/12/30

Patching open-vocabulary models by interpolating weights

https://openreview.net/pdf?id=CZZFRxbOLC

NeurIPS

2022

CLIPのファインチューニング時に発生する「破滅的忘却（Catastrophic Forgetting）」を防止するファインチューニング方法「PAINT」の提案

「破滅的忘却」とは、機械学習モデルのファインチューニング後に以前のタスクが全く解けなくなる現象である

詳しくはこちら

/icons/hr.icon

2025/02/06

Secret Seeds in Text-to-Image Diffusion Models

https://openreview.net/forum?id=FLaxARPNRi&referrer=[the%20profile%20of%20Jianbo%20Shi](%2Fprofile%3Fid%3D~Jianbo_Shi1)

NeurIPS

2024

Text2Imageモデルのシード値が生成画像に与える影響についての研究

シード値は、Diffusion Modelが画像生成をおこなう際の初期ノイズを制御する

論文内ではStable DIffusion v-2.0を使用

高品質な画像が生成できる「golden seeds」を発見

特定のシード値において、グレースケール画像が生成されたり、境界線のある画像が生成されたりと、画像のスタイルにまで影響が及んでいることが発覚

Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models

https://arxiv.org/pdf/2412.18421

WACV Workshop

2025

ファッション性を向上させたコーディネート画像を生成する、拡散モデルに基づく画像生成手法の提案

詳しくはこちら

An Empirical Analysis of GPT-4V’s Performance on Fashion Aesthetic Evaluation

https://dl.acm.org/doi/abs/10.1145/3681758.3698022

SIGGRAPH Asia 2024

2024

GPT-4Vと人間の、ファッションに関する評価（コーディネートが似合うか）が一致するか

ZOZO Researchの方々の論文

詳しくはこちら

/icons/hr.icon

2025/04/02

Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback

https://openaccess.thecvf.com/content/CVPR2021/papers/Wu_Fashion_IQ_A_New_Dataset_Towards_Retrieving_Images_by_Natural_CVPR_2021_paper.pdf

CVPR

2021

ファッション画像の対話型検索のためのデータセットの提案

データセットの分析、検索手法の提案

アブストのみ

/icons/hr.icon

2025/04/12

Conversational Fashion Image Retrieval via Multiturn Natural Language Feedback

https://dl.acm.org/doi/abs/10.1145/3404835.3462881

SIGIR

2021

自然言語によるファッション画像の対話型検索

アブストのみ

/icons/hr.icon

2025/04/14

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

https://arxiv.org/pdf/2208.01618

arxiv

2022

「Textual Inversion」という手法を提案

少量の画像を、新しい擬似単語としてT2Iモデルのテキストエンコーダの空間内で表現

自然言語で指示しづらい表現を生成可能に

Stable Diffusion Web UIの拡張機能としても利用可能

Masked Autoencoders Are Scalable Vision Learners

https://openaccess.thecvf.com/content/CVPR2022/papers/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.pdf

CVPR

2022

Vision Transformerの事前学習として、Masked Autoencoder（MAE）が有効であることを示した

/icons/hr.icon

2025/04/15

Visual Instruction Tuning

https://openreview.net/forum?id=w0H2xGHlkw

NeurIPS

2023

「LLaVA（Large Language and Vision Assistant）」

LLMと画像エンコーダを接続

マルチモーダルなチャット能力を獲得

科学系のデータセットでFine-Tuningした結果、SoTAを達成

Improved Baselines with Visual Instruction Tuning

https://openaccess.thecvf.com/content/CVPR2024/papers/Liu_Improved_Baselines_with_Visual_Instruction_Tuning_CVPR_2024_paper.pdf

CVPR

2024

LLaVA-1.5を提案

LLMにはVicuna（LLaMAをFine-Tuningしたもの）を利用

画像エンコーダにはViTを利用

Chatgpt outperforms crowd-workers for text-annotation tasks.

https://www.pnas.org/doi/full/10.1073/pnas.2305016120

PNAS

2023

NLP関連のテキストアノテーションにChatGPTを使うと、人間がおこなうよりも低コストかつ信頼可能なアノテーションが可能となる

「Visual Instruction Tuning」で引用されている

/icons/hr.icon

2025/05/01

Personalised Outfit Recommendation via History-aware Transformers

https://dl.acm.org/doi/pdf/10.1145/3701551.3703545

WSDM

2025

二つのTransformerを用いた、ファッションアイテム特徴と顧客の購入履歴に基づくコーディネート推薦

IR Reading2025紹介予定

詳しくはこちら

/icons/hr.icon

2025/05/12

UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation

https://aclanthology.org/2024.emnlp-main.89.pdf

EMNLP

2024

マルチモーダルモデルを用いたファッションに関する検索や生成タスク

アブストのみ

Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123580001.pdf

ECCV

2020

「FACADデータセット」を提案

ファッションに関するキャプショニングタスク

アブストのみ

FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks

https://openaccess.thecvf.com/content/CVPR2023/papers/Han_FAME-ViL_Multi-Tasking_Vision-Language_Model_for_Heterogeneous_Fashion_Tasks_CVPR_2023_paper.pdf

CVPR

2023

様々なファッションに関するタスクに対応したモデルの提案

アブストのみ

/icons/hr.icon

2025/05/17

Text2Human: Text-Driven Controllable Human Image Generation

https://dl.acm.org/doi/abs/10.1145/3528223.3530104

ACM Transactions on Graphics

2022

「DeepFashion-MultiModal」という、テキストデータ付きのファッションデータセットを作成

データセットの詳細は調査中

Fashion-Gen: The Generative Fashion Dataset and Challenge

https://arxiv.org/abs/1806.08317

arXiv

2018

「Fashion-Gen」という、テキストデータ付きのファッションデータセットを作成

データセットの詳細は調査中

FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

https://dl.acm.org/doi/pdf/10.1145/3397271.3401430

SIGIR

2020

検索のためのファッションの言語化

Fashion-Genデータセット使用

アブストのみ

「An image is Worth 16x16 Words: Transformers for Image Recognition at Scale（Vision Transformer）」がarxivに投稿されたのがこの年→ICLR2021

Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

https://openaccess.thecvf.com/content/CVPR2021/papers/Zhuge_Kaleido-BERT_Vision-Language_Pre-Training_on_Fashion_Domain_CVPR_2021_paper.pdf

CVPR

2021

「Kaleido-BERT」という、ファッション特化のVision-Language Modelを提案

Fashion-Genデータセット使用

評価タスク等参考になりそう

/icons/hr.icon

2025/05/26

FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning

https://aclanthology.org/2022.emnlp-main.716.pdf#:~:text=FashionBERT%20(Gao%20et%20al,95

EMNLP

2022

LLMのファッションキャプショニング応用

FashionBERT、KaleidoBERT、FaD-VLPの三つが「LLM×ファッションキャプショニング」の代表作か

XAI

Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation

https://arxiv.org/pdf/1806.08977

IEEE Transactions on Knowledge and Data Engineering

2020

コメント生成＋コーディネート推薦

XAI

FashionFAE: Fine-grained Attributes Enhanced Fashion Vision-Language Pre-training

https://ieeexplore.ieee.org/abstract/document/10889957

ICASSP

2025

/icons/hr.icon

2025/05/28

Attribute-wise Explainable Fashion Compatibility Modeling

https://haokunwen.github.io/files/acmtomm2021.pdf

ACM Transactions on Multimedia Computing, Communications, and Applications

2021

コーディネートの良し悪しとその理由を出力する手法を提案

入力はトップスとボトムスの画像ペア

出力はそれぞれのアイテムの属性（色や柄）と組み合わせの良し悪しスコア

XAI

Creating an AI fashioner through deep learning and computer vision

https://link.springer.com/content/pdf/10.1007/s12530-023-09498-w.pdf

Evolving Systems（Springer）

2024

コーディネートの良し悪しを指摘し、アドバイスまで生成

診断：コーディネート内の良くないアイテムを発見

提案：データセット内から代替アイテムを出力

データセット

「ModAI」という既存のデータセットを利用

コーディネート内の個々のアイテムに「これは合っている」「これは合っていない」といった評価が付いたデータセット

XAI

Diagnosing fashion outfit compatibility with deep learning techniques

https://www.sciencedirect.com/science/article/pii/S0957417422023235/pdfft?md5=2d68a0b54193bce3511026377e5aea67&pid=1-s2.0-S0957417422023235-main.pdf

Expert Systems with Applications

2023

「ModAI」データセット作成

コーディネート内の個々のアイテムに「これは合っている（合っていない）」のような評価がついたデータセット

コーディネートの良し悪しの説明文を画像から生成

XAI

Deciphering Compatibility Relationships with Textual Descriptions via Extraction and Explanation

https://ojs.aaai.org/index.php/AAAI/article/view/28764

AAAI

2024

アイテム間の相性関係を説明する文章生成

「なぜ良いのか」まで言語化

汎用LLMはまだファッション特価の説明は難しい？

「Pair Fashion Explanation（PFE）」データセット作成

雑誌などのプロの解説文から、アイテム間の相性を説明した文章データセットを作成

質にこだわったデータセット

約6,000件規模

「画像や説明文から、アイテム間の相性に関する部分を抽出パート」と「説明生成パート」の2パートに分かれている

自動評価・人間評価をともに実施

XAI

詳しくはこちら

/icons/hr.icon

2025/06/09

Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition

https://arxiv.org/pdf/2504.19455

arxiv

2025

ファッションスタイル認識用のデータ拡張フレームワーク「Masked Language Prompting（MLP）」を提案

スタイルに関する情報を含んだテキストとコーディネートの着用画像のペアデータセットを拡張するために利用

Captioning：画像から詳細なキャプションを生成（色・形・素材などを含む）

Masking：名詞や形容詞を50%の割合でマスク

Fill-in-the-mask：LLM（GPT-4o-mini）でマスク部分を文脈的に補完

Text-to-Image生成：完成したプロンプトから画像を生成（SDXL-Turbo使用）

FashionStyle14データセットを利用

ZOZONEXT最新研究

/icons/hr.icon

2025/06/12

I2AM: INTERPRETING IMAGE-TO-IMAGE LATENT DIFFUSION MODELS VIA BI-ATTRIBUTION MAPS

https://openreview.net/pdf?id=bBNUiErs26

ICLR

2025

image-to-image（i2i）タスクにおける、Diffusion Modelの挙動を可視化

参照画像と生成画像において、それぞれにどのような特徴が行き来したのかを明らかに

公式リポジトリ

https://github.com/qkrwnstj306/I2AM

/icons/hr.icon

2025/06/15

Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation

https://arxiv.org/pdf/2504.14011

arXiv

2025

テキストをクエリとし、ファッションアイテムの画像を検索することで着用画像を編集する「Fashion-RAG」を提案

入力：編集要求を記述したテキスト、編集対象の画像

出力：編集後の画像

（例）「白くて水玉模様のワンピース」というテキスト+黒いワンピースを来た女性の画像→白くて水玉模様のワンピースを来た女性の画像

画像生成の前に、編集要求のテキストに合うアイテム画像を検索する処理が挟まる（＝RAG）

仮想試着やtext-to-imageとの違い

仮想試着との違い

仮想試着では、着用させるアイテムの画像が事前に用意されていることが前提となる

Fashion-RAGは「こんな風に着用画像を編集したい」というテキスト形式の要望（クエリ）さえあればいい

クエリからファッションアイテム画像を検索し、着用画像の生成に利用

text-to-imageとの違い

テキストを用いた画像編集は、編集後の画像に反映したいファッションアイテムを言語で表現する必要あり

しかし、言語化能力の限界と視覚的特徴との乖離がある

Fashion-RAGは同じくテキストを入力とするが、テキストを上手く表現した画像を探すことで、このギャップを埋める

評価方法

画像編集をおこない、既存の評価指標を利用

Stable DiffusionやControlNetと比較し、要求通りの編集が可能に

テキスト要求に合うアイテムがデータ群内に存在することが前提となっている（検索を用いる本手法の限界点）

ファッション画像編集のためのRAGアプローチとして初の試み

/icons/hr.icon

2025/07/04

Conceptual framework of hybrid style in fashion image datasets for machine learning

https://link.springer.com/content/pdf/10.1186/s40691-023-00338-8.pdf

2023

/icons/hr.icon

2025/07/16

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

https://aclanthology.org/2021.emnlp-main.595v2.pdf

EMNLP

2021

画像キャプショニングの評価指標として「CLIPScore」を提案

人間による評価との相関も分析→正の相関あり

NLP系の会議に通っていたのは驚き

Improving Neural Machine Translation Models with Monolingual Data

https://aclanthology.org/P16-1009.pdf

ACL

2016

折り返し翻訳によってデータ拡張をおこない、機械翻訳モデルの性能を向上させた

折り返し翻訳は「Back Translation」とも言う

折り返し翻訳は広くデータ拡張として使われている？

The Back-translation Score: Automatic MT Evaluation at the Sentence Level without Reference Translations

https://dl.acm.org/doi/pdf/10.5555/1667583.1667625

IJCNLP Short

2009

機械翻訳の評価指標として「Back-translation Score」を提案

折り返し翻訳したテキストとの類似度を測り、翻訳の品質を評価

Evaluating Text-to-Visual Generation with Image-to-Text Generation

https://link.springer.com/chapter/10.1007/978-3-031-72673-6_20

ECCV

2024

「VQAScore」という評価指標を提案

VQAモデルを使い、「この画像は{テキスト}を示していますか？」という質問に対する「はい」の確率を計算し、テキストによる画像生成モデルを評価

CLIPScoreが持つBag-of-Words的な性質を克服した生成画像の評価方法

Improved Techniques for Training GANs

https://proceedings.neurips.cc/paper_files/paper/2016/file/8a3363abe792db2d8761d6403605aeb7-Paper.pdf

NIPS（NeurIPS）

2016

GANで生成した画像の評価指標としてIS（Inception Score）を提案した論文

GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium

https://proceedings.neurips.cc/paper/2017/file/8a1d694707eb0fefe65871369074926d-Paper.pdf

NIPS（NeurIPS）

2017

GANで生成した画像の評価指標としてFIDスコアを提案した論文

/icons/hr.icon

2025/07/18

Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models

https://openaccess.thecvf.com/content/CVPR2023/papers/Schramowski_Safe_Latent_Diffusion_Mitigating_Inappropriate_Degeneration_in_Diffusion_Models_CVPR_2023_paper.pdf

CVPR

2023

Text-to-Imageモデルが不適切コンテンツを生成しにくいようにする工夫

「{国} body」というプロンプトで画像生成を実施

「国」には50ヵ国の名前を入れて生成

すると、「Japan」のときに最も裸の画像が生成される確率が高かった

/icons/hr.icon

2025/07/30

Dress Code: High-Resolution Multi-Category Virtual Try-On

https://arxiv.org/pdf/2204.08532

ECCV

2022

Dress Codeデータセットの提案

高解像度かつ多様なカテゴリのアイテム画像を含む仮想試着向けのデータセット

アイテムと、その着用画像のペアデータセット

Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing

https://openaccess.thecvf.com/content/ICCV2023/papers/Baldrati_Multimodal_Garment_Designer_Human-Centric_Latent_Diffusion_Models_for_Fashion_Image_ICCV_2023_paper.pdf

ICCV

2023

マルチモーダルファッション画像編集というタスクを提案

Dress Codeデータセットを、マルチモーダルタスク用に拡張（半自動でキャプショニング）

FashionIQなどの既存のデータセットからキャプションを収集

画像と全キャプションを総当たりで類似度計算し、キャプションを選択

/icons/hr.icon

2025/08/03

Weather-to-Garment: Weather-Oriented Clothing Recommendation

https://www.researchgate.net/profile/Yongbiao-Gao/publication/319569282_Weather-to-garment_Weather-oriented_clothing_recommendation/links/5d1b7375458515c11c0c471d/Weather-to-garment-Weather-oriented-clothing-recommendation.pdf

ICME

2017

天候に合わせたコーディネートを推薦する手法を提案

Weather-to-Garmentデータセットを作成

/icons/hr.icon

2025/08/06

Street-to-Shop: Cross-Scenario Clothing Retrieval via Parts Alignment and Auxiliary Set

https://nlpr.ia.ac.cn/2012papers/gjhy/gh94.pdf

2012

ストリートスナップから、オンラインショップのコーディネート画像を検索する手法を提案

/icons/hr.icon

2025/08/11

HPSv3: Towards Wide-Spectrum Human Preference Score

https://arxiv.org/pdf/2508.03789

arXiv

Text-to-Imageモデルの評価における人間の知覚に合った評価指標「Human Preference Score v3 (HPSv3) 」を提案

/icons/hr.icon

2025/09/04

Multimodal Post Attentive Profiling for Influencer Marketing

https://dl.acm.org/doi/pdf/10.1145/3366423.3380052

WWW

2020

インフルエンサーマーケティングのためのInstagram Datasetの作成

https://github.com/ksb2043/instagram_influencer_dataset

/icons/hr.icon

2025/09/05

Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models

http://arxiv.org/pdf/2407.14944

ECCV Workshop

2024

LLMと画像生成AIを組み合わせたファッション画像生成の提案

プロンプトの生成にLLMを使用

詳しくはこちら

/icons/hr.icon

2025/09/09

Prompt2Fashion: An automatically generated fashion dataset

https://dl.acm.org/doi/proceedings/10.1145/3688671

The 13th Hellenic Conference on Artificial Intelligence

2024

ECCV Workshopの論文内容からデータセットを作成したという内容

/icons/hr.icon

2025/10/03

GenWardrobe: A Fully Generative System for Travel Fashion Wardrobe Construction

https://mysbupt.github.io/image/MM_2025_GenWardrobe.pdf

ACM Multimedia

2025

旅行の時に着るコーディネートを、生成モデルを使ってレコメンドする手法を提案

最新の生成モデルを豊富に組み合わせたパイプラインを提案

/icons/hr.icon

2025/10/08

Prompt Expansion for Adaptive Text-to-Image Generation

https://aclanthology.org/2024.acl-long.189/

ACL

2024

美的さ・多様さの向上を目的としたLLMを用いたプロンプト拡張による画像生成

詳しくはこちら

/icons/hr.icon

2025/10/12

FashionDPO: Fine-tune Fashion Outfit Generation Model using Direct Preference Optimization

https://arxiv.org/pdf/2504.12900

SIGIR

2025

ファッションコーディネート生成モデルのファインチューニング用フレームワークの提案（パーソナライズとコーディネートの多様化が目的）

生成したファッションアイテム画像を、品質・相性・パーソナライズの観点で評価

評価結果をもとに、良いアイテム画像・悪いアイテム画像のペアを作成

作成したペアデータをもとに、DPO（Direct Preference Optimization）でモデルをチューニング

推薦性能の評価

事前学習のみの画像生成AIや提案フレームワークを使わない学習の場合よりも推薦性能向上（自動評価）

既存手法DiFashionよりも多様で、アイテム同士の調和が取れたコーディネートを推薦可能に（専門家による被験者実験評価）

SIGIR 2024の後続研究

IR Reading2025秋にて紹介予定

/icons/hr.icon

2026/01/11

Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models

https://dl.acm.org/doi/epdf/10.1145/3652583.3658032

ICMR

2024

/icons/hr.icon

2026/02/23

Text2Outfit: Controllable Outfit Generation with Multimodal Language Models

https://openaccess.thecvf.com/content/ICCV2025/papers/Zhai_Text2Outfit_Controllable_Outfit_Generation_with_Multimodal_Language_Models_ICCV_2025_paper.pdf

ICCV

2025

テキストを入力とするコーディネート検索フレームワークを提案

詳しくはこちら

/icons/hr.icon

2026/03/24

Generating Images with Multimodal Language Models

https://openreview.net/forum?id=Uczck6TlSZ

NeurIPS

2023

LLMと画像生成AIを統合し、テキスト入力から、テキスト出力、画像検索、画像生成をおこなう

Image Tokenの話

/icons/hr.icon

2026/04/06

Human-Corrected Labels Learning: Enhancing Labels Quality via Human Correction of VLMs Discrepancies

https://www.researchgate.net/publication/402628448_Human-Corrected_Labels_Learning_Enhancing_Labels_Quality_via_Human_Correction_of_VLMs_Discrepancies

AAAI

2026

複数台のVLMで画像のラベル付けをし、VLMの意見が食い違った場合のみ人手でラベル付けをおこなう

アブストのみ

/icons/hr.icon

2026/04/13

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02629.pdf

ECCV

2024

GPT4-Vで作成した高品質なキャプションデータセットで、軽量かつ高性能なVLMを作成

詳しくはこちら

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

https://arxiv.org/pdf/2603.14153

CVPR

2026

複数のアイテムに対応した仮想試着のためのデータセット作成

アブストのみ

/icons/hr.icon

2026/04/23

FashionStylist: An Expert Knowledge-enhanced Multimodal Dataset for Fashion Understanding

https://arxiv.org/pdf/2604.09249

arXiv

2026

専用のパイプラインを用いた専門家のアノテーションによる、大規模かつ網羅性の高いファッションデータセット・ベンチマーク

アブストのみ

Preliminary Study of an Evaluation Benchmark for Vision-Language Models in the Fashion E-Commerce

リンクなし（公開前）

SIGIR

2026

ファッションECサイトにおける何らかのベンチマークに関する論文

タイトルのみ

Dual-Diffusional Generative Fashion Recommendation

https://arxiv.org/pdf/2605.17357

SIGIR

2026

Diffusionモデルを使ったOutfit Recommendationに関する論文

2024年、2025年に出版された生成ベースのレコメンドの続き

Diffusion Models for Generative Outfit Recommendation

FashionDPO: Fine-tune Fashion Outfit Generation Model using Direct Preference Optimization

タイトルのみ

Contrastive language and vision learning of general fashion concepts　　

https://arxiv.org/abs/2204.03972

Scientific Reports（ジャーナル）

2022

ファッションドメインに特化したCLIP「FashionCLIP」を提案

HuggingFaceで使用可能: https://huggingface.co/patrickjohncyh/fashion-clip

データの収集元は「Farfetch」という巨大なECサイト

商品画像検索向けに設計されているため、コーディネート単位の検索には弱い（使用した感想）

/icons/hr.icon

2026/04/27

LiT : Zero-Shot Transfer with Locked-image text Tuning

https://openaccess.thecvf.com/content/CVPR2022/papers/Zhai_LiT_Zero-Shot_Transfer_With_Locked-Image_Text_Tuning_CVPR_2022_paper.pdf

CVPR

2022

画像とテキストの対照学習において事前学習済みのエンコーダを使用する際、画像エンコーダを固定して追加学習した方がよかった

実際にCLIPを事前学習済みのエンコーダとして用いる場合は、どこを学習させるか検証すべし

/icons/hr.icon

2026/05/11

Understanding User Experience with Virtual Try-On and Design Implications for Online Fashion Shopping

https://dl.acm.org/doi/epdf/10.1145/3772318.3791811

2026

CHI

ECサイトにおいて仮想試着がユーザにどのような影響を与えるかを調査

意思決定にかかる時間を減らしつつ、着用感などを判断するのに役立った

/icons/hr.icon

2026/05/20

FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph

https://aclanthology.org/2023.acl-industry.16.pdf

2023

ACL

Knowledge Graphを使った、テキストからの画像検索用マルチモーダルモデルの提案

Beyond Patches: Superpixel Token-based Transformers forAttribute-Specific Fashion Retrieval

https://dl.acm.org/doi/epdf/10.1145/3774904.3792094

2026

WWW

Super Pixcel Tokenを用いたファッション画像検索手法の提案

FashionAI: A Hierarchical Dataset for Fashion Understanding

https://openaccess.thecvf.com/content_CVPRW_2019/papers/FFSS-USAD/Zou_FashionAI_A_Hierarchical_Dataset_for_Fashion_Understanding_CVPRW_2019_paper.pdf

2019

CVPR Workshop

人手でアノテーションをおこなった属性付きファッションデータセットの作成

Generative AI in Fashion: Overview

https://dl.acm.org/doi/epdf/10.1145/3718098

2025

ACM Transactions on Intelligent Systems and TechnologyVolume 16, Issue 4

ファッションドメインにおける生成AIの応用研究をまとめたサーベイ論文

執筆時は2024年

/icons/hr.icon

2026/05/31

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

https://openreview.net/pdf?id=pTHfApDakA

2024

ICLR

LLMが質問応答タスクを解く上での誤りを軽減するために、LLM自らの出力を確認させる

特に、複雑な思考ステップを要するようなタスクに対して有効に働く

/icons/hr.icon

2026/06/04

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

https://openaccess.thecvf.com/content/ICCV2025/papers/Xu_LLaVA-CoT_Let_Vision_Language_Models_Reason_Step-by-Step_ICCV_2025_paper.pdf

2025

ICCV

Vision-Language Modelsで、Chain-of-Thoughtさせたい

2026/06/10紹介予定

/icons/hr.icon

2026/06/08

Clothe and Pose

https://openaccess.thecvf.com/content/CVPR2026/papers/Sharma_Clothe_and_Pose_CVPR_2026_paper.pdf

2026

CVPR

ポーズ指定が可能な仮想試着手法及びタスクの提案

/icons/hr.icon

2026/06/14

DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

https://openaccess.thecvf.com/content_CVPR_2019/papers/Ge_DeepFashion2_A_Versatile_Benchmark_for_Detection_Pose_Estimation_Segmentation_and_CVPR_2019_paper.pdf

2019

CVPR

Computer Vision技術を用いたファッション画像解析のための大規模なデータセット及びベンチマークタスクの提案

本論文の書き方を参考にする

/icons/hr.icon

2026/07/09

Who is a Better Dresser: Your Personal Quality Assessment Agent for Virtual Try-On Digital Humans

https://ieeexplore.ieee.org/abstract/document/11570046

IEEE Transactions on Multimedia

2026

仮想試着品質評価のためのデータセット構築

/icons/hr.icon

キーワード

outfit recommendation, outfit retrieval, clothing recommendation, clothing retrieval, outfit generation, virtual try-on

vison-language models, xai, fashion explaining

back translation, image evaluation, metrics learning

#Yuma_Oe