大江が読んだ論文リスト(画像生成・ファッション系)
※調査の記録用として、論文以外の記事も含んでいます!
Stable Diffusionを基礎から理解したい人向け論文攻略ガイド
萩原 正人(ステート・オブ・AIガイド)
必読論文リストとその概要
キーワード:「拡散モデル」「VAE」「U-Net」「Vision Transformer」「CLIP」
拡散モデル:
U-Net:ニューラルネットワーク
CLIP:Stable Diffusionのテキストエンコーダ、テキストと画像の意味的類似度を計算
IPO-LDM: Depth-aided 360-degree Indoor RGB Panorama Outpainting via Latent Diffusion Model
(多分)オックスフォード大の生徒の論文
2023
パノラマOutpaintingにLDMを用いた⇒成果あり
GANによる画像補完は汎化性能が低いらしい
アブストだけ
Personalized fashion outfit generation with user coordination preference learning
EVSEVIER、ACM
2023
ユーザの好みを学習し、互換性のあるファッションアイテムを推薦する→総じて「コーディネート」とする
服装の推薦:よりパーソナライズに重きを置いている
アブストだけ(読んでみたい)
図を見る感じ、アイテムの組み合わせ画像だけを生成:着用画像ではない
Image classification of fine-grained fashion image based on style using pre-trained convolutoonal neural network
IEEE
商品カテゴリごとにラベル付けされた画像データセットの作成
アブストだけ
Reccomendation of Contemporary Fashon Trends via AI-Enhanced Multimodal Search Engine and Blockchain Integration
IEEE
no content
アブストだけ★
Multimodal High-order Relationship Inference Network for Fashion Compatibility Modeling in Internet of Multimedia Things
IEEE
ファッション適合性モデリング(提案手法は優れている)
マルチモーダル:テキスト、画像、動画、音声など、異なる種のデータを組み合わせて学習する(そのモデル)
アブストだけ★
Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework
IEEE
OutfitGAN:服装生成洋フレームワークの提案、データセット構築
英論文で「コーディネート」は「Outfit」と表記されることが多い!
アブストだけ(ダウンロード済み)⇒読解中
Generative adversarial networks: introduction and outlook
IEEE
GAN(敵対的生成ネットワーク)のサーベイ論文
仮想現実技術との適合性なども調査
アブストだけ
Anime-to-Real Clothing: Cosplay Costume Generation via Image-to-Image Translation
Multimedia Tools and Applications(雑誌)
桂井さんの論文
アニメのキャラクター画像から、コスプレ衣装の画像を生成
GANベースの生成モデル
評価指標
FID:生成画像のクオリティ評価、低いほどよい
LPIPS:画像の多様性をあらわす
いずれも既存手法より提案手法の方がよい結果が出た
アブストだけ
Fashion Style-Aware Embeddings for Clothing Image Retrieval
ICMR(short)
2022
桂井さん×ZOZONEXTの論文
画像とメタデータを併用したファッション検索フレームワークの構築
画像+タグ(季節、身長、スタイル)
同一空間に埋め込むことで、相互的に検索可能に(画像→タグ、タグ→画像)
画像特徴抽出用のResNet-50は、FashionStyle14で事前学習済み
WEARの投稿を利用
対象期間:2017年10月〜2018年9月
投稿数:21,139件(全て女性ユーザーの投稿)
訓練データ:19,830件
テストデータ:1,309件
各投稿には以下の情報が含まれる:
全身画像
ユーザーの身長
タグ(日本語)
2023/10/25発表
ViBE: Dressing for Diverse Body Shapes
2020
桂井さんの論文(2)の参考文献
人の画像を入力として受けとり、体形を認識して適切な服装を提案する
アブストだけ
Methods and advancement of content-based fashion image retrieval:
2023
桂井さんの論文(2)を参照した文献
コンテンツベースのファッション画像検索のサーベイ論文
アブストだけ
Smart Fashion: A Review of AI Applications in Virtual Try-On & Fashion Synthesis
Journal of Artificial Intelligence and Capsule Networks
2021
Seyed Omid Mohammadi 著
AI×ファッションのサーベイ論文(二年前なので少し古いか...)
アブストだけ
Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags
早稲田×ZOZO
上の論文の前章
ファッションに関する曖昧の表現を認識することに成功
アブストだけ(2024/04/03論文紹介)
Computational Technologies for Fashion Recommendation: A Survey
ACM
2023
コーディネート推薦のサーベイ論文
アブストだけ
/icons/hr.icon
2023/11/07
VeuModel
モデルの着用画像を自動生成サービス
広告向け
人種、体形、ポーズもカスタマイズ可能
/icons/hr.icon
2023/11/08
Body Shape-Aware Object-Level Outfit Completion for Full-Body Portrait Images
2023
雑誌論文
着用画像内のあるアイテム部分をマスクしたとき、着用者の体形検知と、着用アイテムの物体検知を用いることで、マスク部分に適したアイテムを検索することができた
穴埋め問題ではなく、あくまで検索タスク
2023/11/08に論文紹介済み
参考文献として掲載OK
/icons/hr.icon
2023/11/09
An edge guided coarse-to-fine generative network for image outpainting
2023
Neurocomputing 雑誌
情報量の少ない画像から、その外郭を補完した画像を生成する
恐らくだけど、「Tシャツから四肢と頭を生やす」にかなり近い
アブストだけ、ど、一度読んでみる
検索scholarWord:「image outpainting + 2023以降」
2023/11/22紹介
/icons/hr.icon
2023/11/20
【YOLOv3】スナックエンドウの収穫に物体検出をつかってみる
ブログ記事
YOLOv3を追加学習させて、スナップエンドウを検出できるようにしている
追加学習の方法
まずはYOLOの実装
アノテーション付きの教師データを用意する
指定のディレクトリに画像を保存して学習
マシンの都合でいつ試せるかわからない
/icons/hr.icon
2023/12/08
ファッションと機械学習
人工知能学会の記事
いろんな研究をざっくりまとめてくれている
コーディネート・生成の記事にある論文を読む
ファッションに関する研究は最近盛んになってきたらしい
/icons/hr.icon
2023/12/12
VITON: An Image-based Virtual Try-on Network
CVPR
2018年
着用画像と衣服の画像が与えられたとき、着用画像を入力された衣服に着せ替える:「仮想試着」という
今回は2Dの画像ベースでおこなう
着用画像の被服部分のマスク画像を利用し、衣服の画像を変形させることで、服が持つ特徴を欠落させることなく着せ替えることができる
VGG19でU-Netを構成したエンコーダデコーダ構造
自然な着用画像であるかどうかは、被験者実験をおこない評価している
12/13 論文紹介
/icons/hr.icon
2023/12/28
Fashion Outfit Complementary Item Retrieval
CVPR
2020
アブストだけ
/icons/hr.icon
2024/01/07
Hierarchical Fashion Graph Network for Personalized Outfit Recommendation
ACM
2020
ファッションアイテム間の相性とユーザの好みの双方を反映したコーディネート推薦
アブストだけ
/icons/hr.icon
2024/01/09
Style-Controlled Synthesis of Clothing Segments for Fashion Image Manipulation
IEEE
2023
テキストを用いたファッション画像生成のための、画像-テキストペアデータセットの紹介(提案?)
diffusionベースの生成モデルでの有用性が先行研究でも示されている
アブストだけ:被引用論文を探すと、拡散モデル関連の研究が出てくる
(outfit systhesisで検索)
SGDiff: A Style Guided Diffusion Model for Fashion Synthesis
MM
2023
既存の拡散モデル(txt2img)+ガイド用画像により、ファッションアイテムア画像の生成をおこなう
2024/01/12 論文紹介
/icons/hr.icon
2024/01/17
An interactive attribute-preserving fashion recommendation with 3D image-based virtual try-on
Springer
2023
仮想試着+レコメンデーション(3Dモデル)
/icons/hr.icon
2024/01/22
OutfitTransformer: Outfit Representations for Fashion Recommendation
CVPR
2022
Transformerを用いたファッションアイテムの推薦
推薦するアイテムはデータセット内から取ってくる
アイテムの集合をコーディネートとして提案する(≠着画ではない)
アイテムの相性をスコア化する
アブストだけ
OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data
ICIAP
2023
ファッション特化CLIPモデルの作成と評価
アブストだけ
Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit Retrieval
WACV
2024
テキストからコーディネートを推薦する
例えば、「夏と秋の間の季節の変わり目に着れるオフィス向けのコーディネート」と入力すれば、アイテム一式を組み合わせてくれる
アイテムはデータセット内
/icons/hr.icon
2024/01/22
DressUp! Outfit Synthesis Through Automatic Optimization
ACM
2012(?)
AnyDoor: Zero-shot Object-level Image Customization
2023
arxiv
ある画像内のオブジェクトを、別の画像に対して違和感なくテレポーテーションさせる
ある種inpaintに近いことがしたい
画像から識別特徴と詳細特徴を獲得して拡散モデルに食わせると、物体の特徴を維持したまま別の画像にテレポーテーションさせることができる
特徴獲得の際に、背景除去やコラージュ作成が有効である
自己教師あり表現学習をおこなうことにより、アノテーションなしの大量データで学習が可能
Zero-shotで未知のオブジェクトも扱うことが可能
アリババグループの最新論文である
2024/01/26論文紹介
/icons/hr.icon
2024/04/08
RecSysの論文調査
Multi-Modal Dialog State Tracking for Interactive Fashion Recommendation
/icons/hr.icon
2024/04/30
POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion
2019
SIGKDD(データマイニング系のトップカンファレンス)
ファッションアイテム間の相性とユーザの嗜好を利用したTransformerアーキテクチャのコーディネート推薦システムの提案
マルチモーダルEmbeddingでアイテムの画像、アイテム名、ユーザのクリック履歴をベクトル化
コーディネート内のマスクされたアイテムを補完するタスク(Fill in the blank)を解くことで、アイテム間の相性を学習
Transformerのデコーダでユーザの嗜好信号とアイテムのベクトルを入力とし、コーディネートを生成
提案手法はCTRにおいて、協調フィルタリングを上回った
2024/04/30論文紹介
/icons/hr.icon
2024/05/01
OutfitTransformer: Learning Outfit Representations for Fashion Recommendation
2023
WACV
Learning to LankとTransformerを使ったコーディネート推薦
アイテムベース推薦
アブストのみ
Toward Explainable Fashion Recommendation
2020
WACV
コーディネートの良し悪しをスコア化&その説明を可能に
「Recommending Outfits from Personal Closet」の続きの研究
Outfit Graderの分類結果をコーディネートのスコアとして利用
ファッションアイテムが持つ特徴のうち、人間が解釈可能な特徴として「色、形状・テクスチャ」の二つを利用
色:k-meansクラスタリングで主要3色を獲得→9次元のベクトル化
形状・テクスチャ:Cannyエッジ検出器でエッジマップを獲得→CNNでベクトル化
「ファッションアイテムの特徴がコーディネートのスコアに与える影響度」として「IFIV」という指標を定義
アイテムの特徴から得たベクトルと、「スコアの、アイテムの特徴に対する微分」のアダマール積から算出
各アイテムの特徴毎に算出
IFIVが最大のアイテムの特徴=スコアに最も影響力のあるアイテムの特徴
評価実験を自働化
Outfit Graderによるスコアが高いコーディネートに含まれるアイテム、またはその色/エッジマップを置換したコーディネートを作成
評価の低いコーディネートの原因となったアイテム/特徴を正しく当てることができるか、で評価
アイテム/エッジマップの置換は高精度で検出、色は精度まちまち(置換の前後でスコアの変化小が原因か)
「XAI」の研究
2024/06/18論文紹介
/icons/hr.icon
2024/05/02
Recommending Outfits from Personal Closet
2017
ICCV
東北大学、サイバーエージェント、理研の共同研究
コーディネートの良し悪しを分類
二値分類タスクとして学習
データセット内のコーディネートに関して、いいねが1つでもついていれば「良いコーディネート」とする(正例)
良いコーディネートの構成アイテムをランダムにひとつ別のアイテムに入れ替えたものを「悪いコーディネート」とする(負例)
定量評価により、8割ほどの分類精度を誇る
「Polyvore dataset」を作成
アイテム及びコーディネートを含む
メタデータあり
このデータセットを使った論文を探す
「Toward Explainable Fashion Recommendation」の元となった論文
「いいねを使うのは一般的である」的な感じで引用可能
2024/05/17 論文紹介
/icons/hr.icon
2024/05/21
Learning Fashion Compatibility with Bidirectional LSTMs
2017
arXiv
LSTMによるコーディネート推薦
Polyvoreのデータセットを使用した研究(新たに自作している)
引用数がかなり多め
アブストのみ
ZOZOの論文紹介サイトより
Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data
2017
arXiv(他の会議にも出ているようだが)
外見とメタデータに基づくコーディネートのスコアリング
メタデータによるコーディネートの評価を利用(おそらく「いいね」)
Polyvoreのデータセットを使用した研究
アブストのみ
ZOZOの論文紹介サイトより
/icons/hr.icon
Disentangling Features for Fashion Recommendation
ACM Transactions on Multimedia Computing, Communications, and Applications(ジャーナルの論文)
2023
ファッションに関するレコメンデーションのためのDisentandled Represantatioの獲得
アブストのみ
/icons/hr.icon
2024/06/18
Fashion Coordinates Recommender System using Photographs from Fashion Magazines
IJCAI
2011
ファッションアイテム画像を入力とすると、それに相性のいい他アイテムを推薦する(確率的トピックモデルを利用)
著者が日本人
人手による評価は無し
アブストだけ(読む予定あり)
/icons/hr.icon
2024/07/16
Aesthetic-based Clothing Recommendation
CNNから得た画像特徴に加えて、美学的特徴(the aesthetic feature)を用いたコーディネート推薦
美学的特徴はBDN(Brain-inspired Deep Network)から獲得
構造はCNN
AVA(Aesthetic Visual Analysis)データセットで学習
ベースラインを上回る推薦精度を獲得
アブストだけ
/icons/hr.icon
2024/07/24
“Hi, Magic Closet, Tell Me What to Wear!”
ACM international conference on Multimedia
2012
オケージョンからコーディネート画像を検索/推薦可能にするためのデータセット、分類器の提案
オケージョン=機会、目的
例えば「結婚式に出席したい!」というニーズがあるとき、オケージョンは「結婚式」となり、このオケージョンに適するコーディネート画像を出力
分類器はSVMベースで作成
データセット「WoW」は、オケージョンやアイテムに関する情報をアノテーションしたコーディネート画像データセット
引用件数が多く、コーディネート推薦分野の先駆けとなった論文
2024/07/19論文紹介
SHIFT15M: Fashion-specific dataset for set-to-set matching with several distribution shifts
CVPR
2023
大規模なデータセットの公開+分布シフトを考慮した分析基盤の提案
データセット「SHIFT15M」
ファッションアプリ「IQON」(現在はサービス終了)から収集したコーディネートを基に作成
2010年~2020年までのデータを利用
コーディネートやアイテムの情報に加えて、投稿日時、いいね数、ジャンル・カテゴリなども含む
分布シフトを考慮した分析基盤
そもそも機械学習を行なう際、訓練データとテストデータはそれぞれ独立同値分布に従うという仮定を置いている
しかしファッションには「流行・トレンド」という概念が存在し、データセットの収集時期によって含まれるアイテムやコーディネートに偏りが生じる
時間によってデータの分布が変わることを「分布シフト」と呼ぶ
分類器の損失関数に確率の密度比を重みとすることで、分布シフトを考慮した学習が可能となる
ZOZO Researchから出た論文
データセットの中身の確認や試運転は未完了
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
CVPR
2023
Text-to-Image系論文のサーベイ+被験者評価用プロトコルの提案
主要なText-to-Image系の論文では、自動評価のみor自動評価+被験者評価でモデルを評価している場合が多い
しかし既存の自動評価手法は、人間の認識と矛盾が生じることが指摘されている(FID,CLIPScore)
一方で被験者評価の標準的な評価方法が存在しないため、基準や質問の粒度もバラバラ...
標準的被験者評価用プロトコルの提案
モデルが生成した画像に対して、「忠実度(fidelity)」と「連合度(alignment)」の二観点で評価
リッカート尺度を用いた評価の質問・項目に具体性を持たせる
改善前(例)Q.この画像のクオリティについて評価してください
1. 全くよくない
2. あまりよくない
改善後(例)Q. この画像はAIが生成した画像に見えますか?実際の写真に見えますか?
1. AIが生成した画像
2. 恐らくAIが生成した画像であるが、写実的である
「比較評価」ではなく「絶対評価」
「比較評価」:「この画像群の画像に、クオリティに関してランキングを付けてください」では、モデル間の性能差ではなく画像間の違いしか明らかにならない
2024/07/30 論文紹介
Diffusion Models for Generative Outfit Recommendation
SIGIR
2024
拡散モデルを用いたコーディネート推薦(タイトルのまんま)
2024/09 論文紹介
/icons/hr.icon
2024/10/09
TryOnDiffusion: A Tale of Two UNets
CVPR
2023
拡散モデルを用いた仮想試着(Virtual Try-On)
OutfitAnyoneが、このアーキテクチャを参考に設計された
2つのU-Netを統合したDiffusionベースのアーキテクチャにより、服のディテールを維持しつつ自然な着用画像の生成に成功
アブストだけ
/icons/hr.icon
2024/11/02
ReVisE: Emulated Visual Outfit Generation from User Reviews Using Generative-AI
SEDE(Software and Data Engineering)
2024
ユーザレビューから衣服を生成するフレームワークの提案
大規模言語モデルと画像生成AIの併用
専門家による評価あり
ざっくり読み
Item-region-based style classification network (IRSN): a fashion style classifier based on domain knowledge of fashion experts
Applied Intelligence(Springer論文誌)
2024
アイテムレベルでの特徴と組み合わせに焦点を当てたスタイル分類ネットワークの提案
分類対象はファッションスナップ画像
「FashionStyle14」というデータセットを利用
アブストのみ
What Makes a Style: Experimental Analysis of Fashion Prediction
ICCV
2017
スタイル分類のためのデータセット「FashionStyle14」の提案
国産のファッションデータセット
被写体1名が写ったファッションスナップ画像と、スタイルを表すタグのデータセット
スタイルは全部で14種(カジュアル、フェミニンなど)
スタイル分類タスクの評価
ResNet-50が最も高精度で分類
人間 VS 機械学習モデル
ファッションに詳しい被験者 VS ファッションに詳しくない被験者 VS ResNet50
スタイル分類タスクを実施
ファッションに詳しい人間(精度82%) > ResNet50(72%) > ナイーブユーザー(62%)
ResNet50の注目領域可視化
ResNet50は色・模様・アクセサリー(例: フリル・サングラス・ベルト)に強く反応
一方で人間はスタイルの文脈的理解やアイテムの組み合わせに基づいて判断する傾向
早稲田大学シモセラ研の方々の論文
シモセラ研では他にも様々なデータセットを公開中
もしかしたら何かに使えるかも?
アブストのみ
Neuroaesthetics in Fashion: Modeling the Perception of Fashionability
CVPR
2015
ファッション性のモデリングのためのデータセット「Fashion144k」の提案
引用件数200件超えのシモセラさんの論文
ユーザ評価からファッション性(Fashionability)のモデリング
ユーザ評価=いいね数(論文内では「the number of VOTE」)
「ファッション性は専門家が評価するのが一番だし、見る人によって左右されるだろう」→「ファッショナブルさの代わりに大衆の嗜好を活用」
2024/11/19論文紹介
/icons/hr.icon
2024/11/11
Uni-DlLoRA: Style Fine-Tuning for Fashion Image Translation
SIGMM
2024
ファッション画像生成用のLoRA学習手法の提案
画像生成には拡散モデルを利用
アブストのみ(紹介予定)
Show Me The Best Outfit for A Certain Scene: A Scene-aware Fashion Recommender System
WWW
2023
シーン(≒場所)に着目したコーディネート推薦システムの提案
アイテム、コーディネート、シーンをそれぞれ推薦可能
それぞれの評価を実施
アブストのみ(紹介予定)
/icons/hr.icon
2024/11/18
A Fashion Item Recommendation Model in Hyperbolic Space
CVFAD(Workshop on Computer Vision for Fashion, Art, and Design)(CVPR)
2024
ファッションアイテム推薦モデルの学習に、双曲空間における距離尺度を導入
ZOZO研究所の方々の論文
「CVFAD」とは、CVPR内で開催されるファッションやアートに焦点を当てたワークショップ
2024年が7度目の開催
査読あり、採択率低
アブストのみ
/icons/hr.icon
2024/11/20
FashionVQA: A Domain-Specific Visual Question Answering System
CVFAD(CVPR)
2023
ファッション領域におけるVQAタスクのためのデータセットの設計手法の提案
メタデータをテンプレートに入力することで、自然言語の質問文・回答文を生成
画像-質問-回答の三つ組みを作ることで、既存のVLMの訓練に利用可能
人間 VS VLM
作ったデータセットで学習したVLMは、人間の回答精度を上回る
一般的な検索や推薦に加え、最近注目される「対話型検索・推薦」にも利用可能
2024/11/26 論文紹介
/icons/hr.icon
2024/11/28
FashionVLP: Vision Language Transformer for Fashion Retrieval With Feedback
CVPR
2022
ファッション領域に対応したVision and Languageモデルの提案
ファッション関連のVLM論文をここから芋づる式に探す
アブストのみ
/icons/hr.icon
2024/12/02
StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On
CVPR
2024
Diffusionモデルを利用した仮想試着の提案
事前学習済みモデルに蓄積された知識を利用
(2024/12/17追記)「VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization」のフォローアップ研究
アブストのみ
Street TryOn: Learning In-the-Wild Virtual Try-On from Unpaired Person Images
CVFAD(CVPR)
2024
Diffusionモデルを利用した仮想試着の提案
様々な場所、ポーズに対応
アブストのみ
Artifact Does Matter! Low-artifact High-resolution Virtual Try-On via Diffusion-based Warp-and-Fuse Consistent Texture
CVFAD(CVPR)
2024
DIffusionモデルを利用した仮想試着の提案
衣服の詳細な特徴保持に強い
アブストのみ
/icons/hr.icon
2024/12/05
DAtRNet: Disentangling Fashion Attribute Embedding for Substitute Item Retrieval
CVFAD(CVPR)
2022
ファッションアイテム検索のためのDisentangledな特徴量獲得(そのためのネットワークの提案)
検索や推薦領域における「Disentangled Representation」の利用の一例 in Fashion
アブストのみ
/icons/hr.icon
2024/12/06
OutfitGAN: Learning Compatible Items for Generative Fashion Outfits
CVFAD(CVPR)
2022
コーディネートを補完するためのアイテム画像をGANで生成する手法を提案
生成時、コーディネート間の各アイテムの相性を測る機構(Fashion Item Compatibility Network)を利用
コーディネートを入力すると、相性の良いコーディネートかどうかを判定する
ファッションアイテムは画像として利用(学習済みCNNで特徴量化)
アブストのみ
「Diffusion Models for Generative Outfit Recommendation」で引用されている。コーディネートの相性評価の際に利用。
本文では「検索」や「推薦」に利用する、とは明言されていない
(OutfitGANという名称の手法が他論文にもあるが、どちらがオリジナルなのか???)
/icons/hr.icon
2024/12/17
仮想試着のデータセット
様式は様々(例:服とその着用画像のペア)
Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference Feedback
Workshop on Generative AI for E-Commerce(CIKM2024のワークショップ)
2024
マルチモーダルモデルを利用したコーディネート推薦
Fill-in-the-blankとアイテム検索において良い精度を獲得
アブストのみ
/icons/hr.icon
2024/12/30
Patching open-vocabulary models by interpolating weights
NeurIPS
2022
CLIPのファインチューニング時に発生する「破滅的忘却(Catastrophic Forgetting)」を防止するファインチューニング方法「PAINT」の提案
「破滅的忘却」とは、機械学習モデルのファインチューニング後に以前のタスクが全く解けなくなる現象である
/icons/hr.icon
2025/02/06
Secret Seeds in Text-to-Image Diffusion Models
NeurIPS
2024
Text2Imageモデルのシード値が生成画像に与える影響についての研究
シード値は、Diffusion Modelが画像生成をおこなう際の初期ノイズを制御する
論文内ではStable DIffusion v-2.0を使用
高品質な画像が生成できる「golden seeds」を発見
特定のシード値において、グレースケール画像が生成されたり、境界線のある画像が生成されたりと、画像のスタイルにまで影響が及んでいることが発覚
Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models
WACV Workshop
2025
ファッション性を向上させたコーディネート画像を生成する、拡散モデルに基づく画像生成手法の提案
An Empirical Analysis of GPT-4V’s Performance on Fashion Aesthetic Evaluation
SIGGRAPH Asia 2024
2024
GPT-4Vと人間の、ファッションに関する評価(コーディネートが似合うか)が一致するか
ZOZO Researchの方々の論文
/icons/hr.icon
2025/04/02
Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback
CVPR
2021
ファッション画像の対話型検索のためのデータセットの提案
データセットの分析、検索手法の提案
アブストのみ
/icons/hr.icon
2025/04/12
Conversational Fashion Image Retrieval via Multiturn Natural Language Feedback
SIGIR
2021
自然言語によるファッション画像の対話型検索
アブストのみ
/icons/hr.icon
2025/04/14
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
arxiv
2022
「Textual Inversion」という手法を提案
少量の画像を、新しい擬似単語としてT2Iモデルのテキストエンコーダの空間内で表現
自然言語で指示しづらい表現を生成可能に
Stable Diffusion Web UIの拡張機能としても利用可能
Masked Autoencoders Are Scalable Vision Learners
CVPR
2022
Vision Transformerの事前学習として、Masked Autoencoder(MAE)が有効であることを示した
/icons/hr.icon
2025/04/15
Visual Instruction Tuning
NeurIPS
2023
「LLaVA(Large Language and Vision Assistant)」
LLMと画像エンコーダを接続
マルチモーダルなチャット能力を獲得
科学系のデータセットでFine-Tuningした結果、SoTAを達成
Improved Baselines with Visual Instruction Tuning
CVPR
2024
LLaVA-1.5を提案
LLMにはVicuna(LLaMAをFine-Tuningしたもの)を利用
画像エンコーダにはViTを利用
Chatgpt outperforms crowd-workers for text-annotation tasks.
PNAS
2023
NLP関連のテキストアノテーションにChatGPTを使うと、人間がおこなうよりも低コストかつ信頼可能なアノテーションが可能となる
「Visual Instruction Tuning」で引用されている
/icons/hr.icon
2025/05/01
Personalised Outfit Recommendation via History-aware Transformers
WSDM
2025
二つのTransformerを用いた、ファッションアイテム特徴と顧客の購入履歴に基づくコーディネート推薦
IR Reading2025紹介予定
/icons/hr.icon
2025/05/12
UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
EMNLP
2024
マルチモーダルモデルを用いたファッションに関する検索や生成タスク
アブストのみ
Fashion Captioning: Towards Generating Accurate Descriptions with Semantic Rewards
ECCV
2020
「FACADデータセット」を提案
ファッションに関するキャプショニングタスク
アブストのみ
FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks
CVPR
2023
様々なファッションに関するタスクに対応したモデルの提案
アブストのみ
/icons/hr.icon
2025/05/17
Text2Human: Text-Driven Controllable Human Image Generation
ACM Transactions on Graphics
2022
「DeepFashion-MultiModal」という、テキストデータ付きのファッションデータセットを作成
データセットの詳細は調査中
Fashion-Gen: The Generative Fashion Dataset and Challenge
arXiv
2018
「Fashion-Gen」という、テキストデータ付きのファッションデータセットを作成
データセットの詳細は調査中
FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval
SIGIR
2020
検索のためのファッションの言語化
Fashion-Genデータセット使用
アブストのみ
「An image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Vision Transformer)」がarxivに投稿されたのがこの年→ICLR2021
Kaleido-BERT: Vision-Language Pre-training on Fashion Domain
CVPR
2021
「Kaleido-BERT」という、ファッション特化のVision-Language Modelを提案
Fashion-Genデータセット使用
評価タスク等参考になりそう
/icons/hr.icon
2025/05/26
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning
EMNLP
2022
LLMのファッションキャプショニング応用
FashionBERT、KaleidoBERT、FaD-VLPの三つが「LLM×ファッションキャプショニング」の代表作か
XAI
Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation
IEEE Transactions on Knowledge and Data Engineering
2020
コメント生成+コーディネート推薦
XAI
FashionFAE: Fine-grained Attributes Enhanced Fashion Vision-Language Pre-training
ICASSP
2025
/icons/hr.icon
2025/05/28
Attribute-wise Explainable Fashion Compatibility Modeling
ACM Transactions on Multimedia Computing, Communications, and Applications
2021
コーディネートの良し悪しとその理由を出力する手法を提案
入力はトップスとボトムスの画像ペア
出力はそれぞれのアイテムの属性(色や柄)と組み合わせの良し悪しスコア
XAI
Creating an AI fashioner through deep learning and computer vision
Evolving Systems(Springer)
2024
コーディネートの良し悪しを指摘し、アドバイスまで生成
診断:コーディネート内の良くないアイテムを発見
提案:データセット内から代替アイテムを出力
データセット
「ModAI」という既存のデータセットを利用
コーディネート内の個々のアイテムに「これは合っている」「これは合っていない」といった評価が付いたデータセット
XAI
Diagnosing fashion outfit compatibility with deep learning techniques
Expert Systems with Applications
2023
「ModAI」データセット作成
コーディネート内の個々のアイテムに「これは合っている(合っていない)」のような評価がついたデータセット
コーディネートの良し悪しの説明文を画像から生成
XAI
Deciphering Compatibility Relationships with Textual Descriptions via Extraction and Explanation
AAAI
2024
アイテム間の相性関係を説明する文章生成
「なぜ良いのか」まで言語化
汎用LLMはまだファッション特価の説明は難しい?
「Pair Fashion Explanation(PFE)」データセット作成
雑誌などのプロの解説文から、アイテム間の相性を説明した文章データセットを作成
質にこだわったデータセット(プロが作成したことで品質を担保)
約6,000件規模
「画像や説明文から、アイテム間の相性に関する部分を抽出パート」と「説明生成パート」の2パートに分かれている
「トップスとボトムス」のペアに限定した問題設定
自動評価・人間評価をともに実施
XAI
/icons/hr.icon
2025/06/09
Masked Language Prompting for Generative Data Augmentation in Few-shot Fashion Style Recognition
arxiv
2025
ファッションスタイル認識用のデータ拡張フレームワーク「Masked Language Prompting(MLP)」を提案
スタイルに関する情報を含んだテキストとコーディネートの着用画像のペアデータセットを拡張するために利用
Captioning:画像から詳細なキャプションを生成(色・形・素材などを含む)
Masking:名詞や形容詞を50%の割合でマスク
Fill-in-the-mask:LLM(GPT-4o-mini)でマスク部分を文脈的に補完
Text-to-Image生成:完成したプロンプトから画像を生成(SDXL-Turbo使用)
FashionStyle14データセットを利用
ZOZONEXT最新研究
/icons/hr.icon
2025/06/12
I2AM: INTERPRETING IMAGE-TO-IMAGE LATENT DIFFUSION MODELS VIA BI-ATTRIBUTION MAPS
ICLR
2025
image-to-image(i2i)タスクにおける、Diffusion Modelの挙動を可視化
参照画像と生成画像において、それぞれにどのような特徴が行き来したのかを明らかに
公式リポジトリ
/icons/hr.icon
2025/06/15
Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation
arXiv
2025
テキストをクエリとし、ファッションアイテムの画像を検索することで着用画像を編集する「Fashion-RAG」を提案
入力:編集要求を記述したテキスト、編集対象の画像
出力:編集後の画像
(例)「白くて水玉模様のワンピース」というテキスト+黒いワンピースを来た女性の画像→白くて水玉模様のワンピースを来た女性の画像
画像生成の前に、編集要求のテキストに合うアイテム画像を検索する処理が挟まる(=RAG)
仮想試着やtext-to-imageとの違い
仮想試着との違い
仮想試着では、着用させるアイテムの画像が事前に用意されていることが前提となる
Fashion-RAGは「こんな風に着用画像を編集したい」というテキスト形式の要望(クエリ)さえあればいい
クエリからファッションアイテム画像を検索し、着用画像の生成に利用
text-to-imageとの違い
テキストを用いた画像編集は、編集後の画像に反映したいファッションアイテムを言語で表現する必要あり
しかし、言語化能力の限界と視覚的特徴との乖離がある
Fashion-RAGは同じくテキストを入力とするが、テキストを上手く表現した画像を探すことで、このギャップを埋める
評価方法
画像編集をおこない、既存の評価指標を利用
Stable DiffusionやControlNetと比較し、要求通りの編集が可能に
テキスト要求に合うアイテムがデータ群内に存在することが前提となっている(検索を用いる本手法の限界点)
ファッション画像編集のためのRAGアプローチとして初の試み
/icons/hr.icon
2025/07/04
Conceptual framework of hybrid style in fashion image datasets for machine learning
2023
/icons/hr.icon
2025/07/16
CLIPScore: A Reference-free Evaluation Metric for Image Captioning
EMNLP
2021
画像キャプショニングの評価指標として「CLIPScore」を提案
人間による評価との相関も分析→正の相関あり
NLP系の会議に通っていたのは驚き
Improving Neural Machine Translation Models with Monolingual Data
ACL
2016
折り返し翻訳によってデータ拡張をおこない、機械翻訳モデルの性能を向上させた
折り返し翻訳は「Back Translation」とも言う
折り返し翻訳は広くデータ拡張として使われている?
The Back-translation Score: Automatic MT Evaluation at the Sentence Level without Reference Translations
IJCNLP Short
2009
機械翻訳の評価指標として「Back-translation Score」を提案
折り返し翻訳したテキストとの類似度を測り、翻訳の品質を評価
Evaluating Text-to-Visual Generation with Image-to-Text Generation
ECCV
2024
「VQAScore」という評価指標を提案
VQAモデルを使い、「この画像は{テキスト}を示していますか?」という質問に対する「はい」の確率を計算し、テキストによる画像生成モデルを評価
CLIPScoreが持つBag-of-Words的な性質を克服した生成画像の評価方法
Improved Techniques for Training GANs
NIPS(NeurIPS)
2016
GANで生成した画像の評価指標としてIS(Inception Score)を提案した論文
GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium
NIPS(NeurIPS)
2017
GANで生成した画像の評価指標としてFIDスコアを提案した論文
/icons/hr.icon
2025/07/18
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models
CVPR
2023
Text-to-Imageモデルが不適切コンテンツを生成しにくいようにする工夫
「{国} body」というプロンプトで画像生成を実施
「国」には50ヵ国の名前を入れて生成
すると、「Japan」のときに最も裸の画像が生成される確率が高かった
/icons/hr.icon
2025/07/30
Dress Code: High-Resolution Multi-Category Virtual Try-On
ECCV
2022
Dress Codeデータセットの提案
高解像度かつ多様なカテゴリのアイテム画像を含む仮想試着向けのデータセット
アイテムと、その着用画像のペアデータセット
Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing
ICCV
2023
マルチモーダルファッション画像編集というタスクを提案
Dress Codeデータセットを、マルチモーダルタスク用に拡張(半自動でキャプショニング)
FashionIQなどの既存のデータセットからキャプションを収集
画像と全キャプションを総当たりで類似度計算し、キャプションを選択
/icons/hr.icon
2025/08/03
Weather-to-Garment: Weather-Oriented Clothing Recommendation
ICME
2017
天候に合わせたコーディネートを推薦する手法を提案
Weather-to-Garmentデータセットを作成
/icons/hr.icon
2025/08/06
Street-to-Shop: Cross-Scenario Clothing Retrieval via Parts Alignment and Auxiliary Set
MM
2012
ストリートスナップから、オンラインショップのコーディネート画像を検索する手法を提案
/icons/hr.icon
2025/08/11
HPSv3: Towards Wide-Spectrum Human Preference Score
arXiv
Text-to-Imageモデルの評価における人間の知覚に合った評価指標「Human Preference Score v3 (HPSv3) 」を提案
/icons/hr.icon
2025/09/04
Multimodal Post Attentive Profiling for Influencer Marketing
WWW
2020
インフルエンサーマーケティングのためのInstagram Datasetの作成
/icons/hr.icon
2025/09/05
Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models
ECCV Workshop
2024
LLMと画像生成AIを組み合わせたファッション画像生成の提案
プロンプトの生成にLLMを使用
/icons/hr.icon
2025/09/09
Prompt2Fashion: An automatically generated fashion dataset
The 13th Hellenic Conference on Artificial Intelligence
2024
ECCV Workshopの論文内容からデータセットを作成したという内容
/icons/hr.icon
2025/10/03
GenWardrobe: A Fully Generative System for Travel Fashion Wardrobe Construction
ACM Multimedia
2025
旅行の時に着るコーディネートを、生成モデルを使ってレコメンドする手法を提案
最新の生成モデルを豊富に組み合わせたパイプラインを提案
/icons/hr.icon
2025/10/08
Prompt Expansion for Adaptive Text-to-Image Generation
ACL
2024
美的さ・多様さの向上を目的としたLLMを用いたプロンプト拡張による画像生成
/icons/hr.icon
2025/10/12
FashionDPO: Fine-tune Fashion Outfit Generation Model using Direct Preference Optimization
SIGIR
2025
ファッションコーディネート生成モデルのファインチューニング用フレームワークの提案(パーソナライズとコーディネートの多様化が目的)
SIGIR 2024の後続研究
/icons/hr.icon
キーワード
outfit recommendation, outfit retrieval, clothing recommendation, clothing retrieval, outfit generation, virtual try-on
vison-language models, xai, fashion explaining
back translation, image evaluation, metrics learning