大江が読んだ論文リスト(画像生成・コーディネート推薦系)
※調査の記録用として、論文以外の記事も含んでいます!
Stable Diffusionを基礎から理解したい人向け論文攻略ガイド
萩原 正人(ステート・オブ・AIガイド)
必読論文リストとその概要
キーワード:「拡散モデル」「VAE」「U-Net」「Vision Transformer」「CLIP」
拡散モデル:
U-Net:ニューラルネットワーク
CLIP:Stable Diffusionのテキストエンコーダ、テキストと画像の意味的類似度を計算
IPO-LDM: Depth-aided 360-degree Indoor RGB Panorama Outpainting via Latent Diffusion Model
(多分)オックスフォード大の生徒の論文
2023
パノラマOutpaintingにLDMを用いた⇒成果あり
GANによる画像補完は汎化性能が低いらしい
アブストだけ
Personalized fashion outfit generation with user coordination preference learning
EVSEVIER、ACM
2023
ユーザの好みを学習し、互換性のあるファッションアイテムを推薦する→総じて「コーディネート」とする
服装の推薦:よりパーソナライズに重きを置いている
アブストだけ(読んでみたい)
図を見る感じ、アイテムの組み合わせ画像だけを生成:着用画像ではない
Image classification of fine-grained fashion image based on style using pre-trained convolutoonal neural network
IEEE
商品カテゴリごとにラベル付けされた画像データセットの作成
アブストだけ
Reccomendation of Contemporary Fashon Trends via AI-Enhanced Multimodal Search Engine and Blockchain Integration
IEEE
no content
アブストだけ★
Multimodal High-order Relationship Inference Network for Fashion Compatibility Modeling in Internet of Multimedia Things
IEEE
ファッション適合性モデリング(提案手法は優れている)
マルチモーダル:テキスト、画像、動画、音声など、異なる種のデータを組み合わせて学習する(そのモデル)
アブストだけ★
Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework
IEEE
OutfitGAN:服装生成洋フレームワークの提案、データセット構築
英論文で「コーディネート」は「Outfit」と表記されることが多い!
アブストだけ(ダウンロード済み)⇒読解中
Generative adversarial networks: introduction and outlook
IEEE
GAN(敵対的生成ネットワーク)のサーベイ論文
仮想現実技術との適合性なども調査
アブストだけ
Anime-to-Real Clothing: Cosplay Costume Generation via Image-to-Image Translation
桂井さんの論文
アニメのキャラクター画像から、コスプレ衣装の画像を生成
GANベースの生成モデル
評価指標
FID:生成画像のクオリティ評価、低いほどよい
LPIPS:画像の多様性をあらわす
いずれも既存手法より提案手法の方がよい結果が出た
アブストだけ
Fashion Style-Aware Embeddings for Clothing Image Retrieval
ICMR
桂井さんの論文(2)
画像とメタデータを併用したファッション検索フレームワークの構築
画像+タグ(季節、身長、スタイル)
※複数タイプのクエリに対応したフレームワークは今のところない
ZOZOとの研究、WEARのデータ使用(今回は女性ユーザの画像のみを使用、多分ZOZOから提供されたもの)
Not 生成、But 検索
評価はMAPスコアを用いる
今後はWEARにこのフレームワークを埋め込む、データを増やす、検索結果から商品にアクセスできるようにする
一読済み:2023/10/25発表
桂井さんの最新論文からいろいろ調査する↓
ViBE: Dressing for Diverse Body Shapes
2020
桂井さんの論文(2)の参考文献
人の画像を入力として受けとり、体形を認識して適切な服装を提案する
アブストだけ
Methods and advancement of content-based fashion image retrieval:
2023
桂井さんの論文(2)を参照した文献
コンテンツベースのファッション画像検索のサーベイ論文
アブストだけ
Smart Fashion: A Review of AI Applications in Virtual Try-On & Fashion Synthesis
Journal of Artificial Intelligence and Capsule Networks
2021
Seyed Omid Mohammadi 著
AI×ファッションのサーベイ論文(二年前なので少し古いか...)
アブストだけ
Partial Visual-Semantic Embedding
早稲田×ZOZO
さすがの早稲田、強すぎ...
服装内の個別アイテムに関する質問に回答可能
論文もある、読んでみる
Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags
早稲田×ZOZO
上の論文の前章
ファッションに関する曖昧の表現を認識することに成功
アブストだけ(2024/04/03論文紹介)
Computational Technologies for Fashion Recommendation: A Survey
ACM
2023
コーディネート推薦のサーベイ論文
アブストだけ
/icons/hr.icon
2023/11/07
VeuModel
モデルの着用画像を自動生成サービス
広告向け
人種、体形、ポーズもカスタマイズ可能
Googleのバーチャル試着
拡散モデルが使用されている(あれ)
上記の両者は「ECサイトの商品を自分が着たらどうなるか知りたい」というのが動機
我々の目的はあくまでコーディネートの推薦
Image Transferみたいな感じ(恐らく)
両者の論文を調査中
/icons/hr.icon
2023/11/08
Body Shape-Aware Object-Level Outfit Completion for Full-Body Portrait Images
2023
雑誌論文
着用画像内のあるアイテム部分をマスクしたとき、着用者の体形検知と、着用アイテムの物体検知を用いることで、マスク部分に適したアイテムを検索することができた
穴埋め問題ではなく、あくまで検索タスク
2023/11/08に論文紹介済み
参考文献として掲載OK
/icons/hr.icon
2023/11/09
An edge guided coarse-to-fine generative network for image outpainting
2023
Neurocomputing 雑誌
情報量の少ない画像から、その外郭を補完した画像を生成する
恐らくだけど、「Tシャツから四肢と頭を生やす」にかなり近い
アブストだけ、ど、一度読んでみる
検索scholarWord:「image outpainting + 2023以降」
2023/11/22紹介
/icons/hr.icon
2023/11/20
【YOLOv3】スナックエンドウの収穫に物体検出をつかってみる
ブログ記事
YOLOv3を追加学習させて、スナップエンドウを検出できるようにしている
追加学習の方法
まずはYOLOの実装
アノテーション付きの教師データを用意する
指定のディレクトリに画像を保存して学習
マシンの都合でいつ試せるかわからない
/icons/hr.icon
2023/12/08
ファッションと機械学習
人工知能学会の記事
いろんな研究をざっくりまとめてくれている
コーディネート・生成の記事にある論文を読む
ファッションに関する研究は最近盛んになってきたらしい
/icons/hr.icon
2023/12/12
VITON: An Image-based Virtual Try-on Network
CVPR
2018年
着用画像と衣服の画像が与えられたとき、着用画像を入力された衣服に着せ替える:「仮想試着」という
今回は2Dの画像ベースでおこなう
着用画像の被服部分のマスク画像を利用し、衣服の画像を変形させることで、服が持つ特徴を欠落させることなく着せ替えることができる
VGG19でU-Netを構成したエンコーダデコーダ構造
自然な着用画像であるかどうかは、被験者実験をおこない評価している
12/13 論文紹介
/icons/hr.icon
2023/12/28
Fashion Outfit Complementary Item Retrieval
CVPR
2020
アブストだけ
/icons/hr.icon
2024/01/07
Hierarchical Fashion Graph Network for Personalized Outfit Recommendation
ACM
2020
ファッションアイテム間の相性とユーザの好みの双方を反映したコーディネート推薦
アブストだけ
/icons/hr.icon
2024/01/09
Style-Controlled Synthesis of Clothing Segments for Fashion Image Manipulation
IEEE
2023
テキストを用いたファッション画像生成のための、画像-テキストペアデータセットの紹介(提案?)
diffusionベースの生成モデルでの有用性が先行研究でも示されている
アブストだけ:被引用論文を探すと、拡散モデル関連の研究が出てくる
(outfit systhesisで検索)
SGDiff: A Style Guided Diffusion Model for Fashion Synthesis
ACM
2023
既存の拡散モデル(txt2img)+ガイド用画像により、ファッションアイテムア画像の生成をおこなう
2024/01/12 論文紹介
/icons/hr.icon
2024/01/17
An interactive attribute-preserving fashion recommendation with 3D image-based virtual try-on
Springer
2023
仮想試着+レコメンデーション(3Dモデル)
/icons/hr.icon
2024/01/22
OutfitTransformer: Outfit Representations for Fashion Recommendation
CVPR
2022
Transformerを用いたファッションアイテムの推薦
推薦するアイテムはデータセット内から取ってくる
アイテムの集合をコーディネートとして提案する(≠着画ではない)
アイテムの相性をスコア化する
アブストだけ
OpenFashionCLIP: Vision-and-Language Contrastive Learning with Open-Source Fashion Data
Springer(arxivに無料版あり)
2023
ファッション特化CLIPモデルの作成と評価
アブストだけ
Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit Retrieval
WACV
2024
テキストからコーディネートを推薦する
例えば、「夏と秋の間の季節の変わり目に着れるオフィス向けのコーディネート」と入力すれば、アイテム一式を組み合わせてくれる
アイテムはデータセット内
(着画ではない)
/icons/hr.icon
2024/01/22
DressUp! Outfit Synthesis Through Automatic Optimization
ACM
2012(?)
AnyDoor: Zero-shot Object-level Image Customization
2023
arxiv
ある画像内のオブジェクトを、別の画像に対して違和感なくテレポーテーションさせる
ある種inpaintに近いことがしたい
画像から識別特徴と詳細特徴を獲得して拡散モデルに食わせると、物体の特徴を維持したまま別の画像にテレポーテーションさせることができる
特徴獲得の際に、背景除去やコラージュ作成が有効である
自己教師あり表現学習をおこなうことにより、アノテーションなしの大量データで学習が可能
Zero-shotで未知のオブジェクトも扱うことが可能
アリババグループの最新論文である
2024/01/26論文紹介
/icons/hr.icon
2024/04/08
RecSysの論文調査
Multi-Modal Dialog State Tracking for Interactive Fashion Recommendation
/icons/hr.icon
2024/04/30
POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion
2019
SIGKDD(データマイニング系のトップカンファレンス)
ファッションアイテム間の相性とユーザの嗜好を利用したTransformerアーキテクチャのコーディネート推薦システムの提案
マルチモーダルEmbeddingでアイテムの画像、アイテム名、ユーザのクリック履歴をベクトル化
コーディネート内のマスクされたアイテムを補完するタスク(Fill in the blank)を解くことで、アイテム間の相性を学習
Transformerのデコーダでユーザの嗜好信号とアイテムのベクトルを入力とし、コーディネートを生成
提案手法はCTRにおいて、協調フィルタリングを上回った
2024/04/30論文紹介
/icons/hr.icon
2024/05/01
OutfitTransformer: Learning Outfit Representations for Fashion Recommendation
2023
WACV
Learning to LankとTransformerを使ったコーディネート推薦
アイテムベース推薦
アブストだけ
Toward Explainable Fashion Recommendation
2020
WACV
コーディネートの良し悪しをスコア化&その説明を可能に
「Recommending Outfits from Personal Closet」の続きの研究
Outfit Graderの分類結果をコーディネートのスコアとして利用
ファッションアイテムが持つ特徴のうち、人間が解釈可能な特徴として「色、形状・テクスチャ」の二つを利用
色:k-meansクラスタリングで主要3色を獲得→9次元のベクトル化
形状・テクスチャ:Cannyエッジ検出器でエッジマップを獲得→CNNでベクトル化
「ファッションアイテムの特徴がコーディネートのスコアに与える影響度」として「IFIV」という指標を定義
アイテムの特徴から得たベクトルと、「スコアの、アイテムの特徴に対する微分」のアダマール積から算出
各アイテムの特徴毎に算出
IFIVが最大のアイテムの特徴=スコアに最も影響力のあるアイテムの特徴
評価実験を自働化
Outfit Graderによるスコアが高いコーディネートに含まれるアイテム、またはその色/エッジマップを置換したコーディネートを作成
評価の低いコーディネートの原因となったアイテム/特徴を正しく当てることができるか、で評価
アイテム/エッジマップの置換は高精度で検出、色は精度まちまち(置換の前後でスコアの変化小が原因か)
「XAI」の研究
結論の位置づけなどを参考にしよう!
2024/06/18論文紹介
/icons/hr.icon
2024/05/02
Recommending Outfits from Personal Closet
2017
ICCV
東北大学、サイバーエージェント、理研の共同研究
コーディネートの良し悪しを分類
二値分類タスクとして学習
データセット内のコーディネートに関して、いいねが1つでもついていれば「良いコーディネート」とする(正例)
良いコーディネートの構成アイテムをランダムにひとつ別のアイテムに入れ替えたものを「悪いコーディネート」とする(負例)
定量評価により、8割ほどの分類精度を誇る
「Polyvore dataset」を作成
アイテム及びコーディネートを含む
メタデータあり
このデータセットを使った論文を探す
「Toward Explainable Fashion Recommendation」の元となった論文
「いいねを使うのは一般的である」的な感じで引用可能
2024/05/17 論文紹介
/icons/hr.icon
2024/05/21
Learning Fashion Compatibility with Bidirectional LSTMs
2017
arXiv
LSTMによるコーディネート推薦
Polyvoreのデータセットを使用した研究(新たに自作している)
引用数がかなり多め
アブストのみ
ZOZOの論文紹介サイトより
Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data
2017
arXiv(他の会議にも出ているようだが)
外見とメタデータに基づくコーディネートのスコアリング
メタデータによるコーディネートの評価を利用(おそらく「いいね」)
Polyvoreのデータセットを使用した研究
アブストのみ
ZOZOの論文紹介サイトより
/icons/hr.icon
Disentangling Features for Fashion Recommendation
ACM Transactions on Multimedia Computing, Communications, and Applications(ジャーナルの論文)
2023
ファッションに関するレコメンデーションのためのDisentandled Represantatioの獲得
アブストのみ
/icons/hr.icon
2024/06/18
Fashion Coordinates Recommender System using Photographs from Fashion Magazines
IJCAI
2011
ファッションアイテム画像を入力とすると、それに相性のいい他アイテムを推薦する(確率的トピックモデルを利用)
著者が日本人
人手による評価は無し
アブストだけ(読む予定あり)
/icons/hr.icon
2024/07/16
Aesthetic-based Clothing Recommendation
CNNから得た画像特徴に加えて、美学的特徴(the aesthetic feature)を用いたコーディネート推薦
美学的特徴はBDN(Brain-inspired Deep Network)から獲得
構造はCNN
AVA(Aesthetic Visual Analysis)データセットで学習
ベースラインを上回る推薦精度を獲得
(アブストだけ)
/icons/hr.icon
2024/07/24
“Hi, Magic Closet, Tell Me What to Wear!”
ACM international conference on Multimedia
2012
オケージョンからコーディネート画像を検索/推薦可能にするためのデータセット、分類器の提案
オケージョン=機会
例えば「結婚式に出席したい!」というニーズがあるとき、オケージョンは「結婚式」となり、このオケージョンに適するコーディネート画像を出力する
分類器はSVMベースで作成
データセット「WoW」は、オケージョンやアイテムに関する情報をアノテーションしたコーディネート画像データセット
引用件数が多く、コーディネート推薦分野の先駆けとなった論文
2024/07/19論文紹介
SHIFT15M: Fashion-specific dataset for set-to-set matching with several distribution shifts
CVPR
2023
大規模なデータセットの公開+分布シフトを考慮した分析基盤の提案
データセット「SHIFT15M」
ファッションアプリ「IQON」(現在はサービス終了)から収集したコーディネートを基に作成
2010年~2020年までのデータを利用
コーディネートやアイテムの情報に加えて、投稿日時、いいね数、ジャンル・カテゴリなども含む
分布シフトを考慮した分析基盤
そもそも機械学習を行なう際、訓練データとテストデータはそれぞれ独立同値分布に従うという仮定を置いている
しかしファッションには「流行・トレンド」という概念が存在し、データセットの収集時期によって含まれるアイテムやコーディネートに偏りが生じる
時間によってデータの分布が変わることを「分布シフト」と呼ぶ
分類器の損失関数に確率の密度比を重みとすることで、分布シフトを考慮した学習が可能となる
ZOZO Researchから出た論文
データセットの中身の確認や試運転は未完了
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
CVPR
2023
Text-to-Image系論文のサーベイ+被験者評価用プロトコルの提案
主要なText-to-Image系の論文では、自動評価のみor自動評価+被験者評価でモデルを評価している場合が多い
しかし既存の自動評価手法は、人間の認識と矛盾が生じることが指摘されている(FID,CLIPScore)
一方で被験者評価の標準的な評価方法が存在しないため、基準や質問の粒度もバラバラ...
標準的被験者評価用プロトコルの提案
モデルが生成した画像に対して、「忠実度(fidelity)」と「連合度(alignment)」の二観点で評価
リッカート尺度を用いた評価の質問・項目に具体性を持たせる
改善前(例)Q.この画像のクオリティについて評価してください
1. 全くよくない
2. あまりよくない
改善後(例)Q. この画像はAIが生成した画像に見えますか?実際の写真に見えますか?
1. AIが生成した画像
2. 恐らくAIが生成した画像であるが、写実的である
「比較評価」ではなく「絶対評価」
「比較評価」:「この画像群の画像に、クオリティに関してランキングを付けてください」では、モデル間の性能差ではなく画像間の違いしか明らかにならない
2024/07/30 論文紹介
Diffusion Models for Generative Outfit Recommendation
SIGIR
2024
拡散モデルを用いたコーディネート推薦(タイトルのまんま)
2024/09 論文紹介
/icons/hr.icon
2024/10/09
TryOnDiffusion: A Tale of Two UNets
CVPR
2023
拡散モデルを用いた仮想試着(Virtual Try-On)
OutfitAnyoneが、このアーキテクチャを参考に設計された
2つのU-Netを統合したDiffusionベースのアーキテクチャにより、服のディテールを維持しつつ自然な着用画像の生成に成功
アブストだけ
/icons/hr.icon
2024/11/02
ReVisE: Emulated Visual Outfit Generation from User Reviews Using Generative-AI
SEDE(Software and Data Engineering)
2024
ユーザレビューから衣服を生成するフレームワークの提案
大規模言語モデルと画像生成AIの併用
専門家による評価あり
ざっくり読み
Item-region-based style classification network (IRSN): a fashion style classifier based on domain knowledge of fashion experts
Applied Intelligence(Springer論文誌)
2024
アイテムレベルでの特徴と組み合わせに焦点を当てたスタイル分類ネットワークの提案
分類対象はファッションスナップ画像
「FashionStyle14」というデータセットを利用
アブストのみ
What Makes a Style: Experimental Analysis of Fashion Prediction
ICCV
2017
スタイル分類のためのデータセット「FashionStyle14」の提案
国産のファッションデータセット
被写体1名が写ったファッションスナップ画像と、スタイルを表すタグのデータセット
スタイルは全部で14種(カジュアル、フェミニンなど)
早稲田大学シモセラ研の方々の論文
シモセラ研では他にも様々なデータセットを公開中
もしかしたら何かに使えるかも?
アブストのみ
Neuroaesthetics in Fashion: Modeling the Perception of Fashionability
CVPR
2015
ファッション性のモデリングのためのデータセット「Fashion144k」の提案
引用件数200件超えのシモセラさんの論文
ユーザ評価からファッション性(Fashionability)のモデリング
ユーザ評価=いいね数(論文内では「the number of VOTE」)
「ファッション性は専門家が評価するのが一番だし、見る人によって左右されるだろう」→「ファッショナブルさの代わりに大衆の嗜好を活用」
2024/11/19論文紹介
/icons/hr.icon
2024/11/11
Uni-DlLoRA: Style Fine-Tuning for Fashion Image Translation
SIGMM
2024
ファッション画像生成用のLoRA学習手法の提案
画像生成には拡散モデルを利用
アブストのみ(紹介予定)
Show Me The Best Outfit for A Certain Scene: A Scene-aware Fashion Recommender System
WWW
2023
シーン(≒場所)に着目したコーディネート推薦システムの提案
アイテム、コーディネート、シーンをそれぞれ推薦可能
それぞれの評価を実施
アブストのみ(紹介予定)
/icons/hr.icon
2024/11/18
A Fashion Item Recommendation Model in Hyperbolic Space
CVFAD(Workshop on Computer Vision for Fashion, Art, and Design)
2024
ファッションアイテム推薦モデルの学習に、双曲空間における距離尺度を導入
ZOZO研究所の方々の論文
「CVFAD」とは、CVPR内で開催されるファッションやアートに焦点を当てたワークショップ
2024年が7度目の開催
査読あり、採択率低
アブストのみ
/icons/hr.icon
2024/11/20
FashionVQA: A Domain-Specific Visual Question Answering System
CVFAD
2023
ファッション領域におけるVQAタスクのためのデータセットの設計手法の提案
メタデータをテンプレートに入力することで、自然言語の質問文・回答文を生成
画像-質問-回答の三つ組みを作ることで、既存のVLMの訓練に利用可能
人間 VS VLM
作ったデータセットで学習したVLMは、人間の回答精度を上回る
一般的な検索や推薦に加え、最近注目される「対話型検索・推薦」にも利用可能
紹介予定
/icons/hr.icon
キーワード
outfit recommendation, outfit retrieval, clothing recommendation, clothing retrieval, outfit generation