VLMと人間のファッションに対する評価の比較
書誌情報
タイトル:An Empirical Analysis of GPT-4V’s Performance on Fashion Aesthetic Evaluation
掲載元 :SIGGRAPH-Asia
掲載年 :2024
著者  :Yuki Hirakawa, Takashi Wada, Kazuya Morishita, Ryotaro Shimizu, Takuya Furusawa, Sai Htaung Kham, Yuki Saito
リンク :https://dl.acm.org/doi/10.1145/3681758.3698022
何をしている論文?
GPT-4V を用いてファッションの美的評価をゼロショットで行う能力を検証
人間がおこなった評価と比較
手法の概要
データセット作成
WEARから女性ユーザ3名のコーディネート画像を収集
数百名のアノテータにコーディネート画像ペアを見せて、各ペアでどちらがより似合うコーディネートかを判定
ペアワイズ評価の結果にOpenSkillアルゴリズムを適用し、「似合う」順に並んだコーディネート画像データセットを作成
GPT-4Vによる評価
入力は二枚のコーディネート画像とテキストプロンプト、出力は二枚の画像のうちどちらのコーディネートが「似合う」かの判定
位置バイアス(入力順序の影響)を軽減するため、各画像ペアに対し2回プロンプトを実施し、結果の一貫性を確認する仕組みを導入
工夫している点
OpenSkillアルゴリズムによる効率的かつ信頼性の高いランキングの作成
入力順序の影響を軽減するために、各画像ペアで評価を2度実施
評価実験の方法と結果
分類タスク
似合うデータセットの上位と下位からランダムに画像を1枚ずつ選らんでペアにし、GPT-4Vがどちらを「より似合う」と判断するか測定
ランキングタスク
全画像間のペアワイズ比較を実施し、GPT-4Vの出力によるランキングとアノテータによる評価のランキングとの相関係数を測定
全体として、GPT-4Vによる予測は人間の審美判断と整合性があり、ファッション性評価の自働化ツールとして利用できる可能性が示された
面白いと感じた点
生のGPT-4Vをそのまま使い、現状のファッションに対する美的価値観の測定を試みた点
将来的にデータセット作成の自働化を見据えている点
そのほかの感想
VLMをファッション領域に利用した数少ない研究例
今回は「似合うか」にフォーカスしたが、例えば「どちらがカジュアルファッションか」や「どちらがデートに最適か」など、ファッションに関する様々な観点に対して利用できるか気になる
大規模にアノテーションできる環境が欲しいと思うた
#Yuma_Oe
#paper