LLMで生成したテキストプロンプトによるコーディネート画像生成
書誌情報
タイトル:Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models
掲載元 :ECCV Workshop
掲載年 :2024
著者  :Georgia Argyrou, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Filandrianos and Giorgos Stamou
リンク :https://arxiv.org/abs/2407.14944
何をしている論文?
LLMでプロンプトを生成することによるファッション画像生成手法の提案
「こんな時に着たい」という機会、コーディネートのスタイル、着用者の性別と体系の三つ組みをLLMに入力→画像生成AI用テキストプロンプトを出力→コーディネート画像を出力
画像生成AI用のテキストプロンプトに考えさせるというアプローチ
今回、画像生成AI側には追加の学習を施さない。LLMで画像生成用プロンプトを考えて、画像生成AIが画像を生成する流れ。
手法の概要
入力:「スタイル・オケージョン・着用者の性別または体系」のトリプレット、出力:コーディネート画像
トリプレットはまず、LLMに入力される。LLMはトリプレットをもとに画像生成AI用のテキストプロンプトを出力。
画像生成AIは、LLMで作成されたテキストプロンプトをもとにコーディネート画像を生成し出力。
画像生成AI用プロンプトの生成方法として、「Zero-shot」「Few-shot」「Chain-of-Thought」「Retrieval-Augumented Generation(RAG)」の四種類を採用。
使用するLLMはMistral-7B、Falcon-7B
Zero-shot
LLM用プロンプトテンプレートに入力されたトリプレットを含めることで、画像生成AI用プロンプトを生成
Few-shot
入力されたトリプレットを含むLLM用プロンプトテンプレートに加えて、タスクの例をLLMに入力し、画像生成用プロンプトを生成
事前に20個の質問-回答ペアを準備しておき、トリプレット入りLLM用プロンプトテンプレートと最も類似度の高い質問2件とその回答のペアを入力
CoT
まず、Few-shot入力を基に、コーディネート内のアイテムの色とテクスチャを生成する
生成された色・テクスチャ情報を、入力トリプレットとともにLLM用プロンプトテンプレートに加えて、画像生成AI用プロンプトを生成
RAG
検索のための情報源は、ファッション記事やブログ
使用する画像生成AIはepiCRealism(Stable Diffusionベース)
工夫している点
LLMへのプロンプトはテンプレートを用意して作成
RAGやCoTなどの手法と比較
評価実験の方法と結果
定量評価:CLIPScore
LLMで生成したテキストプロンプトと、生成画像の類似度をCLIPで算出することで評価
それぞれの生成方法で、0.29から0.31(中程度)のスコア
各手法のスコアやその比較は未実施
被験者評価
3つの実験を実施。被験者は全部で79名。
①生成画像の評価
スタイルや機会、ユーザタイプへのマッチ度合いや画像のクオリティなどに関する質問を合計8つ用意
スタイルやユーザタイプへの適性は高い一方で、機会への適性は被験者間の評価が割れ、中程度の評価であった
画像のクオリティに関して、重大な欠陥は見らなかった
ほとんどの評価ケースでFew-shot手法はZero-shot手法を上回った
服装の創造性や美的満足度はRAGやCoTが高い評価を獲得した
②生成された説明文(LLMで生成した、画像生成AI用テキストプロンプト)の評価
LLMで生成された説明文の首尾一貫性、明瞭さ、機会・ユーザタイプとのマッチ度合いなどを合計11個の質問で評価
RAG手法が全体的に高い評価を得た一方で、Zero-shot手法は比較的低い評価を得た
LLM間の比較においては、全体的にFalconの説明文が高い評価を得たが、Mistralは説明の論理性や一貫性で高い評価を得た。
③画像と説明文を見て、最も好ましい画像を選ぶ
5つの手法で生成された画像の中で、最も好ましい画像を選択
Few-shot手法で生成された画像がもっともよい評価を得た
面白いと感じた点
プロンプティング方法やLLM間で生成画像やテキストの品質を比較している点
そのほかの感想
評価が固い
質問項目も多数
被験者数79名という規模の評価←うらやましい
プレーンなSD系ベースモデル以外を使った研究は珍しい
https://www.ipsj.or.jp/kenkyukai/event/dbs181ifat160.html
#Yuma_Oe
#paper