画像の美的さ・多様さ向上のためのプロンプト拡張
書誌情報
タイトル:Prompt Expansion for Adaptive Text-to-Image Generation
掲載元 :ACL
掲載年 :2024
著者 :Siddhartha Datta, Alexander Ku, Deepak Ramachandran, Peter Anderson
何をしている論文?
LLMを用いたプロンプト拡張による画像生成
プロンプトを拡張するLLMには、オリジナルのデータセットで追加学習を施す
自動評価及び被験者評価を通して、生成画像の多様さ・美的さが向上したことを確認
手法の概要
提案手法の入出力
入力: クエリプロンプト(英単語ひとつ、など)
出力: n個の拡張プロンプト
アプリケーションとしての入出力
入力: クエリプロンプト(英単語ひとつ、など)
出力: クエリプロンプトを拡張したプロンプトに基づき生成された画像
工夫している点
「クエリ-拡張プロンプト」のペアデータセット作成
高品質な画像を収集
画像共有サイトから実画像を、クラウドソーシングを使って生成画像をそれぞれ収集
収集画像の中から特にユーザ評価の高いもの「美しい・美的な」画像として利用
キャプショニング
COCA Interrogatorというキャプショニングモデルで画像をキャプショニング
キャプションが、拡張プロンプトに当たる
クラウドワーカーが使ったプロンプトの中から、画像と類似度が高いものをキャプションとして利用
クエリ生成
キャプショニングから、拡張前のクエリをLLMを使って生成
生成時には人手で設計した例をFew-shotとして入力する
プロンプト拡張用LLMのファインチューニング
学習用データを2つに分けて、二度のファインチューニングを実施
①クエリ-拡張プロンプトのペアデータでファインチューニング
クエリを入力すると、拡張したプロンプトを出力するように学習
②品質の良いペアデータのみで再ファインチューニング
①で学習した状態のモデルで、クエリ→拡張プロンプトの変換を実施
拡張プロンプトを入力とし、画像生成AI「Imagen」で画像生成
生成画像とクエリ、生成画像とプロンプトの類似度をCOCAで計測→閾値未満のクエリ-拡張プロンプトのペアを学習データから除外
これにより、最終的に画像がクエリ及び拡張プロンプトで再現可能なペアデータのみでLLMを再ファインチューニング
評価実験の方法と結果
自動評価
評価観点
美しさ: MUSIQ-AVAで評価
テキスト-画像整合性: COCAによるクエリプロンプト-画像間の類似度を評価
多様性: 画像特徴量の分散で評価
評価結果
リファインチューニングなし、ベースラインと比較して画像の美的さ・多様さが向上
テキスト-画像整合性はやや低下→美的さ・多様さとのトレードオフ
被験者評価
実験設定
画像の美的さ・クエリ反映度をそれぞれ人手でペアワイズ評価
1対1評価
ある1つのクエリに対し、提案手法とベースライン手法それぞれで生成した画像をランダムに1枚ずつ表示
より美的である方を選択
ベスト対ベスト評価
ある1つのクエリに対して、提案手法とベースラインでそれぞれ4枚ずつ画像を生成
まず、4枚の中から画像を選ぶ
次に、各手法の画像の画像からより良いものを選ぶ
3名の被験者が参加
評価結果
ベースラインよりも美的さが向上
ベスト対ベストの場合、提案手法がより美的であると評価→多様さが美的さの向上につながる
テキスト整合性はほぼ引き分け
テキスト整合性を落とさずに美的さを向上することが可能
面白いと感じた点
画像収集→キャプショニング→LLMでクエリ生成の流れで作る「クエリ-拡張プロンプトペア」データセット
アプリケーション全体のレイテンシを考えた軽量LLMによるプロンプト拡張
そのほかの感想
データセットの設計方法に自分の研究に使えるヒントがありそう
MUSIQで美的さ、埋め込みベクトルの分散で多様さをそれぞれ測る、ここも自分の研究にどこかで使えそう