Recommending Themes for Ad Creative Design via Visual-Linguistic Representation
2020/05/21
https://gyazo.com/b67184356a0fc1095da5874ad95d5ab4
WWW2020 採択論文
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
オンライン広告はブランド(広告主)の商品を広めるために普及してきている 広告のフォーマットやクリエイティブに革新的な変化が必要になってきている
広告クリエイティブ作成者の視点
主に以下の点で創造性が必要であり時間を要する
広告の新しいテーマの考案
テーマを元にした広告画像やテキストの作成
人間の創造性を要する作業をサポートするのが本研究の立ち位置
広告クリエイティブ作成支援のためのテーマ推薦
問題点
広告画像は考慮されていない
キーワード単体のみしか推薦できない
複数の語からなるキーフレーズを推薦できると広告対象をより正確に伝えることが可能
本研究の貢献点
マルチモーダル(広告画像・OCRによるテキスト・Wikipedia情報)を用いた広告テーマ推薦 キーワード推薦(単語単体)ではなくキーフレーズ推薦(複数の単語)
VQA(visual question answering)問題として、分類とランキングの側面から定式化 画像特徴やテキスト特徴を考慮したTransformerベースのモデルの有効性を確認
両者を用いた場合にパフォーマンスが大幅に向上
パブリックな広告クリエイティブデータセットによる評価結果を報告
https://gyazo.com/077d5f7849c34e7e443481694a642117
広告クリエイティブの自動理解
本研究の提案手法が実現できた要因の1つ
オブジェクト認識やキャプション認識を使用
対象ブランドの広告をデザインする上で、指針となりうるキーワードを推薦する問題に初めて挑戦
しかし前述の通り問題点もある
本研究ではブランド固有の広告クリエイティブテーマを推薦するために、VQAタスクとして定式化し、複数のモーダルを活用することに焦点を当てている。
3. 技術や手法の"キモ"はどこにある?
広告クリエイティブのテーマ推薦は次のタスクによる定式化が可能
カテゴリ分類タスクによる定式化 (classlfication formulation)
順位推定タスク (raning formulation)
カテゴリ分類タスク
入力
画像
広告画像
テキスト
広告画像からOCRして得られるテキスト
予めデータセットに収録されている質問文テキスト
対象ブランドのwikipediaページから得られるテキスト
出力
キーフレーズ
https://gyazo.com/97ff57a37f64ba1c6cb126259b1062be
テキストと画像の埋め込み
テキストの埋め込み
文章をWordPiece Tokenizerで単語の列に変換
単語IDと単語の位置から単語埋め込みと位置埋め込みを計算
画像の埋め込み
Transformerベースのcross-modality encoder
Transformerベースで複数のモーダルを考慮できるモデル
複数のself attentionとfeed forward(FF)ネットワークから成る
複数のencoder部分がある
object-relationship encoder
広告画像から得られたROI特徴を元にオブジェクト間の関係性を学習
language encoder
テキストから得られた埋め込み特徴を元に広告クリエイティブで用いられる言語パターンを学習
複数のencoder部分から得られたcross modality embeddingを元にキーフレーズを予測
順位推定タスク
入力
query
cross modality embedding
document
キーフレーズのembedding
出力
キーフレーズの関連スコア
https://gyazo.com/e683cab0bbc2442ad4563abd4dba3807
DRMM による順位推定
SoTAのDeep relevance matching model (DRMM)をベース (画像, テキスト)の対と正例キーフレーズ$ p^{(+)}と負例キーフレーズ $ p^{(-)}を使う以下の損失を最小化するように学習
$ L({\rm img}, {\rm text}, p^{(+)}, p^{(-)}) = {\rm max}(0, 1 - s({\rm img}, {\rm text}, p^{(+)}) + s({\rm img}, {\rm text}, p^{(-)}) )
マッチングスコア $ s(\cdot)
4. どうやって有効だと検証した?
データセット
データセットの分割
train:test = 8:2 うち trainの10%をvalid
各クリエイティブには以下のデータがクラウドソーシングによって付与されている
カテゴリ情報(39種類)
クリエイティブに描かれているブランドから購入する理由として質問と解答
各画像に関連付けられたキーフレーズの集合
キーフレーズは最大5個まで
位置に基づくスコアリング手法position-rankにより、上位から 1.0, 0.9, ..., 0.6 の順でスコア付
評価指標
分類モデルの評価
対象の広告画像に対してキーワードを予測した時の正解率(一致率)
予測されたキーフレーズの埋め込みとground truthであるキーフレーズの埋め込みの類似度
Accuracyでは似ているキーフレーズを予測できたとしても正解率は0になってしまうため
a great offer と great sale は意味的に似ているが、ラベルは異なるので
意味的に類似しているかを評価する
ground truthのキーフレーズは5つ付与されているが、そのなかでtop 3を取り出してrecallを計算
ランキングモデルの評価
実験結果
分類モデルの実験結果
言語特徴により大幅な精度向上を確認
Q (質問の解答) ・W (wikipediaからのテキスト) ・O (OCRによるテキスト)
広告画像を使わないより、使ったほうがよい
各モーダルのinteractionを考えない non cross-modal では精度減少
https://gyazo.com/a3e337db40b9bfad77c2adb700f340cd
ランキングモデルの実験結果
OCRテキストはwikipediaテキストよりも性能向上に寄与
P@10で広告画像単体のほうが広告画像+質問解答よりも精度が良かった
https://gyazo.com/63692523f55cb1c3c69043fbf9e0bab9
5. 議論はあるか?
カテゴリごとの正解率および類似度がどれくらいパフォーマンス向上したかのグラフ
正解率の観点
公共サービスの告知広告においてパフォーマンスが特に上がっている
DV domestic_violence や動物の権利 animal_right などはテキスト特徴の恩恵を享受
類似度の観点
類似度と正解率は一般的に同じトレンドではない
https://gyazo.com/02ef6a277d6d7f4164434cb78cc55385
モデルが推薦したキーワードを元にストラテジストが新たな広告クリエイティブを生成できるか
データセットに含まれている広告画像だけでは正解率は0になる例
テキスト特徴を同時に使うと正解率は1になる
予測されたキーフレーズを検索エンジンのクエリとして使用可能
新しいクリエイティブの発想の手助けになる
https://gyazo.com/ef74ba51c4d40a08d0f3da3bccad2ec1
6. 所感
VQA的設定で広告クリエイティブの作成支援の余地を見いだした面白い論文
データセットに質問と解答が含まれてるから発想的には自然なのかな
特に分類の設定とランキングの設定の2つやってどうなるか比較していて良い
タスクを解く精度は近年のSoTAモデルを使ってもそんなに高くなさそう
モデルを改善できればもっと良いキーフレーズ推薦ができるのか?
そもそも本研究で使われてるデータセットやタスクが難しそう
このモデルによって推薦されるキーフレーズを使うことで配信効果が高いものを制作できるかは不明
そこは人間さまの"""クリエイティビティ"""に依存するのでがんばる
最終的に解きたい課題は同じ