Guiding Creative Design in Online Advertising

2019/12/12

#Recsys #Recsys2019 #Ads #shunk031

https://gyazo.com/0b4e30ecf4f9021e404c4c7f156a8df4

RecSys2019 Short Paper 採択論文

https://dl.acm.org/citation.cfm?id=3347022

1. どんなもの？

クリエイティブ作成の支援に向けて、与えられたブランドに対してキーワードを推薦するシステムを提案

2. 先行研究と比べてどこがすごいの？

広告クリエイティブ

広告主に雇われているcreative strategistや広告エージェントによって作成されている

これらはとても時間がかかり、多数のクリエイティブが必要である

予めストックされているキーワードやデザイン、テキストから広告クリエイティブを作成している

このときカテゴリー情報はとても重要

Wrangler & automobile -> ジープ・ラングラー（車）

Wrangler & clothing -> カウボーイやロデオライダー向けジーンズで有名なジーンズブランド（服）

https://gyazo.com/9b6e0db6b3be386a76cbaac95227eaf9

本研究では商品のカテゴリと商品固有のキーワードをペアとして学習し、キーワードの推薦を可能にする

ディープニューラルネットワークベースのレコメンダーシステムCreative-Assistを設計

関連研究

Automatic understainding of ad images

コンピュータビジョンの視点から、広告画像や広告動画からコンテンツを自動で認識させる Hussain+ CVPR17

Relevance matching and collaborative filtering

商品カテゴリからキーワードを推薦する問題設定

協調フィルタリング（ユーザー行動から商品を推薦する）の問題設定と同様に捉えることが可能

Matrix Factorization (MF), Factorization Machine, ニューラルネットワークベースのアプローチ等

クエリ文書とのどれだけ関連しているかのランキング

MFで得られるキーワードはしばしば対象クリエイティブに無関係なものも存在する

キーワードの数や対象商品の関連性に制限を設けられる、ranking modelが今回は適していそう

ranking modelとして、SoTAのdeep relevance matching model (DRMM) Guo+ CIKM16 を今回はベースに使用

Sentiment analysis

まとまったデータソース（wikipedia, tweet, 商品レビュー）は潜在的なキーワードの集合

データソースからキーワードの抽出やそれにともなった感情分析タスクに対して様々な手法が提案されている

3. 技術や手法の"キモ"はどこにある？

DRMM ベースのモデルに対して商品ブランド・カテゴリーの対から関連するキーワードを推薦するシステムを構築

Problem setup

商品に対するキーワードの推薦をランキング問題として扱う

クエリ：（商品ブランド、カテゴリー）

ドキュメント：単語列

ラベル：関連している or 関連していない

label generationフェーズで生成

Dataset

creatives dataset

64,000クリエイティブ（900ブランド・39カテゴリ）からなるデータセット Hussain+ CVPR17

各クリエイティブには2つのアノテーションが付与されている

topic (39タイプ)

その商品を購入した理由のquestion and answer

Why do you want to bu Wrangler jeans? -> because it has style and is very comfortable

本研究では以下のアノテーションを追加で付与

クリエイティブに存在するブランド

クリエイティブ内のブランドとカテゴリのペアに関連するwikipedia page

各ブランド-カテゴリに関連付けられたターゲットキーワード群

brand wiki pages

Wikipediaをソースとしたデータセット

1579ブランド-カテゴリのペアがリンクしているページ

Infobox company template で取れる69,000ブランドのページ

Method

Label generation

正例と負例の作成

正例：Hussain+ CVPR17 でアノテーションされたものをground-truthとして使用

負例：Wikipediaからランダムにサンプルした単語を使用

最終的に1579ブランド-カテゴリのペアを使用

Query document representations

64,000クリエイティブ、69,000ブランドのwiki pageが対象

doc2vecを用いて文書表現を取得

DRMM based ranker

deep relevance matching model (DRMM) Guo+ CIKM16 をベースに使用

入力は2つ：クエリとなるwiki pageのembedding、キーワードとなる単語のembedding

ブランド$ {\rm brand}と正例キーワード$ w^{+}、負例キーワード $ w^{-} のtriplet $ ({\rm brand}, w^{+}, w^{-})を元に以下の損失関数を最小化する：

$ \mathcal{L}({\rm brand}, w^{+}, w^{-}) = {\rm max}(0, 1 - s({\rm brand}, w^{+}) + s({\rm brand}, w^{-}))

$ s({\rm brand}, w)は単語$ wに対する一致度

https://gyazo.com/06266b2178a49e09148c9ef7faa123ee

4. どうやって有効だと検証した？

ベースラインモデルと提案手法を比較

Baseline model

K-NN on doc2vec

wikipediaページで学習したdoc2vec表現をもとに、近傍のキーワードを推薦対象として使用

TF-IDF

term frequencyとinverse document frequencyをもとにキーワードを推薦対象として使用

Logistic regression (LR)

対象キーワードが関連しているかしていないかの2値分類としてロジスティック回帰モデルを学習させる

Logistic regression + Sentiment (LR-sent)

対象キーワードに対してポジティブかネガティブかを追加で特徴量として扱う

Factorization machine (FM)

商品ブランドとキーワードとの交互作用を学習

ブランドカテゴリとキーワードの交互作用を学習

Multi layer perceptron (MLP)

ブランドカテゴリとキーワードの対と入力し、キーワードとの関連性を2値分類として学習させる

Results

評価メトリック

Precision@K

Recall@K

評価方法

各ブランド-カテゴリのペアに対して集計した結果

評価結果

DRMMベースのモデルが一番良い結果だった

https://gyazo.com/8b235cc6bcc3b0ad2d177ace5c3e6f13

5. 議論はあるか？

教師なしモデルは教師ありモデルに比べて精度が有意に低かった

感情特徴を加えた場合、ない場合よりかは良かった

しかしながらDRMMベースのモデルのほうが良い

6. 所感

広告クリエイティブの作成支援の文脈の論文が出てき始めた感を感じる

イントロの書き方が参考になった（広告クリエイティブの説明、広告クリエイティブ作成の自動化の意義等）

手探りで同じような文脈で書いたKitada+ KDD19も、そんなに英語的に間違ってなくてよかった

実は広告画像や広告動画に対する研究 Hussain+ CVPR17 があったのが驚き（サーベイ不足だった感）

しかしNLPに近い分野で広告クリエイティブに関する研究はまだまだ少ない

モデルが軽めなので、データセットを独自で構築できれば簡単に学習開始できそう&サービスに組み込めそう

キーワードサジェストってどれくらい効果あるのかわかってないけど支援として使えるなら便利そう