Guiding Creative Design in Online Advertising
2019/12/12
#Recsys #Recsys2019 #Ads #shunk031
https://gyazo.com/0b4e30ecf4f9021e404c4c7f156a8df4
RecSys2019 Short Paper 採択論文
https://dl.acm.org/citation.cfm?id=3347022
1. どんなもの?
クリエイティブ作成の支援に向けて、与えられたブランドに対してキーワードを推薦するシステムを提案
2. 先行研究と比べてどこがすごいの?
広告クリエイティブ
広告主に雇われているcreative strategistや広告エージェントによって作成されている
これらはとても時間がかかり、多数のクリエイティブが必要である
予めストックされているキーワードやデザイン、テキストから広告クリエイティブを作成している
このときカテゴリー情報はとても重要
Wrangler & automobile -> ジープ・ラングラー(車)
Wrangler & clothing -> カウボーイやロデオライダー向けジーンズで有名なジーンズブランド(服)
https://gyazo.com/9b6e0db6b3be386a76cbaac95227eaf9
本研究では商品のカテゴリと商品固有のキーワードをペアとして学習し、キーワードの推薦を可能にする
ディープニューラルネットワークベースのレコメンダーシステムCreative-Assistを設計
関連研究
Automatic understainding of ad images
コンピュータビジョンの視点から、広告画像や広告動画からコンテンツを自動で認識させる Hussain+ CVPR17
Relevance matching and collaborative filtering
商品カテゴリからキーワードを推薦する問題設定
協調フィルタリング(ユーザー行動から商品を推薦する)の問題設定と同様に捉えることが可能
Matrix Factorization (MF), Factorization Machine, ニューラルネットワークベースのアプローチ等
クエリ文書とのどれだけ関連しているかのランキング
MFで得られるキーワードはしばしば対象クリエイティブに無関係なものも存在する
キーワードの数や対象商品の関連性に制限を設けられる、ranking modelが今回は適していそう
ranking modelとして、SoTAのdeep relevance matching model (DRMM) Guo+ CIKM16 を今回はベースに使用
Sentiment analysis
まとまったデータソース(wikipedia, tweet, 商品レビュー)は潜在的なキーワードの集合
データソースからキーワードの抽出やそれにともなった感情分析タスクに対して様々な手法が提案されている
3. 技術や手法の"キモ"はどこにある?
DRMM ベースのモデルに対して商品ブランド・カテゴリーの対から関連するキーワードを推薦するシステムを構築
Problem setup
商品に対するキーワードの推薦をランキング問題として扱う
クエリ:(商品ブランド、カテゴリー)
ドキュメント:単語列
ラベル:関連している or 関連していない
label generationフェーズで生成
Dataset
creatives dataset
64,000クリエイティブ(900ブランド・39カテゴリ)からなるデータセット Hussain+ CVPR17
各クリエイティブには2つのアノテーションが付与されている
topic (39タイプ)
その商品を購入した理由のquestion and answer
Why do you want to bu Wrangler jeans? -> because it has style and is very comfortable
本研究では以下のアノテーションを追加で付与
クリエイティブに存在するブランド
クリエイティブ内のブランドとカテゴリのペアに関連するwikipedia page
各ブランド-カテゴリに関連付けられたターゲットキーワード群
brand wiki pages
Wikipediaをソースとしたデータセット
1579ブランド-カテゴリのペアがリンクしているページ
Infobox company template で取れる69,000ブランドのページ
Method
Label generation
正例と負例の作成
正例:Hussain+ CVPR17 でアノテーションされたものをground-truthとして使用
負例:Wikipediaからランダムにサンプルした単語を使用
最終的に1579ブランド-カテゴリのペアを使用
Query document representations
64,000クリエイティブ、69,000ブランドのwiki pageが対象
doc2vecを用いて文書表現を取得
DRMM based ranker
deep relevance matching model (DRMM) Guo+ CIKM16 をベースに使用
入力は2つ:クエリとなるwiki pageのembedding、キーワードとなる単語のembedding
ブランド$ {\rm brand}と正例キーワード$ w^{+}、負例キーワード $ w^{-} のtriplet $ ({\rm brand}, w^{+}, w^{-})を元に以下の損失関数を最小化する:
$ \mathcal{L}({\rm brand}, w^{+}, w^{-}) = {\rm max}(0, 1 - s({\rm brand}, w^{+}) + s({\rm brand}, w^{-}))
$ s({\rm brand}, w)は単語$ wに対する一致度
https://gyazo.com/06266b2178a49e09148c9ef7faa123ee
4. どうやって有効だと検証した?
ベースラインモデルと提案手法を比較
Baseline model
K-NN on doc2vec
wikipediaページで学習したdoc2vec表現をもとに、近傍のキーワードを推薦対象として使用
TF-IDF
term frequencyとinverse document frequencyをもとにキーワードを推薦対象として使用
Logistic regression (LR)
対象キーワードが関連しているかしていないかの2値分類としてロジスティック回帰モデルを学習させる
Logistic regression + Sentiment (LR-sent)
対象キーワードに対してポジティブかネガティブかを追加で特徴量として扱う
Factorization machine (FM)
商品ブランドとキーワードとの交互作用を学習
ブランドカテゴリとキーワードの交互作用を学習
Multi layer perceptron (MLP)
ブランドカテゴリとキーワードの対と入力し、キーワードとの関連性を2値分類として学習させる
Results
評価メトリック
Precision@K
Recall@K
評価方法
各ブランド-カテゴリのペアに対して集計した結果
評価結果
DRMMベースのモデルが一番良い結果だった
https://gyazo.com/8b235cc6bcc3b0ad2d177ace5c3e6f13
5. 議論はあるか?
教師なしモデルは教師ありモデルに比べて精度が有意に低かった
感情特徴を加えた場合、ない場合よりかは良かった
しかしながらDRMMベースのモデルのほうが良い
6. 所感
広告クリエイティブの作成支援の文脈の論文が出てき始めた感を感じる
イントロの書き方が参考になった(広告クリエイティブの説明、広告クリエイティブ作成の自動化の意義等)
手探りで同じような文脈で書いたKitada+ KDD19も、そんなに英語的に間違ってなくてよかった
実は広告画像や広告動画に対する研究 Hussain+ CVPR17 があったのが驚き(サーベイ不足だった感)
しかしNLPに近い分野で広告クリエイティブに関する研究はまだまだ少ない
モデルが軽めなので、データセットを独自で構築できれば簡単に学習開始できそう&サービスに組み込めそう
キーワードサジェストってどれくらい効果あるのかわかってないけど支援として使えるなら便利そう