TV Advertisement Scheduling by Learning Expert Intentions

読んだ

https://www.kdd.org/kdd2019/accepted-papers/view/tv-advertisement-scheduling-by-learning-expert-intentions

https://dl.acm.org/doi/10.1145/3292500.3330768

Introduction

TV広告のアロケーションは人手でやっており、自動化できていない

人間の直感に依存している

ブランドイメージが特定のプログラムや広告からの影響を受けないように配置する

競合の広告を離して配置する

既存研究は特定のTV局のオペレーションに特化しており汎用的ではない

提案手法

数理最適化で解きたいが、エキスパートの判断を入れる余地を残したい

どうするか

Our proposed system can imitate the decision-making process that TV clerks or experts perform to create schedules that satisfy their advertisers

専門家の意思決定を模倣する方法を提案

関連手法

逆最適化(Inverse Optimization: IO) → 目的関数を推定する

逆強化学習 → 報酬を推定する

過去のエキスパートの操作から制約と目的関数を学習して最適化する事で、TVネットワークの収益と広告主の満足度を達成できる

未知の製品の広告にも対応できるように (コールドスタート)

製品のクラスタを学習しておく

クラスタがわかれば最適化できるように

広告スケジューリングのワークフロー

1. 広告主がTV clerkに広告を配信したいリクエストを投げる

2. TV cleakがTV局の収益を考慮して候補を作成する

3. 候補を広告主に提示し、交渉が行なわれる

4. 2-3 を繰り返して同意が取れたら完了 (←ここが時間かかる)

In summary, we consider the following for automating our specific workflow:

• automatic scheduling with constraints via mathematical optimization,

• learning intentions or data-driven tuning of a mathematical program via inverse optimization, and

• solving the cold start problem by clustering and learning representative intentions.

定式化

広告リクエスストの内容

契約期間、広告の期間、時間の制約

最小GRP

target audience

the names of preferred or unacceptable programs or program genres

広告リクエストを受けてTV clerkは次を考慮する、これが制約となる

the satisfaction of the advertiser’s requirements

the remaining seconds of each slot,

the balance between the TV ad and other ads, and

possible adjustment with other clerks.

では目的関数は?

広告主はコストパフォーマンスを求める

ブランドイメージとリクエストの制約の中でGRPを最大にしてほしい

できるだけ少ないスロットに配置したい

次の広告リクエストが入る余地を残しておけば期待収益が増える

https://gyazo.com/e8ff0e723084d02bf80a2c40494910a2

エキスパートの意図はそれぞれのJのウェイト $ \theta \in \{w_{\rm adv}, w_{\rm tv}\} で θを逆強化学習で得る

System Overview

学習コンポーネント

クラスタと目的関数を学習する

input

広告リクエスト

エキスパートの作成したスケジュール

output

広告のクラスタ

クラスタの目的関数

スケジューリングコンポートネント

input

広告リクエスト

output

スケジュール

TV Ad clustering

仮定: 似た放送ポリシーを持つ広告は似た目的関数を持つ

放送ポリシー同士のコサイン距離を使って階層クラスタリングしてる

逆最適化

過去のエキスパートの作成したスケジュールを元に、広告クラスタ毎に目的関数を学習する

最尤推定

WIP

提案手法のスケジューリング結果の評価

指標

エキスパートの作成したスケジューリングとのコサイン距離

比較対象

OR1: トータル時間を最小にする最適化

OR2: 余計なGRP (広告リクエストの最小GRPを越えた分) を最小にする最適化

実験した全ての製品についてエキスパートの作成したスケジュールに近かった

感想

エキスパートの意図 (を再現する行動) をパラメータ二つで表現した所が凄いというか潔い

クラスタリングを階層クラスタリングにしたのは結果の説明がしやすいだからとか

#kdd2019