Using Survival Models to Estimate User Engagement in Online Experiments
著者
https://gyazo.com/6bc0471cda3a85eafdb177e8fcb7efcd
概要
A/B テストの意思決定では、以前はCTR などの短期的な指標が重要視されがちだったが、最近は長期的な影響に焦点を当てることが増えてきた。
一方で長期的な実験の設計は困難
生存分析のフレームワークを採用することで、短期的な行動指標と組み合わせて長期的な指標を予測する
最高の生存モデルを作成することがゴールではなく、その有用性の議論を行うこと
貢献
A/Bテストで使用するためのシンプルな time-to-inactivity メトリクスと、生存モデルを使用した開発のためのガイドラインを提供
オンライン実験での意思決定に予測される time-to-event を使用するためのvalidationチェックのset
ケーススタディ: Spotifyのオンライン実験では、time-to-inactivity メトリクスが retention よりも感度が高い指標であることを示した。
定義
目標: WAU (WeeklyActiveUser) Retention
過去7日間で満足していた場合、同じプラットフォームに戻るという前提のもと、ユーザーの長期的な満足度を把握するという考え方
time-to-inactivity: あるユーザーが1週間以上活動を停止するまでの時間
WAU の代用 (as a statistical surrogate)で仮定の話は section 3.2
Positivity and Ignorability Assumptions: 無作為化対照実験から集計されていればOK
Surrogacy Assumption: treatmentの短期的なメトリクスが長期的なアウトカムに影響している
Comparability Assumption: ユーザー特定と短期的なメトリクスを与えられた長期的なアウトカムの条件付き分布は、実験と過去のデータセットで同じまま
2週間分のShort-Term Metrics を使用して予測する (下図)
WAU Retention = アクティブユーザーの総数をカウント
Time-to-Inactivity = ユーザーが非アクティブになるまでの予想時間
Short-Term Metricsを使用して、推定する
https://gyazo.com/0a64202ed908301e9e393a3381ef6a56
データセット:
https://gyazo.com/290f5e91512d9ce7005aa9cdea0e14a9
$ X_i: ユーザーに関する特徴
$ S_i: Short-Terms Metrics (CTRとか)
$ W_i: 各ユーザーの割り当て (ct, tr: 0, 1)
ユーザー
集合: $ W^c := \{ i | W_i = c\}
ユーザー数: $ NW^c := |W^c|
目標
$ Y_i: 真の Long-Term エンゲージメント (WAU とか)
$ \delta_E: ATE (average treatment effective) を $ Y_i から推定する
https://gyazo.com/27569bb809785c94f78c5447cc601fd1
実際に長期のエンゲージメントを観測することは困難なので、過去のデータから観測する
true long-term engagement in historical data:$ D_H = (X_i, S_i, Y_i)
https://gyazo.com/eb8a0f43db9afe3036f6e43ddf20c9a1
(3) の条件付きの期待値を推定するために関数 $ f_H を学習する
https://gyazo.com/3d0c37b7a7d9c4a1dac4d3b43aebd899
モデル
長期間アクティブなユーザーを無視して、打ち切りを行うとバイアスがかかる → 生存モデルを利用する
Cox比例ハザードモデル
https://gyazo.com/7d3aa99e7094afd4af513f15a93a619e
Cox比例ハザード
$ \lambda_0(t): 基準ハザード関数 (慣例では$ h_0(t)とよく表される)
$ \hat{F_h}(t|X_i): 生存関数 (慣例では $ S(t)で、$ F(t)は時間tでの生存時間を表す確率密度関数なので、ややこしい)
= 対象が時間tよりも長く生存する確率
https://gyazo.com/200c36afd621e1b94b5fbb8d1ac8fd5f
https://gyazo.com/5920eef44bdab5ce507d7ffaa1ffd319
Model Validation
Concordance Index (C統計量 = AUC)
https://gyazo.com/34b8a53f90e2ceb5141aee32ccf9a769
Integrated Brier Score
データセット中の打ち切り情報を考慮したスコアらしい
https://gyazo.com/492482f4740338b7c77d4b63fc825b21
Here, $ y_i is the observed time-to-inactivity, $ \hat{y} is the estimated time-to-inactivity for a given time $ t. And, $ w_i is $ (1−C_i)/G(y_i)\ \mathrm{if}\ y_i <=t \ \mathrm{and}\ 1/G(y_i )\ \mathrm{if}\ y_i > t. where, $ C_i indicates if the individual is censored and $ G is the censoring distribution, typically estimated using the Kaplan-Meier estimator.
AUC - ROC
Metric Validation
この論文の貢献その2の部分
オンライン実験での意思決定
Directionality (指向性?)
時間 $ t で観測されたリテンションに対してモデルで予測した生存確率を比較する
WAU Retention @ Week4 と 予測された 4週での生存確率を比較
time-to-event だと長期間観測する必要があるけど、time-to-inactivity の場合は、直接生存確率を比較できるので一ヶ月間のA/Bテストでも有効的(らしい)
この部分がよくわかってない. 結局 event = 1週間activeにならなかった (=離脱) みたいになってる気がするので、特に変わらないのでは...みたいに思ってた
event = サブスク解約 とか アプリ削除 みたいに捉えてるということなんだろうか...?
Surrogacy Assumption Test
Directionality だけでは不十分
長期的なアウトカムに対するtreatmentの効果は、サロゲートまたは短期的なメトリクスが完全に仲介している(訳ワカラン: completely mediated)ことを示す必要がある
直接的に検証することができないので、LRT: likelihood ratio test (尤度比検定)でsanity checkすることを提案
Metric Sensitivity (メトリクス感度?)
sensitivity decomposition
異なる treatment 間の差を検出するメトリクス
https://gyazo.com/36db1a78e558f63e4580e3cf460f9d53
diff: $ \Delta = \bar{Y_0} - \bar{Y_1}
sample size: $ N_E = \frac{1}{(1-N_0)+(1-N_1)}
scaleless ATE:$ \mu := E(\delta) = E(\Delta)/\sigma
仮説: $ H_0: \mu = 0, H_1: \mu \neq 0
$ Z > z_{\alpha} であるとき $ H_0(帰無仮説)が棄却される ($ z_{\alpha}: type 1 error rate $ \alpha)
https://gyazo.com/3ec3e7a605873f4bf66365203903a9a3
識別力(also Predictive Power らしい) × 検定力
感度が高ければ、実験はより少ないユーザーで小さな変化を検出することができるため、実験の効率を上げられる
Wald統計量 (z値) と 経験ベイズ EMを使って、ごにょごにょするらしい
(付録: + A/A テストをシュミレートしてp値の分布が0~1で一様分布であることを示す)
実験
データ
Spotify の 2020年 3月~12月の 51 のA/Bテストのセットからサンプリング
各テストで数百万のユーザーが参加
レコメンデーションと検索プロダクト
ここのUI変更やアルゴリズム変更などは区別はせずに実験
Spotify の A/B
最初に 7 日間の intake period がある(動作確認期間??)
その後 28 日間実行された実験(を実験対象とした)
intake period で exposed (アクティブ?新規登録?)されたユーザーが分析対象
その後の2週のデータでShort-Term Metricsの計算
WAU Retention @2week や @4week を比較
https://gyazo.com/a088ae730d4d50fb35b87a57a080fc5f
Predict Metrics
実験データセットの各A/Bの $ D_Hに対して、 $ f_H(X, S)をfitting
最初の 2週間のデータで学習して、その後の24週分までの time-to-inactivity メトリクスを予測
学習されたモデルを用いて、各ユーザーの推定長期指標 $ \hat{Y} を出して、ATEを計算する
$ X_i, S_i をどう設計したのかは書かれて無さそう
We leveraged various user characteristics, denoted X , such as their historic usage on the platform, device type used, etc., and short-term engagement metrics, denoted S, such as consumption.
CTR は試したことがないけど、滞在時間とかスワイプ数とかは、Cox比例ハザードモデルの重要な前提条件である比例ハザード性を満たさないこととかもあったので、そのあたりが疑問 (Concordance Index これだけ高いなら成立していそうではある)
Result
Model Validation
https://gyazo.com/2ca5cdb1ff2a39cc0c0860b5571be364
とても良い感じ
AUC-Score も早い週で 0.9 以上, 24週でも 0.83 とのこと
Metric Validation: Directionality
https://gyazo.com/68a50d55b8b185b7f678faa6cbb3b543
予測した4週でのWAUと、観測された2週, 4週でのWAU の比較
軸が謎...何かしらの前処理がされてそう
https://gyazo.com/e0a436468d69a0c1c98a258250a4e4d4
24週分の集計値と予測されたATEの相関
時間が離れている方が相関は低いけど、全体として高く 0.80 未満ではない
https://gyazo.com/8dbf93083d453dd5c6abd99c14451f1b
WAU @4W と、それぞれの相関
W2 Rec はrecommendedコンテンツの消費? (いきなりでてきて謎)
Total として、予測結果と実際のWAU、Short-Termメトリクスで相関があって Directonality 的には良さそう
Metric Validation: Surrogacy Check
平均で -6.085 (p > 0.05)
サロゲートの仮定に慢性的に違反していないので良さそう
Metric Sensitivity
https://gyazo.com/a5e96a7516acd3521f7c4ad8f48ce849
Fig5 が Discriminative power (識別力?)
W4 は W2 の2倍の識別力がある
予測された time-to-inactivity メトリクスはそれと同等の識別力を持っていることが分かる
Fig6 が Statiscal power (検定力?)
W4 と W2 で同程度
予測されたメトリクスはいずれよりも高い検定力を持つらしい
(うまくfittingできてるからだろうなぁ)
predict の $ \hat{p}, \hat{V} で Week 大きくなると逆転する傾向にあるのは、Coxモデルの限界
無限に各 power が上昇するするわけではない
使ったデータは W2 分だけで W4 並の検出力ですごいよね、ということが示された
感想
ムズイ
モデルの入出力とか、具体的な実験条件みたいな部分をもっと詳しく書いてくれると嬉しかった
グノシーでの生存分析に活かせそう
time-to-inactivity みたいな部分はたぶん同じことやってると思われる