AB-testing
定義・概念整理
英語版wikipedeiaのABテストの解説には「A/B testing is a term for a controlled experiment」という記載がある。つまりABテストとは、コントロール(統制下)グループに対して、テスト(試し)グループをチャレンジさせて比較するというのが本来の主旨と意味となる。コントロールグループという「基準」がなければ
差異の判定
基本的には、帰無仮説(2つは同じ)を否定できれば(5%以下しか起こらないサンプル結果)、設定仮説の反対(違う)を採用とする。
これは、第二種のエラー。 違うのに同じとしてしまう、見逃しは考えてない。(検定力設計問題) 通常の帰無仮説は、コントロールとVariantとが、同じ分布パラメータを持つと言う仮説。
そのサンプル値に、平均値を使えば t検定(t分布)。二項分布からの差異を考えるならカイ二乗検定(カイ二乗分布)。 平均値は、どういうとり方でも計算できる?ので、カイ二乗検定のところでも、t検定で問題ない?
例えば、二項分布だと思えるところで、二項分布の成功確率をt検定する。
なんとなく、カイ二乗検定のが、少ないサンプル数で結果判定できそうだけど。。。
ノートは、yahooのサービス終了..
t検定の帰無仮説は、その2つの平均値の差(ある平均からある平均を引いても同じ分布)を0と仮定するパターンが多い。
だが...... ベイズでやるのがいいよというのが、これからの主流。
わかりやすい。拡張性があるメリット。
期待値を織り込める。
推定した事後確率から、効用などを織り込んだ期待値が算出できる。
colaboratoryでやってみる
参考リスト
最初によむべきかな。
Data quality metrics
Overall evalution criteria (OEC) metric
Guardrail metrics
Local feature metrics
- bayes でPa > Pb
- anscombeの例: stopping point of an experiment. (Guardrail metricsの話になるのかな)
- loss functionを使った例 VWO
ABテストとの違い
参考:
ランキング表示については、テスト実施の効率化が可能と。
/icons/hr.icon