AB-testing
#ab-testing #bayes #検定
定義・概念整理
A/Bテスト - Wikipedia
英語版wikipedeiaのABテストの解説には「A/B testing is a term for a controlled experiment」という記載がある。つまりABテストとは、コントロール(統制下)グループに対して、テスト(試し)グループをチャレンジさせて比較するというのが本来の主旨と意味となる。コントロールグループという「基準」がなければ
差異の判定
基本的には、帰無仮説(2つは同じ)を否定できれば(5%以下しか起こらないサンプル結果)、設定仮説の反対(違う)を採用とする。
これは、第二種のエラー。 違うのに同じとしてしまう、見逃しは考えてない。(検定力設計問題)
通常の帰無仮説は、コントロールとVariantとが、同じ分布パラメータを持つと言う仮説。
そのサンプル値に、平均値を使えば t検定(t分布)。二項分布からの差異を考えるならカイ二乗検定(カイ二乗分布)。
平均値は、どういうとり方でも計算できる?ので、カイ二乗検定のところでも、t検定で問題ない?
例えば、二項分布だと思えるところで、二項分布の成功確率をt検定する。
なんとなく、カイ二乗検定のが、少ないサンプル数で結果判定できそうだけど。。。
t検定とカイ2乗検定の用途の違いと、Excelを使う方法を教えて下... - Yahoo!知恵袋
ノートは、yahooのサービス終了..
t検定の帰無仮説は、その2つの平均値の差(ある平均からある平均を引いても同じ分布)を0と仮定するパターンが多い。
ベイズ ベイズ推定によるABテスト
だが...... ベイズでやるのがいいよというのが、これからの主流。
わかりやすい。拡張性があるメリット。
信頼区間の分布がわかりやすい( #意味不明 ) きちんと理解して書く。
期待値を織り込める。
推定した事後確率から、効用などを織り込んだ期待値が算出できる。
colaboratoryでやってみる
ベイズ推定 ABテスト基本
ベイズ推定 ABテスト期待収益
参考リスト
最初によむべきかな。
Highest Voted 'ab-testing' Questions - User Experience Stack Exchange
ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
“A Dirty Dozen” の論文を読んだメモ (1): A/B テストを評価するメトリクス - k11i.biz まとまってる。
Data quality metrics
Overall evalution criteria (OEC) metric
Guardrail metrics
Local feature metrics
DIagnostic metrics agnostic
- bayes でPa > Pb
- https://plus.google.com/+kimiyukishirai/posts/NYarCGBBeEU?sfc=true
- python simulation: http://engineering.richrelevance.com/bayesian-ab-tests/
- anscombeの例: stopping point of an experiment. (Guardrail metricsの話になるのかな)
"http://blog.custora.com/2012/05/a-bayesian-approach-to-ab-testing/"
- loss functionを使った例 VWO
"https://cdn2.hubspot.net/hubfs/310840/VWO_SmartStats_technical_whitepaper.pdf"
バンデットアルゴリズム
ABテストとの違い
参考:
A/Bテストより10~100倍効率的なランキング評価手法 インターリービング(Interleaving)のまとめと実践 - Qiita
ランキング表示については、テスト実施の効率化が可能と。
/icons/hr.icon
#ml