AB-testing - 未来の自分を助けるメモ

AB-testing
#ab-testing #bayes #検定
定義・概念整理
A/Bテスト - Wikipedia
>英語版wikipedeiaのABテストの解説には「A/B testing is a term for a controlled experiment」という記載がある。つまりABテストとは、コントロール（統制下）グループに対して、テスト（試し）グループをチャレンジさせて比較するというのが本来の主旨と意味となる。コントロールグループという「基準」がなければ

差異の判定 
	基本的には、帰無仮説(２つは同じ)を否定できれば（5%以下しか起こらないサンプル結果）、設定仮説の反対(違う)を採用とする。
		これは、第二種のエラー。 違うのに同じとしてしまう、見逃しは考えてない。(検定力設計問題)
	通常の帰無仮説は、コントロールとVariantとが、同じ分布パラメータを持つと言う仮説。
		そのサンプル値に、平均値を使えば t検定(t分布)。二項分布からの差異を考えるならカイ二乗検定(カイ二乗分布)。
		平均値は、どういうとり方でも計算できる？ので、カイ二乗検定のところでも、t検定で問題ない？
			例えば、二項分布だと思えるところで、二項分布の成功確率をt検定する。
				なんとなく、カイ二乗検定のが、少ないサンプル数で結果判定できそうだけど。。。
				ｔ検定とカイ2乗検定の用途の違いと、Excelを使う方法を教えて下... - Yahoo!知恵袋
					ノートは、yahooのサービス終了..
			t検定の帰無仮説は、その２つの平均値の差（ある平均からある平均を引いても同じ分布）を０と仮定するパターンが多い。

ベイズ　ベイズ推定によるABテスト
	だが...... ベイズでやるのがいいよというのが、これからの主流。
		わかりやすい。拡張性があるメリット。
			信頼区間の分布がわかりやすい( #意味不明 ) きちんと理解して書く。
		期待値を織り込める。
			推定した事後確率から、効用などを織り込んだ期待値が算出できる。

	colaboratoryでやってみる
		ベイズ推定 ABテスト基本
		ベイズ推定　ABテスト期待収益


参考リスト
最初によむべきかな。
	Highest Voted 'ab-testing' Questions - User Experience Stack Exchange
	ABテストの12の落とし穴 - 唯物是真 @Scaled_Wurm
	“A Dirty Dozen” の論文を読んだメモ (1): A/B テストを評価するメトリクス - k11i.biz まとまってる。
		Data quality metrics
		Overall evalution criteria (OEC) metric
		Guardrail metrics
		Local feature metrics
		DIagnostic metrics agnostic
- bayes でPa > Pb
		-  https://plus.google.com/+kimiyukishirai/posts/NYarCGBBeEU?sfc=true
		- python simulation: http://engineering.richrelevance.com/bayesian-ab-tests/ 
- anscombeの例: stopping point of an experiment. (Guardrail metricsの話になるのかな)
		"http://blog.custora.com/2012/05/a-bayesian-approach-to-ab-testing/"
- loss functionを使った例　VWO
		"https://cdn2.hubspot.net/hubfs/310840/VWO_SmartStats_technical_whitepaper.pdf"

バンデットアルゴリズム
	ABテストとの違い

参考:
	A/Bテストより10~100倍効率的なランキング評価手法　インターリービング（Interleaving）のまとめと実践 - Qiita
		ランキング表示については、テスト実施の効率化が可能と。
hr

#ml