ABテスト
A/B testing
ネットフリックスはABテストの効果検証では満足しない —— 「Quasi Experiment」とは何か
https://www.businessinsider.jp/post-190115
Netflixでも活用している「Quasi Experiment」(クアジー・エクスペリメント=準実験。擬似実験とも呼ばれる)
先ほどの課題に対して、例えば、新しいビデオの屋外広告を見る人と見ない人を無作為にグループ分けすることはできません。誰がどこにいるか、広告を目にするかはコントロールできないからです。
でも、どの地域で屋外広告を見せるかをコントロールすることはできます。そして、屋外広告を出した街とそうでない街で「登録率」などにどんな変化があるのか見る手法を、準実験と呼びます。
CDNに改善を加えたときの効果測定にも、ABテストではなく準実験を使うそう。
ユーザーレベルでランダムに改善点に触れる人とそうでない人を選ぶより、「このサーバーには改善点を実装して、このサーバーには実装しない」というグループ分けをして効果測定をする。
効果検証に必要なデータを収集する作業は、ツールを開発して自動化を実現させ、
最善な分析はツールとデータサイエンティストが協業する部分、
そして最終的な意思決定は人間が行う。
ABテストするときは、有意差もセットで報告する。
ただ、有意差は有意差でしかないので、ちょっとでも勝っているというファクトと、関係者の合意があれば、有意差が現れなくても進めることもあり。
「“統計的に有意差なし”もうやめませんか」 Natureに科学者800人超が署名して投稿
ある↔あるとはいえない
帰無仮説はとりあえず立てた仮説(多くは検定者が否定したい仮説)であり、帰無仮説が間違っていると確信できる(棄却できる)ときに選ばれるのが対立仮説
UI改善の案件では、基本的にはABテスト実施する。前後比較だとノイズが多いため、純粋なUI変更の数値変化を取るため。
メルカリの例
メルカリにおけるA/Bテスト分析自動化の取り組み
https://engineering.mercari.com/blog/entry/20221212-dc31d8e3d8/
統計的事項やアンチパターンを考慮しないといけない。
メルカリにおけるA/Bテスト標準化への取り組み
https://note.com/mercari_data/n/nb1044a53c1ab
AAテスト