ABテスト
ネットフリックスはABテストの効果検証では満足しない —— 「Quasi Experiment」とは何か
先ほどの課題に対して、例えば、新しいビデオの屋外広告を見る人と見ない人を無作為にグループ分けすることはできません。誰がどこにいるか、広告を目にするかはコントロールできないからです。 でも、どの地域で屋外広告を見せるかをコントロールすることはできます。そして、屋外広告を出した街とそうでない街で「登録率」などにどんな変化があるのか見る手法を、準実験と呼びます。
CDNに改善を加えたときの効果測定にも、ABテストではなく準実験を使うそう。 ユーザーレベルでランダムに改善点に触れる人とそうでない人を選ぶより、「このサーバーには改善点を実装して、このサーバーには実装しない」というグループ分けをして効果測定をする。
効果検証に必要なデータを収集する作業は、ツールを開発して自動化を実現させ、 最善な分析はツールとデータサイエンティストが協業する部分、
そして最終的な意思決定は人間が行う。
ただ、有意差は有意差でしかないので、ちょっとでも勝っているというファクトと、関係者の合意があれば、有意差が現れなくても進めることもあり。
ある↔あるとはいえない
帰無仮説はとりあえず立てた仮説(多くは検定者が否定したい仮説)であり、帰無仮説が間違っていると確信できる(棄却できる)ときに選ばれるのが対立仮説 UI改善の案件では、基本的にはABテスト実施する。前後比較だとノイズが多いため、純粋なUI変更の数値変化を取るため。 メルカリにおけるA/Bテスト分析自動化の取り組み
統計的事項やアンチパターンを考慮しないといけない。
メルカリにおけるA/Bテスト標準化への取り組み