効果検証入門~正しい比較のための因果推論/計量経済学の基礎
https://scrapbox.io/files/64b6a3c8223dfc001b382623.png
2023/7/18
因果推論は与えられたデータを使ってどうすればより正しい比較ができるのか?を考える統計学の一分野です。
Donald Rubin によるアプローチ → 因果の問題を欠損値としてとらえた
Judea Pearl によるアプローチ → 同一の問題をベイジアンネットワークと呼ばれる司法を出発点に考えた
セレクションバイアスとRCT
因果推論の根本問題
同一条件で違う結果が得られないこと
例えば、買い物に来る同じユーザーAにクーポンを配った場合と配っていない場合のその後の購買行動は同時に観測することはできない。
同じサンプルからはどちらか一方の結果しか観測できない
ある特定のものを購入する層と購入しない層で分けたとき、そもそも購入する層というのは ポテンシャル・アウトカムを持っていると考えられる。この考え方をポテンシャルアウトカムフレームワークという。
1章はセレクションバイアスを含んだ状態といった不確実性下のデータ分析は怖いよねって話だった。RCT最強ではあるけど、世の中はそう上手くRCTは実行できないよねって話なので今後の章でそれが分かるよという展望もあった。
因果推論の根本問題を含んだ例(表のデータ)が示されてたけど、分かりやすかった。実際には観測が絶対にできないから、机上の空論感はすごいけど。
介入効果を測るための回帰分析
R言語でlm()関数をかまし、summary()関数をするといろいろな変数が出現する。が、目的対象とする変数以外は原則着目しない。
他の変数を見ると、どうしても意味ありげに見えるが無視する。
重回帰分析では、X^2 なおdの変数をモデルに導入でき、共変量Xに関してはかなり広い範囲の関数の形を扱うことができる。しかし、実施にどのような関数の形として扱うべきかという点に関しては、分析者が事前知識から決定する必要がある。
教育方法の年収の効果に対する推定をする場合の例:
年収 = 経験, 年齢
といった影響が考えられる。この場合、年収と線型の相関があるわけではない。仮に年齢が上がるにつれ、1年分の経験が収入に対して持つ影響が少なくなるとすると、その関係は二次関数で表される。
共変量を追加することで、RCT で実施されたデータに近似できる。(セレクションバイアスが少し取り除ける?)
→ では、どのような共変量をモデルに追加するべきなのだろうか?
→ 答えとしては、「目的変数 Y と介入変数 Z に対して相関のある変数を加えるべき」
モデルに本来必要な抜け落ちている変数を脱落変数と呼びます。
脱落変数がある状態(つまり、本来必要な共変量が存在しない)で分析をした場合、得られた効果は脱落変数バイアスが入った効果となってしまいます。
介入変数以外に関する有意差検定の結果を気にする必要性がないことが分かる。
OVB の式は、共変量が不十分なモデルの持つバイアスの構造を表している。
Z, Yの両方に関係のあるような変数のことを交絡因子と呼ぶ。
用語
最小二乗法(Ordinary Least Square)
非説明変数 Y (dependent variable)
介入変数 Z (treatment variable)
共変量 X (control variable)
脱落変数バイアス(Omitted Variable Bias : OVB)
傾向スコアを用いた分析
差分の差分法(DID)とCausalImpact
回帰不連続デザイン(RDD)