疑似相関はなぜ疑似因果ではないのか
相関関係を示した研究に対するニュースに対して「擬似相関だ」というコメントがよくつく とにかく早押しでこれを言えばなんかスターがもらえる仕組みになっている
疑似相関の一般的な説明は交絡因子が存在するにも関わらず独立変数と従属変数の因果関係があるようにみえてしまうこと なので独立変数Aと従属変数Bに対して実は交絡因子Cが働いていたとしてもAとBは相関関係がある
「AとBは相関関係があることがわかった」という研究に対して「Cのような要素もあるからそこに因果関係があると言うのは誤りだ」という主張は了解不能すぎる
誰もそんなこと主張してない
ここの理解が甘いmtane0412.icon
ABが本当に相関関係しているならCやDをコントロールしてもAとBの相関が消えないはず
交絡因子が存在しておりAとBの相関が見せかけ(spurious)ではという批判は存在してよい
一方で、疑似「相関」なのだから当然多くの人は「本来相関関係がないにも関わらずあるとみえてしまうこと」という理解になるのは自然
なぜ「疑似因果」ではないのか?
相関関係: correlation
因果関係: causal relationship
うーん、まだ??だ
英語圏でも同様の議論がある
rolando2
First, correlation applies to variables but not to events, and so on that count the passage you quote is imprecise.
第一に、相関関係は変数には適用されるが、事象には適用されない。 その点で、あなたが引用した文章は不正確だ。
Second, "spurious correlation" has meaning only when variables are in fact correlated, i.e., statistically associated and therefore statistically not independent. So the passage is flawed on that count as well. Identifying a correlation as spurious becomes useful when, despite such a correlation, two variables are demonstrably not causally related to each other, based on other evidence or reasoning. Not only, as you say, can correlation exist without causation, but in some cases correlation may mislead one into assuming causation, and pointing out spuriosity is a way of combating such misunderstanding or shining a light on such incorrect assumptions.
第二に、「偽相関」が意味を持つのは、変数が実際に相関している場合、つまり統計的に関連し、したがって統計的に独立していない場合だけである。だから、この文章はその点でも欠陥がある。相関があるにもかかわらず、他の証拠や推論に基づいて、2つの変数が明らかに因果関係がない場合に、偽相関であると特定することが有用になります。あなたが言うように、相関関係は因果関係なしに存在し得るだけでなく、場合によっては相関関係は因果関係を仮定するように人を誤解させることがあり、スプリアスを指摘することはそのような誤解に対抗する、あるいはそのような誤った仮定に光を当てる方法なのである。
人は相関関係を因果関係と誤解しやすい→なので交絡因子がある場合には擬似相関とすることで、この誤った過程
Caio Teles
Spurious correlation is not only about absence of causal relation. It's about absence of correlation itself!
疑似相関は因果関係がないだけではなく、相関関係そのものがないことである
Spurious correlation appears when two totally uncorrelated variables present a correlation in-sample just by luck. Therefore, this is a concept closely related to the concept of type I error (when the null hypothesis assumes that X and Y are uncorrelated).
棄却されるべきだと考えて実際に棄却されるべきだったのに棄却されなかった
交絡因子がある段階で2つの変数の相関関係は成立していないと見るということか
つまり、「AとBを相関分析にかけたときに相関関係があることがわかった、しかし交絡因子Cの存在があるかもしれない」とは言えないということ?
ん?疑似相関かどうかもこの時点では確定していないということか
もし、はっきりと交絡因子Cが実験的に確かめられた場合、そのときはじめてAとBは擬似相関だったと言える
交絡因子を除去すればAとBの相関関係は消失するはずだから
相関関係は最初から因果関係に迫るための道具
なので因果関係がないのにあるように見えることを疑似「相関」と呼ぶことでこのエラーを防ぐ
相関関係は因果関係を含意しないが、因果関係は相関関係を持つ
因果関係と相関関係が完全に無関係に存在しているわけではない
ということははてブで「擬似相関では?」と交絡因子の存在を指摘すること自体は妥当
「これは疑似相関だ」と断定していたらそれはおかしい。まだ誰にもわからないから。
ChatGPT.icon(o1)
ざっくりまとめると、
「スプリアス(疑似)相関」は本来、「実際には因果関係がないにもかかわらず、データ上では統計的な相関が観測されてしまう」 という意味で使われる
その原因には、「交絡因子の存在」や「偶然のサンプルによる見せかけの相関(タイプIエラー)」などがありうる。
一方で「相関と因果は別もの」という基本的な注意喚起があるため、「スプリアス相関」という言葉がしばしば「何か相関が見えたけど、実は(交絡因子のせいなどで)因果関係なんてないんだよ」と、“相関が因果関係を保証しない” ことを強調する文脈で使われがち。
しかし「スプリアス相関 =(本当は)相関がない」のか、それとも「スプリアス相関 =(本当は)因果関係がない」のかという点は、英語圏でもしばしば混乱がある
例えば、
「二つの変数は、母集団レベルでも(交絡因子を無視すると)相関しているように見えるが、交絡因子を適切にコントロールすれば相関が消える=“見かけだけ”の相関」という意味で用いられることもあれば、
「母集団レベルでは本当は無相関だが、標本を取ったら偶然に相関が出てしまった(タイプIエラー)」
という意味で用いられることもある。
いずれにせよ、「データ上の相関」という事実が先にあって、「しかし因果関係はない・あるいは母集団では相関すらない」と判断されるときに“spurious”と言われることが多い
したがって、「スプリアス相関」は 「相関そのものを(最終的には)否定する概念」 と受け止められる場合もあれば、「相関は確かにあるが、それは因果関係ではなく、交絡要因などによって見えている“見せかけ”にすぎないよ」という 「因果を否定する概念」 として使われる場合もある。
あなたのメモへのコメント
1. 「なぜ疑似因果ではなく、疑似相関なのか?」
歴史的にも統計学・疫学の文脈でも「Spurious correlation」もしくは「Spurious relationship」という表現が定着している、という面が大きいです。
「相関」は実際にデータ上(もしくはサンプル上)観測できる統計的指標であり、そこに「本当は因果関係がない」と後から判明したとき「“見かけだけ”の相関」を指して「Spurious」と呼ぶわけです。
「疑似因果」と呼ぶと、「そもそも因果かどうかを検証してない」段階で“誤った因果を主張している”ことをダイレクトに批判しているようにも聞こえるため、
「まずは相関を観測 → しかし因果はなし → だからこの相関は見せかけ (spurious) だったね」
という流れを表現するのに「疑似相関」の方が自然になっています。
なるほどmtane0412.icon
2. 「交絡因子があるから相関は‘存在しない’のか?」
交絡因子がある場合に「AとBは母集団としては無相関」と言い切れるかどうかは、実際にはさらに深い検証が必要です。
交絡因子Cを統計モデルや実験デザインの中でコントロールしてみたら、AとBの相関が消える、ということが実証されてはじめて「見かけだけだった(spuriousだった)」と言えるわけです。
逆に、交絡因子をコントロールしてもなおAとBが相関したままなら、やはり何らかの因果関係(直接・間接はともかく)が存在する可能性が高い、と判断されます。
3. 「はてブのコメントで『擬似相関では?』と言うのは妥当か」
「まだ因果関係と断定されていない研究」に対し、「交絡因子は?」と指摘すること自体は 科学的にはとても重要な視点 です。
ただし、その研究が「相関関係を確認しました」と報告しているだけなら、「(因果関係を強弁していないのに)擬似相関だ! と即断する」のは一足飛びかもしれません。
なぜなら「スプリアスかどうか」は、交絡因子の存在をしっかり示したり、再解析で相関が消えることを確認したりするまでは結論づけられないからです。
まとめると
「相関関係は因果関係を含意しない」 というのは、あくまで「人は相関を見たら因果を早とちりしがちなので、まずは落ち着いてね」という注意喚起。
そのうえで、本当に因果関係は無い(あるいは相関自体が母集団レベルでは無い)のに「たまたま」あるように見えてしまう現象を「Spurious(疑似)相関」と呼ぶのが通例です。
そこには 「交絡因子で説明できる/ただの偶然のサンプル誤差」 など、いろいろなパターンがある。
はてなブックマークのコメントで「疑似相関じゃないの?」と言う行為そのものは、「交絡因子に気をつけよう」という警鐘としては悪いことではない。
ただし本当に「擬似」かどうかはさらに検証が必要で、即断できるものでもない、という点は押さえておきたいところです。
要するにあなたのメモにある
「これは疑似相関だ」と断定していたらそれはおかしい。まだ誰にもわからないから。
という指摘は、そのとおり だと思います。
「擬似相関かもしれないよね」と示唆するのと、「絶対に擬似相関だ」と結論づけるのとは意味合いが全然違います。
そして「なぜ疑似‘因果’ではないか」については、
まず“相関”という統計的な現象が見えた → ところが因果ではなかった
という流れを念頭に、歴史的・用語的に「Spurious correlation(疑似相関)」と呼ぶ慣例が根付いている、という理解でよいでしょう。