データに潜むバイアス
from データを扱うときの統計学的思考
(本セクションの参考・引用文献)江崎貴裕, 「分析者のためのデータ解釈学入門」, ソシム, 2020.
データに潜むバイアス
ここまで学んできた内容・・・グラフを描くにせよ、分布や相関をみるにせよ、機械学習をするにせよ・・・は、とりあえず、手元にあるデータを使って処理をしてきた
データをどのように処理するか、ということは学んできたが、この「データそのもの」についてはあまり考えてこなかった
実際に扱うデータは、必ずしも「適切に取得されたデータ」ではない場合も多い
さまざまなバイアスをもつデータが多く、このバイアスの性質についてはよく知っておいたほうがよい!
さまざまなバイアス
人間の認知における「クセ」や社会的・技術的な原因により起こるバイアス(認知バイアス・社会的バイアス)も多い
このようなバイアスにはさまざまな種類がある
測定基準に関するバイアス
観測介入に起因するバイアス
データの扱いに起因するバイアス
選択バイアス
統制された実験でない限り、観測や調査などによって、「とりあえず目の前にある、適切にサンプリングされたとはいえないデータ」を分析せざるを得ない場合もあり(ほとんど)、その場合はこれらのバイアスに留意する必要がある
認知的なバイアスが生まれる起源
二重過程理論
人間の「こころ」は2つのモードがあるといわれる
https://gyazo.com/0fd8e2e8bcf5bea9a3dab01712e00ab4
(参考)阿部修士,「意思決定の心理学 脳とこころの傾向と対策」, 講談社, 2017年
システム1は旧石器時代を人類が生き残るために進化的に培われたメカニズム
現代の環境には必ずしも合わない
ヒューリスティックとバイアス
システム1が生むヒューリスティック
利用可能性ヒューリスティック
想起の容易な記憶に関する事象の発生確率を過大評価する傾向
統計的にみれば、航空機事故にあうリスクは自動車事故よりも遥かに低い(ほぼゼロ)が、航空機は自動車より怖がられることが多い
代表性ヒューリスティック
「リンゴっぽさ」のような「典型イメージ(プロトタイプ)」を記憶していることで、観察対象とプロトタイプの類似度(代表性)に基づいてカテゴリーを認識する心の動き
これらはシステム1なので「本能的・無意識的」にやってしまう
システム2の力でこれらをメタ認知して論理的に打ち克ち、バイアスをできるだけ除くことに努めるべし
(参考・引用)山田典一「データ分析に必須の知識・考え方 認知バイアス入門」