データはどのように得られるか
from データを扱うときの統計学的思考
「データ」はどのように得られるか
たとえば、食堂で提供するカレーライスの重さを調べるとする
https://gyazo.com/0fd22e634678a1597447f9bd6c76b225
18皿ぶんのカレーの重さが下の表のようにまとまっていたとする
https://gyazo.com/a96237615f2ece3e13095b055917b037
平均 295.3g, 標準偏差 11.5g, 最大値 312.3g, 最小値 269.5g などの統計的な特徴が得られる
ところで、このデータは「どうやって」得られたのか?
→「はかり」で一皿ずつ測定した
https://gyazo.com/2f168e8587842d2644066da7e43bf594
このようにして得られたデータは「正しい」か?(ちゃんと測れているか?)
データの2種類の誤差
実はこのはかりは調整に不具合があり、常に5g重く表示するものであった
また、はかりの目盛りの読み取りにおいて、-0.5gから+0.5g程度の誤差が生じることがあった
1回1回の測定において、以下のような、ランダム誤差(偶然誤差)とバイアス(系統誤差)の2種類の誤差があることになる
https://gyazo.com/80148183e78bbb1f8981201c06831080
この例に限らず、分析に用いるデータは、何らかの測定や観測によって得られている
そのようなデータには、この2種類の誤差が「つきもの」である
https://gyazo.com/abf2a7f0b0a55e1d05f2d3d00f0ddea5
データを扱う際には、これを前提として、手元のデータがどのように生じたものか、ということに意識的になることが重要
さまざまな「バイアス」
先の例で、「はかり」の不具合によるバイアス(系統誤差)は機器の(物理的)構造によるもの
一方、人間の認知における「クセ」や社会的・技術的な原因により起こるバイアス(認知バイアス・社会的バイアス)も多い
→ データに潜むバイアス