統計学
statistic
統計とは、(主に)調査によってデータを得て、そのデータを分析し、そのデータの性質、傾向を明確にして活用するものである。
統計では確率論を特に多く利用する。これは以下の理由による。 過去のデータ(事象の出現確率)に基づき、未来(の事象の出現確率)について予測する。
確率は、理論的にはそうなるであろう事であるが、実際に事象を集めなければ分からない割合である。
理論的確率であれば、数学的に厳密になる。
例えば複数の可能性が常に同率で発生するという条件が暗黙に設定される。(例:サイコロの目)
現実の世界では、複雑な要因が絡んでいるために、観測して事象を集めなければ確率を求めることができない。
このため、確率・統計として一つにまとまっていることがよくある。
統計学は数学の応用分野である。このため、数学ほどの厳密さはない。用途に合うならば不正確でも許されることがある。
一方、確率論は数学の基礎分野であり、理論的整合性が必要とされ、数学的な厳密さが求められる。
そもそも「母数」が不明瞭である。
総数が分からない。
時間の経過で変動する。
ポアソン分布など、稀に発生する事象では常に観測値しか得られない。
母数全部を取らずに一部から母数全部を推測するため、真の値と推測値とはほぼ間違いなく一致しない。
真の値と推測値との誤差は確率論から合理的な値を導くことができる。
統計は、モデル(前提、仮定)の問題、交絡の問題、サンプリングバイアス、チェリーピッキングの問題、解釈の問題があり、正確に読み取ることがとても難しい。このため、統計を使って人を簡単にだませてしまう。
平均値、中央値などの統計的な代表値は元データの大半の情報を捨て去っているため、正しく認識することができない。
正確に認識するには分布を見る必要がある。