データを扱うときの統計学的思考
データと統計学
記述統計
母集団とサンプリング
推測統計
データの性質
データはどのように得られるか
データに潜むバイアス
データの尺度
確率・統計的なものの考え方をすること
関心のある(分析したい)対象についてのすべてのデータが得られることはまずない
「本当に知りたいのは、データの背後にある分布の構造である」といったイメージをもつ
目の前にあるデータは、その本当の「分布」の一部を切り出したもの、というイメージをもっておく
これを前提としたデータ分析の基礎として、まずは記述統計をしっかりとおさえることが重要
推測統計や機械学習などの確率論の裏付けをもった科学的方法がとれなくても、目の前のデータの集計や可視化をしっかりとすることで分布のようすをうかがい知ることがまずはとても大事
以下は記述統計レベルの内容だが、これを「本当にしっかりと」学ぶことが、データリテラシーを身につけることであるといっても過言ではない!
データ可視化(ビジュアライゼーション)
データの分布と数値要約
データの相関