『数学ガールの秘密ノート/やさしい統計』
https://gyazo.com/4fae165e0c85729a7576c2abb6470e02
第1章 グラフのトリック
1.1 よく見かけるグラフ
1.2 表を作る
1.3 大きく見せたい
1.4 もっと大きく見せたい
1.5 もっと小さく見せたい
1.6 棒グラフ
1.7 横軸を変える一
1.8 株価のグラフ
1.9 実は、下がっていた
1.10 実は、継続的に上がっていた
1.11 社員数の比較
1.12 社員数のグラフを比較
1.13 デッドヒートの演出
1.14 比較対象を選ぶ
1.15 シェア争い
1.16 何を比較するか
作成者の意図が反映されすぎている円グラフ: 47
@02Curry: 元グラフ、netgeek版グラフ、世代割を年齢カウント補正したグラフ。対象母集団は18歳以降にしかならないので10代と20代に等分するのは少なくとも誤りであり、等分化がいっけんしての10代20代がそれぞれ少ない「印象」を与えてしまう。 https://gyazo.com/cd8b3367ecae77e9c96d4c145d7ec4f6https://gyazo.com/b79743790861ffd74a9b155539d64807https://gyazo.com/6b84b1f2d7ef4cba7a233dd052698b56
1:1に分けるより、2:10に分けるほうがマシという主張?あんも.icon
第2章 平らに均す平均
2.1 テストの結果
2.2 代表値
2.3 最頻値
2.4 中央値
2.5 ヒストグラム
2.6 最頻値
2.7 代表値攻撃法
代表値攻撃法: 76
うまくいかない反例を探してくる
code:jl
using StatsBase
function basic_statistics(data)
max_value = maximum(data)
min_value = minimum(data)
mean_value = mean(data)
mode_value = mode(data) # StatsBaseパッケージが必要
median_value = median(data)
return max_value, min_value, mean_value, mode_value, median_value
end
basic_statistics(data_A)
平均からどれだけ離れているか?
偏差の絶対値の総和?
絶対値を利用する場合の不都合?あんも.icon
code:jl
function sum_absolute_dev(data)
mean_value = mean(data)
sad = sum(abs.(data .- mean_value))
return sad
end
sum_absolute_dev(data_A)
2.8 分散
偏差の2乗の平均
code:jl
function my_var(data)
mean_value = mean(data)
var = mean((data .- mean_value) .^ 2)
# var = sum((data .- mean_value) .^ 2) / (length(data) - 1)
return var
end
my_var(data_A) # 5.4
Statisticsパッケージのものとは動作が異なる
code:jl
var(data_A) # 6.0
第3章 偏差値の驚き
3.1 高校の図書室にて
3.2 平均と分散
3.3 数式
$ \frac{(a-\frac{a+b}{2})^2+(b-\frac{a+b}{2})^2}{2}=\frac{a^2+b^2}{2}-\left(\frac{a+b}{2}\right)^2
分散 = 2乗の平均 - 平均の2乗
これを数値計算で用いると桁落ちが発生することがある: 110 どの程度で生じるかを確認しておくとよさそうあんも.icon
code:jl
function nomal_var(data)
mean_value = mean(data)
var = mean((data .- mean_value) .^ 2)
return var
end
function trick_var(data)
var = mean(data .^ 2) - mean(data) ^ 2
return var
end
nomal_var(data_large)
trick_var(data_large)
3.4 分散の意味
3.5 偏差値
平均から大きくずれた数値が選ばれた場合に、その珍しさを分散によって評価できる
$ 50 + 10 \times \frac{x_k-\mu}{\sigma}
偏差値の平均は50になる
整理して確認できる
偏差の総和は0になることからも導ける
平均と標準偏差が好ましい値になるように50と10は定められている
3.6 偏差値の平均
3.7 偏差値の分散
3.8 偏差値の意味
点数の分布が正規分布で近似できる場合の偏差値の分布
34-14-2ルール
$ \mu →34←$ \mu+\sigma →14←$ \mu+2\sigma →2
偏差値では標準偏差が10になっているので、10刻みで理解できる
偏差値60以上で上位16%
偏差値70以上で上位2%
点数の分布が正規分布に従わない場合?あんも.icon
正規分布に従うという仮定はどの受験者も、どの問題でも、ある程度解ける場合に成り立つ?
特定の問題で高得点を取りやすいグループが混じっている場合は成り立たない?
code:jl
using Plots
using Distributions
dist = Normal(50, 10)
x = 0:1:100
data = pdf.(dist, x)
plot(x, data, linewidth=2)
fillrange=0, label="+1σ: 16%", color=:blue, alpha=0.3)
fillrange=0, label="+2σ: 2%", color=:green, alpha=0.3)
第4章 コインを10回投げたとき
4.1 村木先生の《カード》
4.2 《表が出る回数》の平均
4.3 表がk回出る確率Pk
4.4 パスカルの三角形
4.5 二項定理
4.6 《表が出る回数》の標準偏差
コインを10回投げたとき何回表が出るか?
出た回数の具体的な値: 確率変数の値
平均の要素数で割る操作が確率側に寄せられている
第5章 投げたコインの正体は
5.1 和の期待値は、期待値の和
5.2 期待値の線型性
試行: コインを1回投げる
事象: event
試行が行われたときに起こる出来事
根元事象: 1回表
それより細かく分割できない事象
5.3 二項分布
5.4 コインは本当にフェアか
5.5 仮説検定
コインがフェアであるかを調べる
コイントスを10回行ったときに、全て裏になった場合の仮説検定
1. 帰無仮説と対立仮説を立てる
帰無仮説: コインはフェアである
対立仮説: コインはフェアではない
2. 検定統計量を定める
検定統計量: 表が出る回数
3. 有意水準とそれに対応する棄却域を定める
有意水準: 1%
棄却域: 表が0回または10回
4. 検定統計量は棄却域に入ったか?
10回投げたコインはすべて裏が出た
表が出る回数は0回で、棄却域に入った
コインはフェアである、という帰無仮説は有意水準1%で棄却された
5.6 チェビシェフの不等式
いかなる分布でも、$ |x - \mu|\geq K\sigma をみたす数値$ x の割合は$ \frac{1}{K^2} 以下である
受験者100人について、得点$ |x - \mu|\geq 2\sigma をみたす人数は必ず25人以下である
Prf.
条件$ |x - \mu|\geq 2\sigma をみたす$ m\leq100 人に小さい番号を割り当てる:
$ x_1, x_2, \cdots, x_m, x_{m+1}, \cdots, x_{100}
$ \sigma^2 \geq \frac{|x_1 - \mu|^2}{100} + \cdots + \frac{|x_m - \mu|^2}{100}
$ \geq m \times \frac{(2\sigma)^2}{100}
5.7 大数の弱法則
試行回数が非常に大きければ、期待値の近くにほとんどの相対度数が集まる
チェビシェフの不等式から
直感の確認あんも.icon
5.8 大切なエス
code:jl
using Plots
using StatsBase
using Distributions