『数学ガールの秘密ノート／やさしい統計』

https://gyazo.com/4fae165e0c85729a7576c2abb6470e02

https://www.sbcr.jp/product/4797387124/

数学ガールの秘密ノート／やさしい統計 | 結城浩

第1章グラフのトリック

1.1 よく見かけるグラフ

1.2 表を作る

1.3 大きく見せたい

1.4 もっと大きく見せたい

1.5 もっと小さく見せたい

1.6 棒グラフ

1.7 横軸を変える一

1.8 株価のグラフ

1.9 実は、下がっていた

1.10 実は、継続的に上がっていた

1.11 社員数の比較

1.12 社員数のグラフを比較

1.13 デッドヒートの演出

1.14 比較対象を選ぶ

1.15 シェア争い

1.16 何を比較するか

作成者の意図が反映されすぎている円グラフ: 47

@02Curry: 元グラフ、netgeek版グラフ、世代割を年齢カウント補正したグラフ。対象母集団は18歳以降にしかならないので10代と20代に等分するのは少なくとも誤りであり、等分化がいっけんしての10代20代がそれぞれ少ない「印象」を与えてしまう。

https://gyazo.com/cd8b3367ecae77e9c96d4c145d7ec4f6https://gyazo.com/b79743790861ffd74a9b155539d64807https://gyazo.com/6b84b1f2d7ef4cba7a233dd052698b56

1:1に分けるより、2:10に分けるほうがマシという主張？あんも.icon

第2章平らに均す平均

2.1 テストの結果

2.2 代表値

2.3 最頻値

2.4 中央値

2.5 ヒストグラム

2.6 最頻値

2.7 代表値攻撃法

代表値攻撃法: 76

攻撃への対策は防御するより攻撃者になる方が簡単？あんも.icon

うまくいかない反例を探してくる

code:jl

using StatsBase

data_A = 0, 4, 4, 5, 5, 5, 5, 6, 6, 10

data_B = 0, 0, 1, 5, 5, 5, 5, 9, 10, 10

function basic_statistics(data)

max_value = maximum(data)

min_value = minimum(data)

mean_value = mean(data)

mode_value = mode(data) # StatsBaseパッケージが必要

median_value = median(data)

return max_value, min_value, mean_value, mode_value, median_value

end

basic_statistics(data_A)

平均からどれだけ離れているか？

偏差の絶対値の総和？

絶対値を利用する場合の不都合？あんも.icon

code:jl

function sum_absolute_dev(data)

mean_value = mean(data)

sad = sum(abs.(data .- mean_value))

return sad

end

sum_absolute_dev(data_A)

2.8 分散

分散

偏差の2乗の平均

code:jl

function my_var(data)

mean_value = mean(data)

var = mean((data .- mean_value) .^ 2)

# var = sum((data .- mean_value) .^ 2) / (length(data) - 1)

return var

end

my_var(data_A) # 5.4

Statisticsパッケージのものとは動作が異なる

code:jl

var(data_A) # 6.0

第3章偏差値の驚き

3.1 高校の図書室にて

3.2 平均と分散

3.3 数式

分散に関する恒等式

$ \frac{(a-\frac{a+b}{2})^2+(b-\frac{a+b}{2})^2}{2}=\frac{a^2+b^2}{2}-\left(\frac{a+b}{2}\right)^2

分散 = 2乗の平均 - 平均の2乗

これを数値計算で用いると桁落ちが発生することがある: 110

どの程度で生じるかを確認しておくとよさそうあんも.icon

code:jl

function nomal_var(data)

mean_value = mean(data)

var = mean((data .- mean_value) .^ 2)

return var

end

function trick_var(data)

var = mean(data .^ 2) - mean(data) ^ 2

return var

end

data_large = 10^9 + i for i in 1:10

data_small = 10^-9 + i*10^-11 for i in 1:10

nomal_var(data_large)

trick_var(data_large)

3.4 分散の意味

3.5 偏差値

偏差値の導入: 117

平均から大きくずれた数値が選ばれた場合に、その珍しさを分散によって評価できる

$ 50 + 10 \times \frac{x_k-\mu}{\sigma}

偏差値の平均は50になる

整理して確認できる

偏差の総和は0になることからも導ける

平均と標準偏差が好ましい値になるように50と10は定められている

3.6 偏差値の平均

3.7 偏差値の分散

3.8 偏差値の意味

点数の分布が正規分布で近似できる場合の偏差値の分布

34-14-2ルール

$ \mu →34←$ \mu+\sigma →14←$ \mu+2\sigma →2

偏差値では標準偏差が10になっているので、10刻みで理解できる

偏差値60以上で上位16%

偏差値70以上で上位2%

正規分布に従わない場合でもチェビシェフの不等式が利用できる？あんも.icon

点数の分布が正規分布に従わない場合？あんも.icon

正規分布に従うという仮定はどの受験者も、どの問題でも、ある程度解ける場合に成り立つ？

特定の問題で高得点を取りやすいグループが混じっている場合は成り立たない？

code:jl

using Plots

using Distributions

dist = Normal(50, 10)

x = 0:1:100

data = pdf.(dist, x)

plot(x, data, linewidth=2)

plot!(xx .>= 60, datax .>= 60,

fillrange=0, label="+1σ: 16%", color=:blue, alpha=0.3)

plot!(xx .>= 70, datax .>= 70,

fillrange=0, label="+2σ: 2%", color=:green, alpha=0.3)

第4章コインを10回投げたとき

4.1 村木先生の《カード》

4.2 《表が出る回数》の平均

4.3 表がk回出る確率Pk

4.4 パスカルの三角形

パスカルの三角形: 161

4.5 二項定理

4.6 《表が出る回数》の標準偏差

コインを10回投げたとき何回表が出るか？

表が出る回数: 確率変数

出た回数の具体的な値: 確率変数の値

確率変数の平均的な値: 期待値

平均の要素数で割る操作が確率側に寄せられている

第5章投げたコインの正体は

5.1 和の期待値は、期待値の和

5.2 期待値の線型性

試行: コインを1回投げる

事象: event

試行が行われたときに起こる出来事

根元事象: 1回表

それより細かく分割できない事象

期待値: 186

5.3 二項分布

5.4 コインは本当にフェアか

5.5 仮説検定

仮説検定

コインがフェアであるかを調べる

コイントスを10回行ったときに、全て裏になった場合の仮説検定

1. 帰無仮説と対立仮説を立てる

帰無仮説: コインはフェアである

対立仮説: コインはフェアではない

2. 検定統計量を定める

検定統計量: 表が出る回数

3. 有意水準とそれに対応する棄却域を定める

有意水準: 1%

棄却域: 表が0回または10回

4. 検定統計量は棄却域に入ったか？

10回投げたコインはすべて裏が出た

表が出る回数は0回で、棄却域に入った

コインはフェアである、という帰無仮説は有意水準1%で棄却された

5.6 チェビシェフの不等式

チェビシェフの不等式: 214

いかなる分布でも、$ |x - \mu|\geq K\sigma をみたす数値$ x の割合は$ \frac{1}{K^2} 以下である

受験者100人について、得点$ |x - \mu|\geq 2\sigma をみたす人数は必ず25人以下である

Prf.

条件$ |x - \mu|\geq 2\sigma をみたす$ m\leq100 人に小さい番号を割り当てる:

$ x_1, x_2, \cdots, x_m, x_{m+1}, \cdots, x_{100}

$ \sigma^2 \geq \frac{|x_1 - \mu|^2}{100} + \cdots + \frac{|x_m - \mu|^2}{100}

$ \geq m \times \frac{(2\sigma)^2}{100}

5.7 大数の弱法則

大数の弱法則: 222

試行回数が非常に大きければ、期待値の近くにほとんどの相対度数が集まる

チェビシェフの不等式から

直感の確認あんも.icon

5.8 大切なエス

code:jl

using Plots

using StatsBase

using Distributions