統計
statistics
individual in data set
人に限らずモノでも良い
量的変数(quantitative variable) 周辺分布 (marginal distribution) 条件付分布 (conditional distribution) https://gyazo.com/9ac4a2697525540ac00c99b4cbf26eca
幹葉表示(stem and leaf plots) https://gyazo.com/8668614311fcde585f0cfeb778bca1ff
記述統計(descriptive statistics) 推計統計(inferential statistics) average ... "typical" or "middle" → 中心傾向(Central Tendency) the average number
算術平均(arithmetic mean)、もしくは相加平均
the middle number
the most frequent number
得られた観測値の中で、真の値の推定値からの残差が異常に大きい値のこと。
原因や理由が分かっている外れ値
外れ値検出
下限:$ Q_1 - 1.5\cdot \mathrm{IQR}
上限:$ Q_3 + 1.5 \cdot \mathrm{IQR}
分布のひろがりを表す統計量の一つで、標準偏差の2乗に等しい。
個別のデータと平均の差の二乗の平均で求められる
二乗することで平均値からの距離の基準を正負によらない値として統一できる
母分散 (population variance) 母集団の分布の広がり
$ n 個のデータ $ x1, x2, ..., xnからなる母集団があって、$ \mu をそのデータの相加平均とした時に、$ (x_i − μ)^2 の相加平均 $ \sigma^2 = \frac{1}{n}\sum^n_{i=1} = (x_i - \mu)^2で表される$ \sigma^2を母分散という。
母集団の一部を抽出して分散を得る
標本分散は標本から計算した分散であり、母集団に比べ標本数が少ない時は、標本分散が母分散よりも小さくなる。
不偏分散(unbiased (sample) variance) 標本分散が母分散に等しくなるように補正したものを不偏分散という。
統計分野でいう分散は、ほとんどの場合、不偏分散を意味する。
分布の拡がりを表す統計量の一つで、分散の正の平方根に等しい。
分散は正負によらない値として統一するために二乗されている
長さの広がりを表すのに面積が使われているようなもの
$ \mathrm{standard\ deviation} = \sqrt{\mathrm{variance}} = \sqrt{ \frac{1}{n}\sum^n_{i=1} = (x_i - \mu)^2}
値が大きいほどばらつき(valiability)が大きい 標本標準偏差は求め方が異なる
あとで
分布が正規分布からどれだけ逸脱しているかを表す統計量で、左右対称性を示す指標
レンジ。観測値の最大値と最小値の差。
観測値の最大値と最小値の平均。
四分位範囲(Interquartile range: IQR) 散らばりの程度を表す尺度の一つ。「75パーセンタイル(第三四分位数)-25パーセンタイル(第一四分位数)」として求められる。
平均偏差(Mean absolute deviation: MAD) 散らばりを表す指標のひとつ。それぞれのデータの偏差の絶対値をとったものの平均値によって計算することができる。平均絶対偏差や絶対偏差と呼ばれることがある。
平均値から各データまでの距離の平均と考える
$ \mathrm{MAD} = \frac{\Sigma|x_i - \overline{x}|}{n}
データを小さい順に並べたとき、初めから数えて全体の$ 100a\%に位置する値を$ 100aパーセンタイルと言う。($ 0\le a \le 1)
分布の平均値からのずれを示す値. 注目している標本値と分布の平均値の差を分布の標準偏差で割った値で定義される
$ z = \frac{x - \mu}{\sigma}
z-scoreがプラスのときはデータは平均よりも高く、マイナスのときは低い. ゼロに近いほど平均に近い
z-scoreの絶対値が大きければ大きい程,分布の平均値からのずれが大きいことを示している
z-scoreが$ \pm3以上の数字のときは異常値だと考えられる
絶対的なルールではない。$ \pm2だったり$ \pm2.5だったりも。
z-scoreと割合の対応表
粒度の高い表示
正規分布(normal distribution) symmetric bell shape
mean and median are equal; both located at the center of the distribution
特に $ \mu = 0, $ \sigma^2 = 1 のとき、この分布は(1次元)標準正規分布(standard normal distribution)(または基準正規分布)と呼ばれる
1シグマ区間$ [-\sigma, \sigma] $ \approx 68\% of the data falls within $ 11 standard deviation of the mean
2シグマ区間$ [-2\sigma, 2\sigma] .$ \approx95\%of the data falls within $ 22 standard deviations of the mean
3シグマ区間$ [-3\sigma, 3\sigma] $ \approx99.7\% of the data falls within $ 33 standard deviations of the mean
2変量解析(Bivariate analysis) 相関係数(correlation coeffecient) 相関係数は$ -1以上$ 1以下の実数
相関係数が$ 0に近いほど相関は弱い
相関係数$ r = \frac{1}{n-1}\Sigma(\frac{x_i-\overline{x}}{s_x})(\frac{y_i-\overline{y}}{s_y})
回帰分析における残差
回帰分析の際に、推定されたモデルのパラメーターでは説明できない部分。観測値から推定値を引いたものとして算出される。
最小二乗法(least squares method) 決定係数(coefficient of determination) 回帰分析において、目的変数の観測値に対する目的変数の予測値の説明力を表す指標。寄与率とも言う。0から1までの値をとり、1に近いほど分析が有効である。
主に重回帰分析での回帰診断のために用いられる散布図。横軸に説明変数または予測値をとり、縦軸に回帰残差をとってプロットしたもの。何らかの規則性や分散の偏りがあるか等を判断することができる。
どの標本 (データ) の選ばれる確率も同じとき, この標本は無作為 (random) である,もしくは単純無作為標本 (Simple Random Sample) と言われます
層化抽出法(stratified sampling) 母集団をその特性に応じていくつかの層に分類することが可能な場合に、母集団を層化し、各層からランダムに標本を抽出する方法。層内が均質であれば、誤差分散を小さくすることができる。
母集団をいくつかのグループに分け、その中から無作為抽出で選ばれたグループに含まれる標本を全て抽出する方法。集落抽出法と呼ばれることもある。
系統抽出法(systematic sampling) 母集団に通し番号をつけ、それ以下の通し番号を持つ点から無作為に一点目の標本を抽出する。その点から等間隔で(抽出間隔ごとに)標本を抽出するような方法。
標本調査(sample study)
母集団のあるパラメータを概算するのが目的
実験(experiemnt)
母集団のあるパラメータを変更して、他方のパラメータへの影響を見る
Randomized experimentは因果関係を導き出せるように設計されている
observational study
乱塊法(randomized block design) 実験計画において、実験全体を無作為化せず、局所管理の考えに基づきブロック因子を導入しブロック内で無作為化を行う方法のこと。 Fisherの三原則である「反復」と「無作為化」に加えて「局所管理」も盛り込んだ実験デザインである。
例えば、1日に4回の実験ができる工場で、比較したい処理がA、B、C、Dの4つあるとき、「日」をブロックとする。5日間実験を行う場合、第1日、第2日、第3日、第4日、第5日それぞれにおいて下の表のようにA、B、C、Dの処理1回ずつをランダムな順番で行う。