テーマ2:データの分布と数値要約
こちらは #テーマ2 の総合ページとなっています。
目次の後には全項目結合版が続いています。
目次から項目別のページにとぶことが可能です。
目次
前編
データの分布
データ
分布
確率分布
正規分布
ポアソン分布
後編
数値要約
データを代表する値
四分位数
中央値
最頻値
要約統計量
統計量
要約統計量の種類
散布図
標準偏差
散布図の書き方
代表値
平均値
中央値
最頻値
順序統計量
散布度
分散
編集後記2
データの分布とは
分布
1.分かれてあちこちにあること。分けてあちこちに置くこと
3.数学で確率分布のこと              {0}
緊急企画(・∀・)分布とつく言葉を列挙してみる
今回何調べるか全く思い浮かばないので、とりあえずこんなところからスタート
ネットで偶然見かけた言葉も入れてます
確率分布
確率変数がとる値とその値をとる確率の対応の様子 {1}
そもそも、確率変数?
変数である確率を生み出す変数のこと {2}
例:slackbotで大学記入欄と入力したとき、{①石原帝都大学, ② 首都大学東京 大学, ③東京都立大学, ④首都大学 東京, ⑤小池女帝大学 } の5つから1つを出力する。これらは同様に確か。各番号をXとすると、
$ P(X) = \frac {1}{5} (X = 1,2,3,4,5) と示せる
Xは確率変数。
このとき、botを動かして、⑤小池女帝大学を出力する事象の確率は$ \frac{1}{5}であることは
$ P(X=5) = \frac{1}{5} 及び P(5) = \frac{1}{5}
とできる
ここで確率分布は「確率変数がとる値とその値をとる確率の対応の様子」より、
https://gyazo.com/753925fe16a510f243fadbaecd6d61fe
となり、それぞれの出力と確率が対応しています。
正規分布 {3}
正規分布(ガウス分布)とは,図のような左右対称の連続型の確率分布https://mathtrain.jp/wp-content/uploads/2014/12/seikibunpu-300x209.png {3}
例:物理実験の誤差
確率密度は事象Xのでやすさ
平均的な事象に近いところほど確率密度は上がる
平均的な事象から外れた値ほど確率密度は小さくなる
定義にもあるように、確率分布の延長線上と捉えられる
定義式
$ f(x) = {1}{\sqrt{2\pi}\sigma}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\} 
平均は$ \mu、分散は$ \sigma^2
平均を0、$ \sigma^2を1として考えるものが重要
あらゆる現象でこれが適用できる
分布図 / 散布図
今回の重要ワードかもしれない......
縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたもの {4}
プロット:点で打つこと
JIS規格では
二つの特性を横軸と縦軸とし,観測値を打点して作るグラフ表示 {5}
図はこんな感じhttps://gyazo.com/d573790feb9a6b3b0ad60c7b9d00e694
今回は関数に乱数を入れたので相関は0に近いでしょう
/(^o^)\どちらにせよ色々あかんグラフ。0点いるし
散布図の作り方は諸事情につきあとでお送りします
また、各項目ばらばら版では、ここの部分はカットしています。
ポアソン分布 {6}
ポアソン分布とは「一定時間内にランダムなイベントが何回発生するか」を表す分布 {6}
例:単位時間あたりに単位時間あたり平均 λ 回起こるようなランダムなイベントが,単位時間に k 回発生する確率が$ P(k)
$ P(k)=e^{-\lambda}\dfrac{\lambda^k}{k!} がポアソン分布を示す確率関数
例:1時間に5回 "Windows is f*cking!" と叫ぶようなランダムなイベントが、1時間に3回起こる確率
$ P(3)=e^{-5}\dfrac{5^3}{3!} = 0.14037
注意 : 強調した1時間が等しくなければならない
データの分布とは
余談はさておき、データと分布から、データ(数値)が散らばって存在している集合と定義できる
(*´﹃`*)散布図がイメージ的に近いんじゃね?
データ
数値の集まり
詳しくはリンク先を参照
数値要約とは
数値も要約も馴染みのある言葉だが、知らない......
調べても数値要約について明確には書いていない
あらゆるサイトを見てこのように定義した
データが多すぎるとき、最小値、最大値、四分位数、最瀕値、中央値のデータを代表する値を用いて、データの特徴を示すこと
数Aの教科書にも
データについて説明するとき、データのすべての値を示すよりも、データの特徴を示す値を取るほうが効果的 {7}
データを代表する値
四分位数 {8}
第一四分位数、第二四分位数、第三四分位数の3つからなる
第一四分位数:変量xを小さい方から並べたときに四等分する最初の値
第二四分位数:変量xを小さい方から並べたときに四等分する2番めの値
中央値と等しい
第三四分位数:変量xを小さい方から並べたときに四等分する3番目の値
(第三四分位数)ー(第一四分位数)=(四分位範囲)
中央値(メジアン){9}
変量を大きさの順に並べたとき、中央の順位に来る値のこと
最瀕値(モード)
もっとも多く出た変量の値のこと
数値要約は要約統計量と似た概念と言える
そもそも統計量とは
統計学では、一組の標本データに目的に応じた統計学的なアルゴリズム(関数)を適用し得た、データの特徴を要約した数値を指す {10}
標本とは、データを取得したい母集団のすべてを調べられないとき一部を抽出した部分集合のこと
例:A型の人
全員を調べるのは不可能なため、一定人数のみからデータを得る
要約統計量{11}
変数の分布の状態や、特徴を表すために使用する数値
要約統計量の種類
代表値 : さっき数Aの教科書にあった人たち
平均値
1.算術平均 : 一般的な平均
$ A= \frac{X1+X2+X3+・・・+Xn}{n}
外れ値に弱い
外れ値 : 他の値から大きく外れたもの
例:とあるyoutuberの視聴回数が平均500回の99本の動画に対して、一本だけバズって400万回視聴されたとき
平均は$ \frac{500*99+4000000}{99+1} = 40495
普段の80倍の値が平均となってしまう
((´^ω^))  バズることのヤバさwwwwそもそも平均も意味ないがなwww
2.幾何平均 : n個のデータの積のn乗根
$ A = \sqrt[n]{X1*X2*X3*・・・Xn}
データが正でないと使えない
相乗平均的なもの
3.調和平均 : データの逆数の算術平均 の逆数
$ A = \frac{n}{\frac{1}{X1}+\frac{1}{X2}+・・・+\frac{1}{Xn}}
算術平均に比べて、数値の大きいデータの影響を受けづらく、値が小さい
4.調整数列 : 最大と最小の両側の一定割合数のデータを取り除いて算術平均
外れ値に強い
25%ずつ取り除くとき中央平均という
中央値
外れ値には強く、大多数のデータを得ることができるが、1例である
階級の幅や間隔の影響を受けにくい
最瀕値
外れ値に強い
間隔や階級の幅の影響を受けやすい
データの分布が2つ山以上のときは向いていない
順序統計量 : データを昇順に並べた上で、その結果より算出する統計量
最小値、最大値
中央値や四分位数
散布度 : 分布の広がりを表現す[る
間隔尺度のデータで用いられる
分散 : 各変量の平均からの差の二乗の算術平均
データの平均をAとして
$ S = \frac{(X1-A)^2+(X2-A)^2+・・・+(Xn-A)^2}{n}
要因による分解が可能
理論展開が優れている
数式で扱いやすく、式変形がしやすい
単位がもとの変数の2乗であるため、解釈が難しい
外れ値に弱い
標準偏差 : 分散の平方根
これをすることにより、もとのデータと単位が一致
最も使われる散布度
分散と一緒で外れ値に弱い
散布図について
個人的に今回の重要ポイントだと思われる散布図について紹介する予定
散布図とは
https://gyazo.com/d573790feb9a6b3b0ad60c7b9d00e694
データについて縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたもの {4}
プロット:点で打つこと
JIS規格では
二つの特性を横軸と縦軸とし,観測値を打点して作るグラフ表示 {5}
JISによる散布図の書き方
( ´∀`)解析を目的としていることを意識すべきと感じた
1.測定値の記録
必要事項を併記すること
測定日時や対象の名称、測定者など
2.多数の測定値を散布図にする
多数の測定値を示すのみでは、データの可視化のように理解しづらい
縦軸と横軸に目盛りを振り、測定値(x,y)を記入する
方眼紙の目盛は,x の範囲と y の範囲を調べ,それらの長さがほぼ等しくなるようにとる
散布図の見方
点の傾向を見る
右上がりの傾向 : xが増加>yも増加
右下がりの傾向 : xも増加>yは減少
ばらつきを見る
ばらつきが大きい : 上のような傾向が弱い
ばらつきが小さい : 上のような傾向が強い
!!xとyの関係が曲線のようになってしまったら相関係数は意味をなさない
3.xとyの関係を示すには相関係数を用いる
(相関係数)= r とする
r の範囲は$ -1\leqq r \leqq 1
$ -1\leqq r \leqq 0のとき負の相関
右下がりの傾向 : xも増加ならば、yは減少となっている
$ 0\leqq r \leqq 1のとき正の相関
右上がりの傾向 : xが増加>yも増加へ
sizumima.iconの感想
ヒストグラムに触れることができなかったのが不安だった。他の人のノートを見てどうにかしたい。
なんとなく漠然として来てしまったので、課題がどうなるかも不安である。
高校の数1の教科書が役立ったのは面白かった
(´༎ຶ۝༎ຶ)の感想
今回はオレの出番少なかったな。
こいつ授業ほったらかして量子コンピュータのノート作ってたので見てってやってや。
というか、こんなふざけていいのかヨ
____________________
参考文献
{0} 広辞苑 第六版 より
{1},{2}  2019/10/26 00:55 「BellCurve 統計WEB 統計学の時間」https://bellcurve.jp/statistics/course/6596.html  より
{3} 2019/10/26 01:51 「高校数学の美しい物語 正規分布の基礎的な知識まとめ」https://mathtrain.jp/gaussdistribution より
{4} 2019/10/26 14:50 「ウィキペディア フリー百科事典 散布図」      https://ja.wikipedia.org/wiki/散布図  より
{5} 2019/10/26 15:08 「JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語」http://kikakurui.com/z8/Z8101-1-1999-01.html より
{6} 2019/10/26 02:11 「高校数学の美しい物語 ポアソン分布の意味と平均・分散」https://mathtrain.jp/poisson より
{7},{8},{9} 2019/10/26 16:21 高等学校数学Ⅰ 第一学習社
{10} 2019/10/26 17:13 「ウィキペディア フリー百科事典 統計量」   https://ja.wikipedia.org/wiki/統計量 より
{11} 2019/10/26 22:47 「Qiita 要約統計量についてまとめてみた」@icchy_sh33p  より
{12} 2019/10/26 22:47 「JIS Z 9041-1:1999 データの統計的な解釈方法 第1部:データの統計的記述」https://kikakurui.com/z9/Z9041-1-1999-01.html 
____________________
#テーマ2 #顔文字 #教養としてのデータサイエンス