テーマ2:データの分布と数値要約
目次の後には全項目結合版が続いています。
目次から項目別のページにとぶことが可能です。
目次
前編
後編
データを代表する値
代表値
1.分かれてあちこちにあること。分けてあちこちに置くこと
3.数学で確率分布のこと {0}
緊急企画(・∀・)分布とつく言葉を列挙してみる
今回何調べるか全く思い浮かばないので、とりあえずこんなところからスタート
ネットで偶然見かけた言葉も入れてます
確率変数がとる値とその値をとる確率の対応の様子 {1}
そもそも、確率変数?
変数である確率を生み出す変数のこと {2}
例:slackbotで大学記入欄と入力したとき、{①石原帝都大学, ② 首都大学東京 大学, ③東京都立大学, ④首都大学 東京, ⑤小池女帝大学 } の5つから1つを出力する。これらは同様に確か。各番号をXとすると、 $ P(X) = \frac {1}{5} (X = 1,2,3,4,5) と示せる
Xは確率変数。
このとき、botを動かして、⑤小池女帝大学を出力する事象の確率は$ \frac{1}{5}であることは
$ P(X=5) = \frac{1}{5} 及び P(5) = \frac{1}{5}
とできる
ここで確率分布は「確率変数がとる値とその値をとる確率の対応の様子」より、
https://gyazo.com/753925fe16a510f243fadbaecd6d61fe
となり、それぞれの出力と確率が対応しています。
正規分布(ガウス分布)とは,図のような左右対称の連続型の確率分布https://mathtrain.jp/wp-content/uploads/2014/12/seikibunpu-300x209.png {3}
例:物理実験の誤差
確率密度は事象Xのでやすさ
平均的な事象に近いところほど確率密度は上がる
平均的な事象から外れた値ほど確率密度は小さくなる
定義にもあるように、確率分布の延長線上と捉えられる
定義式
$ f(x) = {1}{\sqrt{2\pi}\sigma}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\}
平均は$ \mu、分散は$ \sigma^2
平均を0、$ \sigma^2を1として考えるものが重要
あらゆる現象でこれが適用できる
今回の重要ワードかもしれない......
縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたもの {4}
プロット:点で打つこと
二つの特性を横軸と縦軸とし,観測値を打点して作るグラフ表示 {5}
図はこんな感じhttps://gyazo.com/d573790feb9a6b3b0ad60c7b9d00e694
今回は関数に乱数を入れたので相関は0に近いでしょう
/(^o^)\どちらにせよ色々あかんグラフ。0点いるし
散布図の作り方は諸事情につきあとでお送りします
また、各項目ばらばら版では、ここの部分はカットしています。
ポアソン分布とは「一定時間内にランダムなイベントが何回発生するか」を表す分布 {6}
例:単位時間あたりに単位時間あたり平均 λ 回起こるようなランダムなイベントが,単位時間に k 回発生する確率が$ P(k)
$ P(k)=e^{-\lambda}\dfrac{\lambda^k}{k!} がポアソン分布を示す確率関数
例:1時間に5回 "Windows is f*cking!" と叫ぶようなランダムなイベントが、1時間に3回起こる確率
$ P(3)=e^{-5}\dfrac{5^3}{3!} = 0.14037
注意 : 強調した1時間が等しくなければならない
データの分布とは
余談はさておき、データと分布から、データ(数値)が散らばって存在している集合と定義できる (*´﹃`*)散布図がイメージ的に近いんじゃね?
数値の集まり
詳しくはリンク先を参照
数値も要約も馴染みのある言葉だが、知らない......
調べても数値要約について明確には書いていない
あらゆるサイトを見てこのように定義した
データが多すぎるとき、最小値、最大値、四分位数、最瀕値、中央値のデータを代表する値を用いて、データの特徴を示すこと 数Aの教科書にも
データについて説明するとき、データのすべての値を示すよりも、データの特徴を示す値を取るほうが効果的 {7}
データを代表する値
第一四分位数、第二四分位数、第三四分位数の3つからなる
第一四分位数:変量xを小さい方から並べたときに四等分する最初の値
第二四分位数:変量xを小さい方から並べたときに四等分する2番めの値
第三四分位数:変量xを小さい方から並べたときに四等分する3番目の値
(第三四分位数)ー(第一四分位数)=(四分位範囲)
変量を大きさの順に並べたとき、中央の順位に来る値のこと
もっとも多く出た変量の値のこと
統計学では、一組の標本データに目的に応じた統計学的なアルゴリズム(関数)を適用し得た、データの特徴を要約した数値を指す {10} 標本とは、データを取得したい母集団のすべてを調べられないとき一部を抽出した部分集合のこと
例:A型の人
全員を調べるのは不可能なため、一定人数のみからデータを得る
変数の分布の状態や、特徴を表すために使用する数値
代表値 : さっき数Aの教科書にあった人たち
1.算術平均 : 一般的な平均
$ A= \frac{X1+X2+X3+・・・+Xn}{n}
外れ値 : 他の値から大きく外れたもの
例:とあるyoutuberの視聴回数が平均500回の99本の動画に対して、一本だけバズって400万回視聴されたとき
平均は$ \frac{500*99+4000000}{99+1} = 40495
普段の80倍の値が平均となってしまう
((´^ω^)) バズることのヤバさwwwwそもそも平均も意味ないがなwww
2.幾何平均 : n個のデータの積のn乗根
$ A = \sqrt[n]{X1*X2*X3*・・・Xn}
データが正でないと使えない
相乗平均的なもの
3.調和平均 : データの逆数の算術平均 の逆数
$ A = \frac{n}{\frac{1}{X1}+\frac{1}{X2}+・・・+\frac{1}{Xn}}
算術平均に比べて、数値の大きいデータの影響を受けづらく、値が小さい
4.調整数列 : 最大と最小の両側の一定割合数のデータを取り除いて算術平均
外れ値に強い
25%ずつ取り除くとき中央平均という
外れ値には強く、大多数のデータを得ることができるが、1例である
階級の幅や間隔の影響を受けにくい
外れ値に強い
間隔や階級の幅の影響を受けやすい
データの分布が2つ山以上のときは向いていない
順序統計量 : データを昇順に並べた上で、その結果より算出する統計量
間隔尺度のデータで用いられる
データの平均をAとして
$ S = \frac{(X1-A)^2+(X2-A)^2+・・・+(Xn-A)^2}{n}
要因による分解が可能
理論展開が優れている
数式で扱いやすく、式変形がしやすい
単位がもとの変数の2乗であるため、解釈が難しい
外れ値に弱い
これをすることにより、もとのデータと単位が一致
分散と一緒で外れ値に弱い
散布図について
個人的に今回の重要ポイントだと思われる散布図について紹介する予定 散布図とは
https://gyazo.com/d573790feb9a6b3b0ad60c7b9d00e694
データについて縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたもの {4}
プロット:点で打つこと
二つの特性を横軸と縦軸とし,観測値を打点して作るグラフ表示 {5}
( ´∀`)解析を目的としていることを意識すべきと感じた
1.測定値の記録
必要事項を併記すること
測定日時や対象の名称、測定者など
2.多数の測定値を散布図にする
縦軸と横軸に目盛りを振り、測定値(x,y)を記入する
方眼紙の目盛は,x の範囲と y の範囲を調べ,それらの長さがほぼ等しくなるようにとる
散布図の見方
点の傾向を見る
右上がりの傾向 : xが増加>yも増加
右下がりの傾向 : xも増加>yは減少
ばらつきを見る
ばらつきが大きい : 上のような傾向が弱い
ばらつきが小さい : 上のような傾向が強い
!!xとyの関係が曲線のようになってしまったら相関係数は意味をなさない (相関係数)= r とする
r の範囲は$ -1\leqq r \leqq 1
$ -1\leqq r \leqq 0のとき負の相関 右下がりの傾向 : xも増加ならば、yは減少となっている
$ 0\leqq r \leqq 1のとき正の相関 右上がりの傾向 : xが増加>yも増加へ
sizumima.iconの感想
ヒストグラムに触れることができなかったのが不安だった。他の人のノートを見てどうにかしたい。
なんとなく漠然として来てしまったので、課題がどうなるかも不安である。
高校の数1の教科書が役立ったのは面白かった
(´༎ຶ༎ຶ)の感想
今回はオレの出番少なかったな。
というか、こんなふざけていいのかヨ
____________________
参考文献
{0} 広辞苑 第六版 より
{7},{8},{9} 2019/10/26 16:21 高等学校数学Ⅰ 第一学習社
{11} 2019/10/26 22:47 「Qiita 要約統計量についてまとめてみた」@icchy_sh33p より ____________________