確率
確率論 筑波大学
https://www.youtube.com/playlist?list=PL38KibqB_aSBQn0M41mm2rTNoI_RuiTkm
わかりやすいらしい
確率過程
Stochastic process 1
確率は自然現象のモデル化または乱択法と言った工学応用にも欠かせない数学的道具である
物理モデリング、ML、統計学、アルゴリズム、高速計算、量子力学、暗号セキュリティなどに応用できる
chap1 確率空間
試行
標本空間
試行の結果を全て集めたもの
標本点
ある試行の結果
確率事象
これからの戦略として、
有限・離散は問題ない
→無限・連続を扱いたい、極限をとりたい
→それらが行える数学的土台を整備する
σ-加法族
borel集合族
σ-加法族の中でも重要なのがBorel集合族である
可測空間
Fを集合族として(Ω,F)を可測空間という
確率測度
3は分割の仕方によらないことを言っており、有限から無限に矛盾なく繋げられるので重要である
測度論的確率論は全てこの公理に立脚している
確率測度の性質
まあ常識
劣加法性
和の公式
和の公式、幇助原理
確率の連続性
chap2 確率変数
確率変数
可測関数
分布関数
分布関数の性質
連続分布
絶対連続
radon-nikodymの定理
密度関数の性質
特異連続
離散分布
同時分布
確率変数の独立性
条件付き確率
事象の独立性
chap3 期待値と特性関数
期待値
期待値の性質
条件付き期待値
条件付き期待値の性質
分散の性質
短調収束定理、fatouの補題、優秀測定理、fubiniの定理
モーメント母関数
モーメント母関数とモーメントの関係
特性関数
特性関数の性質
キュムランと母関数
キュムラントと平均値周りのモーメントの関係
歪みと尖り
特性関数と分布関数の関数
levyの反転公式
独立な確率変数の和の特性関数
独立な確率変数と特性関数
Chap4 さまざまな分布
指数分布
ガンマ分布
カイ二乗分布
離散分布
二項分布
Poisson分布
Chp5 変数変換
1変数
多変数
Chap6 確率変数に関する不等式
凸関数
劣微分
jensenの不等式
youngの不等式
holderの不等式
minkowskiの不等式
cauchy-schwartzの不等式
Markovの不等式,chebyshevの不等式
hoeffdingの不等式
bernsteinの不等式
Chap7 確率変数列の収束
Chap8 大数の法則と中心極限定理
chap9 確率過程
加法仮定
定常過程
マルコフ過程
chap10 マルコフ連鎖
離散時間、離散状態であるマルコフ過程をマルコフ連鎖という
相互到達可能の同地関係性
再帰性
再帰性と既約性
Aが有限で閉かつ既約ならAに含まれる任意の状態は再帰的である
一致団結の性質
既約成分への分解定理
再帰性と平均到達時間
吸収確率
平均再帰時間の性質と正再帰性の条件
定常分布の存在条件
大数の強法則
マルコフ連鎖は既約とする
—————————————————————————————————————————
確率数理工学2
講義ノート
本講義の目的は、データの生成過程や確率的現象を数理的にモデリングするために必要な数学的道具である「確率論」の基本を教えることにある。確率論は、自然や社会の不確実な現象を記述する言語であると同時に工学的応用にも広く用いられ、その利用範囲は広い。学習範囲は、確率および確率過程の初等的な範囲を十分カバーし、推定や検定は扱わない。現実問題への適用を意識して、機械学習やデータマイニングへの応用事例も講義の中で紹介する。確率論の基本的要素とその現実の利用方法を学ぶことにより統計・情報理論・データ解析といった諸分野において確率を用いた議論を展開する素養を身に着ける。
1.確率空間、基本公式、条件付き確率、独立性
2.確率変数、分布関数,確率密度関数、同時分布,周辺分布
3.母関数、特性関数、モーメント、キュムラント
4.連続分布(正規分布、指数分布、ガンマ分布、ベータ分布、コーシー分布)
離散分布(二項分布、ポアッソン分布、超幾何分布) 5.和の分布、畳み込み分布、変数変換、複合分布
6.Holderの不等式、Chebyshevの不等式、 Hoeffdingの不等式、Markov不等式、Chernoff型不等式
7.概収束、確率収束、法則収束
8.Levyの連続性定理、大数の法則とその証明、中心極限定理とその証明
9.確率過程、ポアソン過程、再生過程、計数過程
10.マルコフ連鎖
第1講
昔は確率を数学的な扱いができていなかった
そこで、測度論という数学を使って確率を定式化した
確率を自然現象とすると難しくなるが、確率を確率測度であると定式化する
これで確率が純粋な数学的問題になる
サイコロを振るといった1つの試行の結果、観測される事象の確率を定める
試行
標本空間Ω:試行の結果全体の集合
標本点ω:試行の結果
標本空間の部分集合を事象という
余事象、和事象、積事象も同様に定義する
事象に確率を定めたい
→標本空間が有限集合なら難しくない
→連続、無限も扱いたいが、下手にやると矛盾が起こることが知られている(普通は、バラバラに分割してそれらを合体してもとの大きさにならに例が作れる)(Banach-Tarskiのパラドックス)
→確率を定義しても矛盾が生じない閉じた入れ物を用意する
→「σ加法族」「可測空間」「確率測度」
これらの天下りの前提がないと確率論は成り立たない
これらの公理が必要だよねってことは納得するのが今日の目標
なぜσ加法族を導入するかというと、確率が定まっていて欲しい集合の集合を考える
Fの各元に確率が定まっていてほしいという気持ちになる
Def σ加法族(完全加法族)
Ωの部分集合族Fがσ加法族
(1) Ω ∈ F
(2) A ∈ F → Ac ∈ F
(3) A1,A2,,,, ∈ F → それらの和集合 ∈ F(ただし可算無限個)
(3)が一番重要
可算無限個の元は重複を許すので、Fは有限個でもok
(3)をσ-加法性(完全加法性)という
なぜ(3)が必要なのかというと、極限操作を考えたい
我々は和しかない
和から積分を定義しようとすると、間で必ず極限を考えなければいけなくなる
極限を矛盾なく考えるためにはσ加法族が必要になる
確率測度に入るとσ加法族の必要性がわかる
変なσ加法族を持ってきて、その上で確率を考えることも許される
有限集合なら簡単だが、実数の場合を考えてみる
σ加法族の中でもBorel集合族が重要
R上のBorel集合族B(R)はRの任意の開集合を含む最小のσ-加法族である
Borel集合族の元をBorel修吾いうという
確率は面積だと思っとけ
開区間の面積ぐらいは定まっていて欲しいと思う
任意の開区間を含む最小のσ加法族もBorel集合族
さすがに区間ぐらいは面積が定まっているよなあ?
F1, F2:σ加法族が任意の開集合を含むとする
このとき、F1∩F2も任意の開集合を含むことはF1、F2の条件からすぐわかる
さらにF1∩F2はσ加法族にもなっている
F1∩F2はF1,F2よりも小さいと言えるので、開集合を全て含むσ加法族を全て集めてきて、それらの共通部分をとれば最小のσ加法族を構築できる
構成の仕方から
1、B(R)はσ加法族
2、B(R)は任意の開集合を含む
さらにB(R)より小さくそのような条件を満たすσ加法族は存在しない
ボレル測度を用いると、実数上の確率測度が定まる
実数上のσ加法族としてBorel集合族を覚える
Ωとその上のσ加法族Fの組みを可測空間という
この可測空間に確率を定める
可測空間というのは、面積を測れるという意味
σ加法族に今後確率を定義して、σ加法族と確率が定義できる集合を対応させる
集合の包含関係の定義も覚えておけ
Fの上に確率を定めていく
Def 確率測度
確率測度とは、Fの元を受け取って、ある実数を返す関数
以下の条件を満たす
(1) ∀A∈Fで 0<=P(A)<=1
(2) P(Ω) = 1
(3) A1,A2,,,∈ Fが互いに排反 → P(∪An) = ΣP(An)
和集合の確率が、それぞれの確率の和に分解できる
つまり、Pの外側で極限をとるのと、内側で極限をとるのが可換であると言っている
(3)の性質をσ-加法性と呼ぶ
σ加法族として変な集合を持ってくると、これが成り立たない
σ-加法性が成り立つ(Ω, F, P)と制限して議論する
F自身は非可算無限でもOK
この3つからいろいろなことが言えるのが面白いところ
確率測度の基本公式9つが導ける!!!
(8)確率の連続性1
(9)確率の連続性2
が超大事
中にあったlimを外に持ってこれた
これを確率の連続性という

なぜこれを連続性というのかというと、連続関数の定義とアナロジーがあるから
これらの9つの公式は3つの公理から全て導出できる

振り返ると、σ加法族の性質がなぜ必要だったのかを理解することができる
σ加法性は無限和のことしか言っていないので、有限で止めてはいけない
止めてもいいかもしれないが、そのことは公理ではいっていない
有限でもいいということは、示せる
第2講
確率変数はわかりにくいかも知れないが合理的な定義になっている
まずは関数であるというふうに定義する
確率変数のとる値がどの範囲にどれだけの確率で含まれるかがわかって欲しいのでこの条件が課される
このような確率がわかっていれば、引き算することでいろいろな範囲の確率が求められる
というのも、σ加法族は演算に関して閉じているので
可測はFに含まれるという意味
つまり「確率変数 = 可測関数」
任意のボレル集合に対し、その集合の元の逆像がFに含まれることは、上記の定義と同値になっている
行く前と行った後の空間に関して、それが可測のとき、F/F’可測関数と呼ぶ
復習
「X<=xである確率は測れて欲しい」
「ボレル集合の元である確率は測れる」
任意のボレル集合に対して、その逆像がFに入ることを証明
この証明をすることで、ボレル集合の気持ちを理解したい
測度論的確率論では、とある集合上で成り立つことが、それを含む最小のσ加法族、つまりボレル集合上に拡張するという議論がいくつも出てくる
実は連続関数が可測関数である
開集合の逆像が開集合というのが連続関数の定義である
F(x) = P()を(累積)分布関数という
分布関数の性質として、
(1)単調非減少
(2)右連続
(3)lim-∞F(x) = 0, lim∞F(x) = 1
xを左からaに近づけていくと、F(x) = F(a)とは限らないが、左極限は存在する
右連続であるのは、確率変数や分布関数の不等号に等号が含まれていることに関係がある
また、不等号の部分に等号を含めずに定義すると左連続になる
逆に、(1)~(3)を満たすF(x)があるとする
それに対応する(R, B(R))上の確率測度Qが一意に存在する
これで、R上の確率測度の存在が保証される
ここは補足資料にのっている
Qを調べる代わりにFを調べた方が楽なことが多いので、(弱収束など)Fを考える
Pを身長を選ぶ確率とすると、Qは身長の分布になる
確率分布の種類は3つある
・絶対連続
・特異連続
・離散
今回は連続なものを紹介する
絶対連続分布
F(x) =
fを確率密度関数という
連続分布な定義としてもう1つが、Radom-Nikodymの定理というものがある
これを定義としてもよい
絶対連続な分布の例
・一様分布
・正規分布
正規分布の累積分布関数を誤差関数という
この講義では、連続といえば絶対連続しか考えないので確率密度関数が存在しているとして良い
連続分布だからといって密度関数があるとは限らない
反例として悪魔の階段がある
・Bernoulli分布
・二項分布:n回のコイン投げで表が出た回数kの分布
・Poisson分布:稀に起こる現象が一定期間内に起きる回数の分布、向上で1日に生産される不良品の数、宇宙船を1時間に観測する回数
この中間はなくて、ルベーグの分解定理というものが成り立つ
要素としては、絶対連続か、特異連続か、離散かしかない
この3つさえ抑えておけば全て表せるぜ
第3講
今までやってきたのは、確率測度を定義してきた
確率測度と
確率空間を作ったらその上に可測関数の確率変数ををいた
そのあとは分布関数を定義した
これから逆に辿る
X(ω) < xであることが可測であるといった
あるボレル集合に入ってるものも可測であると言えるようになった
X(ω)があるボレル集合に入るのが可測であると拡張できた
分布関数は、単調性、右連続性、
分布関数を定義するモチベーションとして、分布関数Fさえもっとけば確率測度Pの情報を損なうことがない
集合半環について
分布関数による区間は集合半環になっている
どの集合族までPを矛盾なく拡張できるかを考える
答えとしては、Sを含む最小のσ加法族まで拡張される
それがボレル集合族である
半開区間の確率を定めば、Sを含む最小のσ加法族まで確率測度が拡張される
どのように示されるのかというと、
SはS上でσ加法的という
区間a,bは安全な議論ができる
そこから、Hopσの拡張定理で拡張する
Sを含む最小のσ加法族上の確率測度へ一意に拡張される
これで自然に出てくることが言えた
こうして拡張されたPおよびその定義域であるボレル州豪族の性質を抜き出して書き下すと、2講めで出てきら定義が出てくる
確率空間が定義されたら、確率変数を定義できた
確率変数をどこまで拡張できるのかという小tを考えると、ボレル集合族まで拡張できる
これはHopsの定義と同じようなこと
ボレル集合族が何なのかは掴みにくいと思う
それの証明を追ってみる
これはR内で有理数が稠密であることが本質である
加算な稠密部分集合を持つ時、可分であるという
なぜ分けられるのかというと、数えられる集合に分けられるからそう言えるのでは
下手に非可算無限の和集合をとるとボレル集合でない集合の元一つ一つとってきて非加算を取ると任意の集合を作れるようになっちゃう
可算無限であることが大切
ここまではこれまでの復習である
多変量確率変数を定義する
2つの定義があり、これらが同じことを証明する
普通に確率変数を並べたものであると思っても良いが、もっと情報量が多い定義がある
直積σ加法族を定義する
それに対する分布関数が定義できる
同時分布関数という
例えば身長170以下かつ年収500万以下みたいな
特にそれが積分でかけるとき、同時確率密度関数という
1次元の場合と同様に性質1,2,3を満たすFが与えられれば、それに対応する確率測度が一意に決まる
ボレル集合
並べたうちで、1つ1つの変数の分布を周辺分布という
関数fkで表すときは、周辺確率密度関数という
確率変数の独立性
同時分布が、それぞれの確率変数の掛け算に分解できる
これだけだと使いにくいのでいくつか同値な定義がある
紹介した2つの定理が等しいことを証明する
そのためにπ-λ定理を用いる
事象の独立性は数式で定義する
このように定義すると確率変数の独立性が、事象の独立性でかける
独立の定義を使い分けることもある
各集合の元が持つべき性質を1つ1つ確認していくとわかっていくはず
第4講
少し前回の終わってない部分をやる
前回は分布関数が与えられると、確率測度が定まるという話をした
確率関数の引き算で区間がの確率がわかるので、これを貼り合わせていく
開区間でも、無限和を取ることで定めることができる
区間をどんどん足していけば
まとめ
区間の確率を定めましょう
→それを切りはりすることで、開区間などの確率が一意に定まる
その裏にhopsの拡張定理がある
ここから先は確率測度はあるという前提で話を進める
まずは条件付き確立を定義する
この定義だとP(B)=0の時はwell-definedではない
その時は確率密度を考える
条件付き確率密度というものもある

条件付き確率の公式として、積の公式とBayesの公式がある
Bayesの公式は原因から結果の確率がわかれば、結果から原因の確率を逆算できる
例えば、ロボットアームの自己位置推定や、人工衛星が景色から場所を推定することなどに使われる
今回は期待値を定義する
するとモーメントが出てくる
特性関数を使うと色々な分布の特徴がわかる
φが可測じゃないと積分が定義できない
ここから先はφ(x)をxとする
今はY(ω) = yとしている
Yはωの変数
リーマン積分だと、拡張できないので、ルベーグ積分を定義する
ルベーグ積分の表記は独特なので、慣れるしかない
可算無限しか持っていないので、和を取るということだけで積分を定義することを目指していくう
なんとかして和の極限として積分を定義することを考える
1 定義関数の積分
2 定義関数の期待値
3 その極限をとることで任意の確率変数の積分を定義する
この流れを抑えておく
E(x) = Aの面積*高さ1 = Aの面積 = P(A)
このようにするとσ加法性が成り立つ
次は有限和をとってきてその期待値を定める
単関数は無限和は許さない
単関数の期待値をちゃんと定義した
次は拡張して非負の確率変数のときの期待値を考える
近似する単関数の単調列が作れるので、それの極限として定義する
これは単関数れつの取り方によらない
積分をちゃんと定義するためには可測性が必要だった
両方とも有限であるとき可積分という
ここまででXの積分を定義した
任意の単関数に関して矛盾なく期待値が定まることは証明しておけ
グラフを覚えておけば良い
積分が定義できたので、平均値、モーメント、平均値周りのモーメント、分散が定義できる
分散は平均値周りのモーメントの1つの例
期待値の性質
線形性
単調性
a.s.は確率1でっていう意味
単調収束定理
Fatouの補題
優収束定理
Fatouの補題は優収束定理の証明に使える
こっから先は、モーメントとからの性質を調べるための母関数を定義して、そっから中心曲限定理に持ってく
第5講
前回は、単関数の期待値の極限として、
最初は分散の性質を考える
分散の性質が大数の逆法則を示唆している
ここで、積分がwell-defineであることの証明をする
第6講
キュムナント母関数について
キュムナントは平均値周りの母関数で書くことができる
尖りというのは正規分布に比べてどれくらい裾が広いかなどを表す
分布が等しければキュムナントも等しい
逆にキュムナントが等しければ分布が等しい
分布を調べる代わりに特性関数を調べることを考える
Levyの反転公式という、強い主張をいう定理がある
和の特性関数は特性関数の積
いろいろな分布を紹介した
第7講
前回は、特性関数を定義して、特性関数の性質を論じた
特性関数の微分とかを考えるとモーメントとかがでてくる(微分可能であれば)
分布と特性関数は1対1対応というすごい性質があった
その中で和の分布の特性関数はそれぞれの特性関数の積でかけるので有用であった
1対1を示すときに、Levyの反転公式というものがあった
フーリエ変換の一般化みたいなやつ
分布の関係は抑えておけ
確率を学ぶと、ギャンブルはよくないなあと考えだす
変数変換について
畳み込み分布
和の分布は畳み込み分布になる
確率評価に関する不等式
第8講
KL-divを一般化してf(1)=0なる凸関数を持ちチアものをf-ダイバージェンスという
fとしてlogをもってくるとKL-divとなる
fとしてある関数を持ってくると対称性が成り立つ
これをJensen-shanonエントロピーといい、GANに用いられている
深層学習でjensen-shanonエントロピーが0になるように学習させる
確率集中不等式
確率変数列の収束
非常に重要
いろんな定義がある
4つの収束がある
第9講
第10講
確率変数列には収束の概念がある
4つの収束が大切である
概収束が成り立てば確率収束、確率収束すれば法則収束
Lp収束すれば確率収束
これは全然意味が違う、ギャンブラーが言う確率が収束してきたというのは法則収束
法則収束は弱収束や分岐収束という言い方もある
Levyの連続性定理
特性関数が各点収束すれば法則収束する
こういうのを使えば中心極限定理が証明できる
中心極限定理は平均と分散が存在する確率変数を考えている
選挙の速報は中心極限定理で説明できる
世論調査の結果をベイズ統計してるかも!?
1/1000を開票しても20σぐらいで予測できる
質問
「法則収束がどれくらい速いのかわからないと1万人で正規分布に収束しているかはわからないと思うのですが、その点は信じるということですか?」
→実は収束のスピードもなんとかなんとかの定理で√nであると知られている
投票はiidではない、だがiidだと近似する
中心極限定理と対極の法則といてPoissonの小数の法則というものがある
不良品が出る確率が低い製品を大量に生産するとその中に入っている不良品の個数は大体ポアソン分布
Delta法
こっから先は確率過程の話
最終的にはマルコフ過程の話をしたい
マルコフ連鎖は確率過程の1種類
加法過程
増分が独立である過程
例 ブラウン運動
第11講
第12講
第13講