2. 事後分布とベイズの定理
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
2.1 関連する重要な分布
$ f(x|\boldsymbol\theta)
$ F(x|\boldsymbol\theta)
ここで$ \boldsymbol\theta = (\theta_1, \theta_2, \cdots)であり、複数の母数をまとめた表現 以後、複数の母数は$ \boldsymbol\thetaで表現し、一般的な1つの母数は$ \thetaで表現する
$ \boldsymbol\theta = (\theta_1, \theta_2) = (\mu, \sigma)
$ \boldsymbol\theta = (\theta_1, \theta_2) = (\alpha, \beta)
2.1.1. 同時分布
複数の測定値(や母数)の同時的観察に関する分布
このとき$ x_1と$ x_2の同時分布は互いの分布の積である
$ f(x_1, x_2| \bm\theta) = f(x_1|\bm\theta)f(x_2|\bm\theta)
たとえば、1回目の知覚時間と2回目の知覚時間が互いに影響しあわずに測定されると仮定する
$ x_1と$ x_2は互いに独立であるから、それらが同時に観察される確率密度は以下のように表現できる
$ f(x_1 = 31.43, x_2 = 31.09|\mu, \sigma) = f(x_1 = 31.43|\mu, \sigma)f(x_2 = 31.09|\mu, \sigma)
$ n個の測定値$ \bm{x} = (x_1, x_2, \cdots, x_n)が互いに独立ならば、その同時分布は以下
$ f(\bm{x}|\bm{\theta}) = f(x_1|\bm\theta)f(x_2|\bm\theta) \times \cdots \times f(x_n|\bm\theta)
20個のデータが、互いに影響しあわずに測定されるとき、「知覚時間」のデータ全体$ \bm{x}が観察される確率密度は20個の確率密度の積として表現される
$ f(\bm{x}|\mu, \sigma) = f(31.43|\mu, \sigma)f(31.09|\mu,\sigma) \cdots f(32.35|\mu,\sigma)f(31.57|\mu,\sigma))
2.1.2. 条件付き分布
ここでは独立ではない測定値の同時分布を論じる
例として$ x_1を朝8時の気温、$ x_2を同じ日の正午の気温とする
朝の気温$ x_1と正午の気温$ x_2は互いに独立ではなく、一般的には同時分布は個々の分布の積では表現できない
$ f(x_1, x_2) \neq f(x_1)f(x_2)
複数の測定tが互いに独立でない場合に、それらの同時分布は以下のように表現できる
$ f(x_1, x_2) = f(x_2|x_1)f(x_1)
つまり、$ x_1の分布と$ x_1が与えられた場合の$ x_2の条件付き分布との積が$ x_1と$ x_2の同時分布になる
「朝の気温の分布」と「朝の気温で条件付けられた正午の気温の分布」との積が「朝の気温と正午の気温の同時分布」になる
これまで縦棒$ |は、右側の母数を区別するために用いてきた。
しかしここからは、その規則を発展的に変更し、「その右側に、条件付き分布の条件を示すための記号」として利用する
この規則のもとでは、たとえば$ f(x|\mu, \sigma)は、母数$ \mu, \sigmaが与えられた(所与の)ときの$ xの条件付き分布といえる
分布の操作の規則に関して、データと母数は本質的に区別をする必要がない
条件付き分布は、一般に$ f(x_1, x_2) = f(x_2|x_1)f(x_1)の両辺を$ f(x_1)で割って表現される
$ f(x_2|x_1) = \frac{f(x_1, x_2)}{f(x_1)}
2.1.3. 母数の分布
データ分布は客観的事実の集まり
具体的には、「知覚時間」の分布を平均$ 31.04秒、標準偏差を$ 2.07秒の正規分布と見立てた
「知覚時間」が$ x \sim N(31.04, 2.07)であるとみなすことにより、任意の区間の確率をなめらかに推測できて便利になった
しかし便利なのは、せいぜいこのくらいなもの
「知覚時間」に対する現実的ニーズに関しては様々な疑問や要求がわいてくる
しかし標本平均と標準偏差を、正規分布の母平均と母標準偏差とみなすだけでは、自然に湧いてくるこれらの疑問に答えることはできない
それは母数を点として考えているからである
母数を未知なる固定点として考える伝統的な推測統計学では、これらの疑問には一切答えることができない たしかにデータの分布は$ x \sim N(31.04, 2.07)で矛盾はないだろう
しかし$ x \sim N(30, 2.1)でも、$ x \sim N(32, 1.9)でも同じデータは観察できるだろう
要するにデータばかりではなく母数も分布すると考えることが自然である
データという情報が与えられたあとの母数の条件付き分布を導くのがベイズの定理である 「知覚時間」の母数の分布を見る
https://gyazo.com/000305bbc9bb60cd6bf3dc13b9d651d6
データ$ \bm{x}が所与のときの母数$ \muと$ \sigmaの同時分布$ f(\mu, \sigma|\bm{x})が左下図
データ$ \bm{x}が所与のときの$ \muの分布$ f(\mu|\bm{x})のヒストグラムが上図
データ$ \bm{x}が所与の時の$ \sigmaの分布$ f(\sigma|\bm{x})のヒストグラムが下右図
ベイズ分析では、統計的推論の多くを母数の分布を通じて行う
2.2 事後分布の導出
条件付き分布の公式の$ x_1, x_2を、それぞれ$ \bm{x}, \bm{\theta}に置き換えると
$ f(\bm{\theta}|\bm{x}) = \frac{f(\bm{x}, \bm{\theta})}{f(\bm{x})}
単なる記号なのだから、$ f(x_1, x_2) = f(x_2|x_1)f(x_1)における$ x_1, x_2を、今度は逆に、それぞれ$ \bm\theta, \bm{x}に置き換え、上式右辺の分子に代入すると
$ f(\bm\theta|\bm{x}) = \frac{f(\bm{x}|\bm\theta)f(\bm\theta)}{f(\bm{x})}
左辺の$ f(\bm\theta|\bm{x})は事後分布という 事後とは「データを観察したあとの」という意味
ベイズの定理は「データで条件付けられた母数の分布を与える定理」である
$ f(x|\mu, \sigma)= \frac{1}{\sqrt{2\pi\sigma}}\exp[\frac{-1}{2\sigma^2}(x-\mu)^2], -\infty \leq x \leq +\infty や$ f(x|\alpha, \beta) = \frac{1}{\beta - \alpha}, \alpha \leq x \leq \betaのような、母数で条件付けられたデータの分布とは、逆の関係であることが重要なポイント
右辺の$ f(\bm{x}|\bm\theta))は尤度といい、$ f(\bm\theta)は(母数の)事前分布といい、$ f(\bm{x})は正規化定数という ベイズの定理を文字で書き直すと
$ 事後分布 = \frac{尤度 \times 事前分布}{正規化定数}
2.2.1. 尤度
データ生成分布が互いに独立な正規分布であるとき、尤度$ f(\bm{x}|\bm\theta)は
$ f(\bm x|\bm \theta) = f(\bm x| \mu, \sigma) = f(x_1, \cdots, x_n|\mu, \sigma) = f(x_1|\mu, \sigma)f(x_2|\mu, \sigma), \times \cdots \times f(x_n |\mu, \sigma)
ここで、$ \bm x = (x_1, \cdots, x_n)であり、$ \bm\theta = (\mu, \sigma)である
この式は$ f(\bm{x}|\bm{\theta}) = f(x_1|\bm\theta)f(x_2|\bm\theta) \times \cdots \times f(x_n|\bm\theta)のデータの同時確率分布と見た目上全く同じである
ただし、同時確率分布は母数を定数として扱い、データを変数として扱った場合の呼称
たとえば母比率$ 0.5のコインを3枚振って表が$ 3枚である確率は$ \frac{1}{8}であり、表が$ 2枚である確率は$ \frac{3}{8}と計算される
これは母数を定数として扱い、データを変数として扱っているから、$ \frac{1}{8}や$ \frac{3}{8}は確率である しかし、通常は母数の値が未知である
対して、データは観察されるから定数として固定できる
現実場面では、たとえば「コインを$ 3枚振って表が$ 1枚でたとき、表の出る母比率はどの程度だろう」という問題設定が自然
データ分析の実践場面では母数は未知、データは既知
先とは逆に、母数を変数として扱い、データを定数として確率密度関数を扱った場合には、同じ式の値を尤度(likelihood)と呼ぶ データを固定して母数を動かし、尤度が最大になる値を探す
そのようにして見つかった尤度を最大にする母数の値は「その値の下で手元のデータが確率的に最も観測されやすい」という特別な意味を持っている
その値を母数の推定値として利用する
「最も尤もらしい推定」という意味
データ生成分布が正規分布である場合には、母平均$ \muの最尤推定量は標本平均$ \overline xに一致し、母標準偏差$ \sigmaの最尤推定量は標本標準偏差$ sに一致することが知られている
これを次のように書く場合もある
$ \bm \theta_{mle} = (\mu_{mle}, \sigma_{mle}) = (\overline x, s)
$ \bm \theta_{mle}は最尤推定量の一般的な表記
しかし、最尤推定法は、母数を未知なる固定点として扱っているという意味で限界があり、前述の疑問に答えることはできない
2.2.2. 事前分布
事前分布$ f(\bm \theta)は母数の分布である
事前とは「データを観察する前の」という意味
母数がどのあたりにあるかに関する、データを見る前の主観的な信念の確率分布
正規分布のように母数が複数($ \mu, \sigma)あり、一緒に扱っていることを強調したい場合にはこう呼ぶ
同時事前分布を単に事前分布と略して呼ぶことも多い
本書の範囲では複数の母数は互いに独立であることを仮定する
たとえば正規分布における$ \muと$ \sigmaを互いに独立と見なし、同時事前分布は平均の事前分布と標準偏差の事前分布の積として表現する
$ f(\bm \theta) = f(\mu, \sigma) = f(\mu)f(\sigma)
2.2.3. 私的分析と公的分析
ベイズ的統計分析は、私的分析と公的分析に分類することができる
分析結果を分析者(とりわけ仲間たち)が享受する分析
この場合は自己責任であるから、比較的自由に事前分布を定めて構わない
計算が簡便だったり、結果が迅速に安定する事前分布、あるいは分析者本人が主観的にそう信じる事前分布が選ばれる
ただし、本書では解説しない
論文や報告書や著作を通じて分析結果からの知見を社会に還元するための分析
公的分析では客観性・公平性が事前分布に求められる
科学論文の結果が分析者ごとに異なってしまっては困る
あるいは「出したい結論があって、それに合わせて事前分布を選んだのだろう」と批判されても困る
公的分析における事前分布として具体的に求められるもの
その事前分布を用いて得られる事後分布に、その事前分布ができるだけ影響しないような事前分布
無情報的分布としては、特定の領域に厚くなく、広く薄い信念を表明している形状が望まれる
広く薄い形状の理論分布は多数あるが、本書ではその条件を満たす理論分布として一様分布を利用する 事前分布として利用する一様分布の母数$ \alpha, \betaとしては、分析結果に影響が出ないように十分に広い範囲を選ぶ
2.2.4. 正規化定数
母数に無関係な部分をすべて取り除いた残りを(狭義の)カーネルと呼ぶこともある
母数$ \bm\thetaが含まれていないので、正規化定数は事後分布のカーネルには含まれない
2.2.5. 事後分布
事後分布$ f(\bm \theta| \bm x)はデータが与えられたあとの母数の条件付き分布
ベイズの定理は事後分布を与える定理である
正規化定数には常に母数が含まれていないから、事後分布は以下のように尤度と事前分布の積の部分だけを示す
$ f(\bm \theta| \bm x) \propto f(\bm x|\bm \theta)f(\bm\theta)
ただし、事前分布として一様分布を利用したときには、事前確率密度が$ f(x|\alpha, \beta) = \frac{1}{\beta - \alpha}, \alpha \leq x \leq \betaで定義されたように定数となり、カーネルから外れる
つまり、事前分布で母数が定義される範囲において以下のようになる
$ f(\bm \theta|\bm x) \propto f(\bm x|\bm\theta)
母数の事後分布は尤度だけで決定される
そのことを確かめてみる
$ \muの事前分布として一様分布$ f(\mu|\alpha_\mu, \beta_\mu)を用い、$ \sigmaの事前分布として一様分布$ f(\sigma|\alpha_\sigma, \beta_\sigma)を用いると、平均$ \muと標準偏差$ \sigmaの同時事後分布は、事前分布で母数が定義される範囲において
$ f(\mu, \sigma|\bm x) \propto f(\bm x|\mu, \sigma)f(\mu|\alpha_\mu, \beta_\mu)f(\sigma|\alpha_\sigma, \beta_\sigma) = f(\bm x|\mu, \sigma)(\frac{1}{\beta_\mu-\alpha_\mu})(\frac{1}{\beta_\sigma-\alpha_\sigma}) \propto f(\bm x|\mu, \sigma)
確かに事後分布から事前分布の影響は消えた
このとき事後分布は尤度のみに比例する
したがって尤度の最大値(MLE)と事後分布の最大値(MAP)は一致する
2.3 3囚人問題
3人の死刑囚A, B, C
$ 1人が恩赦になって、残り$ 2人が処刑されることになった
Aは「BとCのうち少なくとも1人処刑されるのは確実なのだから、2人の中で処刑される1人の名前を教えてくれても私についての情報を与えることにならないだろう。1人を教えてくれないか」
看守は「Bが処刑(dead)される」と答えた
それを聞いたAは「これで自分の助かる(alive)確率は$ \frac{1}{3}から$ \frac{1}{2}に増えたと喜んだ
実際には、この答えを聞いたあと、Aの釈放される確率はいくつになるか
この問題は「囚人Aが恩赦される確率は$ \frac{1}{2}である」と回答する人が圧倒的に多いことが知られている
そこでここでは$ \frac{1}{2}を「直感解」と呼ぶ
この問題をベイズの定理を使って考察する
興味の対象は「囚人Bが処刑宣告された」$ B_dという条件のもとで「囚人Aが恩赦される」$ A_aの確率であり、この確率$ f(A_a|B_d)がベイズの定理の左辺である
$ \bm \thetaを$ A_aに置き換え、$ \bm xを$ B_dに置き換えたのであるから、ベイズの定理の右辺は次のようになる
$ f(A_a|B_d) = \frac{f(B_d|A_a)f(A_a)}{f(B_d)}
Bが処刑されるのは、AまたはCが恩赦されるケース
ゆえに分母$ f(B_d)の「囚人Bが処刑される確率」は「囚人Aが恩赦される場合との同時確率$ f(A_a, B_d)」と「囚人Cが恩赦される場合との同時確率$ f(C_a, B_d)」との和
さらに公式$ f(x_1, x_2) = f(x_2|x_1)f(x_1)を使うと
$ f(B_d) = f(A_a, B_d) + f(C_a, B_d) = f(B_d|A_a)f(A_a) + f(B_d|C_a)f(C_a)
これを$ f(A_a|B_d) = \frac{f(B_d|A_a)f(A_a)}{f(B_d)}に代入すると
$ f(A_a|B_d) = \frac{f(B_d|A_a)f(A_a)}{f(B_d|A_a)f(A_a)+f(B_d|C_a)f(C_a)}
のように、囚人Aが恩赦(alive)となる事後分布が求まる
ここで$ f(A_a)と$ f(C_a)は看守が囚人Bに処刑を告げる前(事前)に主人A, Cが恩赦になる事前の確率
この確率は$ \frac{1}{3}が事前
$ f(B_d|C_a)は、恩赦が囚人Cに与えられるときに、囚人Bが処刑される確率
囚人Aを宣告しないルールなので、この確率は$ f(B_d|C_a) = 1
以上の考察から
$ f(A_a|B_d) = \frac{f(B_d|A_a)\times (1/3)}{f(B_d|A_a)\times(1/3)+1\times(1/3)} = \frac{f(B_d|A_a)}{f(B_d|A_a)+1}
右辺に残った$ f(B_d|A_a)は、囚人Aが恩赦されるときに、看守が囚人Bを処刑者にあげる確率
この場合は、囚人Bか囚人Cが宣告するのであるから
$ f(B_d|A_a) = 1 - f(C_d|A_a)
しかし、それに関する条件が問題文には全く記されていない
その確率は誰にも確定できない
情報がないということで、あくまで、ここでは仮に$ f(B_d|A_a) = f(C_d|A_a) = \frac{1}{2}とおいてみよう
$ f(A_a|B_d) = \frac{1}{3}、$ f(C_a|B_d) = \frac{2}{3}となる
囚人Aが恩赦される確率$ \frac{1}{3}のままで変化しない(囚人Cが恩赦される確率$ \frac{1}{3}から$ \frac{2}{3}に増えて2倍になる)
この$ \frac{1}{3}を「模範解」と呼ぶ
2.3.1. 「模範解」の問題点
ベイズの定理は、客観的なデータに基づく尤度によって、事前分布が修正されるというメカニズム
言い換えるなら、ベイズの定理は外界の客観的事実によって、人の確率的信念が変化していくメカニズムを模している
事前信念である$ f(A_a) = f(B_a) = f(C_a) = \frac{1}{3}は、主観確率ではあるけれども問題文にも記載され、回答者に自然に意識される
推論の正当な出発点
ところが客観的なデータに基づくべき尤度のパート$ f(B_d|A_a)の確率評価をも、3囚人問題では主観的に評価しなくてはならない
ここが3囚人問題の奇妙さの源泉
「3囚人問題」が初見であるほとんどの回答者は、この問題を解くために、$ f(B_d|A_a)の確率評価が必要であること自体に気が付かない
主観に主観を重ねる推論が、データという事実によって確率的信念を変化させる人の自然な推論メカニズムに反しているから
主観確率に主観確率をかける方法は、ベイズの定理によるデータ解析法としても禁忌
存在に気が付かないのであるから$ f(B_d|A_a)= \frac{1}{2}という信念はもちようがないし、把握している前提が異なっているのであるから、それを仮定した「模範解」から「直感解」がずれても不思議ではない
2.3.2. 「直感解」1/2は正しい
2つの状態のどちらが生じるか不確実であること、確率$ \frac{1}{2}で生じることは等価ではない
不確実である$ f(B_d|A_a)に題意よりも相当に強い数学的制約を入れ、$ \frac{1}{2}のみで代表させた「模範解」は解の一つに過ぎない。ましてや唯一の解などではない
むしろ、存在が意識されていない以上、確率そのものが無情報であると仮定したほうが自然である
ここでは「$ f(B_d|A_a)が$ \frac{1}{2}のみ」という点よりも、数学的に緩やかな無情報的事前分布を仮定する
具体的には確率の定義域である区間$ [0, 1] の一様分布を$ f(B_d|A_a)に設定する
区間$ [0, 1] の一様乱数を$ 100万個発生させ、$ f(A_a|B_d) = \frac{f(B_d|A_a)\times (1/3)}{f(B_d|A_a)\times(1/3)+1\times(1/3)} = \frac{f(B_d|A_a)}{f(B_d|A_a)+1}に代入し、求めた値で描いたヒストグラム
https://gyazo.com/97cf2e664481ed924e83a9b6d3d566d0
これが乱数による「囚人Aが恩赦される確率」の事後分布
母数の確率分布はそのままでは機動性に欠けるので数値要約する
具体的には、データ分布と同様に平均と中央値と最頻値を求める
本書では導出を割愛するが、図2-2の事後分布は解析的に求めることが可能であり、横軸を$ \thetaで表現すると次のようになる
$ \frac{1}{(\theta -1)^2}, ただし0<\theta<\frac{1}{2}
乱数が100万個あるので、平均と標準偏差はそのまま計算しても理論値と殆ど変わらず、最頻値は見たとおりで、
$ 平均値 \simeq 0.30678, 中央値 = \frac{1}{3}, 最頻値 = \frac{1}{2}
「模範解」$ \frac{1}{3}は事後分布の中央値
これも正解の一つ
しかし、事後分布の最頻値はMAP推定値$ \theta_{map}と呼ばれ、ベイズ統計学の正当な推定値の1つである
直感的な解である$ \frac{1}{2}は、事後確率として確率的にもっとも高い確率を与える正解の1つである
3囚人問題の正解の1つとして$ \frac{1}{2}はky用される
直感に合わないように思われることこそがパラドックスだったのだ
$ \frac{1}{2}は正解なのだから、3囚人問題はパラドックスではない
演習問題
放送授業
https://gyazo.com/bdb0c385bb127ed8041d2347637366cd
ベイズ検定は有意性検定の3倍の歴史がある
1740年代
270年くらいの歴史
徳川吉宗の時代
『偶然の理論における一つの問題を解くための試み』
1960年代
東京オリンピックあたり
1925年に公刊した『研究者のための統計的方法]』
1940年代以降は有意性検定は中心的な方法論になった 現代の心理学者は全員有意性検定で教育を受けてきた
有意性検定がメジャーなことに変わりはないのでは
フィッシャーの『研究者のための統計的方法』で不動の地位を確立した
フィッシャーはベイズ統計学が大嫌いだった
https://gyazo.com/2dcc045886950e792a3d304c29ed14fd
有意性検定に対する理論的な欠点や批判
最初からあった
しかし、それに代わる具体的な解決策がなかった
ベイズ的アプローチでは、事後分布を一般的に導くこと自体が難しくて絵に描いた餅だった
計算機の発達で、事後分布を自由に求めることが可能になってきた
https://gyazo.com/c66d5a7da02df9ffb1d8c5807a37ea0a
ベイズの定理は1740年代に発見された
フィッシャーによって1925年公刊された『研究者のための統計的方法』は超ベストセラー&ロングセラーだった
ベイズ的アプローチには、有意性検定の3倍の長さの歴史がある
MCMC法によって事後分布が評価できるようになり、ベイズ的アプローチが再評価された