ベイズ統計の理論と方法
ベイズ統計の理論と方法 / 渡辺澄夫著, 2012
要点メモ
Chap.1 はじめに
ベイズ推測で大事な三つ組
真の確率 $ q(x)
確率モデル$ p(x|w)
パラメータ事前分布 $ \varphi(w)
データ$ X^nを与えるとまず出てくるもの
パラメータ事後分布
$ p(w|X^n) = \frac{1}{Z_n(\beta)} \varphi(w) \prod^n_i p(X_i|w)^{\beta}
分配関数
$ Z_n(\beta) = \int_w \varphi(w) \prod^n_i p(X_i|w)^{\beta} dw
逆温度$ \betaとして1を取ると「事前分布と確率モデルによる確率分布」$ p(X^n)になる(周辺尤度)
事後分布も条件付き確率として理解できる
$ p(w|X^n) = p(w, X^n) / p(X^n)
事後分布をもとにして得られるもの
予測分布
$ p^*(x) = p(x|X^n) = \int_w p(x|w) p(w|X^n) dw
事後分布を展開してあげると、ただの条件付き確率になっていることが分かる(逆温度1のときだけ?)
$ p^*(x) = \frac{1}{Z_n(\beta)} \int_w \varphi(w) \prod^n_i p(X_i|w)^{\beta} \cdot p(x|w) = \frac{Z_{n+1}(1)}{Z_n(1)} = \frac{p(X^n x)}{p(X^n)}
自由エネルギー
定義
$ F_n(\beta) = -\frac{1}{\beta} \log Z_n(\beta)
期待値は真の分布$ q(X^n)と周辺尤度$ p(X^n)のKL距離+定数
あるデータ$ X^nに対する自由エネルギーの低さ=「事前分布+確率モデルの精度の良さ」か?
($ X^nから得られた)予測分布の良さとは違う
汎化誤差(汎化損失)
定義
$ G_n = -\int q(x) \log p^*(x) dx
($ X^nから得られた)予測分布の悪さの指標はこちら。KL距離でも書ける
厳密に計算することはできないが、経験損失で近似できることを示していく
$ T_n = -\frac{1}{n}\sum_i \log p^*(X_i)
自由エネルギーと汎化誤差の関係
$ E(G_n) = E(F_{n+1}(1)) - E(F_n(1))
1データ増やしたときの自由エネルギーの増分=汎化損失(それぞれ平均)
☆ 事前分布+モデルが完璧ならサンプルを大きくしても平均自由エネルギーは増えない?
自由エネルギーが増えるということは汎化誤差があるということ?
推測方法:データ$ X^nから分布パラメータ$ wを推測する
尤度関数
$ \prod_i^n p(X_i|w)
最尤推定(maximum likelihood):尤度関数を最大化する
事後確率最大化(maximum aposteriori probability):事後分布$ p(w|X^n)最大値を採用
平均プラグイン推測:パラメータ事後分布の平均$ E_w(w)
Chap.2 基礎概念
平均対数損失
$ L(w) = -E_X(\log p(X|w))
$ = - \int dx q(x) \log p(x|w) = - \int dx q(x) \log q(x) + \int dx q(x) \frac{\log q(x)}{\log p(x|w)}
最小値は$ q(x)が$ p(x|w)で実現されるときエントロピーに一致
第二項はKL距離
Lがwについて連続でWがコンパクトのとき平均対数損失の最小値を与えるパラメータ$ w_0が存在
経験対数損失
$ -\frac{1}{n} \sum^n_{i=1} \log p(X_i|w)
正則性
定義
$ w_0が一つだけ存在し、$ L(w)のヘッセ行列 $ (\frac{\partial^2 L}{\partial w_i \partial w_j})|_{w_0}が正定値
対数尤度比関数
$ f(x, w_0, w) = \log \frac{p(x|w_0)}{p(x|w)}
相対的に有限な分散
$ \exists c_0. \ \forall w_0, w \in W. \ E_X(f(X, w_0, w)) \geq c_0 E_X(f(X, w_0, w)^2)
定理
a. 対数尤度比関数が相対的に有限な分散を持つ ⇒ 最適分布は実質的にユニーク
b. $ q(x)が$ p(x|w)に対して正則 ⇒ $ f(x,w)は相対的に有限な分散を持つ