補助変数法の導出計算詳細
このページでは、「ガウス過程と機械学習」の5章を基盤として、補助変数法の導出計算過程の詳細を追います。また、本書の第3刷後に見つかったミスの訂正を行います。
ガウス過程回帰
入力点 $ \mathbf{X}=(x_1,...,x_N), x_n \in \mathbb{R}^{{\rm dim}X}, n=1,...,Nは所与
出力値 $ \mathbf{y}=(y_1,...,y_N)^T, y_n\in\mathbb{R} は所与
ガウス過程回帰モデル
$ y_n = f(y_n)+\epsilon_n
$ f(\cdot)\sim {\rm GP}(\theta)
$ \epsilon_n\sim \mathcal{N}(0,\sigma^2)
$ n=1,...,N
ここで $ {\rm GP}(\theta) はガウス過程であり、カーネル関数のハイパーパラメタ $ \thetaは未知。
$ \sigma^2は観測ノイズの分散を意味する未知パラメタ。
ガウス過程回帰モデルのハイパーパラメタ $ \thetaは、カーネル関数のハイパーパラメタと観測ノイズの分散 $ \sigma^2をまとめたものとする。
求めたいもの
1. エビデンス最大となるようなハイパーパラメタ $ \theta の値
$ \theta^* = \arg\max_{\theta} p(\mathbf{y}|\theta)
$ \ln p(\mathbf{y}|\theta) = -\frac{1}{2} \mathbf{y}^T (\mathbf{K}_{NN}+\sigma^2\mathbf{I}_N)^{-1} \mathbf{y} - \frac{1}{2} \ln 2\pi {\rm det} (\mathbf{K}_{NN}+\sigma^2\mathbf{I}_N)
2. $ \theta^* のもとで、任意の入力点 $ x_* における関数出力値 $ f_* = f(x_*)の事後確率
これはスカラー変数のガウス分布になるので、平均 $ \bar{f}_* と分散 $ \bar{\sigma}_*^{2} の値(それぞれスカラー)を求めればよい
具体的には
$ \bar{f}_* = \mathbf{k}_{*N}(\mathbf{K}_{NN}+\sigma^2\mathbf{I}_N)^{-1}
$ \bar{\sigma}_*^2=k_{**}-\mathbf{k}_{*N}(\mathbf{K}_{NN}+\sigma^2\mathbf{I}_N)^{-1}\mathbf{k}_{*N}^T
補助変数法モデル
補助入力点 $ \mathbf{Z}=(z_1,...,z_M)は所与
補助変数 $ \mathbf{u}=(u_1,...,u_M)^T = (f(z_1), ..., f(z_M))^T は確率変数
公式 5.1 (三段階の生成過程)
$ p( \mathbf{u} ) = \mathcal{N}(\mathbf{0}_M, \mathbf{K}_{MM})
$ p(f_n|\mathbf{u})=\mathcal{N}(\mathbf{k}_{Mn}^T\mathbf{K}_{MM}^{-1}\mathbf{u}, k_n-\mathbf{k}_{Mn}^T\mathbf{K}_{MM}^{-1}\mathbf{k}_{Mn})
$ p(y_n|f_n)=\mathcal{N}(f_n,\sigma^2)
公式5.1の2行目と3行目は以下の行列形式にまとめることができる
$ p(\mathbf{f}|\mathbf{u})=\mathcal{N}(\mathbf{K}_{MN}^T\mathbf{K}_{MM}^{-1}\mathbf{u}, \mathbf{\Lambda})
$ p(\mathbf{y}|\mathbf{f})=\mathcal{N}(\mathbf{f},\sigma^2\mathbf{I}_N)
ここで $ \mathbf{\Lambda}は第$ n成分が $ \lambda_n = k_n-\mathbf{k}_{Mn}^T\mathbf{K}_{MM}^{-1}\mathbf{k}_{Mn}であるような対角行列である。
公式5.2(補助変数の事後確率)
$ p(\mathbf{u}|\mathbf{y})=\mathcal{N}(\hat{\mathbf{u}},\hat{\mathbf{\Sigma}}_u)
ここで
$ \hat{\mathbf{u}}=\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T (\mathbf{\Lambda}+\sigma^2\mathbf{I}_N)^{-1}\mathbf{y}_N
$ \hat{\mathbf{\Sigma}}_u=\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{MM}
$ \mathbf{Q}_{MM} = \mathbf{K}_{MM} + \mathbf{K}_{NM}^T (\mathbf{\Lambda}+\sigma^2\mathbf{I}_N)^{-1}\mathbf{K}_{NM}
公式5.3 (補助変数法の確率的生成モデルのエビデンス) ← 教科書第1,2,3版では誤植がありました。第4版で修正されました。
$ p(\mathbf{y}) = \mathcal{N}(\mathbf{y}|\mathbf{0},\mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{K}_{NM}^T+\mathbf{\Lambda}+\sigma^2\mathbf{I}_{N})
注意:$ \mathbf{K}_{NM}^T=\mathbf{K}_{MN}です。教科書では左辺の書き方に統一する方針でしたが、このノートでは両方の書き方が混在しています。
公式5.4 (補助変数法の予測分布) ← 教科書第1,2,3版では誤植がありました。第4版で修正されました。
$ p(f_*|\mathbf{y}) = \int p(f_*|\mathbf{u}) p(\mathbf{u}|\mathbf{y})d\mathbf{u}=\mathcal{N}\left(\hat{f}_*,\hat{\sigma}_{f*}^2\right)
ここで、$ \hat{f}_*=\mathbf{k}_{M*}^T \mathbf{K}_{MM}^{-1}\hat{\mathbf{u}}, $ \hat{\sigma}_{f*}^2 = k_{**}-\mathbf{k}_{M*}^T(\mathbf{K}_{MM}^{-1}-\mathbf{Q}^{-1})\mathbf{k}_{M*}
観測$ y_*に関する予測分布は、公式5.4の分散に$ \sigma^2が加わる以外に違いは無く、
$ p(y_*|\mathbf{y}) = \mathcal{N}\left(\hat{y}_*,\hat{\sigma}_{y*}^2\right)
$ \hat{y}_*=\hat{f}_*, $ \hat{\sigma}_{y*}^2 = \hat{\sigma}_{f*}^2+\sigma^2
----
公式 5.2 と5.3 の導出過程
ベイズの定理の対数形を以下のように書く。
$ \log p(\mathbf{u}|\mathbf{y}) + \log p(\mathbf{y})= \log p(\mathbf{u}) +\log p(\mathbf{y}|\mathbf{u})
左辺は未知(対数事後確率+対数エビデンス)
右辺は既知(対数事前分布+対数尤度)である。
これから、右辺を平方完成して変形することにより、左辺の形に変形する。
対数事前分布はテキスト (5.8)式のとおり、
$ \log p(\mathbf{u}) = -\frac{1}{2} \mathbf{u}^T \mathbf{K}_{MM}^{-1} \mathbf{u} - \frac{1}{2} \log 2\pi |\mathbf{K}_{MM}|
対数尤度 はテキスト(5.12)式から、
$ \log p(\mathbf{y}|\mathbf{u}) = -\frac{1}{2} (\mathbf{y}-\mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{u})^T (\mathbf{\Lambda}+\sigma^2\mathbf{I}_N)^{-1}(\mathbf{y}-\mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{u})-\frac{1}{2}\log 2\pi |\mathbf{\Lambda}+\sigma^2\mathbf{I}_N|
$ = -\frac{1}{2} (\mathbf{y}-\mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{u})^T \mathbf{\Lambda}_0^{-1}(\mathbf{y}-\mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{u})-\frac{1}{2}\log 2\pi |\mathbf{\Lambda}_0|
以上をまとめて得られる「ベイズの定理の対数形の右辺」$ \log p(\mathbf{u}) + \log p(\mathbf{y}|\mathbf{u})を平方完成する。
このために、$ \mathbf{u} に関する二次の項 (*)、$ \mathbf{y}に関する二次の項 (**)、$ \mathbf{u}\mathbf{y}^Tに関する項(***)をそれぞれ求めよう。
$ (*) = -\frac{1}{2}\mathbf{u}^T \mathbf{K}_{MM}^{-1} \mathbf{u} -\frac{1}{2} \mathbf{u}^T\mathbf{K}_{MM}^{-1} \mathbf{K}_{MN}\mathbf{\Lambda}_0^{-1} \mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{u}
$ = -\frac{1}{2}\mathbf{u}^T \mathbf{K}_{MM}^{-1} \left( \mathbf{K}_{MM} + \mathbf{K}_{MN} \mathbf{\Lambda}_0^{-1}\mathbf{K}_{NM} \right) \mathbf{K}_{MM}^{-1}\mathbf{u}
$ = -\frac{1}{2}\mathbf{u}^T \mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1}\mathbf{u}
ここで略記のため$ \mathbf{\Lambda}_0 = \mathbf{\Lambda}+\sigma^2\mathbf{I}_Nと$ \mathbf{Q}_{MM} = \mathbf{K}_{MM} + \mathbf{K}_{NM}^T \mathbf{\Lambda}_0^{-1}\mathbf{K}_{NM}
$ (**)=-\frac{1}{2}\mathbf{y}^T \mathbf{\Lambda}_0^{-1}\mathbf{y}
$ {\rm (***)} = \mathbf{u}^T\mathbf{K}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y}
これを用いると、あらためて
$ \log p(\mathbf{u}) + \log p(\mathbf{y}|\mathbf{u})
$ = -\frac{1}{2} \mathbf{y}^T \mathbf{\Lambda}_0^{-1}\mathbf{y} +\frac{2}{2}\mathbf{u}^T\mathbf{K}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} -\frac{1}{2}\mathbf{u}^T \mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1}\mathbf{u} + {\rm const.}(\mathbf{u,y})
となる。
次にベイズの定理対数形の左辺 $ \log p(\mathbf{u}|\mathbf{y})+\log p(\mathbf{y})を作る。
右辺を $ \mathbf{u}に関して平方完成するべく$ \mathbf{u}を含まない項を無視すると、
$ = -\frac{1}{2}\left(\mathbf{u}-(\mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1})^{-1}\mathbf{K}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} \right)^T \mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1}
$ \times\left(\mathbf{u}-(\mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1})^{-1}\mathbf{K}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} \right)+{\rm const}(\mathbf{u})
$ = -\frac{1}{2}\left(\mathbf{u}-\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} \right)^T \mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1}\left(\mathbf{u}-\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} \right)+{\rm const}(\mathbf{u})
ふたたび $ \mathbf{u}を含まず$ \mathbf{y}を含む項を復活させると、
$ = -\frac{1}{2}\left(\mathbf{u}-\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} \right)^T \mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1}\left(\mathbf{u}-\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} \right)
$ + \frac{1}{2}\mathbf{y}\mathbf{\Lambda}_0^{-1} \mathbf{K}_{NM} \mathbf{Q}_{MM}^{-1} \mathbf{K}_{MM} \mathbf{K}_{MM}^{-1} \mathbf{Q}_{MM} \mathbf{K}_{MM}^{-1}\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}\mathbf{y} - \frac{1}{2}\mathbf{y}^T\mathbf{\Lambda}_0^{-1}\mathbf{y}
$ +{\rm const}(\mathbf{u,y})
$ = -\frac{1}{2}\left(\mathbf{u}-\hat{\mathbf{u}} \right)^T \hat{\mathbf{\Sigma}}_u^{-1} \left(\mathbf{u}-\hat{\mathbf{u}} \right) - \frac{1}{2}\mathbf{y}^T\hat{\mathbf{\Sigma}}_y^{-1}\mathbf{y} +{\rm const}(\mathbf{u,y})
ここで $ \hat{\mathbf{u}}, \hat{\mathbf{\Sigma}_u^{-1}}は公式 5.2 で定義したとおりであり、ここで新たに
$ \hat{\mathbf{\Sigma}}_y^{-1}=\mathbf{\Lambda}_0^{-1}-\mathbf{\Lambda}_0^{-1} \mathbf{K}_{NM} \mathbf{Q}_{MM}^{-1} \mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}
$ = \mathbf{\Lambda}_0^{-1}-\mathbf{\Lambda}_0^{-1} \mathbf{K}_{NM} (\mathbf{K}_{MM} + \mathbf{K}_{NM}^T \mathbf{\Lambda}_0^{-1}\mathbf{K}_{NM}) ^{-1} \mathbf{K}_{NM}^T\mathbf{\Lambda}_0^{-1}
を導入した。
woodbury の公式 $ \left(\mathbf{A}+\mathbf{C B C}^{T}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{C}\left(\mathbf{B}^{-1}+\mathbf{C}^{T} \mathbf{A}^{-1} \mathbf{C}\right)^{-1} \mathbf{C}^{T} \mathbf{A}^{-1}において
$ \mathbf{A}=\mathbf{\Lambda}_0, \mathbf{C}=\mathbf{K}_{NM}, \mathbf{B}=\mathbf{K}_{MM}^{-1}を当てはめることにより、
$ \hat{\mathbf{\Sigma}}_y = \mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{K}_{MN}+\mathbf{\Lambda}_{0} = \mathbf{K}_{NM}\mathbf{K}_{MM}^{-1}\mathbf{K}_{MN}+\mathbf{\Lambda}+\sigma^2\mathbf{I}
以上により公式5.2と公式5.3が示された
公式 5.4 の導出過程
公式5.1で$ nを$ *に書き換えることから
$ p(f_*|\mathbf{u})=\mathcal{N}(\mathbf{k}_{M*}^T\mathbf{K}_{MM}^{-1}\mathbf{u}, k_{**}-\mathbf{k}_{M*}^T\mathbf{K}_{MM}^{-1}\mathbf{k}_{M*})
また公式5.2から
$ p(\mathbf{u}|\mathbf{y})=\mathcal{N}(\hat{\mathbf{u}},\hat{\mathbf{\Sigma}}_u)
$ \hat{\mathbf{u}}=\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{NM}^T (\mathbf{\Lambda}+\sigma^2\mathbf{I}_N)^{-1}\mathbf{y}_N
$ \hat{\mathbf{\Sigma}}_u=\mathbf{K}_{MM}\mathbf{Q}_{MM}^{-1}\mathbf{K}_{MM}
添字が多すぎてみにくいので、ここに限り $ \mathbf{k}=\mathbf{k}_{M*}, \mathbf{K}=\mathbf{K}_{MM}のように省略すると、以下のように書くことができる。
$ p(f_*|\mathbf{u})=\mathcal{N}(\mathbf{k}^T\mathbf{K}^{-1}\mathbf{u},\lambda)
$ \lambda = k-\mathbf{k}^T\mathbf{K}^{-1}\mathbf{k}
$ \hat{\mathbf{u}}=\mathbf{K}\mathbf{Q}^{-1}\mathbf{K}_{NM}^T (\mathbf{\Lambda}+\sigma^2\mathbf{I}_N)^{-1}\mathbf{y}_N
$ \hat{\mathbf{\Sigma}}_u=\mathbf{K}\mathbf{Q}^{-1}\mathbf{K}
平方完成により、
$ \ln p(f_*|\mathbf{u})+\ln p(\mathbf{u}|\mathbf{y})=\ln p(f_*|\mathbf{y}) + \ln p(\mathbf{u}|\mathbf{y},f_*)の形をつくることを目標に式変形を行う。
上式の左辺を構成する2項は以下のとおりに分解できる
$ \ln p(f_*|\mathbf{u})=-\frac{1}{2 \lambda }(f_*^2 - 2 f_*\mathbf{k}^T\mathbf{K}^{-1}\mathbf{u}+\mathbf{u}^T\mathbf{K}^{-1}\mathbf{k}\mathbf{k}^T\mathbf{K}^{-1}\mathbf{u})-\frac{1}{2}\ln2\pi\lambda
$ \ln p(\mathbf{u}|\mathbf{y}) = - \frac{1}{2}(\mathbf{u}^T\hat{\mathbf{\Sigma}}_u^{-1}\mathbf{u}-2\mathbf{u}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}}+\hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}})-\frac{1}{2}\ln 2\pi |\hat{\mathbf{\Sigma}}_u|
対数を含む項を省略し、$ \mathbf{u}に関する2次の項、1次の項、0次の項の順にまとめると
$ \ln p(f_*|\mathbf{u})+\ln p(\mathbf{u}|\mathbf{y})=
$ =-\frac{1}{2}\left( \mathbf{u}^T ( \hat{\mathbf{\Sigma}}_u^{-1} + \lambda^{-1}\mathbf{K}^{-1}\mathbf{k}\mathbf{k}^T\mathbf{K}^{-1} ) \mathbf{u} -2(\lambda^{-1} f_* \mathbf{k}^T\mathbf{K}^{-1}+\hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1} )\mathbf{u}+ \lambda^{-1} f_*^2 + \hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}}\right) + ...
$ = -\frac{1}{2}\left(\mathbf{u}^T \mathbf{\Sigma}_A^{-1}\mathbf{u} - 2\mathbf{u}_A^T\mathbf{u} + \lambda^{-1} f_*^2 + \hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}}\right) + ...
$ = -\frac{1}{2}\left( (\mathbf{u}-\mathbf{\Sigma}_A\mathbf{u}_A)^T\mathbf{\Sigma}_A^{-1}(\mathbf{u}-\mathbf{\Sigma}_A\mathbf{u}_A)-\mathbf{u}_A^T\mathbf{\Sigma}_A\mathbf{u}_A + \lambda^{-1} f_*^2 + \hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}}\right)+...
$ = \ln p(\mathbf{u}|\mathbf{y},f_*)-\frac{1}{2}\left(-\mathbf{u}_A^T\mathbf{\Sigma}_A\mathbf{u}_A + \lambda^{-1} f_*^2 + \hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}}\right)+...
ここで整理のため
$ \ln p(\mathbf{u}|\mathbf{y},f_*)=\mathcal{N}(\mathbf{u}_A,\mathbf{\Sigma}_A )
$ \mathbf{\Sigma}_A^{-1} = \hat{\mathbf{\Sigma}}_u^{-1} + \lambda^{-1}\mathbf{K}^{-1}\mathbf{k}\mathbf{k}^T\mathbf{K}^{-1}
$ =\mathbf{K}^{-1}(\mathbf{Q}+\lambda^{-1}\mathbf{k}\mathbf{k}^T)\mathbf{K}^{-1}
$ \mathbf{u}_A=\lambda^{-1} f_* \mathbf{K}^{-1}\mathbf{k}+\hat{\mathbf{\Sigma}}_u^{-1} \hat{\mathbf{u}}
$ =\lambda^{-1} f_* \mathbf{K}^{-1}\mathbf{k}+ \mathbf{K}^{-1}\mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}}
($ =\lambda^{-1} f_* \mathbf{K}^{-1}\mathbf{k}+ \mathbf{K}^{-1}\mathbf{K}_{NM}^T(\Lambda+\sigma^2\mathbf{I}_N)^{-1}\mathbf{y}_N)
を置いた。
これを用いて残りの主要項を$ f_*に関する2次・1次・0次の形でまとめる。
$ \mathbf{u}_A^T\mathbf{\Sigma}_A\mathbf{u}_A
$ = (\lambda^{-1} f_* \mathbf{K}^{-1}\mathbf{k}+ \mathbf{K}^{-1}\mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}})^T \mathbf{K}(\mathbf{Q}+\lambda^{-1}\mathbf{k}\mathbf{k}^T)^{-1}\mathbf{K}(\lambda^{-1} f_* \mathbf{K}^{-1}\mathbf{k}+ \mathbf{K}^{-1}\mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}})
$ = (\lambda^{-1} f_* \mathbf{k}+ \mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}})^T(\mathbf{Q}+\lambda^{-1}\mathbf{k}\mathbf{k}^T)^{-1}(\lambda^{-1} f_* \mathbf{k}+ \mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}})
$ = (f_* \mathbf{k}+\lambda \mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}})^T(\lambda\mathbf{Q}+\mathbf{k}\mathbf{k}^T)^{-1}(f_* \mathbf{k}+ \lambda\mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}})
$ \hat{\mathbf{u}}^T\hat{\mathbf{\Sigma}}_u^{-1}\hat{\mathbf{u}}
$ = \hat{\mathbf{u}}^T \mathbf{K}^{-1}\mathbf{Q}\mathbf{K}^{-1} \hat{\mathbf{u}}
$ -\mathbf{u}_A^T\mathbf{\Sigma}_A\mathbf{u}_A + \lambda^{-1} f_*^2
$ = (\lambda^{-1} - \mathbf{k}^T (\lambda\mathbf{Q}+\mathbf{k}\mathbf{k}^T)^{-1} \mathbf{k}^T)f_*^2 - 2 \lambda f_* \mathbf{k}^T (\lambda\mathbf{Q}+\mathbf{k}\mathbf{k}^T)^{-1} \mathbf{Q}\mathbf{K}^{-1}\hat{\mathbf{u}}
$ = ...
$ = (\hat{\sigma}_{f*}^2)^{-1} (f_*- \hat{f}_*)^2 + ...
ここで、
$ \hat{\sigma}_{f*}^2 = k-\mathbf{k}^T(\mathbf{K}^{-1}-\mathbf{Q}^{-1})\mathbf{k}
$ \hat{f}_*=\mathbf{k}^T \mathbf{K}^{-1}\hat{\mathbf{u}}
以上を用いて、
$ \int p(f_*|\mathbf{u})p(\mathbf{u}|\mathbf{y})d\mathbf{u}=\int p(f_*|\mathbf{y})p(\mathbf{u}|\mathbf{y},f_*)d\mathbf{u}=p(f_*|\mathbf{y})\int p(\mathbf{u}|\mathbf{y},f_*)d\mathbf{u}=p(f_*|\mathbf{y})
のようにして$ \mathbf{u}を消去して、公式5.4の予測分布が得られる。