PRML
統計的機械学習
深層学習の原理
ベイズ統計
確率
確率過程
途中でメモるのをめんどくさくなっているので、後述
第1章 序論
いろいろなタスクがあるが、柱になる考え方は共通である
本章の目的はこれらの概念おうち最も重要なもののいくつかをあまり形式貼らない方法で導入し、簡単な例を用いてそれを説明すること
3つの重要なツールである、確率論・決定理論・情報理論の導入を行う
1-1 多項式曲線フィッティング
最小二乗法は最尤推定
最尤推定の問題点として、過学習があげられる
過学習の問題を避けるにはベイズ的アプローチがある
1-2 確率論
その事柄について何らかの知見を持っている場合、新たな情報によって意見を修正していくことを考える
これがベイズ的な解釈である
頻度論で広く用いられている推定量は最尤推定
ベイズ的な視点の利点は事前知識を自然にいれられることである
ベイズ的な視点は近年非常に重要になってきている
ベイズ法を完全に実行するには全パラメータ空間での周辺化を必要とした
マルコフ連鎖モンテカルロ法などのサンプリング法の開発や計算機の速度やメモリ量の進化によりベイズ法が広い領域に使えるようになった
また、最近になって変分ベイズ法やEP法といった非常に能率的な決定論的近似法が開発された
これらの手法はサンプリング法が使えない場合、その代替的手法として使われる
曲線フィッティングのベイズ的扱いについて考える
事前分布を組み込んだだけではベイズ的な取り扱いとはいえない
完全なベイズアプローチでは、確率の加法・乗法定理を矛盾なく適用してwの全ての値に関して積分する必要があることをこの後示す
このような周辺化はベイズ手法の根幹となる
1-3 モデル選択
歴史的な様々な情報量基準と呼ばれるものが提案されてきた
複雑なモデルにより過学習を避ける罰金項を足すことで最尤推定のバイアスを修正しようというものである
例えば、赤池情報量規準AICがある
ただ、こうした規準はモデルパラメータの不確実性を考慮しておらず過度に単純なモデルを選ぶ傾向にある
そこで複雑さに罰金を与えるのに自然で理にかなった方法として完全なベイズアプローチを採用する
1-4 次元の呪い
高次元を考えるとパラメータが指数的に増加してしまう
画像の集合は三次元の多様体上にある
1-5 決定理論
決定理論は確率論と組み合わせることでパターン認識での不確かさを含む状況における最適な意思決定を行うことw可能にする
1-6 情報理論
ひとまず情報理論を参照
第2章 確率分布
色々な確率分布やそれらの特徴を述べる
ここで述べる単純なモデルを使ってベイズ推論などの重要な統計的概念について説明する
本章の分布は、観測値の有限集合が与えられたとき、確率変数の確率分布をモデル化するのに利用される
このモデル化の問題のことを密度推定という
パラメトリックなモデルを密度推定に使うには与えられた観測データ集合に基づいて、適切なパラメータ値を決める手段が必要になる
頻度主義の立場では尤度関数といった何らかの規準を最適化することでパラメータの適切な値を選ぶ
一方、ベイズ主義ではパラメータに事前分布を導入し、観察データあが与えられたときのパラメータの事後分布をベイズの定理に基づいて計算する
重要な役割を果たす共役事前分布についても述べる
事前分布として共役事前分布を用いると、事後分布の関数の形が事前分布と同じになり、ベイズ解析が非常に簡単になる
ノンパラメトリックなモデルではデータ集合の大きさに分布の形状が依存する
2-1 二値変数
コインのようなもの
二項分布
ベータ分布
2-2 多値変数
ディレクれ分布
2-3 ガウス分布
エントロピーを最大化する分布はガウス分布
ガウス分布が適切に定義されるにはその共分散行列の全ての固有値λが正でなくてはならない
複雑な分布の形状や特性を表現できる強力な枠組みとして確率的グラフィカルモデルがある
条件付きガウス分布
多変量ガウス分布の重要な特性として、2つの変数集合の同時分布がガウス分布に従うなら、もう一方の変数集合が与えられたときのもう一方の集合の条件付き分布もガウス分布になるということがある
周辺ガウスモデル
ガウス変数に対するベイズの定理
ガウス分布の最尤推定
逐次推定
ガウス分布に対するベイズ推定
スチューデントのt分布
周期変数
混合ガウス分布
2-4 指数型分布族
本章で今までに学んできた確率分布は混合ガウス分布を除いて、指数型分布族と呼ばれる分布の族の例となっている
指数型分布族には多くの重要な共通した性質があり、これらの性質について一般的な観点から論じておく
最尤推定と十分統計量
共役事前分布
無情報事前分布
2-5 ノンパラメトリック法
データ集合から値が決定される少数のパラメータで関数形が決まるような確率密度の利用法に注目してきた
これは確率密度をモデル化するパラメトリックなアプローチと呼ばれる
この制限として、選んだ密度関数がデータを生成した分布を表現するには貧弱だった場合、予測性能が悪くなりえる
最後の説では密度推定のノンパラメトリックなアプローチをいくつか示す
カーネル密度推定
最近傍法
第3章 線型回帰モデル
これまでは教師なし学習について述べてきたが、本章では教師あり学習に話題を変える
3-1 線型基底関数モデル
3-2 バイアス-バリアンス分解
3-3 ベイズ線型回帰
3-4 ベイズモデル比較
3-5 エビデンス近似
3-6 固定された基底関数の限界
第4章 線型識別モデル
4-1 識別関数
4-2 確率的生成モデル
4-3 確率的識別モデル
4-4 プララス近似
4-5 ベイズロジスティック回帰
第5章 ニューラルネットワーク
5-1 フィードフォワードネットワーク関数
5-2 ネットワーク訓練
5-3 誤差逆伝播
5-4 ヘッセ行列
5-5 ニューラルネットワークの正則化
5-6 混合密度ネットワーク
5-7 ベイズニューラルネットワーク
付録
第6章 カーネル法
3章、4章では回帰と分類のための線型なパラメトリックモデルを考えた
普通訓練データは捨てられ、新しい入力に対しうる予測は学習済みのパラメータベクトルのみを用いて行われる
しかし、訓練データの全部あるいは一部を予測時にも利用するようなパターン認識法のクラスが存在する
例えばParzen推定法ではモデルが各訓練データ点を中心とするようなカーネル関数の線型和として表現される
最近傍法と呼ばれる単純な分類手法では新しいテスト点は訓練データの中で最も近いサンプルと同じラベルが割り当てられる
これらはメモリベース砲と呼ばれるものであり、全ての訓練データを予測時まで保存しておく必要がある
多くのパラメトリックな線型モデルは同値な双対表現のかたちで書き表すことができ、予測もまた訓練データ点を中心として定義されるカーネル関数の線形結合を用いて行われる
カーネル関数を特徴空間における内積として捉えることでカーネルトリックあるいはカーネル置換と呼ばれるテクニックを用いて多くのよく知られたアルゴリズムを拡張することができるようになる
例えば、カーネル置換を主成分分析法に適用することで非線型版の主成分分析を導くことができる
よく使われるカーネル関数には多くの種類があるが、そのうちいくつかについてはこの章で紹介することになる
6-1 双対表現
回帰や分類に用いられる多くのモデルは双対表現で表すことによってカーネル関数が自然に現れてくる
これは次の章のSVMで重要な役割を持つ
6-2 カーネル関数の構成
実際にカーネル置換を行うためにはカーネル関数として有効なものを構成する必要がある
6-3 RBFネットワーク
3章ではあらかじめ固定された基底関数の線型結合として表されるような回帰モデルを考えたが、基底関数としてどのような形のものを取れば良いかという点については考えていなかった
一般的にはRBFがよく利用される
6-4 ガウス過程
6.1節では回帰のための非確率的モデルに対し、双対性の概念を用いることによってカーネル法を導いた
ここではカーネルを確率的識別モデルに対しても適用することでガウス過程を導き、ベイズ的な設定においても自然にカーネルが現れてくることを見る
第7章 疎な解を持つカーネルマシン
前章での大きな制限の1つはカーネル関数をすべての訓練データ対について計算しなければならないため、学習および予測時に非常に計算時間がかかる可能性があることである
そこで本章では疎な解を持ち、訓練データ点の一部だけに対してカーネル関数を計算することで新しい入力の予測ができるアルゴリズムを見ていくことにする
まずはSVMについてみていく、SVMの特徴として、モデルパラメータがある凸最適化問題の解として求まるため、局所解があればそれが大域解にもなる点である
7-1 最大マージン分類器
SVMにおいては分類境界はマージンを最大化するものが選ばれる、マージンを最大化する理由は計算論的学習理論あるいは統計的学習理論と呼ばれる理論により説明される
7-2 関連ベクトルマシン
SVMは様々な分類・回帰問題に用いられている
しかし、SVMが出力するのは識別結果であり予測に対する事後確率は計算できない
正則化のパラメータは交差検定などで決定する必要がある
関連ベクトルマシンは回帰および分類問題を説くために提案された疎なカーネルベースのベイズ流学習手法であり、SVMのもつ特性の多くを引き継ぎながら様々な問題点を克服している
第8章 グラフィカルモデル
確率の概念はパターン認識において中心的な役割を果たしている
本書で議論されるすべての確率論的推論および学習方法は加法定理と乗法定理を繰り返しているだけに過ぎない
確率的グラフィカルモデルを解析に用いることは非常に有益である
グラフィカルモデルは以下のような特徴を持っている
・確率モデルの構造を視覚化する簡単な方法を提供し、新しいモデルの設計方針を決めるのに役立つ
・グラフの構造を調べることにより、条件付き独立性などのモデルの性質に関する知見が得られる
・精巧なモデルにおいて推論や学習を実行するためには複雑な計算が必要となるが、これを数学的な表現を暗に伴うグラフ上の操作として表現することができる
有向グラフは確率変数間の因果関係を、無向グラフは確率変数間の緩い束縛関係をそれぞれ表現するのに便利である
8-1 ベイジアンネットワーク
有向グラフを用いて確率分布を記述することを利点を説明するためにまず初めに3変数およびc上の任意の同時分布を考える
8-2 条件付き独立性
複数の変数上の確率分布に対する条件付き独立性は重要である
8-3 マルコフ確率場
本節では無向グラフによって記述される、グラフィカルモデルの2つの主要なクラスについて考える
このグラフも因数分解および条件付き独立性を規定する
マルコフ確率場あるいは無向グラフィカルモデルは変数に対応するノード集合とノード対を接続するリンク集合からなる
8-4 グラフィカルモデルにおける推論
これ以降、グラフィカルモデルにおける推論の問題を考える
すなわち、グラフのいくつかのノードが観測値に固定されたとき残ったノードに関する事後分布を計算したい
第9章 混合モデルとEM
観測変数と線形空の同時分布を定義すれば、周辺化によって観測変数だけの分布が得られる
この方法では、比較的複雑な観測変数の周辺分布をより扱いやすい観測変数と潜在変数の同時分布によって表せる
このように潜在変数の導入によって複雑な分布をより単純な分布から構成することが可能になる
より複雑な確率分布を構成する枠組みを提供するだけでなく混合モデルはデータのクラスタリングにも使うことができる
潜在変数モデルにおいて最尤推定値を見出すには一般にEMアルゴリズムを用いる
混合ガウスモデルはデータマイニング、パターン認識、機械学習など広く用いられている
このとき典型的にはEMアルゴリズムが用いられる
9-1 K-meansクラスタリング
初めに多次元空間上のデータ点集合について、各データが属するグループまたはクラスターを同定する問題を考察する
9-2 混合ガウス分布
ここでは離散的な潜在変数を用いた混合ガウス分布の定式化を行う
これにより、この重要な分布に対するより深い洞察が可能になり、EMアルゴリズムを使う意義がより明確になる
9-3 EMアルゴリズムのもう1つの解釈
EMアルゴリズムの目的は潜在変数を持つモデルについて最尤解を見出すことである
9-4 一般のEMアルゴリズム
ここではEMアルゴリズムを極めて一般的に取り扱い、混合ガウス分布について発見的に導いたEMアルゴリズムが確かに尤度関数を極大化することの証明を与える
第10章 近似推論法
確率モデルを適用する際に中心的となるタスクは観測データが与えられたときの潜在変数の事後分布を求めること、およびこの分布を使った期待値を求めることである
10-1 変分推論
10-2 変分混合ガウス分布
10-3 変分線型回帰
10-4 指数型分布族
10-5 局所的変分推論法
10-6 変分ロジスティック回帰
10-7 EP法
第11章 サンプリング法
11-1 基本的なサンプリングアルゴリズム
11-2 マルコフ連鎖モンテカルロ法
11-3 ギブスサンプリング
11-4 スライスサンプリング
11-5 ハイブリッドモンテカルロアルゴリズム
11-6 分配関数の推定
第12章 連続潜在変数
12-1 主成分分析
12-2 確率的主成分分析
12-3 カーネル主成分分析
12-4 非線型潜在変数モデル
第13章 系列データ
13-1 マルコフモデル
13-2 隠れマルコフモデル
13-3 線型動的システム
第14章 モデルの結合
14-1 ベイズモデル平均化
14-2 コミッティ
14-3 ブースティング
14-4 木構造モデル
14-5 条件付き混合モデル
輪読会
https://www.slideshare.net/matsuolab/prml11-78266228
PRML
https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf