統計的機械学習
・統計的パターン認識の枠組み
・最尤推定法の枠組み,モデル選択
・ガウス混合モデル,EMアルゴリズム
・ノンパラメトリック密度推定法,最近傍識別器
・ベイズ推定法の枠組み,モデル選択
・変分ベイズ法
・マルコフ連鎖モンテカルロ法
・ノンパラメトリックベイズ法
補足 Octavaの使いかた
Octavaとは数値計算用インタプリタ言語
行列やベクトルの演算、連立方程式、固有値、統計計算などが簡単に行える
Octavaによるプログラミング
これまではコマンドラインに直接コマンドを打ち込むことにより計算を行ってきたがより複雑な処理を行うときはスクリプトや関数を用いる
第1講
基本的には授業のスライドで完結
授業計画
・統計的パターン認識の枠組み
・最尤推定法の枠組み、モデル選択
・ガウス混合モデル、EMアルゴリズム
・ノンパラメトリック密度推定法、最近傍識別器
・ベイズ推定法の枠組み、モデル選択
・変分ベイズ法
・マルコフ連鎖モンテカルロ法
・ノンパラメトリックベイズ法
1 機械学習研究分野の紹介
2 パターン認識の概要
3 識別関数の良さを測る基準
4 統計的パターン認識の枠組み
1 機械学習研究分野の紹介
競争が激しくいろいろなものに応用され出した
2 パターン人式の概要
パターン認識とは与えられたパターンをそれが属するカテゴリに対応させる操作
入力パターン→観測→前処理→特徴抽出→識別→出力カテゴリ
識別部分が一番大切
学習に用いていないデータをいかに補間できるかが重要
統計的パターン認識では、訓練標本の統計的な性質を利用して識別関数を学習する
パターンの構造を識別するという方法もあるが、あまり汎用性がない
3 識別関数の良さを測る基準
x:d次元実ベクトル
D:パターン空間
y:カテゴリ
識別関数を求めること=決定領域を求めること=決定境界を求めること
・最大事後確率則
・最小誤識別率則
・ベイズ決定則
・確率事後確率則
入力パターンが属する可能性が最も高いカテゴリを選ぶ
これはxを事後確率が最大になるカテゴリに分類することに対応
・最小誤識別率則
パターンが誤って分類される確率を最小にするように識別関数を決定
式変形より最小誤識別率則 = 最大事後確率則
まあ要するにどっちを選んでも良いということ
人間は降水確率が40%でも傘を持っていく
これは、傘を持っていかなくて雨が降ったときの損失が傘を持っていって雨が降らなかった時の損失よりもずっと大きいからである
このように重み付けをしたいので、ベイズ決定則が今日では有力である
・ベイズ決定則
誤って識別した時の損失を最小にするように識別
条件付きリスクというものを考える
条件付きリスクが最小になるカテゴリにパターンを分類する
見かけでは最大事後確率と同じようだが、不等号の向きが逆
全リスク、ベイズリスクという言葉を用いる
ベイズリスク0のときはコンピューターが間違えないが、ベイズリスクは一般的に0じゃないので、どんだけ学習しても誤差が出てしまう
それなので、自動運転もミスが起こる
損失一定のベイズ決定則は最大事後確率則
現実的にはベイズ決定則を使うのが直感に合うが、ベイズ決定則の損失の割合を決めなくてはいけない
また数学的に計算がめんどくさくなる
気持ち的にはベイズ決定則を使いたいが、この講義では議論をしやすくするために最大事後確率則を用いる
4 統計的パターン認識の枠組み
我々は最大事後確率則を使う
事後確率がわかれば最大事後確率則によってパターンを分類できるが、p(y|x)は未知なので、これをどう推定するかを考えていく
そこでまず理論的な仮定をおく
訓練標本は次のように生成されたと仮定
・カテゴリを事前確率に従ってランダムに選ぶ
・選んだカテゴリに対して、パターンを条件付き確立に従ってランダムに取り出す
訓練標本は独立に同一な分布に従うとしている
これが本当に成り立っているのかどうかは実際は微妙なところ
だが、独立じゃないとすると、難しすぎてまだよくわかっていない
事後確率を直接推定するのは難しい
そこで、ベイズの定理を用いて条件付き確率と事前確率を推定することにする
事前確率は単純にそのカテゴリに含まれる標本の割合で推定する
これは最尤推定量になっているので、基本的にはp(y)はこれで推定する
残ったp(x|y)を推定することをず〜〜〜〜〜と半年間考えていく
連続的な確率分布の推定はいろいろな方法がある
大きく分けると、
パラメトリック法:有限次元のパラメータで記述された確率密度関数の族であるパラメトリックモデルを用いる
ノンパラメトリック法:パラメトリックモデルを用いない
やりたいことはp(x|y)を推定すること
簡単のため、条件付きでない確率密度関数を全訓練標本から推定する問題を考える
カテゴリyに関する条件付き確率p(x|y)を推定する時はyに属するnyこの
まとめ
・パターン認識の問題とは、識別関数の問題
・汎化能力が重要
・統計的パターン認識:訓練標本の
宿題
・誤って識別した場合の損失がカテゴリによって異なるようなパターン認識の実れいを考えよ
傘の例や病気の例がある
また、それらの例では損失の値はいくら位になるのか具体的に述べよ
できれば趣味に依存するような例だと面白い
これをレポートにまとめてpdfにしてアップロード
special topics in mechano-informatics2
第2講
次は条件付き確率の推定を考える
条件付き確立は連続的な確率分布なので、事前確率のように単純には推定できない
カテゴリyに関する条件付き確立を推定するときは
確率密度関数の推定法
・パラメトリック法
p(x)はq(x,θ)で表現できるだろうとして、θを推定する
・ノンパラメトリック法
それ以外の方法
無限次元のパラメータを持つθの場合、ノンパラメトリック法に分類される
パラメトリック法
θはパレメータ
パラメトリックモデルは有限次元のパラメータで記述された確率密度関数の族
θをどう推定するかの一番有名な方法は最尤推定がある
最も尤もらしいパラメータの値を決める
手元にある訓練標本が最も生起しやすいようにパラメータ値を決める方法
尤度関数を定義して、尤度を最大にするパラメータを推定する
対数をとれば積が和になることから、実際に最尤推定量を計算するときは対数をとった尤度を用いた方が計算しやすいことが多い
最尤推定量は尤度方程式を満たす
ガウスモデルの最尤推定
ベクトルや対称行列に
スカラーに対して、微分したものをベクトルのように並べたという演算子を∂/∂μとする
Σはd*d行列で、推定しなきゃいけないものが多いのでもうちょいシンプルなものを考えたい
というのも、推定するものが多いと、うまくいかないことが多い
ガウスモデルの最尤推定
各要素の分散が等しく、共分散がぜろのときを考えることもある
それぞれのデータが従うガウス分布のパラメータを求めるには、そのカテゴリに属するデータのみを見れば良い
カテゴリの対数事後確立は
マハラノビス距離は、楕円を真円に変換した距離
等高線上での値が同じになるように距離を補正した
というのも、ありえない度合いは同じだから
白色化みたいなこと?
行列の平方根は、BB = Aとなる任意のBのこと
カテゴリごとに共分散行列を異なるとするとパラメータが多くてしんどいので全て同じだとする
するとカテゴリの
元々やりたかったのは識別関数を作るということ
そこで決定境界の計算をする
ガウスモデルと最尤推定かつ、分散共分散行列が同じだとしたときをフィッシャーの線型判別分析という
ガウス最尤推定によるパターン認識まとめ
・各カテゴリ
質問
各カテゴリの分散共分散行列が等しいという仮定は現実で起こり得るのか?
実際はまず起こり得ない
だからといってこの仮定が妥当ではないと考えるのはおかしい
あまりにパラメータが多すぎると、パラメータを少なくした方が有限個の標本のもとでは性能が良くなるので、この仮定は汎用性が意外とあると思われる
第3講
最尤推定方の良さ、振る舞いを理論的に調べる
以下、モデルq(x;θ)が正しいと仮定する
つまり真のパラメータθ*が存在すると仮定する
上が今日の仮定である
最尤推定法を使ったときに真の分布を生成しなかったとしても近い分布が得られれば良いという要請を考えることもあるが、今回は、真の分布が存在すると仮定する
最尤推定法の理論的性質
A) 一致性
B) 不偏性
C) 有効性
D) 漸近正規性
A) 一致性
推定量が一致性をもつとは言葉で表すと、標本が無限にたくさんあれば真のパラメータが求まるということ
確率論の言葉ではこれを、θ’ が θ*に確率収束するという
最尤推定量は一般に一致性を持つ
一般の分布に対して示すのはめんどいので平均があ最尤推定量になることを示す
マルコフの不等式というものがある
マルコフの不等式は確率分布の形を問わないため緩い場合が多い
これは指示関数を用いて簡単に証明できる
チェビシェフの不等式
確率分布の具体的な形はわからないあが、期待値と分散がわかるときチェビシェフの不等式によって裾確率の上限が計算できる
チェビシェフの不等式はマルコフの不等式を用いて証明できる
マルコフの不等式やチェビシェフの不等式は評価が緩い
期待二乗差というものがある
マルコフの不等式より期待二乗差がゼロに収束するならば一致性を持つ
B) 不偏性
一般の推定量については不偏性と一致性に包含関係はない
似ているが、数学的には全然ちゃう
最尤推定量は一般的に不偏性はもたないが、漸近不偏性をもつ
漸近不偏性は不偏性を緩めたもの
不偏性を満たさない推定量はバイアスを持つという
期待値の意味でのギャップをバイアスという
期待二乗誤差は分散と二乗バイアスに分けられる
分散が小さいことが嬉しい
バイアスも小さい方が嬉しい
C) 有効性
不偏性を諦めると分散は任意に小さくできるが、そのような推定量は意味がない
最小分散不偏推定量とは、不偏推定量の中で分散が最小の推定量
不偏推定量の分散の下界として、クラメール・ラオ不等式がある
フィッシャー情報量というものが出てくる
行列における>=はA-Bが半正定値という意味を持つ
フィッシャー情報量は、今考えてるモデルのもとでの、
前が縦ベクトル、次が横ベクトルなので、d*dの行列になる
それに期待値をとったようなものをフィッシャー情報行列という
本質的には1次元でも同じなので、1次元verで示す
この定義は期待値の形でも表すことができる
上の式のxは仮引数、したの式のxは確率密度関数に従うx
証明
微分して、θにθ*をいれる
この全体は、確率変数なので、それの和が0であるという性質を必要とする
対数尤度の微分の和をとってそれに推定量をかけて期待値をとると、1になるという性質がある
1次元クラメールラオ不等式の証明
θとZの共分散を考える(技巧的)
ゴリゴリ変形していくと、最後にコーシーシュワルツの不等式を用いて、求めたいものが求められる
下限を満たしているときに有効性を持つという
それが漸近的に成り立つときに漸近有効性を持つという
最尤推定量は一般に漸近有効性を持つ
有効推定量はバイアスがゼロのもとで分散を最小にする
だからといって期待二乗ごさが最小になるわけではない
というのも少しバイアスを許すと分散が大幅に低減できる可能性がある
D) 漸近正規性
漸近正規性とは分布が漸近的に正規分布に近づくこと
最尤推定量は一般に漸近正規性を持つ
証明には中心極限定理を用いる
フィッシャー情報行列とヘッセ行列
テイラー展開したものが標本平均みたいな形なので示せそう
標本フィッシャー行列
標本近似する
対数尤度の微分
標本近似する
対数尤度の微分があ標本フィッシャー行列
尤度方程式をテイラー展開して証明する
3つの足算が0になるためにそれぞれのオーダーがどうならなくてはいけないかを考える
これを解くと、

まとめ
最尤推定量の良さは漸近的に保障される
最尤推定量は漸近的に正規分布に従う
講義の流れ
1 最尤推定法におけるモデル選択
A) モデル選択の規準
B) 赤池情報量規準
C) 交差確認法
2 ガウス混合モデルの最尤推定
パラメトリック法
モデルが真の分布とあっていればパラメトリック法は少ない標本でも精度が良い
しかしモデルが大きく外れていたらいくら標本数を増やしても精度は向上しない
対処法としてはモデルを変えるしかない
モデルを選ぶ規準
パラメトリック法では、モデルの中に真の確率密度関数をよく近似するものが含まれていなければそもそも良い結果は得られない
→表現量の高い複雑なモデルが良い
パラメータ数が訓練標本すうに比べて多すぎる場合は最尤推定法の良さは理論的には保障されない
→表現力の低い単純なモデルが良い
これらのトレードオフがあるので、訓練標本を用いて適切なモデルを選ぶことをモデル選択という
モデル選択の流れ
1 いくつかのパラメトリックモデルを用意する
2 それぞれのモデルに対して、最数推定量を求める
3 それぞれのモデルから得られた確率密度関数の推定量を求める
4 それらから真の確率密度関数に最も近いものを選ぶ
1 最尤推定法におけるモデル選択
A) モデル選択の規準
確率密度関数の近さを測る規準としてKL情報量がある
KL情報量が小さければq(x)は真の分布に近いと言える
KL情報量の推定
KL情報量には未知の確率密度関数が含まれているため直接計算できない
訓練標本からKL情報量を推定する
負の平均対数尤度はKL情報量の第2項の近似のとき一致する(大数の法則)
尤度を最大にするモデルを選べば良いのか?
実は、p’は左辺を最小かする分布として標本n個に依存して決まる関数
複雑なモデルほど右辺からのバイアスが大きい
もう少し精密なKL情報量の近似が必要
B) 赤池情報量規準
AICが最小のモデルを採用
モデルが程よく複雑な場合2つの項のバランスがよく小さくなり、AICが小さくなる
オッカムの剃刀
現象を同程度にうまく説明する仮説があるなら単純な方を選べ
「現象を同程度にうまく説明する仮説」:尤度が等しい2つのモデル
単純な方:パラメータが少ない方
AICの導出
C) 交差確認法
訓練標本をt個の部分集合に分割する
j番目の部分集合Tjに含まれる訓練標本を使わずに確率密度関数を推定
Tjにフィ希る標本の平均対数尤度を計算する
これを全てのjに対して行い、平均する
1つぬきLCV
標本を1つだけ抜いたLCVの有効性は有限標本に対して保障される
標本が1つ少ない場合の厳密な不偏推定量
まとめ
パラメトリック法では、よいパラメトリックモデルを選ぶ必要がある
モデルの良さをKL情報量で測る
KL情報量は直接計算できないので近似する必要がある
2 ガウス混合モデルの最尤推定
モデルの表現力
ガウスモデル+最尤推定
モデルが大体正しい場合、訓練標本数が比較的少なくても推定精度が良い
モデルが単純なため表現できる確率密度関数が限られる
ガウス混合モデル
有限個のガウスモデルの線型結合
通常のガウスモデルよりも複雑な確率密度関数を表現できる
ガウスカーネル密度推定より単純なので訓練標本が比較的少ない場合でも推定精度が良い
A) 最尤解の必要条件
ガウス混合モデルの最尤推定
対数尤度を最大にするようにθを決める
ただし拘束条件を考慮しなければならない
wjをうまくおくと、拘束条件は自動的に満たされる
尤度方程式が最尤推定解の必要条件である
しかしこの連立方程式は簡単には解けない
B) 勾配法
1 適当に初期値を定める
2 勾配を登るようにパラメータを更新する
3 収束するまで繰り返す
学習率の選び方が難しく、局所最適解しか見つけられない
C) EM(expectation-maximization algorithm)アルゴリズム
適当な初期値からEステップとMステップを反復
EMアルゴリズムによって尤度は単調非減少
Eステップ:θ(t)を通る対数尤度の下界を求めることに対応
Mステップ:下界を最大化するパラメータ値を求めることに対応
Eステップの導出
Mステップの導出
EMアルゴリズムの一般形
不完全データに対する最尤推定
モデルのパラメータθを最尤推定したい
完全な訓練標本のうち、その一部しか観測できない
Eステップ:現在のパラメータを用いて観測されない部分を推定し、完全データの対数尤度の期待値を計算
Mステップ:期待値を最大化するようにθを更新
ガウス混合モデルの場合
ηは標本xがj番目のガウス分布から出てくる確率と解釈
xiが出てきた本当の金剛の番号をyiとする
(xi, yi)がわかるとき、完全データに対する対数尤度
Eステップ:対数尤度のyiに関する期待値を計算
まとめ
パラメトリック法はモデルが大体正しくないとうまくいかない
モデル選択方が必要
赤池の情報量規準:計算は簡単だが、性能保証は漸近的
尤度交差確認ほう:有限標本に対して性能が保障されるが計算に時間がかかる
まとめ
ガウス混合モデル
ガウスモデルより複雑
ノンパラメトリックモデルより単純
勾配法
勾配を上昇するようにパラメータを更新
局所最適解が求まる
学習率を設定するのが難しい
EMアルゴリズム
学習率の設定は不要
局所解の問題は未解決→様々な初期値から何度か学習し、最適な値を採用する
第4講
講義の流れ
1 射影追跡とは
2 尖度に基づく射影追跡(勾配法)
3 尖度に基づく射影追跡(近似ニュートン法)
4 非ガウス性尺度の一般化
5 独立成分分析
1 射影追跡とは
独立同一標本とは、独立に同一な分布に従う標本
データの可視化
高次元のデータを低次元に射影する
どんな確率分布を可視化すれば有益か?
ガウス分布は球状の分布で、特段の特長がないため可視化しても大した情報が得られない
非ガウス分布は豊かな情報を持っている
やはりでーたを3次元以下にして視覚的に判断するのは大切
射影追跡
データの中で最も非ガウスな方向を見つけるアルゴリズム
ガウシアンを見つけてもしょうがないのでガウスではない方向を見つける
そのための、ガウシアンを図る指標を導入する
射影追跡では非ガウス性を測る尺度が必要
尖度:確率分布の鋭さを測る尺度
確率分布の裾が重ければ尖度が大きく、軽ければ尖度が小さい
2 尖度に基づく射影追跡(勾配法)
尖度の例
3:ガウス分布
3より小さい:尖ガウス分布
3より大きい:優ガウス分布
(β-3)^2が大きければ非ガウスせいが大きい
射影方向bの非ガウス性は内積によって測れる
尖度を標本で近似する
射影追跡の規準
Jppを大きくするようにbを更新する
勾配上昇法
Jppを増加させるようにbを更新する
||b|| = 1を満たすようにbを正規化する
を繰り返す
計算を簡単にするために前処理をする
本質とはあまり関係ない
データの中心化と球状化
中心化と球状化によるアルゴリズムの単純化
中心化と球状化はまとめて表現できる
勾配法はあまりお勧めじゃないので改良する
3 尖度に基づく射影追跡(近似ニュートン法)
勾配法の問題点として、収束の速さがステップ幅の選び方に依存
ステップ幅を適切に決めるのが困難
最初は大きくしといてあとから小さくすれば良さそう
新たな定式化
尖度を最大化/最小化する
ラグランジュ関数は解の必要条件
ニュートン法
やったことある
問題点として、各反復で逆行列を求める必要があり、計算時間がかかる
λの値が未知
近似ニュートン法
逆行列が簡単に計算できる
中心化と球状かによって共分散行列が単位行越
λに依存しないのはすごい
ものすごくうまくいく
4 非ガウス性尺度の一般化
外れ値とはデータの含まれる異常な値
もしガウス成分に外れ値が含まれると尖度の4時間数により非ガウス性が極端に大きくなる
たった1つの外れ値によって推定結果が無茶苦茶になってしまう
外れ値の影響を抑制したい
適当な関数Gを用いて非ガウス性尺度を定義
G(s) = s^4の時、尖度に対応
外れ値の影響を緩和するため、尖度よりもなだらかな関数を用いる
複数の非ガウス方向の抽出
方法1
異なる初期値から何度も射影追跡を行い、複数の異なる方向を見つける
方法2
これまで見つけた非ガウス方向と直交する方向を見つける
アルゴリズム
中心化と球状化を行う
5 独立成分分解
ブラインド信号源分離
カクテルパーティ問題
混合した信号を分離したい
原信号を観測信号から推定
混合行列を推定すればその逆を用いて原信号を推定できる
ブラインド信号現分離では、分離した信号の順列と大きさは重要ではない
iidを仮定
第5講 最尤推定3
ベイズの定理の基づいて事後確立を考えていく
事前確率は単純にそのカテゴリに含まれる標本の割合で推定する
条件付き確率をもとめることを考えていく
今回もパラメトリック法について見ていく
1 最尤推定法におけるモデル選択
A) モデル選択の規準
B) 赤池情報量規準
C) 交差確認法
2 ガウス混合モデルの最尤推定
A) 最尤解の必要条件
B) 勾配法
C) EMアルゴリズム
1 最尤推定法におけるモデル選択
パラメトリック法では、モデルの中に真の確率密度関数をよく近似するものが含まれていなければそもそも良い結果は得られない
→表現力の高い複雑なモデルが良い
パラメータ数が訓練標本数に比べて多すぎる場合、最尤推定ほうの良さは理論的には保証されない
→表現力の低い単純なモデルが良い
これらのトレードオフを考える
モデル選択の流れ
1 いくつかのパラメトリックモデルを用意する
2 それぞれのモデルに対して、最尤推定量を求める
3 それぞれのモデルから得られた確率密度関数の推定量を定める
4 それらから真の確率密度関数に最も近いものを選ぶ
確率密度関数の近さを測る規準としてKL情報量を考える
KL情報量が小さければq(x)は真の分布に近いを言える
複雑なモデルほど右辺からのバイアスが大きくなるので、もう少し精密なKL情報量の近似が必要となる
そこで、赤池情報量規準と交差確認法を考える
AICの詳細

対数尤度しか計算できない
期待値は正確には求まらんので推定する
尤度交差確認は訓練標本をtこの部分集合に分割する
モデル選択まとめ
・パラメトリック法では、よいパラメトリックモデルを選ぶ必要がある
モデルの良さをKL情報量で測る
・KL情報量は直接計算できないので推定する
対数尤度はKL情報量の一致推定量だが、常に最も複雑なモデルを選んでしまう
赤池の情報量規準は計算は簡単だが、その保証は漸近正規性が前提
尤度交差確認法:有限標本に対して性能が保証されるが、計算に時間がかかる
2 ガウス混合モデルの最尤推定
ガウス混合モデルは、ガウス分布をいくつかかけ合わせた形である
ガウス混合モデルの最尤推定を考える
尤度方程式というものを解かないといけない
しかしこの方程式は簡単には解けないので、勾配法で数値計算する
勾配法は学習率の選び方が難しかったり、局所最適解しか見つけられないということがある
ガウス混合モデルの解釈
ガウス混合モデルは完全データからyiの観測が欠損したものとみなせる
観測が欠損していなければ推定は容易である
一般にこのような欠損値を含むデータからのパラメータ推定に有効なアルゴリズムとしてEMアルゴリズムがある
EMアルゴリズム
パラメータθが持つ確率分布を考え、yの観測が欠損している場合を考える
目標は観測xの尤度を最大化するパラメータを求めることである
EMアルゴリズムでは適当な初期ちからEステップ・Mステップを交互に繰り返すことで反復的にlogPθの最大化を行う
Eステップ
1 真のパラメータがθであると仮定しyの条件付き確率分布を求める
2 yがpθに従うと仮定して完全データの対数尤度の期待値の式を求める
Mステップ
Qを最大化するθを求める
EMアルゴリズムの原理
Eステップは尤度の下界を求めることに対応
θ=θtのとき等号が成立

MステップではQを最大化するので、尤度は単調非減少
ガウス混合モデルまとめ
・ガウス混合モデル
ガウスモデルより複雑
ノンパラメトリックモデルよりも単純
・勾配法:勾配を上昇するようにパラメータを更新
局所最適解が求まる
学習率を設定するのが難しい
・EMアルゴリズム:下界を最大化するようにパラメータを更新
学習率の設定は不要
局所解の問題は未解決→様々な初期値から何度か学習し、最適な値を採用する
第6講 ノンパラメトリック法
理想的なパターン分類方として、事後確率を最大にするカテゴリにパターンを分類すればパターンの誤識別率が最小になる
実際には事後確率は未知なので、訓練標本から推定しなければならない
パラメトリック法は有限次元のパラメータを持つパラメトリックモデルを用いて確率密度関数を推定する方法で、ノンパラメトリック法はそれ以外である
カーネル密度推定や最近傍密度推定法がある
1 ノンパラメトリック法の基礎
2 カーネル密度推定法
3 最近傍密度推定法
4 最近傍識別器
1 ノンパラメトリック法の基礎
最も単純なノンパラメトリック法としてヒストグラム法がある
単純にヒスとグラフを用いて確率密度関数を推定する方法である
領域の分割の仕方を決めるのが難しい
もう少し工夫したものが二項分布である
これはn回やった
期待値と分散ぐらいは導出できるように
体積というのは、1次元の場合は線分の長さ、二次元だったら面積、、、という感じ
確率Pを2つの方法で近似する
これはテキトーすぎでは?
近似Aについては領域Rは大きいほうが良い!
近似Bについては領域Rが小さいほうが良い!
つまり全体の近似精度を上げるためには注目点xが領域rの中心となるようにしつつ、その大きさVを程よい値に木減り必要がある
・パーゼン窓法、カーネル密度推定法:Vを固定してkを標本から計算
・最近傍密度推定法:kを固定してVを標本から決定
・パーゼン窓法
注目点xごとに半自動的に領域Rが決定されるのでヒストグラム法のように領域の分割の仕方を考える必要はない
領域間での不連続性は未解決だが、バイアスは改善
領域の分割の仕方を決める必要はないが、パーゼン窓法のバンド幅hは適切に決める必要がある
2 カーネル密度推定法
パーゼン窓法を少し一般化したようなもの
パーゼン窓法の不連続性を解決したい
パーゼン窓関数を滑らかなカーネル関数に置き換える!
カーネル関数を決めることが必要
事前知識があれば、バンド幅行列を調整すれば良い
適切にバンド幅を推定できれば、結構真の分布に近いものが得られる
カーネル密度推定法の推定結果はバンド幅の選び方に依存する
バンド幅を程よい値に選択しなければならず、尤度交差確認法で選択する
まとめ
ノンパラメトリック法:パラメトリックモデルを用いない確率密度関数の推定法
ノンパラメトリック法では領域を適当に決める必要
パーゼン窓法:領域の形と体積を固定し、標本数をデータから決定する
カーネル密度推定法:パーゼン窓を滑らかなカーネル関数に置き換えた方法
3 最近傍密度推定法
kを固定して、Vを標本から決定する
近傍数は尤度交差確認によって近似的に求められるがこれには少し問題がある
例えば、演習問題のpは積分すると発散するんご
積分すると1にはならないので交差検証しても正しさの保証はできないんご
まとめ
カーネル密度推定法
滑らかなカーネルを使えば、滑らかな確率密度推定量が得られる
最近傍密度推定法
近傍の標本を
4 最近傍識別器
xの近傍kこの訓練標本が属するカテゴリの多数決でxの属するカテゴリを決めるk-nearest neighborがよく用いられる
質問
最近某みつど推定法に交差確認が適用できないロジック
これは正規化されていないことがあるから
尤度交差確認はスコアが大きいモデルが良いモデルを選ぶのでこれは不公平な比較である
第7講 大偏差原理とバンディット問題
1 大偏差原理
2 バンディット問題
1 大偏差原理
中心極限定理は、サンプルが無限個あったら標準正規分布になるという定理
収束の速さはわからない
Berry-Esseenの定理
正規近似の誤差はO(1/√n)くらい
絶対誤差と相対誤差
低確率で起こる事象では中心極限定理のタイプの確率評価はあまり役に立たない
こういう、標本数nに対して指数関数的に小さくなる確率の指数部を評価する理論体系を大偏差原理という
Cramerの定理
これの証明はよくある議論
これはリミットを取ると=になる
これは指数関数で抑えているが、実はこれがタイトな評価を与えている
nで割らないで評価することが一部の簡単な場合に可能
標本分布
現在ある標本n個のうち1個をランダムに取り出した値の確率分布
標本分布はnを無限大にすると真の分布に弱収束する
標本分布が真の分布からかけ離れた分布Qとなる確率は?
分布の近さは厳密にはLevy距離を使う
Sanovの定理
Qになる確率は指数関数的に小さくなり、その肩にはKL情報量がのっている
確率分布の集合Sに対して、標本分布が領域Sに入る確率はその領域内で夫も近い分布のみから決まる
標本分布がSに入ったという条件のもと、その標本分布は1に近い確率でQ*

Cramerの定理との関係
特にベルヌーイ分布を考えると、標本平均と標本分布が一対一に対応する
演習
クラメールの定理を使う
行動Bの方が得点期待値は低いが漸近的には勝率が高い
正規分布でやったら逆になってしまう
つまり、大偏差原理でより正確にすると、中心極限定理とは別の解釈になるという例である
KL情報量の解釈
Sanovの定理によると、推定した確率分布P ^のもとで乱数をnこ生成したとき標本分布が真の分布Pに近くなる確率はSanovの定理によれば指数関数の上にそれが載っている程度
2 バンディット問題
多腕バンディット問題
複数台のスロットマシンを選んでプレイするギャンブラーのモデル
報酬の確率分布はアームによって異なる
引かなかったアームの報酬はわからない
知識の探索と活用のジレンマ
それぞれのアームをある程度引かないと報酬期待の良し悪しがわからない
報酬期待値の低いアームを何度も弾いていても報酬は稼げない
これらをバランスさせる必要がある
定式化
各アームからの報酬の確率分布はベルヌーイ分布に従うと仮定
2つの設定がある
なるべく多く稼ぎたいという設定と、期待値最大のアームを識別するという設定
報酬最大化とリグレット最小化
リグレットとは最善な選択との差分
リグレット下界
k=2のとき、アーム1が最適に見える状況を考える
アーム1はたくさん引くので推定が正確
アーム2はあまり引かないので期待値が不明確
アーム2をどれだけ引く必要があるのかということを大偏差原理を用いて判断する
UCBアルゴリズム
どのようにリグレット下界を達成するかについて、UCBアルゴリズムというものがある
UCBスコアというものを設定してこれ最大となるアームをひく
√の項がどのように出てくるのかというと、Hoeffdingの不等式というものがある
Hoeffdingの不等式の基づいた近似を行えば良い
KL情報量を直接用いることでも信頼区間を構成できる
KL-UCBを使うとより良いアルゴリズムになる
トンプソンサンプリング
ベイズ統計の考え方に基づくアルゴリズム
真のパラメータが何らかの確率分布に従うとする
バンディット問題の様々な拡張に対しても適用可能
ベイズ統計
未知のパラメータが何らかの確率分布に従うとみなす(信じる)
べーた分布からの確率を求めて、確率が高いやつを繰り返すだけでトンプソンサンプリングが実装できる
線形バンディット
取り得る行動がd次元の特徴ベクトルにより表現されている
まとめ
特別講義 機械学習による画像処理
1 機械学習の実応用例
・分類、回帰、信号源分離の応用例
リモートセンシングで分類が可能
リモートセンシングは人の視界を超えた観測が可能である
光学センサは雲があると使えないので、こういう時にレーダを使う
水があるとレーダが反射しないので暗くなる
構造物があると明るくなる
セマンティック3次元再構成
2 画像復元
・最尤推定
画像復元の問題設定
不完全な観測画像から原画像を復元する
例:ノイズ、ぼけ、欠損、低解像度
ノイズ除去、インペインティング、ぼけ除去、超解像、
画像融合による超解像
実はGoogleアースなどの画像は既にこの処理が行われている
劣化の行列表記
実装するときはフーリエ変換でできるので、巨大な行列を実装する必要はない
ガウスノイズの対する最尤推定
ポアソンノイズに対する最尤推定
Richardson-Lucyアルゴリズム
なかなかうまくいかないので、事前情報を用いた処理が必要そう
そこで、最大事後確率を用いれば良いのではないか
原画像の事前情報が画像復元の鍵
・滑らかさ、スパース性、低ランク性、など
・最大事後確率推定
ベイズの定理を利用して、何かを仮定して、最大事後確率推定を行う
・スパース、低ランクモデリング
2次元離散コサイン変換を行ったら二次元離散コサイン係数はスパース
スパース表現による超解像でこれまでの結果よりうまくいく
非局所自己類似
自然画像では各パッチ画像に似た複数のパッチが画像内に存在しているのではないか
非局所自己類似は画像復元において強力な事前情報
低ランク近似による画像復元もすごく綺麗になっている
スパース性、非局在自己類似性、低ランク近似でここ10年ぐらいは画像処理をうまくしようとしていた
外部の画像から、xとyの対応を学習させようとする試み
・Deep Image Prior
外部の学習データを必要とせず、人間が特徴を学習させなくても良いという衝撃!の手法が出てきた
CNNの構造自体が自然な画像を生成しやすい構造があるらしい
ノイジーなデータよりも綺麗なデータの方が少ない反復回数がアウトプットできる
逆に反復しすぎるとノイジーになる
オートエンコーダーみたいな感じかな
最後に、画像融合による画像表現を紹介する
ハイパースペクトル画像:波長分解能がすごい
マルチスペクトル画像:空間分解能がすごい

第8講 ベイズ推定の基礎1
ベイズ統計に基づく機械学習
・ベイズ統計の基礎
・近似推論
・自動推論
ベイズ推論→近似推論→自動推論という感じ
自動推論は要するに確率的プログラミング
統計的推定は目的関数を最適にする解を求める
ベイズ推定は分布を求める
分布が求まると不確実性を扱えるので嬉しい
例えば、セマンティックセグメンテーションを考える
このとき、セマンティックセグメンテーションの不確実性を扱うことができる
Graphicsの最適化
不確実性を使って、グラフィックスのパラメータをチューニング
3Dデザインの最適化
デザインのパラメータ調整
PET-CT画像からのがん検知
正常なCT画像のボクセルデータを入力としてFEG-PETのSUV値のベイズ推定を行い事後分布から外れ値具合を計算
スパコンの自動チューニングにも使われている
素人だけど機械学習の技術を使ってチューニングすればどうなるか?
→世界二位になった!
不確実性を考慮した学習
・予測の信頼性評価
・効率的なデータ収集
・探索と活用のトレードオフ
・過学習の抑制(dropoutのベイズ的解釈) これは面白そう!!
・プライバシーのモデリング
フィッシャーは確率は客観的でなければならないとして、ベイズ統計学を否定した
頻度主義は客観的であると考えられる
しかし、モデリングはある主観に基づいて、モデルを選択していくのである種の主観は入っているだろう
ビルゲイツはマイクロソフトの基本技術としてベイズ統計を使うと公言して注目を集めた
原因の確率
従来:原因→結果
と言う因果関係の自然な流れで条件付き確立によって推論を行う
ベイズ推定:結果→原因
原因の確率Pr(原因|結果)によって推論を行う
時間の流れぬ逆らった計算をするためベイズの定理で計算される事後確率を逆確率という
ベイズの定理
事後分布を事前分布で表す
条件付き確率はベイズの定理が発見されてから定義されているので、そもそもそれまではなかった
条件付き確率は正規化をしていると考えれば良い
確率は測度である、測度はひとまず面積だと思っておけば良い
ベイズ推定の基本構造
事前分布→事後分布変換
事前情報 + データ観測 →事後情報
データを観測する以前の情報は事前分布として表現し、データ観測後の情報はベイズの定理によって事後分布として表現される
ベイズ推定に対する最も大きな批判として、原因の事前分布は主観的に決めて良いということがある
ただし、最近では、無情報事前分布、経験ベイズ法、交差検証などによってデータから求めることが主流である
ベイズ推定の逐次合理性
ベイズ推定は、データを観測するごとに主観確立をアップデートする推定と考えられる
論理的推論と統計的推論
論理的推論
要するに演繹ほう
統計的推論は仮説検定をする
仮説検定では、有意水準によって棄却できるかどうかが決まってくる
有意水準に主観が介在する
これはフィッシャー的な意味での推論である
ベイズ推定では、例えば、検査を二回受けたときどっちも陽性であったときの癌である確率などを求められる
二回目は、事前確率に事後確率を代入すれば良い
二回受けると確率が跳ね上がる
ベイズの定理は事前確率を仮定するので、ここでは胃癌の罹患率は0.1%であると考える
この式を使って求める

質問
「ベイズの定理は一見単純で簡単な式変形だけで導けそうだと思っていて、かつての天才的な数学者たちがすぐに発見できなかったというのは少し不思議な感じがするのですが、当時の人たちにとってはベイズの定理の式を意味づけるのがそれだけ非直感的だったということですか。」
→
そもそも確率の定義すらないときにこういう発想に至ったのがすごい
条件付き確率の計算は直感的におかしいが正しい
なるほどなあ
「仮説検定とベイズ推定はどちらを用いて統計的推論を行うべきなのか?」
→
主義主張の問題で、宗教戦争みたいな感じ
適用する問題設定に依存する
例えば、バンディット問題ではベイズ的であるバンディットサンプリングの方が性能が良い
また、サンプル数がある程度大きいならばあまり変わらない
頻度論はサンプル数が多くなければ性能はないが、ベイズ推定はサンプル数が少なくても使いやすい
事前確率さえ客観的に決められれば使いやすい
「100回繰り返し観測を行うと95回は真のパラメータを含む,と95%の確率でθがa,bに含まれる確率ではないの違いはなんでしょうか。本質的には同じだが、θを確率変数として扱えないだけでしょうか。」 →
信頼区間の場合は無限回の繰り返しを仮定した場合の話
ベイズ統計は無限回を仮定しなくても良い、そのデータ分布からのみ求められる確率の判断ができる
「slide72ページの主観分布の主観は理解したらいいですか。人て決めるのは今一分からないです」
→
客観的には決めらないということ
事前分布を仮定しないといけないから、これは主観である
経験ベイズ法を用いればデータのみから決めることができる
よくわからない時は一様分布などを仮定する
「癌のケースにおける事前確率(罹患率?)に主観は入っているのでしょうか。」
→
これは主観確率に相対頻度を使っている
ベイズと頻度論が組み合わせられている!!!
モンティホール問題もベイズ推定の問題である
ベイズ推定すると確率が求められる
事前分布がわからないので事前分布は等確率にする
ベイズ推定の問題も司会者のモデリング尤度に依存する
司会者がアホだとBが開かれたという情報は意味がない
実はモデリングも事前情報を仮定と同じぐらい重要で、ここにも主観が入る余地がある
・確率の考え方
頻度論:標本理論に基づく、無限解標本抽出を繰り返したときの相対頻度の極限値
ベイズ統計:ベイズの定理により観測データから主観確率を更新したもの、要するに確率は主観
vsというよりはお互いに歩み寄って行っている
・観測データの考え方
頻度論:無限回繰り返しサンプリングすることを仮定し、現在手元になるデータはその一例に過ぎない
ベイズ統計:手元にある観測データが全て
・パラメータ推定の考え方
頻度論:真値があると仮定、点推定と区間推定
ベイズ統計:確率変数を仮定する(真値を仮定しない)
最尤推定による点推定
標本から得られる推定量
標本に依存して変動する量
xが変数で、θが定数だと考える
ベイズ推定
観測データは定数
パラメータは確率変数
つまり、xは定数でθが変数だと考える
区間推定95%信頼くかん
100回繰り返し観測を行うと95回は真のパラメータをふくむ
95%真値がその区間に含まれるとは言っていない
θの分布として正規分布を仮定することが多い
ベイズ統計による区間推定
事後分布の密度の高い領域を指す
こっちは直感的な95%そのままである
95%高確率密度関数などと呼ばれる
事後分布の形に依存するため左右対象とは限らない分布で推定できる
有限標本数で議論が可能
正規分布を仮定する必要はない
第9講 ベイズ推定の基礎2
テーマ
・レポートの解答
・ベイズ事後分布
・共役事前分布
・ベイズ予測分布
・ベイズ推定の演習

普通ベイズ推定は事前分布を仮定するが、これを客観的にやるものが経験ベイズ法である
確率の事後分布を求める
尤度をどうするかというモデリングと、事前分布をどうするかというモデリングが必要である
ここで、共役性という性質が重要
計算的に簡単に計算できる事前分布は限られている
例題
例えば、確率変数が0~1をとるならbeta分布がよく使われる
計算は比例を使って進める
πと関係ない項は無視する
正規化定数が計算できる分布は限られる
確率密度変数であるということは、πで積分すると1になるということ
積分計算は確率密度関数を利用する(積分の公式のようなもの)
=のまま計算しても良いが、まずは関係するπについてまとめてやれば良い
事後分布もべーた分布になった!
今はベルヌーイ分布を仮定した
共役事前分布
事後分布のクラス = 事前分布のクラスとなるような尤度に関する事前分布
事後分布 = 尤度 * 事前分布
離散的、非負値、連続、ある区間にどれくらい人数がいるかなど、データの性質に応じてそれに使いやすい尤度と事前分布がある!うおおおおお
・正規分布 = 正規分布 * 正規分布
・ベータ分布 = ベルヌーイ分布 * ベータ分布
・ベータ分布 = 二項分布 * ベータ分布
・ディリクレ分布 = 多項分布 * ディリクレ分布
・ガンマ分布 = ポアソン分布 * ガンマ分布
・ガンマ分布 = 正規分布 * ガンマ分布
・逆ガンマ分布 = 正規分布 * 逆ガンマ分布
例題
べーた分布 ← ベルヌーイ分布*べーた分布
べーた分布になるはずだと思って変数をまとめる
頭の中に式変形したい式の形を思い浮かべられるかどうかが大事
事後分布計算のテクニック
事後分布のクラスを予想し、変数をまとめていく
確率の事後分布で分析する
「ある薬の効果を調べるために5人の被験者に対して実験を行った、5人のうち4人に効果が認められた」→80%の確率で効果があると言えば良いのか??
なんか言っちゃいけなさそう、、、
統計的検定をやると有意水準が0.05以下にならないので何も言えない
何も言えないのは意思決定的にはあまり嬉しくない
ベイズ的に考えてみる
Beta(1,1)とすると、一様分布になるのでこ子から始めるのは妥当であろう
ベイズ推定をすると分布が出るので嬉しい
例えば、効果のある確率が0.5以上である確率は0.89であると求められる
また、効果のある確率が0.8以上である確率は0.34であると推論することができる
レポート
事前分布を変えると、確率はどう変わるのかを考えてみる
レポート2
「ある検査方法を分析するために被験者を集める。陽性であった被験者が5人集めるために20人の被験者を必要とした。少なくともあと2人陽性の被験者のデータを取るためには何人の被験者を集めれば良いのか」
こういう時には負の二項分布という事前分布が用いることができる
mは15, kは5みたいな感じ
事後分布を求めるときはあまり気にしなくてよく、π乗数だけ見れば良いのであまり関係ない
質問「なぜ事前分布Beta(1,1)を仮定するのか」
逐次合理性を確認する
p(π|面、裏、面、面)をp(π|面、裏、面)を事前分布として推定したとき
De Finetti theorem
確率変数の列が交換可能であることを必要十分条件は任意のnに対して以下がなり立つことである
事前分布の存在が自然とでてくる
ほ〜ん?
こっから新しいすらいど(2020)
ここまでは事後分布を求めて、データ解析上アクションを起こすための何らかのエビデンスを得るための手法を学んだ
その意味でベイズ推定は有用である
最尤推定による予測分布
1点のみで予測
ベイズ予測分布
事後分布が求まっていると、多数決で予測ができるので嬉しい!
いろんなθでの決定を分布としてみることができる
事後分布からθをサンプリングして、そのθからシミュレーションの分布がでてくる
例えば、最尤推定では+1だったが、実は+1と-1が僅差だったということがわかる
ベイズ予測分布を求める
事後分布の平均を見れば良い
予測分布の味わい方
ベイズ予測分布は、事前に仮定した確率と、経験分布をインターポレーションしているような式になっている
そうすると、a0とb0は仮想的な頻度であると考えられる
nが大きくなると経験分布を頼りに分布しているように思われる
たいていの場合解析的に解けないので、普通はサンプリングするが、万が一経験的に解け場合は以下のようなことをしてみる
経験分布との関係を見る
事前分布のパラメータの意味を考える
経験ベイズ法
事前分布のハイパーパラメータはどう決めれば良いのか?という答えに答えるのが経験ベイズ法
いろいろやり方があるが、経験ベイズ法はそのうちの1つ
周辺尤度を利用したモデル選択
周辺尤度を最大とするようなパラメータにするということ
最尤推定はθが与えられた元でのpを最大にするθを求める
経験ベイズ法は、θについては分布を求めるが、事前分布のパラメータは最尤推定してやろうという方法
というのも、事前分布のパラメータはパラメータ数が少ないからである
要するに、フィッシャー流とベイズ流の組み合わせ技みたいな感じである
Coffe Break
自分の事前確率を知る方法:デ・ディネッティゲーム
自分の主観確立は?
「あるテストを受けたとする。自分の点数が90点以上である確立はどれくらいであると考えられるか?面接などでこういう質問が来たらどう答える?」
自分の得意分野、過去の成績などを参考にする?
デ・フィネッティゲーム
「99個の玉ち1個の赤い球を箱に入れる A:白い球を取り出したら1万円、B:90点とれたら1万円、Aの場合、白い玉の個数をどんどん減らしていく」
これは主観を定量化する面白い発想
50%以下の主観確率は定量化できないという認識が正しい←考える
生成モデル
基本的にベイズ推定をするときは生成モデル的手法
今までの考え方の背後にも生成モデルの考え方があった
データお生成過程を数理モデルにより表現したもの
データを2つの意味に分けて考える
固有の部分(潜在変数)とパラメータ(データに共通する部分)
この仮定はリーズナブル
この仮定をおくことでデータに共通の性質とデータに固有の性質を分けて考えることができる
観測データはある確率分布により生成されたと考える(仮定するということ)
この仮定がリーズナブルかどうかは神のみぞ知る、というかこれぐらいしかやることがない
生成モデルの発展形である深層生成モデルは生成モデルはニューラルネットワークによって生成されたと考える
確率変数がxiに従うという表記は機械学習特有の表記である
グラフィカルモデル
確率変数間の依存関係を表した概念図
生成過程をグラフィカルモデルで表現することで変数の依存関係が明確に
ηはハイパーパラメータとして与えられているとする、実際経験ベイズ法などで推定するときはηを○にすることもある

ベイズ推定における計算テクニック
これまでにやってきたものをまとめる
1 事後分布を結合分布の計算に帰着
事後分布の計算は難しいが、結合分布の計算はできることがある
MCMCも事後分布を結合分布の計算するという視点である
2 結合分布をベイズの定理により依存関係が明確な確率分布
3 生成過程が順番に積に分解する
例題
事後分布を求めたいが、まずベイズの定理で分解する
これはある意味、πとデータの結合分布になっていると考えることができる
結合確率は生成過程の順番で書き下せる
これはある意味forループが回っている
それによって事後分布が計算できるかもしれない(現実的に計算できるかは別)
事後分布が求まる場合はどんなときか?
次回はこれをより数値計算的に解く方法として変分推論の話をしていく
まとめ:ベイズ推定の計算
・計算は比例計算で進める
・最後に正規化項を計算する
・正規化項、積分計算は確率密度関数の非正規化部分から計算する
・結合分布へ帰着される
・結合分布をベイズの定理により条件付き確率分布の積へ分解する
・分解の順番は生成過程を元にグラフィカルモデルの矢印の最も先端から
・3つの条件付き独立性を考慮する
第10講 マルコフ連鎖モンテカルロ法
テーマ
・生成モデルとグラフィカルモデル
・変分推論
生成モデルの考え方
観測データはある確率分布による生成されたと考える
例えば、PCAだと、ziを低次元空間、θを高次元空間に移す行列だと考えることができる
グラフィカルモデル
確率変数間の依存関係を表した概念図
生成過程をグラフィカルモデルで表現することで変数の依存関係が明確に
生成モデル
データの生成過程を数理モデルにより表現したもの
ベイズ推定における計算テクニック
1 事後分布を結合分布の計算へ帰着
2 結合分布を、生成分布
3
正規化定数を求めるときに、我々の知っている確率分布になってくれないと計算できない
積分計算が実行できないので
それなので、これからは、この分布を計算が容易な分布で計算することを考えていく
生成モデルの学習アルゴリズム
基本的な方針は観測データの生成確率最大化
潜在変数は観測できないので周辺化して考える
最尤推定の式自体そもそも解くのが難しい
そこで、変分推論というものを考える
変分推論
何ら過程をおかずに確率分布を導入(仮想的な分布)
そうすると期待値を計算しているように思える
logと期待値を交換できる方法があり、そうすると、したから抑えられる
そうすると、インテグラルが外に出せる
Jensenの不等式を用いた
変分下限最大化へ帰着
すると結合分布の計算に帰着できて計算できる!
計算可能な結合分布がでてくることが嬉しい!
変分下界最大化について、交互最適化アルゴリズム(EMアルゴリズム)でアプローチすることができる
もちろんこのアルゴリズムは大域解が見つかるとは限らない

この最適化が無理なときはq(zi)をパラメトリックモデルを置いて最適化することもある
目的関数を分解して眺めてみる
ここでKL情報量が出てくる
KL情報量は近さみたいなものを表している
これはKL情報量をある意味の正則化項であると考えることができる
qをpにしたらこれは最大化できなさそう
これに-をつけたら変分自由エネルギーなどと呼ばれる
というのも、式の形がヘルムホルツエネルギーと同じになるため
simulated anneylingを利用するやり方もある
データをよく表現するようなq(zi)を求めたい、これは特定のziにとんがるような目的関数になっていて、後ろの項は逆にとんがらないようにするような項になっている
何はともあれ変分下界を求めて
EMアルゴリズムで少しずつ繰り返して良い
だが、まずqt(zi)の最適化がまず謎である
確率分布は関数なので、関数の空間で最適化というものしなくてはいけない
関数の空間の最適化方法として変分法というものがある
確率分布の最大化→変分法で解ける
変分法
汎関数の極値を求めるやつ

確率分布が変わると値が変わるので、エントロピーも確率である
積分で表せる汎関数に限定して考える
オイラーラグランジュ方程式を解けば良い
目的関数を変分法で解くと事後分布となる
この授業では事前分布が求まる前提だが、大学院の授業ではそもそもこれが求まらない前提で話をする
我々はθの分布も求めたいので、同じようにやってみる
zだけではなくθに関しても分布を仮定する
これらは独立性も仮定する
結合分布になっているので、生成の順番に掛け算していけばよく、計算可能である
交互最適化アルゴリズムがでてくる
そして、どちらも変分法を使って最適化問題をとく
したから抑えているので、これを引き算してみると、KL情報量がでてくる!
q(θ)とq(z)を最大化する
事後分布に近いような分布を求める、と読み取ることができる
じゃあKLの式もともと目標にして最適化問題を解けば良いのでは?→計算できんから無理
双対性みたいなことになっている
カルバック・ライブラ情報量
確率分布間の近さを計算可能
近似分布の仮定
ここでは計算を簡単にする仮定を置いている
基本的には事後分布はこういう分解はできない
普通x given でziとθは条件付き独立ではない

この積分が計算できてかつ、それが知っている確率分布になってないとこのアルゴリズムは適用できない
これが解析的に解けなくてもできるのが、パラメータを仮定して自動変分推論みたいなやつ
次回は積分が計算できるやつ
第11講 変分推論
テーマ
・情報推薦
・生成モデル
・変分推論
・経験ベイズ法
・変分経験ベイズ法
・ガウス過程
レポートについて
1つ目
例えば、あと何社受ければ良いかみたいな問題がある
あと2人の幼生の被験者のデータを取るには何人の被験者を集めれば良いのか
これは負の二項分布というものを使えば計算できた
2つ目
逐次合理性を示す
いろいろな示し方がある
Znをおく
いわゆる正規化定数のようなもの
3つ目
変分下界を求めよ
4つ目
周辺尤度とKL情報量の関係の導出
1とみなせるかどうかが重要
情報推薦をやりますやります
人ならどのように考えるのか?
情報推薦の問題はまず数学の問題に落とさなければいけない、これは行列でやれば良い
埋まっていないところはとりあえず0で埋めておけば良い
ランダムな数でも良いが、これはこの後どう解くのかによって変化する
情報推薦は行列補完の問題である
UとVに特異値分解することができる
低ランク近似
特異値の大きい順にk個用いる
機械学習ではこういった変なことをする
低ランク近似した行列をかけ合わせるとブランクだった場所が復元される
こういったモデリングが正しいかどうかは誰もわからない
ここから、確率モデルの世界ではこれは何をやっているのかを考えていく
特異値分解はある最適化問題を解いていることになる
低ランク近似すると、Σの上がkに抑えられる
rが観測で、uとvが求めたいものである
ユーザーごとに低次元のベクトル、アイテムごとに低次元のベクトルがあったときにそれらの内積で表すことを考えている
uとvをベイズ推定したくなる(後で)
行列U, V = 潜在因子
ベクトルが近いユーザーは似た嗜好を持つユーザ
ベクトルが近いアイテムは似た性質を持つアイテム
内積が大きいほど評価値が高い
これは人間は感覚でやってる思考をベクトルで表現していると考えられる
これはユーザーとアイテムをベクトルで表現し、同じ空間に表現し、内積をとることでいわゆる近さを見ているだけ
線形代数から生成モデルへ
なぜ生成モデルが良いのかというと、確率の議論ができるから
先ほどの最適化関数にexpをかましてlogをとるという操作をする
これはいわゆるガウス分布に思える
生成モデル的な見方をすると、rは、uとvの内積の平均というパラメータから生成されたモデルから生成されたと考える
正則化項をつけて考えてみる
データのほうを正規化することで、モデルを簡単な正規分布などで表すことができる場合はそうすることも多い
実用的にはこういうことをよくやる
正規分布を見ると積分の公式を与えているとみなそう、という考え方も話した
比例計算で計算して最後にまとめあげようという考え方もあった
経験分布?が出てきたら生成モデルの順番に確率をかけていけばよかった
変分推論
変分推論で交互最適化アルゴリズムが導かれる
この最適化アルゴリズムは古いが、綺麗で、解釈も簡単だから使いやすい
こういったきれいなモデルが作れるように現実のデータを加工するのが大切だと思っている
レポートについて
正規分布になるということがわかっているので、その形を目指して変形していく
予測するときに期待値で予測するのもよい
uとvの内積で予測するという予測の仕方もある
観測でーたが少ないときに、期待値で計算すると結果が出ない
事後分布からサンプリングした結果を使って予測すると、今まで気づかなかったものを推薦してくれることもある
探索と活用のトレードオフみたいなもの
経験変分ベイズ法
事前分布のパラメータはどうやって決めるか?という問題がある
経験ベイズ法は周辺尤度を利用したモデル選択
だがしかし、周辺尤度の計算も難しい
周辺尤度の下限なら計算してきたので、変分下限を最大にするモデル選択をすればある程度は良いモデルになるのでは?
自動関連度決定
スパースになる
ある特定のk以降は全部0になるので、
こういうベイズの枠組みで事前分布を計算すると、ある程度大きいkをとっておくと使わないkが出てきた、Kよりも小さい次元で表現される
いわゆる次元が自動で決定するようなもの
これはスパースな解である
Kの選び方によっても性質は変わるので、かってにスパースな解がもとまって困らないという方法
第12講 ノンパラメトリックベイズ
テーマ
・ノンパラメトリックベイズ
・ガウス過程
関数のベイズ推定
無限次元の確率変数ベクトルのとき、ノンパラメトリックベイズと呼ばれる
関数のベイズ推定ができると、どの入力xに対しても出力f(x)が求まる
PET-CT画像からのがん検知に使われている
多次元正規分布はK次元のベクトルが従う分布として用いられる
関数fの確率分布p(f)は?
→関数fは無限次元なので確率分布を構成することが難しい
→確率過程として構成する
ガウス過程
ガウス過程は平均関数とカーネル関数によって決定される
ガウス過程のベイズ推定
ガウス過程のベイズ推定の導出
計算量と近似推論
ガウス過程のベイズ推定は解析的に求まるものの、計算量はO(n^3)である
変分推論を用いることでO(nm^2)とデータ数に対して線型にすることができる
第13 自動推論と確率的プログラミング
テーマ
・自動微分変分推論
自動微分を利用して自動推論をする
勾配法による変分推論
勾配法を利用する
確率的最適化
サンプル集合Sを用いて勾配を近似するアルゴリズムを確率的勾配法という
確率最適化としての変分推論
自動微分への道のり
勾配を用いて変分パラメータ推定をする
→自動微分を用いて自動化
積分計算はサンプリングで近似する
サンプリングにより確率勾配の近似精度が悪化する問題
モデルパラメータはガウス分布に従う変数のみ?非負確率変数はどうする?
→変数変換で回避
確率密度関数の変数変換
変換方法として逆関数が取れる、逆関数に対して微分が取れることが大切
モデルパラメータの変数変換
多変数のときはヤコビ行列つかれば良い
expの逆関数がトランスポーズだと思う
なぜなら、Xは人間が設計した関数で、それをうまくガウスの世界に持っていきたいから
ガウスにある変換をして、人間が設定したθの空間に生かせる
そうすると、実数値を取るような連続分布が得られる
変分下限の導出
reparametrize trickを使えば勾配が計算できる
自動微分できるようなものに限定してモデリングを許す
ガウスのエントロピーはreparaを使うまでもなく解析的に計算できる
サンプリングで近似する場合は
まとめ
自動微分変分推論を紹介したが、自動推論を可能にするアルゴリズムは発展途上
自動推論が実用化されつつ足るのは事実
ただし、ブラックボックスのまま利用するのは危険なので理論も含めて理解しておく必要がある
人間がやるのはモデリングまでという時代が来ている
結局はガウスで変換している
deeplearningのドロップアウトは変分推論から導かれる
また、バッチノーマライゼーションも変分推論の枠組みから導かれる
---------------------------------------
パターン情報学
知能の根元には,情報を介した主体と環境とのインタラクションがあり,人間を含めた実環境からのパターン情報を如何に要約し利用するかが柔軟な知能システム構築の鍵となる.
そのための基礎として,確率統計的手法や多変量解析手法などを用いた情報数理的な立場から,パターン情報処理の原理や仕組み,具体的な手法や応用について体系的に論じる.
数理的な手法の基礎教育に重点を置く.
1. パターン認識とは
2. 数学的基礎,線形代数,確率・統計
3. ノンパラメトリックな識別法
4. パラメトリックな識別則
5. 識別部の設計
6. 特徴空間の変換
第1講 パターン認識とは1
パターンとは?
パターンは物理的外界における個々の対象で、無秩序ではなく何かのまとまりを持ち、たがいに区別されるもの
パターン認識とは?
観測されたパターンをあらかじめ定められた複数の概念のうち1つに対応させる処理のこと
パターン認識の過程
パターン認識の過程を特徴抽出と認識の2段階に分ける
・特徴抽出
多くの情報を持ったパターンから認識に本質的な情報を抽出すること
・認識
特徴空間を分割し、各領域に概念を対応させる
類別、分類と回帰
クラスの概念が未知/既知によって認識を類別/分類に分けることができる
・類別
未分類な対象の集合を何らかの意味で類似したもの同士にまとめ、要約して理解する過程、教師なし学習と関連が深い
・分類
既知のクラスに関する知識に基づいて与えられた未知の対象がどのクラスに属するかを決定する過程、教師あり学習と関連が深い
・パターンを離散的な概念に割り当てるのではなく、連続的な値に対応させるのが回帰である
特徴抽出
認識過程の中でも特徴抽出は認識性能を左右する重要な処理
全ての問題に有効な特徴抽出手法は存在せず、対象とする問題に依存
特徴ベクトル
・特徴抽出
パターンを圧縮した効率の良い空間の点として表現する
・特徴ベクトル
それぞれの特徴を数値で表現し、それらを組みとしたベクトルが利用される
特徴空間
特徴ベクトルによってはられる空間を特徴空間という
学習、テスト、汎化
全ての可能性のあるパターンを調べ尽くすのではなく、対応するクラスが与えられている少数のパターンのみから分類器を構成することを考える
識別器があられればクラスのわからないパターンのクラスを予測することができる
訓練データに含まれないパターンのクラスを予測する能力を汎化と呼ぶ
学習の分類
・教師あり学習
・教師なし学習
・半教師付き学習
・強化学習
最近傍法
k近傍法
第2講 パターン認識とは2
クラスタリング
k-means:教師なしクラスタリング
回帰とは
・線形重回帰分析
入出力の関係に線形関数を用い、平均2乗誤差の意味で最適なパラメータを求める手法
n個の観測値xと目標値tの訓練データ集合が与えられた時、新規の入力xの目標値tを予測すること
特徴抽出の仕組み
パターン空間→不変特徴空間→判別特徴空間→概念空間
統計的特徴抽出
実際観測されるパターンにはランダムな変形やノイズが加わり、確率・統計的な散らばりを有するため、この散らばりを吸収した認識に有利となる特徴抽出
分類における良い特徴とは?
同じクラスは近くに集める
異なるクラスは遠くに配置する
統計的に判別的な特徴を発見する手法の1つにフィッシャーの線形判別分析がある
第3講 数学的基礎
ベクトルと行列
ベクトルと行列の和と積
ノルムと直行
正規直行系と直行行列
行列式と逆行列
行列のトレース
二次形式
線形写像
射影子
一般逆行列
固有値問題
一般化固有値問題
ベクトルと行列の微分
確率統計の基礎
第4講 分類1
クラスの概念が未知か既知蚊によって認識を類別と分類に分けることができる
・k近傍法
入力パターンに近いk個のパターンを取り上げて、その中で最も多数を占めたカテゴリを入力パターンのカテゴリとする手法
長所
単縦であるが、実用的に使えるという意味でも理論面でも重要
学習の利用するパターン数が少ない時など、k近傍法であれが確実に分類器を構築可能
短所
学習パターンが膨大な時にテストパターンの識別の計算量が問題
全ての学習パターンを保持することによるストレージへの負担
決定境界・決定領域
分類器の設計
最近傍法と決定境界
k近傍法と決定境界
複雑な決定境界
事前確率と事後確率
ベイズの定理
損失関数とリスク最小化
ベイズ決定則
識別関数
多変量正規分布の仮定
二次の識別関数と線型識別関数
生成的アプローチ
尤度
最尤法
多変量正規分布における最尤法
第5講 分類2
損失関数とリスク最小化
ベイズの決定則
多変量正規分布の仮定
二次の識別関数と線形識別関数
生成的アプローチ
識別関数の直接的な学習
線形識別関数
拡張特徴ベクトル、拡張重みベクトル
各クラスごとの識別関数
多クラス分類問題
最近傍法と識別関数
線型識別器の学習
パーセプトロン
線型分離不可能な場合の線型識別関数
擬似逆行列の利用
擬似逆行列を利用した他くらす分類もんだい
擬似逆行列を用いた方法の問題点
勾配降下法
第6講 分類3
確率的勾配降下法による解
・各ステップごとに全ての訓練パターンを用いてパラメータを更新する学習方法をバッチ学習という
・一方、1つの訓練パターンが与えられるたびにパラメータを更新する逐次的な学習方法をオンライン学習という
・確率的勾配降下法はオンライン学習に利用される最適化手法であり、パターンが示されるたびに準備修正を行うアルゴリズムである
ニュートン法
ニュートン法は学習係数を指定する必要がないのが嬉しい
ヘシアンを求めるのはめんどい
ロジスティック回帰
ソフトマックス回帰の2クラスの時はロジスティック回帰である
シグモイド関数
活性化関数をシグモイド関数にしたものがロジスティック回帰で、活性化関数を符号関数にしたのがパーセプトロン
これだけの差である
交差エントロピー誤差
勾配降下法によるロジスティック回帰の学習
ニュートン法によるロジスティック回帰の学習
ソフトマックス関数
多クラス交差エントロピー誤差
ソフトマックス回帰
勾配降下法によるソフトマックス回帰の学習
ソフトマックス回帰とロジスティック回帰
パーセプトロン
単一ニューロンモデル
線型分離不可能なデータの識別
フィードフォワードニューラルネットワーク
活性化関数としてシグモイド関数のような微分可能なものを使っている
接続の重みの肩にかかるものは、接続された先のレイヤーの数
z0を入力のxとする
ネットワークの計算と表記
順伝播のアルゴリズム
活性化関数の例
ネットワーク構造の例
フィードフォワードニューラルネットワークの学習
損失関数と出力層の活性化関数の例
第7講 分類4
ニューラルネットワークの凄さは誤差逆伝播法の凄さ
表現力については、ニューラルネットワークと等価なものがある
一般識別関数は基底関数が固定だが、ニューラルネットワークは基底関数も学習しましょうという考え方
適材適所である
少数のデータなら一般識別関数を固定しても良い
区別的線型識別関数
精度(precision):正解っていった中で本当の正解のりつ
再現率(recall):全データのpositiveの中で本当にpositiveだったもの
F値:precisionとrecallはトレードオフなので、いい感じにした
accuracy:よく使われる
ROCは、パラメータを変化させていった時のカーブを想像すると意味がわかる
交差検証:x1を予測するためのデータと考えて、他のデータで訓練する
交差検証は、1つのパラメータの値に対する訓練時間がm倍かかるのが問題
交差検証法以外のより簡便なモデル選択方法としていくつかの情報量基準が提案されている
モデルを選ぶときには訓練データに対する適合度とモデルの複雑さのバランスを考えることが大切
赤池情報量基準やベイズ情報量基準がある
第8講
ヒューズの減少
次元の呪い
回帰と正則化
リッジ回帰
バイアスバリアンす分解
第9講
クラスタリングについて
うまい特徴抽出を行えば、同一クラスに属するパターンは互いに類似しているから特徴空間上でパターンはクラスごとに塊として観測される
この塊をクラスタと呼ぶ
仮定:適切な特徴抽出が行われていれば同じ特性を持つパターン同士は特徴空間上の近い位置に集まる
クラスタリングはクラスベルを利用せずに自動的にクラスタを発見する手法
・k-means
・階層的クラスタリング
・競合学習を利用したクラスタリング
階層的な構造を持つクラスタを推定する手法を階層的クラスタリングという
階層的クラスタリングには色々な方法がある
・ボトムアップ:小さなクラスターを大きなクラスターにグループか
・トップダウン:大きなクラスターを小さなクラスターに分割
一般にはボトムアップが使われる
階層的クラスタリングの概要
1、各パターンが1つのクラスタとみなす
2、最も近いペアを見つける、このペアを統合して1つのクラスタにする
これをクラスタの系統樹という
クラスタ間距離
・クラスタ間距離はクラスタリングの性能を決める重要な要素
・代表的なクラスタ間距離
重心法、最短距離法、単連結法、最長距離砲、完全連結法、群平均砲、ウォード法
競合学習を利用したクラスタリング
これまでの手法がバッチ処理なので、計算量がおかしくなりがち
混合分布
パターン分布は、ある正解クラスタから生成されたものだと考えられる
適当な初期パラメータから初めて、EステップとMステップを繰り返して逐次的にパラメータを求めるアルゴリズムをEMアルゴリズムという
確率の世界の言語を用いて色々な仕事ができる
混合ガウス分布のパラメータをEMで推定する
第10講 統計的特徴抽出
特徴空間の変換
実際のパターンは、許容しうる不規則な変形を伴っていて、また観測にはノイズが混入するために実際には理想的な点の周りの確率的な散らばりとなる
したがって実際に認識に有効な特徴はこれらの確率統計的構造に基づいてさらに抽出されることになる
線型特徴抽出 y = Utx
主成分分析(PCA)
線形空間におけるデータの分布をある基準で最もよく近似する低次元の部分空間を求める次元削減法
KL展開とも呼ばれ、特徴抽出のみならずデータ圧縮、データの可視化に利用される
平均と共分散行列
データ行列と平均偏差行列
分散最大化
ラグランジュの未定乗数法
累積寄与率
固有値問題の行列表現
白色化
線型判別分析
クラス内共分散行列
クラス間共分散行列
フィッシャーの評価基準
一般化固有値問題
線型判別分析
自己符号化器
積層自己符号化器
Fisher行列とKL Divergence
機械学習の中で、サポートベクトルマシン(SVM)は特異だと思います。
不確実性の伴うデータに対して、多くの手法が確率分布を使って対応するのに対し、SVMは最適化問題に落とし込み、決定論的にアプローチします。
不確実性のある事象に必ずしも確率論的に処理する必要のないという好例だと思います。
機械学習の数学(鈴木 大慈 氏、FD研修会「人工知能と数学」)
https://www.youtube.com/watch?v=qXjDEAdjw0s
- 関数表現理論(どれだけ難しい問題まで学習できるようになるか?)
Besov空間での近似理論
積分表現理論
グラフCNNの表現能力
- 汎化誤差理論(深層学習は過学習を避けて、うまく学習できるか?)
再生核理論による自由度解析
NTKの収束理論
モデル圧縮型汎化理論
スパース理論との融合
k-parity問題
拡散モデルの最適性
- 最適化理論とその実践(最適な重みを高速に計算機で求めることが可能か?)
並列計算による高速化
確率的加速勾配法
NTKの理論解析
無限次元勾配Langevin動力学
平均場Langevin動力学
ニューラルネットワークの損失地形