確率モデル
パラメトリックモデルとノンパラメトリックモデル
学習データの分布を表現する方法が大きく分けて2つあります。以下、その内容です。
パラメトリックモデル
学習データから推定した統計量(パラメータ)を用いて構成した確率モデルで分布を表現する
代表的な手法に、二項分布や多項分布やポアソン分布など(確率変数が離散的な値をとるもの)と、一様分布や指数分布、正規分布など(連続的な値をとるもの)がある
ノンパラメトリックモデル
特定の確率モデルを仮定せず、学習データそのものを用いてデータの分布を表現する
代表的な手法に、ヒストグラム法、k-最近傍法(kNN法)、パルツェン(Parzen)密度推定法などがある
正規分布関数の性質
正規分布は確率モデル(パラメトリックモデル)の代表例です。次のような性質があります。
多くの観測データが正規分布に従う
正規分布と仮定することにより、解析的な解を得ることができる場合が数多くある
データが正規分布をしていなくても、データの平均(標準平均)の分布は正規分布になる(これを中心極限定理という)
確率分布が平均値と共分散の二つのパラメータで決まる
正規分布をしているデータの線形変換で得られる分布は、再び正規分布になる
正規分布をする複数の確率変数の線形和は、正規分布となる(この性質を再生性という)
正規分布の周辺分布も正規分布となる
正規分布に限り、無相関であることと統計的に独立であることが等価である → したがって、共分散行列を対角化でき、統計的に独立な要素に分解できる
1次元正規分布関数は、$ N(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x - \mu)^2}{2\sigma^2})で定義される
正規分布の形を決めるパラメータは、平均値$ \muと分散$ \sigma^2である
平均が異なると横に平行移動し、標準偏差が大きくなると分布の形がつぶれて横に広がる
https://gyazo.com/b5b1e93cf2b501337f5bdb62a2fcc016
確率変数が$ d個の要素を持つベクトルで与えられる場合、$ d次元の多次元正規分布関数となり、次で定義される$ N(x|\mu, \Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu))「$ \muは平均ベクトル, $ \Sigmaは共分散行列」
多次元正規分布の指数部は、任意の点$ xと平均ベクトル$ \muとの間の距離$ d(x, \mu) = \sqrt{(x - \mu)^T\Sigma^{-1}(x - \mu)}を表している(これをマハラノビス距離という)→ ユークリッド距離を共分散行列で割り算しているので、分布の広がり方を考慮に入れた距離となっている
平均ベクトル(楕円の中心位置)からのマハラノビス距離が同じでも、分布の広がりが大きな方向の点までのユークリッド距離は、小さな方向の点までのユークリッド距離より大きくなる
一般に、多次元正規分布関数の等確率局面はラグビーボール状になり、分布の形状は共分散行列で決まる
https://gyazo.com/3abe4879a24e13c4cf068fbecb83e5df
正規分布から導かれる識別関数
$ i番目のクラスのクラス条件付き確率が次の正規分布をしていると仮定します。
$ P(x|C_i) = \frac{1}{(2\pi)^{d/2}|\Sigma_i|^{1/2}}exp(-\frac{1}{2}(x - \mu_i)^T\Sigma_i^{-1}(x - \mu_i))
ベイズの誤り率最小識別規則を満たす識別関数を求めます。クラスの事前確率を$ P(C_i)とすれば、事後確率は次のように書けます。$ p(x)はすべてのクラスに共通に現れるので省略可能です。
$ P(C_i|x) = \frac{p(x|C_i)P(C_i)}{p(x)} = \frac{P(C_i)}{(2\pi)^{d/2}|\Sigma_i|^{1/2}}exp(-\frac{1}{2}(x - \mu_i)^T\Sigma_i^{-1}(x - \mu_i))
この最後の式の対数をとれば次のようになります。
$ lnP(C_i) - \frac{d}{2}ln(2\pi) - \frac{1}{2}ln|\Sigma_i| - \frac{1}{2}(x - \mu_i)^T\Sigma^{-1}_i(x - \mu_i)
各クラスに共通に現れる項を省略し、符号を反転させれば、$ i番目のクラスの事後確率から導かれる評価値は次のようになります。
$ g_i(x) = (x - \mu_i)^T\Sigma^{-1}_i(x - \mu_i) + ln|\Sigma_i| - 2lnP(C_i)
識別クラスとしてこの値のもっとも小さなクラスを選択すれば、誤り最小基準のベイズの識別規則が得られます。
識別クラス$ = argmin(g_i(x))
クラス間の識別境界は、2クラスの事後確率が等しくなる点の軌跡となります。クラス$ iと$ jの識別境界は次のようになり、2次曲面となります。
$ f_{ij}(x) = g_i(x) - g_j(x)
$ = (x - \mu_i)^T\Sigma^{-1}_i(x - \mu_i) + ln|\Sigma_i| - 2lnP(C_i) - (x - \mu_j)^T\Sigma^{-1}_j(x - \mu_j) + ln|\Sigma_j| - 2lnP(C_j)
$ = x^T(\Sigma^{-1}_i - \Sigma^{-1}_j)x + 2(\mu^T_j\Sigma^{-1}_j - \mu^T_i\Sigma^{-1}_i)x + \mu_i^T\Sigma^{-1}_i\mu_i - \mu^T_j\Sigma^{-1}_j\mu_i + ln\frac{|\Sigma_i|}{|\Sigma_j|} - 2ln\frac{P(C_i)}{P(C_j)}
$ = x^TSx + 2c^Tx + F = 0
識別境界の両側で$ f_{ij}(x)はそれぞれ政府の値をとるので、関数値によってクラスを識別することができます。これを2次識別関数といいます。2クラスの共分散行列が等しい場合、すなわち、$ \Sigma_i = \Sigma_j = \Sigmaが成り立っている場合は行列$ S = 0になるので、識別境界は、次のように表され、線形識別関数になります。
$ f_{ij}(x) = g_i(x) - g_j(x) = 2c^Tx + F = 0