尤度
https://www.youtube.com/watch?v=pYxNSUDSFH4
likelyhood
あるデータが与えられている。
そのデータは、ある特定の確率分布から発生したと考える。
確率分布関数の式で、確率変数のところにはデータの値が入って値になる、パラメータだけが変数で残る。
実質、パラメータを変数とする関数のようになる。これが尤度関数?でよい。
(この尤度関数を対数にして, 複数データであれば、それぞれが独立して起きたとして積を取り)最大化問題をパラメータについて解くのが、最尤法 確率変数・関数による値の集合が確率分布を作るのに対し、
尤度は、パラメータによる、その確率関数(?ここがうまく、わかってない)による想定される値の集合になる。
結果、その値の和は1にはならない。
が、その値->尤度を最大にするパラメータのポイント・最大尤度は、よい推定量になる。が...AIC @201906
データ空間とパラメータ空間
誤解含みのショートカット思考では、パラメータを変数とした時の、その?データが得られる確率(的な評価)、くらいに思っておけばよい。
本質的?には、情報量から出てくる対数尤度という量?という考え方のがより筋道が良い?
日常的なイメージとも合う? 二項分布、正規分布などは、割り算?がそのまま尤度最大でのパラメータが合致するので。
ただ、(対数)尤度そのものは, 大量の数の確率分布関数の積になるので、数字そのものは日常のイメージからずれる。
対数尤度も、マイナスで、 -100( exp(-100) )とか言われても、ピンとはこない。
#20180120 > 尤度最大を求めてるのか、そのパラメータの積分値(これはないか..)を求めているのかで、混乱しないように。 $ L(\Theta|O) ...... P(O|\Theta)
Lがlikelihood, Pがprobability
ベイズ推定の場合、thetaも最終的に確率分布 $ P(\Theta) に収まる必要がある。
予測の時、すなわち、Oが yとXと分かれて、Xの時のyを推定する場合、Xの時のyの確率分布を求める必要がある。
概念把握に時間かかるので、いろんな人が説明してるけど、まずは以下がいいのかも。
尤度とは,確率とそっくりです。しかし,考え方が違います
確率は成功率を固定した状態で,成功数がいろいろ変化していました。....確率を足すと1になりました。
一方,尤度は「成功数を固定して,成功率が変化する」ということを考えるのです
尤度と確率の大きな違いは,尤度は総和が1にならないということです。
そっくりとは.... (質量or密度)確率関数としては同じ。関心を持つ変数が違う。
英語で, likelihood
日本語?で、尤もらしい。だとすると、確率は、確からしいか??
尤もらしいと確からしいは何が違うのか?
英語でも、chance, probability, likelihoodがあり、
TOPの回答が、離散と連続で違うとか、、それだけで、微妙なことが伺える。
outcome(s)という単語は概念整理に役立つ。
蓋然性という単語もみた。
さっき、風呂の中で思ったのは、
元々、確率分布関数(probability density|mass function)は、P、確率を求める関数だけど、
その変数はというと、確率変数がある。これは通常、測定値。
ただ、数式的には、他にも変数がある、それはその確率関数(モデル)のパラメータ。
なので、確率(応答変数), (確率)変数, パラメータの3つあり、それを(通常) 2つの数の対応でかんがえて、
確率変数ならprobability, パラメータならlikeihood(尤度)
関心(最終的に知りたい)が、観測値のような確率変数なのか、モデルのパラメータなのかで違うと。
ただ、尤度が条件付き確率(尤度が条件で、その確率変数がその値で観測された場合の確率)かどうか?と聞かれると、よくわからない。 #やっぱりわかってない 参考
P(A|B) (the conditional probability of A given B) と読めばよい 条件付き確率の際は。