Stanford CS229: Machine Learning
https://scrapbox.io/files/64532210ec5b89fcd3c41198.png
https://youtu.be/p7hEoWv7pp4
パラメータの更新方法に納得いってなかったが、勾配ベクトルを分かっていないだけだったNaa_tsure.icon メインはロジスティク回帰の話
回帰直線に正規分布のノイズを加えたものは確率で捉えることが出来る
これの尤度を最大化しようと計算をしていくと、結局最小二乗法とやってることが同じになる
IID
Independently and Identically Distributed の意
同一の確率分布に従う確率変数たちは互いに独立しているということ
ロジスティク回帰の尤度を計算するときになんでY=1とY=0の場合を考えるの??Naa_tsure.icon
本編51:00-
そもそも尤度を計算するのはパラメータを決定するため
パラメータを決定するには当てはまりの良さを評価してあげればよい
今回であれば、Y=0の時に0、Y=1の時に1である確率が高くなるようなパラメータが良い
そのため、Y=0のときはh(x)を、Y=1のときは1-h(x)を計算に使うのが妥当
これを同時に数式でで表現するために$ P(y|x;Θ)=h(x)^y(1-h(x))^{1-y}としている