『ゼロから作る Deep Learning』
p155
「ソフトマックス関数」の損失関数として「交差エントロピー誤差」を用いると、 逆伝播が(y1 − t1, y2 − t2, y3 − t3)という“キレイ”な結果になりました。 実は、そのような“キレイ”な結果は偶然ではなく、そうなるように交差エント ロピー誤差という関数が設計されたのです。また、回帰問題では出力層に「恒等関数」を用い、損失関数として「2乗和誤差」を用いますが(「3.5 出力層の 設計」参照)、これも同様の理由によります。つまり、「恒等関数」の損失関数 として「2 乗和誤差」を用いると、逆伝播が(y1 − t1, y2 − t2, y3 − t3)という“キレイ”な結果になるのです。 p185
重みの初期値に関して:
p189
Batch Norm を使用することで、学習の進行を促進させる ことができ、また、重みの初期値にロバストになります(「初期値にロバスト」とは、初期値にそれほど依存しない、ということを表します) p195
Dropout は、ニューロンをランダムに消去しながら学習する手法です。訓練時に隠れ層のニューロンをランダムに選び出し、その選び出したニューロンを消去します。 p199