『ゼロから作る Deep Learning』
#書籍
p155
「ソフトマックス関数」の損失関数として「交差エントロピー誤差」を用いると、 逆伝播が(y1 − t1, y2 − t2, y3 − t3)という“キレイ”な結果になりました。 実は、そのような“キレイ”な結果は偶然ではなく、そうなるように交差エント ロピー誤差という関数が設計されたのです。また、回帰問題では出力層に「恒等関数」を用い、損失関数として「2乗和誤差」を用いますが(「3.5 出力層の 設計」参照)、これも同様の理由によります。つまり、「恒等関数」の損失関数 として「2 乗和誤差」を用いると、逆伝播が(y1 − t1, y2 − t2, y3 − t3)という“キレイ”な結果になるのです。
p185
重みの初期値に関して:
活性化関数にReLUを使う場合は「Heの初期値」、sigmoid や tanh などの S 字カーブのときは「Xavier の初期値」を使う――これが現時点でのベストプラクティスということになります。
p189
Batch Normalizationについて:
Batch Norm を使用することで、学習の進行を促進させる ことができ、また、重みの初期値にロバストになります(「初期値にロバスト」とは、初期値にそれほど依存しない、ということを表します)
p195
Dropout は、ニューロンをランダムに消去しながら学習する手法です。訓練時に隠れ層のニューロンをランダムに選び出し、その選び出したニューロンを消去します。
p199
訓練データは、パラメータ(重みやバイアス)の学習に利用します。検証データは、ハイパーパラメータの性能を評価するために利用します。テストデータは汎化性能をチェックするために、最後に(理想的には一度だけ)利用します