『ゼロから作る Deep Learning』

p155

「ソフトマックス関数」の損失関数として「交差エントロピー誤差」を用いると、逆伝播が(y1 − t1, y2 − t2, y3 − t3)という“キレイ”な結果になりました。実は、そのような“キレイ”な結果は偶然ではなく、そうなるように交差エントロピー誤差という関数が設計されたのです。また、回帰問題では出力層に「恒等関数」を用い、損失関数として「2乗和誤差」を用いますが（「3.5 出力層の設計」参照）、これも同様の理由によります。つまり、「恒等関数」の損失関数として「2 乗和誤差」を用いると、逆伝播が(y1 − t1, y2 − t2, y3 − t3)という“キレイ”な結果になるのです。

p185

重みの初期値に関して:

活性化関数にReLUを使う場合は「Heの初期値」、sigmoid や tanh などの S 字カーブのときは「Xavier の初期値」を使う――これが現時点でのベストプラクティスということになります。

p189

Batch Normalizationについて:

Batch Norm を使用することで、学習の進行を促進させることができ、また、重みの初期値にロバストになります（「初期値にロバスト」とは、初期値にそれほど依存しない、ということを表します）

p195

Dropout は、ニューロンをランダムに消去しながら学習する手法です。訓練時に隠れ層のニューロンをランダムに選び出し、その選び出したニューロンを消去します。

p199

訓練データは、パラメータ（重みやバイアス）の学習に利用します。検証データは、ハイパーパラメータの性能を評価するために利用します。テストデータは汎化性能をチェックするために、最後に（理想的には一度だけ）利用します