ML バッチサイズとモデルの学習
バッチサイズが大きすぎると accuracy が下がる問題がある。
レイヤーごとの重みノルムと、gradient update のノルムの日が問題になる。
バッチサイズが大きすぎると学習が不安定になる。(パラメータ更新の数が減る)
バッチサイズが小さすぎると学習が停滞する(局所解に陥りやすくなる。バッチのスコアの分散が大きくなる)
これらの問題は、learning_rate のスケジューリングによって解決する場合もある
参考
https://arxiv.org/abs/1708.03888
https://www.guruguru.science/competitions/17/discussions/2e259061-83ce-4c1e-880d-02ee07518ded/
https://qiita.com/koki1026/items/672a1708627393ecc314