Emergent Abilities of Large Language Models
https://arxiv.org/abs/2206.07682
Figure 2
(A)は剰余演算。10の22乗のパラメタサイズを超えたら急に解けるようになった