How Do Large Language Models Acquire Factual Knowledge During Pretraining?
事前学習中にどのように事実知識を獲得しているかの実験
架空の知識を注入して確認する
知識獲得は各バッチでの小さな確率の増加が累積することでおきる、学習と同時に忘却も進行する
バッチごとに覚えて忘れていく図
https://gyazo.com/f42a3b298a420e56e4b55a2f20d5b784
上から
同じ知識を10回注入
パラフレーズした知識を10回注入
1回のみ注入
ロングテール知識: 学習データに稀にしか出てこない知識
学習可能性閾値
logprob の変化から獲得した知識が失われるまでの推定トークン数が分かる
事実知識が学習データ中に現れる間隔が、それより長ければ学習できない(蓄積前に忘却される)
データ重複除去
同じテキストを繰り返し見せると、記憶化の対数確率は大きく上昇する
しかし、意味的一般化・構成的一般化の忘却速度がより速くなる
Duplicationシナリオの減衰定数: 記憶化=0.25、意味的=0.25、構成的=0.20
パラフレーズデータ(paraphrase)の利点:
同じ知識を異なる表現で学習させる
一般化の忘却速度が遅くなる
Paraphraseシナリオの減衰定数: 記憶化=0.21、意味的=0.23、構成的=0.15