LLMの物理学
モチベーション:過去から未来までLLMに共通する普遍的な法則を掴みたい
ベンチマークをカンニングしてる可能性をなくしたい
データ汚染は問題の一部に過ぎません。モデルAがGSM8kベンチマークでモデルBを上回った場合、それはAが英語理解力に優れているのか、それとも数学的能力が高いからなのでしょうか?例えば、LLaMA2-70Bは世界知識ベンチマークで63.6%のスコアを記録しているのに対し、LLaMA2-7Bは48.9%のスコアしか得られていません。 モデルサイズを10倍に拡張しても、知識容量の向上はわずか30%程度なのでしょうか?
特殊な処理を組み込めばベンチマークの結果は上がるが、それはその対象に対して深い理解を示すというわけでは必ずしもない
制御化された訓練
繰り返し多数の小規模モデルに多様な条件で実施
Part1
https://youtu.be/kf_eGgVtOcs