Phi-3
実際に試した感じでは少し外れたタスクでは性能が急激に劣化したり出力が壊れやすいように思う。Llama3 8Bなどではそういうことはなかった。モデルが小さいので学習データ設計時にかなり狙った(ベンチマーク等の)タスクに集中し、そこに記憶容量をわりあてているためと思われる。
とはいえ、同じ性能を達成するモデルサイズが毎年数分の一のペースで小さくなっているのは驚異的。予想されていたように、より強い生成モデルを持つところがデータ作成にも競争力を持ち、強いモデルを作るという循環がおきつつあるarxiv.org