Chinchilla
https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training
An empirical analysis of compute-optimal large language model training
https://www.marktechpost.com/2023/02/22/top-large-language-models-llms-in-2023-from-openai-google-ai-deepmind-anthropic-baidu-huawei-meta-ai-ai21-labs-lg-ai-research-and-nvidia/
Chinchillaは
Gopher
と同じ計算機予算を使い、700億のパラメータと4倍のデータを使うだけ。Gopher、
GPT-3
、
Jurassic-1
、
Megatron-Turing NLG
などのモデルを、多くの下流評価タスクで凌駕しています。また、微調整や推論に使用する計算量が大幅に削減され、下流での利用が非常に容易になりました。
LLM