Cerebras-GPT
Cerebras-GPTファミリーは、オープンなアーキテクチャとデータセットを用いたLLMのスケーリング法則の研究を促進し、CerebrasソフトウェアとハードウェアスタックでLLMをトレーニングすることの簡便性とスケーラビリティを実証するためにリリースされました。Cerebras-GPTの全モデルは、Hugging Faceで利用可能です。
ファミリーは、111M、256M、590M、1.3B、2.7B、6.7B、13Bのモデルがあります。
Cerebras-GPTファミリーのすべてのモデルは、計算機最適化であるChinchillaスケーリング法則(モデルパラメータあたり20トークン)に従って学習されています。 https://gyazo.com/87844cdc45afc91e32bd0471b2e712cb