LLaMA
LLaMAは、パラメータの数の異なる4つのサイズ(7B、13B、33B、65B)で提供する。
(Large Language Model Meta AI), a state-of-the-art foundational large language model designed to help researchers advance their work in this subfield of AI.
AI研究者の文献漁り向け?基素.icon
Smaller, more performant models such as LLaMA enable others in the research community who don’t have access to large amounts of infrastructure to study these models, further democratizing access in this important, fast-changing field
ご家庭のPCでも動かせそうな書き方基素.icon
英語版CCNet、C4、GitHub、Wikipedia、Books、ArXiv、Stack Exchangeなどが、LLaMAの学習に使われたデータソースにあたります。
オープンソース(非商用ライセンス)にするためにデータの拾い先を絞っている table:llama
model VRAM GPU
3B 10GB 3060/3080/3090
13B 20GB 3090ti/4090
33B 30GB GV100
65B 40GB A6000/A100
識者解説
それと、たぶん日本語はあまり使えない(C4からは非英語データが除外されていて、採用されたwikipediaデータセットの20の言語に入っていない)。ただMETA AI(FAIR)の論文の例に漏れず知見が細かく書かれているので最高。
decoder-onlyのTransformerアーキテクチャであり、PaLMのようにReLUをSwiGLUに置き換えている。またGPT-NeoXのように位置埋め込みにRoPEを使っている。学習の最適化にxformersを用いていてmemory_efficient_attentionは画像生成界隈にとっては馴染み深い
Googleフォームから申請 or Torrentでダウンロードできる 論文か書籍をpublishしてないと応募する権利がなさそう基素.icon
magnet:?xt=urn:btih:b8287ebfa04f879b048d4d4404108cf3e8014352&dn=LLaMA
magnet:?xt=urn:btih:ZXXDAUWYLRUXXBHUYEMS6Q5CE5WA3LVA&dn=LLaMA