LLM - 基素基

LLM

https://speakerdeck.com/pfn/llmnoxian-zai

深層学習では実験利用データが2年ごとに100倍になっている

消費電力=コストは2年ごとに数十倍

Scalling lawが判明し、資源投入が加速

金で殴れば性能が上がる。なら金を出すだけでいい

スケールを超えると単語予測ではない能力が発現する創発

分布外汎化能力

AIの弱点は外挿を覆す？

専門家の平均を超える

MMLUでGeminiが超えた

生成AIへの金の流入

活用

Stack overflowはアクセス半減

宿題お手伝いサービスCheggはユーザー流入7%減

Textbooks are All You Need

LLMに食わせるデータがもうない

2030年に低品質テキストデータが枯渇

2040年に画像データが枯渇

人類絶滅のリスク

Transformerのdecoderに似ている構造

翻訳先の文章生成のためにつくられた

目的関数は次のトークンの生成確率

次の単語の発生分布を近似する

GPT-4の学習トークン数は13T

データセットの前処理

これで結構変わるのではないかな？基素.icon

地道で大変な作業

1文字が3トークンになってしまう

UTF-8のバイト列3つ

すべての言語の語彙を多様にもつLLMは難しい

数万語の語彙リストを事前に与えて作る

学習はGPUで律速する

A100クラスターはMetaが世界一、次点でTesla

パラメータ数の20倍のデータが必要

Chinchilla則

@mnishi41: 東大松尾先生

「LLM、黎明期なのでわからんことが多い。でもその時期から日本が活用・開発についていけている。”今回は”。」

味わい深い。