LLM
深層学習では実験利用データが2年ごとに100倍になっている 消費電力=コストは2年ごとに数十倍
金で殴れば性能が上がる。なら金を出すだけでいい
スケールを超えると単語予測ではない能力が発現する 創発
分布外汎化能力
専門家の平均を超える
生成AIへの金の流入
活用
Stack overflowはアクセス半減
宿題お手伝いサービスCheggはユーザー流入7%減
Textbooks are All You Need
2030年に低品質テキストデータが枯渇
2040年に画像データが枯渇
人類絶滅のリスク
翻訳先の文章生成のためにつくられた
目的関数は次のトークンの生成確率
次の単語の発生分布を近似する
GPT-4の学習トークン数は13T
データセットの前処理
これで結構変わるのではないかな?基素.icon
地道で大変な作業
1文字が3トークンになってしまう
UTF-8のバイト列3つ
すべての言語の語彙を多様にもつLLMは難しい
数万語の語彙リストを事前に与えて作る
A100クラスターはMetaが世界一、次点でTesla
パラメータ数の20倍のデータが必要
Chinchilla則
「LLM、黎明期なのでわからんことが多い。でもその時期から日本が活用・開発についていけている。”今回は”。」
味わい深い。