LLMにおけるアルファベットの意味
モデル規模
M:パラメータ数を百万単位で表す
135M:約1億3500万個のパラメータを持つ
B:パラメータ数を十億単位で表す
7B:約70億個のパラメータを持つ
数字が大きいほど、一般にモデルは大きい
モデル構造
8x7B:7Bの専門モデルを8 個持つ構造
A:Active parameters
32B-A3B:全体が32Bのモデルで,推論時に3Bのみ有効化
E:PLE(Per-Layer Embeddings)構造による実質負荷 各レイヤ用に埋め込み表があるが,主に参照(lookup)用途のため,演算やメモリの負担になりにくい
Gemma E2B:2Bよりも大きいが,工夫により計算機負荷は実質的に2B相当
学習後の調整方法:追加学習の表記
SFT:Supervised Fine-Tuning
人が用意した「入力と望ましい出力」の組を使って追加学習する方法
何を聞かれたらどう答えるかを、例を通じて覚えさせる
RLHF:Reinforcement Learning from Human Feedback
人の評価をもとに望ましい答え方へ調整する方法
「どの答えがよりよいか」という人間の選好を反映する
DPO:Direct Preference Optimization
人の好みデータから、より好まれる出力を直接学習する方法
RLHF と同様に選好を使うが、学習の組み方が異なる
想定用途
base:事前学習のみを終えた元のモデル
対話用の追加調整はされていない
Instruct:指示に従う用途向けに調整したモデル
要約、分類、変換などの指示に答えやすい
chat:会話向けに調整したモデル
対話の受け答えがしやすいように整えられている
軽量化
Quantization(量子化):パラメータを少ないビット数で表して、メモリ使用量や計算負荷を下げる方法
int8:8ビット量子化
4-bit / q4:4ビット量子化
Q:量子化のビット幅
例:Q2 / Q3 / Q4 / Q5 / Q6 / Q8
数字が小さいほど軽い
K:特殊な量子化方式(K-Quant法)により大きさ(S/M/L)ごとに適切に調整されたモデル
計算精度
fp32:32ビット浮動小数点
fp16 / f16:16ビット浮動小数点
bf16:16ビットのbfloat型
学習量
T tokens:学習に使ったトークン量を兆単位で表す
15T tokens:約15兆トークンで学習されたモデル