LLMにおけるアルファベットの意味 - TOMIOKARIO

LLMにおけるアルファベットの意味

モデル規模

M：パラメータ数を百万単位で表す

135M：約1億3500万個のパラメータを持つ

B：パラメータ数を十億単位で表す

7B：約70億個のパラメータを持つ

数字が大きいほど、一般にモデルは大きい

モデル構造

x：MoEにおけるExpert の数

8x7B：7Bの専門モデルを8 個持つ構造

A：Active parameters

32B-A3B：全体が32Bのモデルで，推論時に3Bのみ有効化

E：PLE（Per-Layer Embeddings）構造による実質負荷

各レイヤ用に埋め込み表があるが，主に参照（lookup）用途のため，演算やメモリの負担になりにくい

Gemma E2B：2Bよりも大きいが，工夫により計算機負荷は実質的に2B相当

学習後の調整方法：追加学習の表記

SFT：Supervised Fine-Tuning

人が用意した「入力と望ましい出力」の組を使って追加学習する方法

何を聞かれたらどう答えるかを、例を通じて覚えさせる

RLHF：Reinforcement Learning from Human Feedback

人の評価をもとに望ましい答え方へ調整する方法

「どの答えがよりよいか」という人間の選好を反映する

DPO：Direct Preference Optimization

人の好みデータから、より好まれる出力を直接学習する方法

RLHF と同様に選好を使うが、学習の組み方が異なる

想定用途

base：事前学習のみを終えた元のモデル

対話用の追加調整はされていない

Instruct：指示に従う用途向けに調整したモデル

要約、分類、変換などの指示に答えやすい

chat：会話向けに調整したモデル

対話の受け答えがしやすいように整えられている

軽量化

Quantization（量子化）：パラメータを少ないビット数で表して、メモリ使用量や計算負荷を下げる方法

int8：8ビット量子化

4-bit / q4：4ビット量子化

Q：量子化のビット幅

例：Q2 / Q3 / Q4 / Q5 / Q6 / Q8

数字が小さいほど軽い

K：特殊な量子化方式（K-Quant法）により大きさ（S/M/L）ごとに適切に調整されたモデル

計算精度

fp32：32ビット浮動小数点

fp16 / f16：16ビット浮動小数点

bf16：16ビットのbfloat型

学習量

T tokens：学習に使ったトークン量を兆単位で表す

15T tokens：約15兆トークンで学習されたモデル