Transformer
2017年にGoogleを中心に発表された論文で提案された手法.
単語と単語の関係性を,単語の位置を考慮して広範囲にわたって学習することで文脈やニュアンスを考慮した単語の意味を取り扱うことができ,また学習の効率も向上した.
Transformerに基づいたLLMの性能はリソースやデータ量の制約さえなければパラメータの個数を多くするほど性能向上するとしている.
GPT-2では15億,GPT-3では1750億,GPT-4では1兆を超える規模であるとしている.
規模が大きくなるとプログラムの生成機能など意図しない能力を獲得するという報告がある.
エンコーダとデコーダをRNNの代わりにSelf-Attentionという機構を採用している.
RNNに比べて並列計算がしやすく学習が高速.