Transformer
2017年
に
Google
を中心に発表された
論文
で提案された手法.
単語
と
単語
の関係性を,
単語
の位置を考慮して広範囲にわたって
学習
することで
文脈
や
ニュアンス
を考慮した
単語
の意味を取り扱うことができ,また
学習
の効率も向上した.
Transformer
に基づいた
LLM
の性能は
リソース
や
データ
量の制約さえなければ
パラメータ
の個数を多くするほど性能向上するとしている.
GPT-2
では15億,
GPT-3
では1750億,
GPT-4
では1兆を超える規模であるとしている.
規模が大きくなると
プログラム
の生成機能など意図しない能力を獲得するという報告がある.
エンコーダ
と
デコーダ
を
RNN
の代わりに
Self-Attention
という機構を採用している.
RNN
に比べて
並列計算
がしやすく
学習
が高速
.