Attention is all you need

public.icon

ChatGPTを動かすGPT-3のような大規模言語モデル（LLMs）の発展は、自然言語処理（NLP）におけるTransformerと呼ばれるモデルの登場によって加速した。Googleとトロント大学の研究者たちが、『Attention is all you need（注視機構だけあればいい）』と題した論文で、BERTと呼ばれる言語モデルが使用する斬新なアーキテクチャを提案したことだ。自己注視機構により系列データを一括処理するTransformerは、畳み込みニューラルネットワークなど従来型モデルの性能を超えるものだった。

大規模言語モデル(LLM)の快進撃

Attention(Deep learning)