ChatGPTを動かすGPT-3のような大規模言語モデル(LLMs)の発展は、自然言語処理(NLP)におけるTransformerと呼ばれるモデルの登場によって加速した。Googleとトロント大学の研究者たちが、『Attention is all you need(注視機構だけあればいい)』と題した論文で、BERTと呼ばれる言語モデルが使用する斬新なアーキテクチャを提案したことだ。自己注視機構により系列データを一括処理するTransformerは、畳み込みニューラルネットワークなど従来型モデルの性能を超えるものだった。