大規模言語モデルとは
さて話をChatGPTに移す前に大規模言語モデルについて触れておきましょう。
大規模言語モデルを一言で説明するなら、言葉がしゃべれるAIです。
言葉がしゃべれるといっても内部的には大したことをやってるわけではありません。ある文章を読んでその文章の次に来る単語を予測するのです。細かいことを言えばここで確率モデルを使ってるのですが、この記事を理解するのにそこまでの理解は必要ないでしょう。大規模言語モデルといえば次の単語を予測する、ということだけ覚えておいてください。
たとえばこういうことです。
「私は○○に行きます」という文章が与えられたとき、◯◯に入る単語を大規模言語モデルは予測します。
この場合公園だったり学校だったりするでしょう。
ChatGPTがやってるのもこれと全く同じことで、この場合だと「私は公園に◯◯」を入力とした場合◯◯に来る文章を確率的に生成しているだけです。
でも、どうしてその単純なモデルが複雑なタスクをこなすことが出来るんでしょうか。それを次に見て行きます。