創発について2
ここまで聞いても納得しない読者も多いんじゃないかと思います。
でもどうして「次単語予測モデル」に過ぎなかったLLMがそんな複雑なタスクをこなせるの?と
この感想はやや機械学習畑によりましたかね。機械学習といえば学習した範囲内でタスクをこなすのが得意なので、どうしても次単語予測以上のタスクを次単語予測モデルがするっていうイメージがわかないんですよね。
実は創発のメカニズムはまだ解明されていません。でも、ヒントならあります。
今のLLMのベースとなる技術はTransformerと呼ばれるもので、これは元々機械翻訳の文脈から出てきました。 文章からいきなり別言語に翻訳するのではなくて、意味空間に置き換えてから(これをエンコードと呼びます)別言語の文章を生成しよう(生成のことをデコードといいます)という発想です。このモデルのことをseq2seqといったりします。シーケンスデータからシーケンスデータへの変換という意味です。
この意味空間を大規模言語モデルに応用したのでした。でもやってることはやはり同じで、次単語の予測です。
これは、人類がブラックホールで発電するようになっても、結局やってることはタービンを回すだけ、に似てるかもしれませんね。
でも、なぜ創発という現象が発生するのでしょうか。ひょっとしたらそのヒントは「文章を一度意味空間に変換する」というプロセスに秘密があるのかもしれません。