LLMのPre-Training
イリヤ・サツケヴァー | 止められない潮流 | AIの発展は不可逆的で必要不可欠
考え方としては、インターネット上のさまざまなテキストで次の単語を正確に予測するように大規模なニューラルネットワークをトレーニングすると、世界モデルを学習しているということです。表面上は、テキスト内の統計的相関関係を学習しているだけのように見えるかもしれません。しかし、テキスト内の統計的相関関係を本当によく学習し、それらを本当によく圧縮するために、ニューラルネットワークが学習しているのは、テキストを生成したプロセスの何らかの表現なのです。
このテキストは実際には世界の投影です。外には世界があり、それがこのテキストに投影されています。そしてニューラルネットワークが学習しているのは、世界の、人々の、人間の状況の、その希望や夢、動機、相互作用、そして私たちが置かれている状況のより多くの側面です。ニューラルネットワークは、それらの圧縮された抽象的で使用可能な表現を学習しています。これが次の単語を正確に予測することから学習されていることです。さらに、次の単語の予測がより正確になればなるほど、このプロセスでより高い忠実度、より高い解像度が得られます。
これが事前学習段階で行われることですが、これだけでは、私たちがニューラルネットワークに示してほしい望ましい行動を指定することはできません。言語モデルが本当に試みているのは、次のような質問に答えることです:「インターネット上のランダムなテキストの一部が、あるプレフィックス、あるプロンプトで始まっている場合、それはどのように完成するか?」インターネット上のテキストにランダムに遭遇した場合、どのように続くかということです。
しかし、これは「真実を語り、役立ち、特定のルールに従い、それらを違反しない助手が欲しい」という要望とは異なります。これには追加のトレーニングが必要です。ここで、人間の教師からのファインチューニングと強化学習、そして他の形のAI支援が必要となります。人間の教師からの強化学習だけでなく、人間とAIの協力からの強化学習もあります。私たちの教師はAIと協力して、AIの振る舞いを教えています。
ここでは新しい知識を教えているのではありません。私たちが望むものを伝えているのです。この第2段階のプロセスも非常に重要です。第2段階をより良く行えば行うほど、このニューラルネットワークはより有用で、より信頼できるものになります。
大規模言語モデルと in-context-learningの構成
大規模言語モデルは文脈を読んで次のトークンを予測するという問題を解く機械学習モデルである
大規模言語モデルは文脈に応じて適応的に予測分布を変化させる
文脈中に与えられた入出力対から帰納的に予測を適応させる能力をIn-context学習という
自己注意機構が文脈の処理を担っている
大規模言語モデルは自己回帰モデルがよく用いられる
ランダムに与えられる予測タスクを解く方法自体を学習するという問題はメタ学習と呼ばれている
文脈中に含まれる入出力対を用いてその場で予測モデルを作って学習を行うというプロセスが明示的にモデル化されているわけではないのに、IN-context学習の能力があるということはnext token predictionがin-context学習タスクを黙秘的に含んでいる
モデルは単一の予測問題が解けれ良いのではなく、in-contextデータが定める分布をその場で推測して、テストデータに対する予測分布を適応的に変化させる
線形注意機構
大規模言語モデルで用いられる注意機構によって、単純化された回帰問題のIn-context learningが表現できる
線形注意機構を用いることで、最小二乗回帰の勾配法がシミュレートでき、ソフトマックス注意機構を用いることでIn-contextなカーネル平滑化による予測が実現できる