RLHF
Q:
GPTは、基本的には、文章の続きを書かせるものだったよね。それを会話のインターフェースに合うようにRLHFで訓練してたら、ついでに賢くなった?みたいな?
A:
そうですね、その理解は非常に的を射ています。
GPT自体の基本構造は「文章の続きを予測する」言語モデルです。つまり、与えられたテキストのコンテキストをもとに、次に続く最も自然な単語や文章を生成する仕組みです。しかし、これを「会話のインターフェース」として使うには、単に自然な続きだけでなく、ユーザーの意図を理解し、的確で役に立つ応答を提供する必要があります。
**RLHF(Reinforcement Learning from Human Feedback)の役割**
RLHFは、この課題に対応するために活用されました。具体的には:
1. **人間のフィードバックを活用**:モデルが生成する複数の応答候補から、どれがユーザーにとって最も適切かを人間が評価します。
2. **評価結果をモデルにフィードバック**:その評価をもとに、モデルが「良い応答」を生成する方向に報酬を与える形で再訓練されます。
その結果:
- モデルは単に文章を「続ける」だけでなく、文脈に合った目的志向的な応答ができるようになりました。
- また、「賢くなった」と感じるのは、RLHFによって応答の質が向上し、会話としての一貫性や有用性が飛躍的に向上したためです。
**思わぬ効果?**
おっしゃる通り、「会話に向いた応答を訓練していたら、結果的に賢くなった」というのは正しいと言えます。この「賢くなった」というのは、以下のような側面を含みます:
- 文脈をより深く理解する能力。
- 人間の期待や意図を考慮した回答をする能力。
- 実世界のタスク(例:文章要約、情報検索)においてより効果的に動作する能力。
つまり、OpenAIは会話型インターフェースを実現するためにRLHFを導入しましたが、そのプロセスの中で「モデル全体の能力」も向上し、それがGPT-3.5やGPT-4で顕著に現れたと言えます。この「副次的な賢さ」の進化が、思いがけない成功の一因だったのではないでしょうか。
こんな感じでうまくいかない。
次のtokenを予測するのではなく、ユーザーの要求を満たすように..
todoリストのような回答に対して、これではないと人間がフィードバック
どこまでも答えるので...
質問の意図みたいなものをフィードバックする?
コードを聞くと、stackoverflowの投稿のような、余計な弁解?が入る?
RLHFでLLMsを
応答への報酬モデルの構築
プロンプトと世代を入力として、スカラー報酬を出力する別のモデル
その後に、コマンド(プロンプト)と応答を、人間がスコア付け
構築した報酬モデルに基づいて最適化する強化学習ポリシーの学習(RLHFアルゴリズム)
ChatGPTの訓練に用いられるInstructGPTにおいて提案されたRLHFでは、これまでの標準的な事前学習やファインチューニングと全く異なり、はるかに複雑なパイプラインが必要となります