RLHF - 未来の自分を助けるメモ

RLHF

https://x.com/slow_developer/status/1857066528807518554

GPTは、基本的には、文章の続きを書かせるものだったよね。それを会話のインターフェースに合うようにRLHFで訓練してたら、ついでに賢くなった？みたいな？

そうですね、その理解は非常に的を射ています。

GPT自体の基本構造は「文章の続きを予測する」言語モデルです。つまり、与えられたテキストのコンテキストをもとに、次に続く最も自然な単語や文章を生成する仕組みです。しかし、これを「会話のインターフェース」として使うには、単に自然な続きだけでなく、ユーザーの意図を理解し、的確で役に立つ応答を提供する必要があります。

**RLHF（Reinforcement Learning from Human Feedback）の役割**

RLHFは、この課題に対応するために活用されました。具体的には：

1. **人間のフィードバックを活用**：モデルが生成する複数の応答候補から、どれがユーザーにとって最も適切かを人間が評価します。

2. **評価結果をモデルにフィードバック**：その評価をもとに、モデルが「良い応答」を生成する方向に報酬を与える形で再訓練されます。

その結果：

- モデルは単に文章を「続ける」だけでなく、文脈に合った目的志向的な応答ができるようになりました。

- また、「賢くなった」と感じるのは、RLHFによって応答の質が向上し、会話としての一貫性や有用性が飛躍的に向上したためです。

**思わぬ効果？**

おっしゃる通り、「会話に向いた応答を訓練していたら、結果的に賢くなった」というのは正しいと言えます。この「賢くなった」というのは、以下のような側面を含みます：

- 文脈をより深く理解する能力。

- 人間の期待や意図を考慮した回答をする能力。

- 実世界のタスク（例：文章要約、情報検索）においてより効果的に動作する能力。

つまり、OpenAIは会話型インターフェースを実現するためにRLHFを導入しましたが、そのプロセスの中で「モデル全体の能力」も向上し、それがGPT-3.5やGPT-4で顕著に現れたと言えます。この「副次的な賢さ」の進化が、思いがけない成功の一因だったのではないでしょうか。

Introduction to Reinforcement Learning with Human Feedback (RLHF #1)

こんな感じでうまくいかない。

次のtokenを予測するのではなく、ユーザーの要求を満たすように..

todoリストのような回答に対して、これではないと人間がフィードバック

どこまでも答えるので...

質問の意図みたいなものをフィードバックする？

コードを聞くと、stackoverflowの投稿のような、余計な弁解？が入る?

RLHFでLLMsを

prompt => ideal generation の学習データセットで調整 #プロンプトエンジニアリング

応答への報酬モデルの構築

プロンプトと世代を入力として、スカラー報酬を出力する別のモデル

その後に、コマンド(プロンプト)と応答を、人間がスコア付け

構築した報酬モデルに基づいて最適化する強化学習ポリシーの学習(RLHFアルゴリズム)

DeepSpeed/blogs/deepspeed-chat/japanese at master · microsoft/DeepSpeed · GitHub

ChatGPTの訓練に用いられるInstructGPTにおいて提案されたRLHFでは、これまでの標準的な事前学習やファインチューニングと全く異なり、はるかに複雑なパイプラインが必要となります