RLHF
こんな感じでうまくいかない。
次のtokenを予測するのではなく、ユーザーの要求を満たすように..
todoリストのような回答に対して、これではないと人間がフィードバック
どこまでも答えるので...
質問の意図みたいなものをフィードバックする?
コードを聞くと、stackoverflowの投稿のような、余計な弁解?が入る?
RLHFでLLMsを
応答への報酬モデルの構築
プロンプトと世代を入力として、スカラー報酬を出力する別のモデル
その後に、コマンド(プロンプト)と応答を、人間がスコア付け
構築した報酬モデルに基づいて最適化する強化学習ポリシーの学習(RLHFアルゴリズム)
ChatGPTの訓練に用いられるInstructGPTにおいて提案されたRLHFでは、これまでの標準的な事前学習やファインチューニングと全く異なり、はるかに複雑なパイプラインが必要となります