InstructGPT論文
https://scrapbox.io/files/657ff2a808835100226baaea.png
論文情報
タイトル:Training language models to follow instructions with human feedback
著者:Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright
所属:OpenAI
論文の内容を簡単に
概要
言語モデルを大きくすることが、必ずしもユーザーの意図に従う能力を向上させるわけではありません。例えば、大規模な言語モデルは、不正確な情報や有害な内容、あるいは単にユーザーにとって役に立たない出力を生成することがあります。言い換えれば、これらのモデルはユーザーとの調和が取れていません。本論文では、人間のフィードバックを用いた微調整により、さまざまなタスクにおいて言語モデルをユーザーの意図に沿うようにする方法を示します。ラベラーが作成したプロンプトとOpenAI APIを通じて提出されたプロンプトのセットから始めて、モデルが望ましい行動を示すラベラーのデモンストレーションのデータセットを収集し、それを使用してGPT-3を教師あり学習で微調整します。次に、モデルの出力のランキングのデータセットを収集し、この教師ありモデルを人間のフィードバックからの強化学習(RLHF)を用いてさらに微調整します。その結果得られたモデルをInstructGPTと呼びます。我々のプロンプト分布における人間による評価では、パラメータ数が100倍少ない1.3BパラメータのInstructGPTモデルの出力が、175BのGPT-3の出力よりも好まれました。さらに、InstructGPTモデルは真実性の向上と有害な出力の削減を示し、公共のNLPデータセットでのパフォーマンスの後退は最小限に留まります。InstructGPTは依然として単純なミスを犯しますが、人間のフィードバックを用いた微調整は言語モデルを人間の意図に沿わせるための有望な方向性であることがわかります。 抄録
この研究は、大規模言語モデルがユーザーの意図に従って動作するように調整する方法に焦点を当てています。具体的には、人間のラベラーが書いたプロンプトとAPIユーザーが提出したプロンプトからデータセットを収集し、GPT-3を教師あり学習で微調整します。その後、モデルの出力をランキングするデータセットを使って、人間のフィードバックに基づいてさらに微調整を行い、InstructGPTというモデルが作成されました。このモデルは、真実性の向上と有害な出力の減少において、元のGPT-3よりも優れていることが観察されました。
背景
大規模言語モデルは様々な自然言語処理タスクにおいて優れた能力を示していますが、意図しない挙動やユーザーの指示に従わない問題があります。この研究では、言語モデルがユーザーの意図により忠実に従うように調整する方法を探求しています。言語モデルの挙動を改善することで、ユーザーの意図をより正確に理解し、実用的な応用が可能になることが期待されます。
方法と実験の詳細
この研究では、まず教師あり微調整(SFT)を行い、ラベラーによるデモンストレーションデータを収集してGPT-3モデルを微調整しました。次に、報酬モデリング(RM)を通じてモデルの出力を比較するデータを収集し、報酬モデルを訓練しました。最終的に、強化学習(RL)を用いて、PPOアルゴリズムを使って報酬モデルに基づいてポリシーを最適化し、モデルの性能を向上させました。
https://scrapbox.io/files/657ffdcd2e7f980022e9a117.png
結果
InstructGPTモデルは、従来のGPT-3に比べて真実性の向上が認められ、同時に有害な出力の減少も観察されました。また、このモデルは公開されている様々な自然言語処理(NLP)データセットにおいても、パフォーマンスの低下が最小限に抑えられる結果を示しました。これにより、より信頼性の高い言語モデルの実現が期待されます。
https://scrapbox.io/files/658001275554ae0025ceca86.png
・人間に直接評価をしてもらいます。このとき、評価する人には2つのモデルの出力を提示し、どちらがより好ましいかというのを選んでもらう。このとき2つのうち1つは1,750億パラメータのSFTで固定しているため、これはいわば「1,750億パラメータのSFTとの一騎討ち」となっている。
・上図の縦軸が一騎討ちの勝率、横軸がモデルのサイズ(10億、60億、1,750億)を表している。モデルとしては、GPT、Few-shotを行ったGPT、SFTモデル、PPOモデル、PPO-ptxモデルを比較している。基準となる1,750億パラメータのSFTは勝率が0.5となっている。この結果から、13億パラメータのPPO-ptx(およびPPO)が1,750億パラメータのGPTよりもはるかに人間好みの文を出力していることがわかります。また、SFTモデルよりもPPOモデルの勝率が高いことから、アラインメント問題の解決においてRLHFがかなり効果的であることがわかる。
議論
この研究は、大規模言語モデルをより人間の意図に沿ったものにするための新たなアプローチを示していますが、モデルが単純な誤りを避けるためのさらなる研究が必要であると指摘しています。また、モデルが人間の意図を正確に理解し、適切に反映するための効果的な方法論の開発が重要であると強調されています。
制限
この研究で開発されたInstructGPTモデルは、依然として単純な間違いを犯すことがあります。特に、偽の前提に基づく指示を検出するのに失敗することが問題として挙げられています。これは、モデルがユーザーの意図を完全に理解し、適切に対応するためには、さらなる改善が必要であることを示唆しています。
可能な応用
この研究で開発された手法は、言語モデルのユーザー意図の整合性を向上させ、有害な出力を減少させるために利用できます。特に、カスタマーサポートや教育などの分野での応用が期待されており、ユーザーの要求に応じたより効果的なコミュニケーションが可能になると考えられます。これにより、言語モデルの実用性がさらに高まることが期待されます。