InstructGPT
https://scrapbox.io/files/657ff6196d8afb00241f1611.png
InstructGPTは、事前学習済みのGPT-3モデルに対して、教師あり学習によるファインチューニングと、人間のフィードバックに基づく強化学習(RLHF)を加えることによって開発した言語モデル ChatGPTは、InstructGPTをベースとしたモデル
特徴
人間の好みに合った文を出力するように微調整したGPT-3
ユーザーの指示に従って有用で無害な出力を行う
なぜInstructGPTは生まれたか?
大規模な言語モデルは嘘、有害な出力を生成したり、単にユーザーの役には立たない出力を生成したりする。
言い換えれば、これらのモデルはユーザーに合ったものになっていない(not aligned with their users)
非道徳的なことを吐かれてしまうと、大規模言語モデルを何かしらのサービスへと組み込む際に問題になってくる。
そのため、アラインメント問題を対処しようというモチベーションのもとInstructGPTが誕生した。
有用で無害な出力を得られるようにするために、InstructGPTでは、訓練過程で(RLHF: 人間のフィードバックを基にした強化学習)と呼ばれる手法が採用された。 InstructGPT のモデル
https://scrapbox.io/files/657ffaef0107940025451a1d.png
https://scrapbox.io/files/657ffaa16eddfa0024c65c1c.png