InstructGPT

https://scrapbox.io/files/657ff6196d8afb00241f1611.png

InstructGPTは、事前学習済みのGPT-3モデルに対して、教師あり学習によるファインチューニングと、人間のフィードバックに基づく強化学習（RLHF）を加えることによって開発した言語モデル

ChatGPTは、InstructGPTをベースとしたモデル

特徴

人間の好みに合った文を出力するように微調整したGPT-3

ユーザーの指示に従って有用で無害な出力を行う

なぜInstructGPTは生まれたか？

InstructGPT論文の概要で、以下のようなことを言っている

大規模な言語モデルは嘘、有害な出力を生成したり、単にユーザーの役には立たない出力を生成したりする。

言い換えれば、これらのモデルはユーザーに合ったものになっていない（not aligned with their users)

非道徳的なことを吐かれてしまうと、大規模言語モデルを何かしらのサービスへと組み込む際に問題になってくる。

そのため、アラインメント問題を対処しようというモチベーションのもとInstructGPTが誕生した。

有用で無害な出力を得られるようにするために、InstructGPTでは、訓練過程で(RLHF: 人間のフィードバックを基にした強化学習）と呼ばれる手法が採用された。

InstructGPT のモデル

https://scrapbox.io/files/657ffaef0107940025451a1d.png

https://scrapbox.io/files/657ffaa16eddfa0024c65c1c.png