GPT4, ChatGPTに関するサーベイ

誤訳してたらソーリー

概要

そもそもGPT-4はOpenAIが開発した深層学習をスケールアップしたモデルである。

issei.icon何となくのイメージだと、パラメータ数(層)を増やしたり、事前学習のデータを増やしたりしてそう

また、GPT-4はマルチモーダルモデルであり、画像とテキストをインプットしテキストを出力するモデルである。

issei.iconマルチモーダルの補足。例えば英語の穴埋めテストがあった際に、問題文だけと画像+問題文ではどちらが問題を解きやすいかみたいな話だと思っている。勿論、出される画像によっては解きにくくなったり(学習しにくくなったり)するがそれは前処理の問題であり、学習方法の問題ではないと思っている。issei.icon

GPT-4.0は現実世界のシナリオでは人より劣っているが、専門的、学術的なパフォーマンスは人と同等以上である。

issei.iconすごい

敵対的テストプログラムを用いて、aligningという技術(RLHFかも)で学習しているっぽい

issei.iconaligning と敵対的テストプログラムについて気になる

aligning は、よりユーザーの意図に沿うようなモデルを作る方法。

これもみた方がよさそう

HuggingFaceがRLHF の説明をしていた

aligning の説明

GPT-3では、人間によるプロンプトの工夫で実行結果の誘導ができる。

issei.iconいわゆるプロンプト職人

しかし、元々、GPT-3は次の単語を予測するように学習しているので、プロンプトを工夫しても確率的に予期しないアウトプットが出てくる。

つまり、ここまでを言い換えると、ユーザーがGPT-3に合わせている

ここを改善するために、reinforcement learning from human feedbackという手法を用いて学習した。

eariler version で公開していた時のデータを利用して、ラベリングする人がいい感じにラベリングしたらしい。

issei.icon膨大なんだろうな

んで、それでGPT-3をfine-tuneしたらしい。

結果として、fine-tune前よりもユーザーの指示に従うようになった。

ついでに、嘘をつくことも少なくなって、ユーザーに有害な対話も減った。

あと、fine-tuneしたモデルを InstructGPT という名前で呼んでいるが、実はGPT-3に比べて100倍近くパラメーター数が少ない。

それに加えて、ラベリングする人は InstructGPTの出力の方が好きらしい

issei.icon本当？

なので、この方法は効果的じゃん!と考えて、GPT-4にも使ったらしい(もしかしたら今やっている最中かも)

issei.iconやっぱモデルを学習するのって札束が必要なんだなーと思った

issei.iconランニングコストよりもこっちの方が高そう

issei.iconと思ったけどスケールするとランニングコストの方が高くなるのかなぁ

話は変わるが、過去2年の間、OpenAIでは深層学習のためにスパコンのデザインを0から行った。

1年前、GPT-3.5をシステムのtest-runとして学習した。

んで、学習基盤をいくつか修正したうえで、GPT-4の学習を行った。

現在、GPT-4はChatGPTの有料プランと、APIが公開されています(APIはwaitlistがある)。

GPT-4はマルチモーダルなモデルのため、画像を入力することもできます。

その機能は準備中です。

機能

カジュアルな会話においては、GPT-3.5とGPT-4の違いはそれほどない。

ただ、複雑なタスクになると、差が出てくる。

その差を理解するために、人間向けのテストを色々解かせた

issei.iconタスクの一覧が出たけど、アメリカの試験がメインなのでよくわからなかった...

参考

https://openai.com/research/gpt-4

https://openai.com/research/instruction-following

https://openai.com/research/learning-from-human-preferences