Let’s Verify Step by Step

Authors: Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike John Schulman, Ilya Sutskever, Karl Cobbe

Institution: OpenAI

link: https://arxiv.org/pdf/2305.20050.pdf

Motivation 選んだ理由

最近話題になったOpenAI内部のQ*と関係ありそう

OpenAIのCTOによると、Q*はAGIへの大きい進展であり、CEOのSam Altmanの追放事件の原因となった

AGIを達成するゴールに対して、どのようなアプローチが有望なのか知りたい

LLMは数学問題を解けるかどうか知りたい

Summary どんなもの？

本研究は強化学習を使ってLLMが数学問題を解けるために、どのような手法でReward Model（RM）をトレーニングするかをフォーカスしている。先行研究の大枠に従って、本研究は2種類のRM（Outcome-supervised RMとProcess-supervised RM）の効果をより詳細的に比較していた。結論として、PRMはORMより良い結果を得られていた。PRMにとってActive learningもデータ効率を2.6に向上することもわかった。また、成果物として新しい大きい数学問題のデータセットPRM800kをリリースした。

Contribution 先行研究と比べてどこがすごい？

先行研究と背景

最近のLLM関連の進展はすごいですが、複数の推論ステップが必要となるロジカル問題にはまだチャレンジが残る。その中に特に幻覚（hallucination）によって、複数のステップの場合全体的にエラー率が上がることが起きている。これを解決するための一つの施策は強化学習を導入し、Reward modelを作ることである。

https://gyazo.com/c0a339eab89e16a5c47b1945ab121e71

ステップ１：Supervised fine-tuning (SFT)

データセットからプロンプトを選ぶ

人でその答えを作る

Pre-trained LLM（ジェネレータ）をfine-tuningする

ステップ２：Train reward model

ジェネレータから複数の答えを集まる

集まった答えを人でランクづけし、RMモデルのトレーニングセットを作る

このトレーニングセットを使ってReward model（RM）を学習させる

ステップ３：強化学習（proximal policy optimization）をやる

RMがSFTモデルの出力をRewardを計算し、強化学習でさらにSFTモデルを強くする

本研究ではこのステップがスコープ外のため、実施していない

上のステップ２と３はループすることによって、モデルの精度を伸ばすことができる。（AGIにつながる鍵かも）

しかし、このような手法では、最終のパフォーマンスがRMに左右されてしまう課題がある。

この課題を克服するために、最も近い先行研究ではRMのトレーニング手法Outcome-supervised RMとProcess-supervised RMを比較した。

RMは言語モデルにし、各ステップで正しいかどうかのbinary labelを予測する

ORMではCoTの各ステップのground truth label = 最後のステップ予測が答えと一致するか

PRMではCoTの各ステップのground truth label = 今のステップ推測がリーズナブルかどうか

先行研究では各ステップのラベルが人間からのラベリング結果である

理論上はPRMの方がより多い情報が入っているが、先行研究ではORMと同じぐらいの最終エラー率を得られた。本研究はこの結果を深ぼるために、手法を改善してより大きいデータセットで実験した。改善したところは

より強いベースモデルを使った（base GPT-4）

より多いhuman feedbackを使った

より難しいデータセットで学習・テストした（MATH dataset）

Method 技術や手法のキモはどこ？

大枠とスコープ

先行研究に従って、ORMとPRMの比較した。MATHデータセットではground truthがあるため、ORMの教師データがHuman feedbackなしで取得できる。

しかし、PRMが必要なステップごとのラべリングが簡単に取得する方法がない。ここはHuman feedbackに頼った

https://gyazo.com/f343385fd6e65f348ee1ec248faf47dc

本研究では二つのパターンを研究した：大規模モデル（GPT-4）と小規模モデル（GPT-4より200倍計算量少ない）

大規模の場合はSOTAのORMとPRMをトレーニングするにめざす

学習データセットの違いによって、大規模のORMとPRMパフォーマンスが直接に比較できない

小規模はORMとPRM手法を比較するために実験した

Human feedbackの高いコストを削減するために、大規模モデルを教師として小さいモデルの学習を監督した

スコープ：ジェネレータモデルのRL学習はスコープ外であり、本研究がRMモデルの監督方式だけ研究した

ジェネレータの監督方式やRL方式は今後の研究になる（Q*の可能性が高い）

RMの評価は下のようにする

ジェネレータが一つの質問に複数の答えを生成する

対象のRMモデルがこの質問の答えN個を選んで、点数づけする

点数一番高い答えの最後が、ground truthとあっているかどうかで評価する・評価しない

全ての質問の正解を選んだ割合でRMを総合評価する

ベースモデル

大規模モデルがRLHFを実施する前のBase GPT-4を使った。小規模モデルはGPT-4と似ているが、200倍計算量が少ない。すべてのモデルが1.5Bトークンのある数学に特化したデータセット（Appendix A、MathMixデータセット）でfine-tuningした。

ジェネレータ

Few-shotでジェネレータの出力をstep-by-stepのようにした。MATHデータセットで推論し、正しい答えだけに絞って、ベースモデルのfine-tuningするデータセットを作った。ジェネレータはこのデータセットで１ epoch学習した。これが正しいフォーマットで出力させるためである。

RMのトレーニングデータセット作成

PRMのラベリングデータを収集するために、Figure 1.のUIのアノテーションツールを使って、Human feedbackを収集した。ニュートラルのラベルは一定のAmbiguityを許容し、後程の実験で異なる厳しさも研究した。

Human feedbackのコストを削減するために、大規模ジェネレータの推論を活用した。成果物としてPRM800Kというデータセットをリリースした。12Kの質問に対し、75Kの答えがあって、すべて800Kステップのラベルが入っている。

Human feedbackの情報量を増やすために、既存ベストのPRMモデルから高い確信度だが間違えた質問だけ人に見せた。この手法を採用するために、データセット作成途中でもPRMモデルを複数回の再トレーニングした。

Outcome-supervised Reward Models (ORMs)

前述のように、一つの質問でジェネレータから複数のソリューションをサンプリングする。ORMをどのソリューションが正しいかを学習させる。テストする時、ORMの最後のトークンは質問の予測結果になる。しかし、途中ステップの推論が間違えた場合があるため、ORMの結果にはfalse positiveが混ざっている。

Process-supervised Reward Models (PRMs)

PRMはステップごとにその時の推論が正しいかどうかを学習している。ステップごとに一つのトークンを出力し、これらのすべての出力トークン全体のlog-likelihoodを最大化でトレーニングする

https://gyazo.com/3b60b97268e06794f83e2741f0519a84

同じ質問の複数ソリューションを比較するために、スコア付けが必要である。ここは各ステップの正しさの確率を掛け算して、ソリューション全体のスコアを計算する。

トレーニングする時PRMは最初に間違えたステップまでだけ学習する。これはORMと比較するために、必要である。

Experiments どうやって有効だと検証した？

大規模モデルの学習

大規模のPRMはPRM800Kでトレーニングしたが、大規模のORMはジェネレータの作ったデータセットを学習した。ORMのデータセットは各質問に対して100個のソリューションをサンプリングした結果である。PRM800Kと重複していない。その理由は二つがある。まず、このデータセットはPRM800Kより一桁以上に大きく、ORMのパーフォマンスを最大化する。次、PRM800Kは間違えたソリューションに傾いているので、ORMが直接に学習してしまうと問題になる。

https://gyazo.com/6fb04c4852595851f7980659588eb099

Figure 3は大規模ORMとPRMの結果になる。Nはジェネレータ生成の答えの中にサンプリングするソリューションの数である。

Majority Votingはbaselineモデルとする

ORMはbaselineより少し勝っている

PRMは両者より大幅に優れている

Nの増加とともに、PRMの勝ち幅も大きくなる

PRMがソリューションの選別に優れている

PRMをmajority votingと混ざっても精度が伸ばさない

小規模モデルの学習

ORMとPRMのデータセットが異なることで、大規模なORMとPRMは直接に比較できない。ORMのデータセットにもfalse positiveがあるために、ORMの精度に毀損している。この課題を研究するために、大規模なPRMモデルを用いて、小規模なモデルの教師としてトレーニングを行った。

小規模モデルのORM vs PRM

小規模のジェネレータから各質問に1~200個ソリューションをサンプリングした。3種類の監督を用意した：

大規模PRMモデルからのprocess supervision

大規模PRMモデルからのoutcome supervision

ground truthからのoutcome supervision

使ったデータセットは同じである。

https://gyazo.com/dfa9d22b6d859f3b9e1dc20028216f4f

Figure 4aは各手法の1-of-500サンプリングした結果である。PRM手法はORMより大幅に超えていることがわかる。4bでは1-of-Nサンプリングした結果である。PRMはground truthのORMよりも有効であることがわかる。ここのPRM-largeは大規模なPRMモデルであり、ORMのfalse positive問題に有効であると推測される。

Active learningに関して

具体的な手法は以下である

一つ小規模のRMをトレーニングする（セレクター）

このモデルを使って、各質問に1000個のソリューションを点数づける

より大きいRMモデルをトレーニングするために、セレクターの間違えやすいサンプルを選ぶ

学習データの80％はセレクターの間違えやすいサンプルで作る

大規模なRMモデルも使って選んだサンプルを点数づけて、学習させる

Figure 4aでactive learningの精度結果が表示する。active learningなしと比較したら、この手法はデータ効率が2.6倍に向上したことがわかった。データセット作成中セレクターをretrainする手法も試したが、不安定になってより良い精度を得られなかった。

OOD汎化性能分析

Out-of-distributionへの汎化性能を評価するために、大規模ORMとPRMを他分野の224個STEM質問に解いてもらった。これらの質問は最近で出たもので、pre-trainに含まれていない。1-of-100のパーフォマンスは以下である

https://gyazo.com/09992cbb5121a423dcfeaca324400492

PRMが優れて、OODへの汎化も高い推論能力を示していた

Discussion 議論はある？

優位性分析

過程監督の一つ優位性は、結果監督より正確なフィードバックを提供している。ORMは推論間違った場合、この部分が間違ったかを推測しないといけない。これは難しい質問の場合がかなりチャレンジングである。逆に、PRMはより豊富な情報が入っているため、モデルの高いパフォーマンスが出る。

モデルAlignmentへの影響

過程監督はもっと解釈しやすい推論を出すために、AIのAlignment研究に積極的な影響を与える。望ましいCoTへ直接にrewardするので、正しい結果をrewardするより有効である。一般的により安全なモデルの性能が劣化するだが、本研究はPRMがより良い精度出したと証明したので、過程監督の普及に役に立つ。

テストセットの汚染

MATHデータセットの中に、よくネットで議論された質問が含まれている。そのためにモデルのpre-train段階ですでに学習してしまった可能性がある。MathMixデータセットから重複しそうな質問をリムーブしてみたが、string-match方法の精度に制限されているために完全排除が難しい。ある程度のテストセット汚染があるかもしれないが、全体的に起きていないと保証できる。OOD汎化への研究も大きいデータ汚染がないを証明する