Self-Improve論文
https://scrapbox.io/files/668cedc243bb2a001d11f650.png
論文情報
タイトル:Large Language Models Can Self-Improve
発行日:2022年10月
著者:Jiaxin Huang et al
所属:University of Illinois at Urbana-Champaign 2Google
論文のポイント
人間がメタ認知して思考を改善できるように、この論文でもLLMが、教師なしデータのみで、自己改善できることを示した論文
今回の実験の方法
https://scrapbox.io/files/668cfb76ede7a8001de15955.png
これは、人間の脳が学習する方法と似ている。
質問が与えられたら、複数回考えて異なる可能性のある結果を導き出し、質問をどのように解決すべきかを結論付け、そして自身の解決策から学習または記憶する。
具体的には以下のようなことをしている
https://scrapbox.io/files/668cfbfb1c7f1f001deda1bf.png
結果
https://scrapbox.io/files/668cfd4268427d001cfeadd8.png
論文を読んで感じたこと
パワハラプロンプトとは関係ないね
概要
大規模言語モデル(LLM)は様々なタスクで優れた性能を達成しています。しかし、LLMのファインチューニングには広範な監視が必要です。一方、人間は外部からの入力なしに自己思考により推論能力を向上させることができます。本研究では、LLMもラベルなしデータセットのみで自己改善が可能であることを示します。
1 はじめに
大規模なテキストコーパスで学習されたこれらのモデルの驚くべき能力にもかかわらず、根本的にモデルの性能をFew-Shotのベースラインを超えて向上させるには、依然として大量の高品質な教師あり学習データセットでファインチューニングする必要があります。 FLAN(Wei et al., 2021; Chung et al., 2022)とT0(Sanh et al., 2022)は、未見のタスクにおけるゼロショットタスク性能を向上させるために、数十のベンチマークNLPデータセットをキュレーションしました。InstructGPT(Ouyang et al., 2022)は、多様な一連のテキスト指示に対する多くの人間の回答をクラウドソーシングで収集し、人間の指示により適したモデルを作成しました。高品質な教師ありデータセットの収集に多大な努力が注がれる一方で、人間の脳は対照的に、メタ認知プロセス(Dunlosky & Metcalfe, 2008)が可能であり、外部からの入力なしに自身の推論能力を洗練させることができます。 hiroya_iizuka.icon 人間はメタ認知することで、考えをブラッシュアップできる。
hiroya_iizuka.icon 当時のAIは、高品質な教師ありデータによるファインチューニングしか方法がなく、それがとても負荷が高かった。
本論文では、LLMが教師ありデータなしで推論能力を自己改善する方法について研究します。複数のNLPタスクデータセットからの入力シーケンス(正解の出力シーケンスなし)のみを使用して、事前学習済みLLMが、ドメイン内タスクとドメイン外タスクの両方で性能を向上させることができることを示します。
我々の方法は図1に示されています:
https://scrapbox.io/files/668cf8dbd9f28d001cfeeddd.png
まず、Few-Shot CoT (Chain-of-Thought)をプロンプトとして使用して、サンプリング温度T > 0で複数の予測を生成し、多数決投票(Wang et al., 2022b)を使用して「高信頼度」の予測をフィルタリングし、最後にこれらの高信頼度の予測でLLMをファインチューニングします。その結果得られたモデルは、貪欲な評価と複数パスの評価の両方で推論が改善されています。 我々はこの方法でファインチューニングされたモデルを、Language Model Self-Improved(LMSI)と呼びます。これは、人間の脳が時々学習する方法に似ています:質問が与えられたら、複数回考えて異なる可能性のある結果を導き出し、質問をどのように解決すべきかを結論付け、そして自身の解決策から学習または記憶します。
hiroya_iizuka.icon なるほどね
我々は事前学習済みのPaLM-540B LLMを使用して我々の方法を実証的に検証し、我々の方法が訓練タスクの性能を向上させるだけでなく(GSM8Kで74.4%→82.1%、DROPで78.2%→83.0%、OpenBookQAで90.0%→94.4%、ANLI-A3で63.4%→67.9%)、ドメイン外(OOD)テストタスク(AQUA、StrategyQA、MNLI)も強化し、教師あり正解回答に依存せずに多くのタスクで最先端の性能を達成しました。 hiroya_iizuka.icon そか、CoT + 多数決で正解した推論パスをファインチューニングさせてる = 自分で改善して性能上がったってことか。
hiroya_iizuka.icon これは確かに、教師ありデータセットに依存していない。
最後に、追加の入力質問とfew-shot CoTプロンプトの自己生成に関する予備的な研究を行い、これによりモデルの自己改善に必要な人間の労力をさらに削減できる可能性があります。また、我々のアプローチの重要なハイパーパラメータに関するアブレーション研究も行いました。我々のシンプルなアプローチと強力な実証的結果が、追加の人間の監視なしで事前学習済みLLMの最適な性能を調査するために、コミュニティによる将来の研究をさらに奨励することを期待しています。
我々の貢献は以下のようにまとめられます:
正解出力のないデータセットを使用して、Chain-of-Thought推論(Wei et al., 2022b)とself-consistency(Wang et al., 2022b)を活用することで、大規模言語モデルが自己改善できることを実証しました。これにより、競争力のあるドメイン内のマルチタスク性能とドメイン外の汎化を達成し、ARC、OpenBookQA、ANLIデータセットで最先端レベルの結果を達成しました。
https://scrapbox.io/files/668cfd4268427d001cfeadd8.png
トレーニングサンプルのフォーマットとファインチューニング後のサンプリング温度に関する詳細なアブレーション研究を提供し、LLMの最も成功した自己改善のための重要な設計選択を特定しました。
我々は、モデルが有限の入力質問から追加の質問を生成し、few-shot CoTプロンプトテンプレートを自身で生成する、自己改善のための2つの他のアプローチを研究しました。後者はGSM8Kで74.2%を達成し、これはKojima et al. (2022)の43.0%やWang et al. (2022b)との単純な拡張の70.1%に対して、最先端のゼロショット性能です。