GoT論文
https://scrapbox.io/files/6583ca62ef2eba0023ecdfe7.png
論文情報
タイトル:Graph of Thoughts: Solving Elaborate Problems with Large Language Models
著者:Maciej Besta, Nils Blach, Ales Kubicek
所属:Warsaw University of Technology
Youtube: https://www.youtube.com/watch?v=f0QE_NXVA2k
論文を読んで感じたこと
https://scrapbox.io/files/6586999c4bf1310023373140.png
論文の内容を簡単に
概要
我々は、Graph of Thoughts(GoT)を紹介します。これは、CoT (Chain-of-Thought)やToT (Tree of Thoughts)などの既存のパラダイムを超えて、大規模言語モデル(LLMs)におけるプロンプト能力を進化させるフレームワークです。GoTの主要なアイデアと主な利点は、LLMによって生成された情報を任意のグラフとしてモデル化する能力にあります。ここで、情報の単位(「LLMの思考」)は頂点となり、これらの頂点間の依存関係に対応するエッジが存在します。このアプローチにより、任意のLLMの思考を相乗的な成果に結合したり、思考ネットワーク全体の本質を抽出したり、フィードバックループを使用して思考を強化することが可能になります。我々は、GoTが異なるタスクにおいて最先端技術を上回る利点を提供することを示します。例えば、ToTに比べてソートの品質を62%向上させつつ、同時にコストを31%以上削減します。 はじめに
大規模言語モデル(LLMs)は、AIの世界を席巻しています。近年、デコーダーのみのTransformerバリアントに基づいたモデル、例えばGPT、PaLM、LLaMAなどが急速に発展してきました。プロンプトエンジニアリングは、異なるLLMタスクを解決するためのリソース効率の高いアプローチです。簡単に言うと、タスクの説明をLLMに送信する入力内に含めます。この説明が適切に形式化されていれば、LLMは自動回帰型のトークンベースのメカニズムを使用してタスクを解決します。このようなプロンプトには、解決策を含む例示的なタスク(Few-Shotプロンプト、またはICL(コンテキスト内学習: In Context Learning)とも呼ばれる)や、例示的なタスクがまったく含まれていない場合(Zero-Shotプロンプト)もあります。近年、このメカニズムを使用して、数学的、常識的、または象徴的推論を含む幅広いタスクを解決できることが示されています。 CoT (Chain-of-Thought)は、タスクの入力/出力の他に、プロンプト内に推論の中間ステップを含めるプロンプトのアプローチです。CoTは、モデルの更新を必要とせずにLLMが問題を解決する能力を大幅に向上させることが示されました。CoTの大きな改善点であるSelf-Consistency with CoT(CoT-SC)は、複数のCoTを生成し、最も良いものを結果として選択するスキームです。最近では、CoTとCoT-SCは、LLMの推論プロセスを木でモデル化するToT (Tree of Thoughts)で拡張されました。これにより、異なる思考のパスを使用し、非有望な結果からのバックトラッキングなどの新しい機能を提供します。 残念ながら、ToTアプローチは、思考プロセスに剛直な木構造を課すことで、プロンプト内の推論能力を根本的に制限しています。
この研究では、LLMの思考が任意のグラフ構造を形成することを可能にすることにより、根本的により強力なプロンプトが達成されると主張しています。これは、人間の推論、脳の構造、またはアルゴリズムの実行など、数多くの現象によって動機付けられています。新しいアイデアに取り組むとき、人間はCoT (Chain-of-Thought)のように単一の思考をたどるだけでなく、ToT (Tree of Thoughts)(異なる個別の思考の試行)のようにするだけでなく、実際にはより複雑な思考のネットワークを形成します。たとえば、特定の推論の連鎖を探求し、バックトラックして新しいものを開始し、前の連鎖からの特定のアイデアを現在探求しているものと組み合わせ、それらの長所を活かし短所を排除して新しい解決策に統合することができます。同様に、脳は複雑なネットワークを形成し、再帰などのグラフのようなパターンを持っています。アルゴリズムの実行も、しばしば有向非巡回グラフによって表されるネットワークパターンを露呈します。対応するグラフ対応の変換は、LLMの思考に適用された場合、より強力なプロンプトの可能性を約束しますが、これらはCoTやToTでは自然に表現できません。 これら(および多くの他の)思考変換は、LLMの推論プロセスをグラフとしてモデル化するときに自然に有効にすることができます。これのために、我々はGraph of Thoughts(GoT)を提案します。これは、ネットワーク化された推論を通じてLLMの能力を強化するアプローチです。GoTでは、LLMの思考は頂点としてモデル化され、エッジはそのような思考間の依存関係です。GoTを使用すると、複数の入力エッジを持つ頂点を構築することにより、任意の思考を集約することができます。全体として、GoTによって活用されるグラフ抽象化は、モデルの更新に頼ることなく、CoTおよびToTをより複雑な思考パターンにシームレスに一般化します。
しかし、GoTを実践に移すには、いくつかの設計上の課題を解決する必要があります。たとえば、異なるタスクに最適なグラフ構造は何ですか?思考をどのように最適に集約して、精度を最大化し、コストを最小限に抑えるのですか?これらおよび多くの他の質問に答えるために、我々はGoTを実装するためのモジュラーアーキテクチャを慎重に設計します。これには2つの設計のハイライトがあります。まず、個々の思考を細かく制御できるようにします。これにより、LLMとの進行中の会話を完全に制御し、進行中の推論から最も有望な思考を新しいものに組み合わせるなどの高度な思考変換を適用することができます。第二に、我々のアーキテクチャは、新しい思考変換、推論のパターン(つまり、思考のグラフ)、およびLLMモデルとシームレスに拡張できるようにします。これにより、GPT-3.5、GPT-4、またはLlama-2などの異なるモデルを使用しながら、GoTを使用して新しいプロンプトのアイデアを迅速にプロトタイピングできます。 GoTのいくつかの使用例(ソート、要約のためのキーワードカウント、セット操作、文書の統合)を示し、グラフベースのパラダイムを使用してそれらを実装する方法を詳しく説明します。GoTを評価し、最先端技術よりもその利点を示します。全体として、GoTは特に、小さなサブタスクに自然に分解され、個別に解決された後に最終解決策に統合されるタスクに適していることがわかります。ここでは、GoTは他のスキームよりも優れており、例えば、CoTとToTをそれぞれ約70%および約62%改善し、同時にToTに対するコストを31%削減しています。
GoTを他のプロンプトスキームと質的に比較しています。
https://scrapbox.io/files/65869b87e1ee1f00248be640.png
GoTは、集約などの任意のグラフベースの思考変換をプロンプト内で可能にする唯一のものであり、これまでに提案されたすべてのスキームを包含します。最後に、プロンプト戦略を評価するための新しい指標、思考のボリュームを提案します。この指標を使用することで、プロンプトスキーム間の違いをよりよく理解することを目指します。特定の思考vについて、vのボリュームは、有向エッジを使用してvに到達できるLLM思考の数です。直感的には、これらはvに貢献する可能性があるすべてのLLM思考です。集約などの思考変換を取り入れることにより、GoTは他のスキームよりも根本的に大きなボリュームを持つ思考を可能にすることを示しています。
https://scrapbox.io/files/6583cefc9759fe00241c4108.png
背景と方法
GoTの開発には、異なるタスクに最適なグラフ構造の特定や、精度を最大化しコストを最小化するための思考の集約方法など、いくつかの設計上の課題がありました。GoTは、これらの課題に対処するために、モジュラーアーキテクチャを採用しています。
https://scrapbox.io/files/6583f229cacdfc002309eefb.png
Sort
GoT: split into subarrays / sort / merge
generate_prompt
aggregate_prompt
Document Merge
GoT: aggregation of fully merged NDAs
GoT2: aggregation of partially merged NDAs
Keyword Counting
generate_prompt
aggregate_prompt
結果
GoTは、従来のプロンプト方式と比較して、さまざまなタスクでの有効性を示しています。特に、小さなサブタスクに自然に分解できるタスクでは、他のスキームを上回る結果を示しています。
議論
GoTは、LLMの理解を人間の思考や脳のメカニズムに近づける新しい方法として提示されています。特に、思考のネットワーク化によって、より複雑な問題解決が可能になります。
限界
GoTの限界としては、特定のタスクに最適なグラフ構造を特定することや、コストと精度のバランスを取ることが挙げられます。
可能な応用
GoTは、特に複雑な問題解決や、異なる思考の組み合わせが必要なタスクに有効です。また、人間の思考プロセスや脳のメカニズムを模倣する研究にも応用できる可能性があります。
この論文の中で特に注目すべき図やイラストがあれば、それについての説明も追加します。それらについての具体的な質問があれば、お知らせください。