From Local to Global: A Graph RAG Approach to Query-Focused Summarization
GPT5.icon要点だけ先に:
GraphRAGは、コーパス全体を俯瞰する“グローバル系の質問”(例:主要テーマは?相反する視点は?)に強いRAG手法。事前にエンティティ関係グラフを作り、コミュニティ(クラスタ)ごとの要約を生成。質問時はそれらをMap→Reduce合成して最終回答を出します。(arXiv) 何をした研究か
従来の「ベクトルRAG」は局所的事実の取り出しには強いが、全文脈の要約・総合(sensemaking)には弱い、という課題設定。そこでGraphRAGを提案。(arXiv) パイプライン(図1)
1. 文書→チャンク化
2. 各チャンクからエンティティ・関係・(必要に応じて)クレームをLLMで抽出
3. それらで知識グラフを構築
5. 各コミュニティの要約を生成(階層的にボトムアップ)
6. 質問に対して各コミュニティ要約から部分回答(Map)→結合して全体回答(Reduce)。(arXiv) エンティティ抽出はマルチパートのプロンプトで実施。大きめチャンクで見落としが増える問題に対し、self-reflection(自己反省)プロンプトで取りこぼしを補います。(arXiv) どう評価したか
データセット(約100万トークン規模を想定)
Podcast: Behind the Tech with Kevin Scott の公開トランスクリプト(600トークンチャンク×1669、オーバーラップ100)。
News: 2013/9–2023/12のニュース(600トークンチャンク×3197、オーバーラップ100)。(arXiv) 条件比較:GraphRAGの4階層(C0–C3)、テキスト直接要約(TS)、ベクトルRAG(SS)。生成プロンプトやコンテキスト窓は統一。コミュニティ検出はgraspologicでLeiden。(arXiv) 評価指標はLLM-as-a-judgeでの相対評価(包括性・多様性・エンパワーメント・対照として直接性)。さらにClaimifyで抽出した事実主張数とクラスタ数で客観指標も併用。(arXiv) 主な結果
グローバル系手法(GraphRAG/TS)>ベクトルRAG
包括性の勝率:Podcastで72–83%、Newsで72–80%。
多様性の勝率:Podcastで75–82%、Newsで62–71%。
一方、直接性はベクトルRAGが最も高い(=短く直截)。(arXiv) 効率面:ルート層C0は、質問あたりトークン消費が9–43倍少ない(全体把握の反復探索に有利)。階層が深いほど情報量は増えるがトークンも増える。(arXiv) 客観指標でも、グローバル系がベクトルRAGより**主張数(包括性)と主張クラスタ数(多様性)**で優位(p<.05 など)。(arXiv) 実装のコツ(論文から)
チャンクサイズ:大きすぎると抽出漏れが増えるため、self-reflection併用でバランスを取る。(arXiv) 階層の使い分け:
C0(最上位コミュニティ要約)=超低コストで反復探索。
C2/C3(下位)=包括性・多様性を少し伸ばしたいとき。(arXiv) インデクシングの現実的コスト:例としてGPT-4-turboで600トークン窓、Podcast語彙で約281分程度(VM構成やAPI条件明記)。(arXiv) OSS:Microsoftの実装あり。LangChain/LlamaIndex/NebulaGraph/Neo4j向け拡張も。(arXiv) 限界と今後
約100万トークン規模・2コーパスでの検証に限られる。分野横断の一般化や幻覚率の比較(SelfCheckGPT等)などは今後の課題。(arXiv) いつGraphRAGを使うと良いか(私見)
「全体像・論点の網羅と多視点」が問われる質問(動向整理、相反する見解の俯瞰、主要テーマ抽出)。
同じデータに何度もグローバル質問を投げるワークロード(C0で低コスト反復→必要に応じて下位層へ“掘る”)。
※ 個別事実の正確な特定だけが目的なら、従来のベクトルRAGの方が短く直接的な回答になりやすい。(arXiv)