ナレッジグラフ論文
https://scrapbox.io/files/6580fb9116e2c10024cbd7bd.png
論文情報
タイトル:A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases
著者:Juan F. Sequeda, Dean Allemang, Bryon Jacob
所属:data.world
何の論文?一言で
この論文は、ナレッジグラフを使えば、企業用SQLデータベースにおけるLLMを用いた質問応答システムの精度が向上する可能性を言及している。 リサーチクエスション
RQ1:大規模言語モデル(LLMs)が企業の自然言語の質問に対して企業のSQLデータベース上でどの程度正確に答えることができるか。
RQ2:ナレッジグラフが大規模言語モデル(LLMs)の正確性をどの程度向上させることができるか、特に企業の自然言語の質問に対して企業のSQLデータベース上で答える場合について。 概要
大規模言語モデル(LLM)の企業アプリケーションは、企業のSQLデータベースに関する質問応答において有望です。しかし、LLMがこのようなデータベースでの企業の質問にどの程度正確に応答できるかは、企業設定に特化した適切なText-to-SQLベンチマークが存在しないため、不明確です。
また、ナレッジグラフがビジネスコンテキストを提供することで、LLMベースの質問応答をどのように向上させる可能性があるかは、十分に理解されていません。 この研究では、企業の質問とSQLデータベースの文脈におけるLLM駆動の質問応答システムの精度を評価することを目指しています。また、ナレッジグラフが精度を向上させる役割についても探求しています。
これを実現するために、保険分野の企業SQLスキーマ、報告からメトリックスまでの企業クエリの範囲、およびナレッジグラフを定義するオントロジーとマッピングを含むコンテキストレイヤーを含むベンチマークを導入しました。 私たちの主な発見は、GPT-4を使用した質問応答がSQLデータベースに直接Zero-Shotプロンプトを使用することで、16%の精度を達成することです。特筆すべきは、質問が企業SQLデータベースのナレッジグラフ表現上で行われる場合、この精度は54%に増加しました。したがって、ナレッジグラフへの投資は、LLM駆動の質問応答システムの精度を向上させると考えられました。 導入
この論文は、自然言語の質問に基づいてデータベースから正確な結果を得る能力に関する長期的なコンピュータ科学の課題に取り組んでいます。この分野は1960年代から進展し、特にText-to-SQLアプローチを通じて、SQLデータベースに格納されたデータと対話する方法が発展してきました。Generative AIやLLMsの出現により、これらの質問応答システムに対する関心はさらに高まっています。これらのシステムは、企業内でのデータ駆動型意思決定の方法を変革する大きな可能性を秘めています。
ベンチマーク
この研究のベンチマークは、保険分野の企業用SQLスキーマ、43の自然言語質問応答、および保険分野のビジネス概念、属性、関係を記述するオントロジーとSQLスキーマからのマッピングを含むコンテキスト層から構成されています。
https://scrapbox.io/files/6582b74453797100222555be.png
コンテキスト層は2つの部分から構成されています:
・オントロジー:保険ドメインを記述するビジネスコンセプト、属性、および関係性。
・マッピング:ソースSQLスキーマから対象オントロジーのビジネスコンセプト、属性、関係性への変換ルール。
このベンチマークの現在のバージョンでは、コンテキストレイヤーはRDFとして機械可読で提供されます:OWLのオントロジーとR2RMLのマッピング。OWLオントロジーとR2RMLマッピングは、ナレッジグラフを仮想化または具体化のどちらかで作成するために使用できます。上図はオントロジーの視覚的表現です。 これらの要素は、質問の複雑度とスキーマの複雑度に基づいて分類されており、低複雑度/高複雑度の質問やスキーマを網羅しています。
https://scrapbox.io/files/6582b56fa0b90f0025baf278.png
これにより、LLMsが企業データベース上での自然言語質問にどの程度正確に応答できるかを評価するための基盤が提供されています。
https://scrapbox.io/files/6582b309a411e0002fdc8967.png
ナレッジグラフのための質問応答システムは上図に示されています。質問とOWLオントロジーは、GPT-4にZero-Shotプロンプトとして提供されます。これらは以下のシンプルなプロンプトテンプレートを使用して組み合わされます: https://scrapbox.io/files/6582b3ee2c900300254e69ca.png
https://scrapbox.io/files/6582b2dc78f0a20024fa1ebf.png
SQLの場合と同様に、プロンプトはシンプルに保ちました。SERVICEに関する追加の行は、LLMがdata.worldのナレッジグラフ仮想化レイヤーを呼び出すクエリを生成することを可能にします。原則として、これはSPARQLプロンプトにいくらかの複雑さを加えますが、実際にはGPT-4はそれを非常にうまく扱っているようでした。
結果として得られたクエリは、data.worldのSPARQLプロセッサにそのまま送信され、結果はSQLの場合と同様にDataFrameに変換されます。
上の方法をもっとわかりやすく
このシステムは、自然言語による質問とオントロジーを入力とする。オントロジーはドメイン知識をクラス、プロパティ、関係として表現する。質問とオントロジーは、ゼロショット学習を使用する大規模言語モデルGPT-4によって処理される。これは、GPT-4が、タスク固有の学習なしに、プロンプトのみに基づいてクエリを生成することを意味する。GPT-4はプロンプトを分析し、SPARQLクエリを出力する。SPARQLは、RDFグラフや知識ベースからデータを取得するために使用されるクエリ言語である。 生成されたSPARQLクエリには、元の自然言語の質問の意図を反映したパス、クラス、制約などの意味的構成要素が含まれています。このクエリは、RDFデータベースでホストされているナレッジグラフに対して実行される。ナレッジグラフは、オントロジーで定義されたドメイン概念で強化されたデータの仮想ビューを提供する。ナレッジグラフに対するSPARQLクエリの結果は、リレーショナルデータベースに対する同等のSQLクエリにマッピングされる。SQLクエリには、リレーショナルテーブルから元の質問に対する答えを取得するために必要な結合、制約、関数が含まれる。 SPAWRQLクエリの結果は、SQLクエリにマッピングするとは
最後に、SQLクエリがデータベース上で実行され、その結果が自然言語の質問に対する回答として表形式で返される。システムは、質問テキスト、生成されたクエリ、タイムスタンプなどを含む、各質問回答の試みに関するメタデータをRDF形式でログに記録します。
結果
全体的に、GPT-4を使用して企業用SQLデータベース上の自然言語質問に対する応答の平均全体実行精度(AOEA)は16.7%でした。しかし、ナレッジグラフの表現を使用した場合、この精度は54.2%に上昇しました。質問の難易度とスキーマの複雑度によって、精度は異なります。例えば、低い質問/低いスキーマ複雑度では、ナレッジグラフの精度は71.1%に対し、SQLの精度は25.5%でした。高い質問/高いスキーマ複雑度の場合、SQLの精度は0%でしたが、ナレッジグラフを使用すると35.7%〜38.7%に上昇しました。これらの結果は、ナレッジグラフがLLMsによる質問応答システムの精度を大幅に向上させることを示しています。
https://scrapbox.io/files/6582c9d0da033c0023ed121a.png
部分的な精度
この研究では、生成されたSQLとSPARQLクエリを手動で分析し、部分的に正確な結果を返すクエリのサブセットを観察しました。部分的に正確な回答とは、返された回答が正確だが不完全である場合を指します。これは、システムが質問の全体的な文脈を理解し、適切な回答を生成する能力を持っているが、完全な解答を提供するには至らないことを示しています。
不正確さ
SQLに関する不正確さは、存在しない列名の生成、データベースに存在しない値をフィルタとして適用すること、不正確な結合の生成などが原因でした。一方、SPARQLにおける不正確さは、生成されたクエリがオントロジー内のプロパティの正しいパスに従わないか、プロパティの方向が逆になることが原因でした。これらの結果から、LLMsとナレッジグラフを組み合わせる際の挑戦と改善の必要性が明らかになります。
研究の回答
RQ1に関して、LLMsは企業用SQLデータベース上の企業用自然言語質問に対して平均で16.7%の精度で応答できることがわかりました。RQ2については、ナレッジグラフを使用することで、応答の平均全体実行精度は54.2%に向上することが明らかになりました。特に低い質問/低いスキーマ複雑度では、ナレッジグラフの使用によりSQLの精度を大幅に上回ることができました。これらの結果から、ナレッジグラフがLLMsの応答精度を向上させる効果的な手段であることが確認されました。