自然言語処理
コンピュータに「ことば」を教える分野
大量のテキストデータをAIが分析する技術
NLPの主要なタスク
テキスト分類
NLPタスクを、LLMのタスクとデータセットを元に分類し、評価方法をまとめる
自然言語生成(NLG)タスク
要約タスク:
要約タスクをどう評価するか? -> G-Evalを使って構築
https://chainforge.ai/play/?f=336mugw10juo8
https://dify.ai/blog/integrating-jina-embeddings-v2-dify-enhancing-rag-applications
ポイント
DifyとJina EmbeddingAPIについての記事(2023.12)
OpenAIのtext-embedding-3より性能が悪いから、使うのはどうなんだろう...
感じたこと
海外ベンチマーク
難易度Easy-Medium
Big-bench
MMLU、JMMLU
難易度Hard
質問応答(Question Answering, QA)のタスクは、NLUとNLGの両方の要素を含むことが多い
違いは、あらかじめ答えが用意されているかどうか。
用意されている -> NLU
用意されておらず、生成するタスク -> NLG
NLUの場合、ユーザーからの質問を理解し、それが何を求めているのかを把握するタスク
難しい推論をさせるときに使われるデータセット。
自然言語理解(NLU)と推論能力を評価するための質問応答(QA)タスク。
質問はしばしば直接的な知識だけでは答えられず、論理的推論や隠れた前提の特定が必要になる。
Take a Step Back論文では、マルチホップ推論として、MuSiQueと一緒に使われていた
StrategyQAの質問は、一般的な事実に基づいているものの、答えを導き出すためには推論や戦略的な思考が必要なもの。
Bias Benchmark for question answeringの略
質問応答(QA)モデルの出力に現れる社会的バイアスを評価・理解するために設計されたデータセット。
このベンチマークは、情報が不足している(情報不足のコンテキスト)場合のモデルの反応が社会的バイアスをどの程度反映しているかを評価することから始まる。
次に、より情報に富んだコンテキストが提供された場合でも、モデルのバイアスが正しい答えの選択に影響を与えるかどうかを検証する。
自然言語処理(NLP)モデルの性能を評価するための標準ベンチマーク
テキスト分類、機械翻訳、要約、読解理解、対話生成など多様なタスクをカバー
CoLA(Corpus of Linguistic Acceptability)要約
文の文法的正しさを判断
STS-B(Semantic Textual Similarity Benchmark)
ASDiv(Academia Sinica Diverse MWP Dataset)は、数学のワードプロブレム(MWP)に特化したデータセット。
このデータセットは、多様な数学の問題を集めたもので、特に自然言語処理(NLP)や機械学習の分野での研究やアプリケーション開発に使用される。
基本的な算数問題:
例: 「リンダはりんごを7個持っています。彼女の友達がさらに5個のりんごを持ってきました。リンダは合計でいくつのりんごを持っていますか?」
MathQAは、数学的な問題解決能力と自然言語処理(NLP)を組み合わせたタスク。
このデータセットは、AQuA-RATデータセットの問題に新しい表現言語を注釈することで収集された。
AQuA-RATは問題、選択肢、理由、正しい選択肢を提供しているが、この理由はしばしば不完全で時に不正確。
MathQAは、これらの理由を修正し、AQuA-RATの一部に段階的な解決策を提供した。
https://math-qa.github.io/