NLPタスクを評価する方法まとめ
NLP
タスクを、
LLMのタスクとデータセット
を元に分類し、評価方法をまとめる
自然言語生成(
NLG
)タスク
要約タスク:
要約タスクをどう評価するか?
->
G-Eval
を使って構築
https://chainforge.ai/play/?f=336mugw10juo8
翻訳タスク:
翻訳タスクをどう評価するか?
->
GEMBA
を使って構築
https://chainforge.ai/play/?f=214idd13ywlcs
記事作成
文章生成タスクを、どう評価するか?
->
ChatEval
を使って構築
推論(Reasoning)タスク
推論タスクをプロンプトエンジニアリングでどう評価するか?
数学推論
数学推論タスクをどう評価するか?
常識推論
常識推論タスクをどう評価するか?
記号推論
記号推論タスクをどう評価するか?
知識集約タスク
一般タスク
知識集約的タスクをどう評価するか?
専門タスク
医学知識をどうプロンプトエンジニアリングで評価するか?
自然言語理解(
NLU
)タスク
感情分析、レビュー分類、自然言語推論(
NLI
)、
質問応答
関連論文
現場から学ぶ言語モデルの再現可能な評価