NLPタスクを評価する方法まとめ - evergreens

NLPタスクを評価する方法まとめ

NLPタスクを、LLMのタスクとデータセットを元に分類し、評価方法をまとめる

自然言語生成(NLG)タスク

要約タスク:

要約タスクをどう評価するか？ -> G-Evalを使って構築

https://chainforge.ai/play/?f=336mugw10juo8

翻訳タスク:

翻訳タスクをどう評価するか？ -> GEMBAを使って構築

https://chainforge.ai/play/?f=214idd13ywlcs

記事作成

文章生成タスクを、どう評価するか？ -> ChatEvalを使って構築

推論(Reasoning)タスク

推論タスクをプロンプトエンジニアリングでどう評価するか？

数学推論

数学推論タスクをどう評価するか？

常識推論

常識推論タスクをどう評価するか？

記号推論

記号推論タスクをどう評価するか？

知識集約タスク

一般タスク

知識集約的タスクをどう評価するか？

専門タスク

医学知識をどうプロンプトエンジニアリングで評価するか？

自然言語理解(NLU)タスク

感情分析、レビュー分類、自然言語推論(NLI)、質問応答

関連論文

現場から学ぶ言語モデルの再現可能な評価