CSQA
言語モデルが一般常識に基づいて質問に答える能力をテストするタスク
日常生活に関連する簡単な質問や、一般的な知識を要求する質問に答えるよう求められる。
このタスクの目的は、モデルが単に大量のテキストデータを記憶するだけでなく、そのデータから意味や常識を抽出し、新しい状況や質問に適用できるかどうかを評価することにある。
これは、言語モデルの理解力と適応力を測定する重要な方法であり、特に日常生活における言語理解の文脈で重要。
たとえば、モデルが「雪が降るとなぜ寒くなるのか」という質問に答える場合、単に「雪が降ると寒くなる」という事実を繰り返すのではなく、気温が低下することが雪の形成につながるという気象学的な原理を理解しているかどうかを評価する。
これは、モデルが単なる事実の記憶ではなく、その背後にある原理や概念を理解しているかどうかを見極めるための良いテストになる。