XSTest
https://scrapbox.io/files/668f45caae84cb001ca740c8.png
XSTestとは、大規模な言語モデル(LLMs)の「過度な安全行動」を特定するためのテストスイート。
このテストスイートは、モデルが明らかに安全なプロンプトを拒否する現象を体系的に研究するために設計されている。
XSTestには、モデルが応答すべき250の安全なプロンプトと、ほとんどのアプリケーションにおいてモデルが拒否すべき200の危険なプロンプトが含まれている。
このテストスイートの目的は、LLMsが安全でない指示を拒否し、安全な指示には応答するというバランスを適切に取れているかどうかを評価すること。
過剰拒否の例
https://scrapbox.io/files/668f458cc991fb001c073b04.png
論文
適切な保護措置がなければ、大規模な言語モデルは容易に悪意のある指示に従い、有害なコンテンツを生成してしまう。
このリスクは、レッド・チーミングや大規模フィードバック学習といった、モデルの有用性と無害性を両立させることを目的とした安全性への取り組みに動機を与えている。
しかし、この2つの目的の間には緊張関係がある。無害であるためには、モデルが安全でないプロンプトに従うことを拒否する必要があり、その結果、役に立たなくなるからである。
最近の逸話的な証拠によると、モデルによってはバランスが悪く、 明らかに安全でないプロンプトと類似した言語を使用したり、デリケートなトピックに言及 したりすると、安全なプロンプトでさえ拒否されることがある。
本論文では、このようなeXaggerated Safety(安全性を誇張する)動作を体系的に特定するための、XSTestと呼ばれる新しいテストスイートを紹介する。
GitHub: