PromptBench

https://scrapbox.io/files/65a6264db7efce0025dc21e4.png

PromptBenchは大規模言語モデル（LLM）の評価のためのPytorchベースのPythonパッケージ。研究者がLLMの評価を行うための使いやすいAPIを提供している。

Promptbenchは何を提供していますか？

迅速なモデル性能評価

迅速なモデル構築，データセットのロード，モデル性能の評価を可能にするユーザフレンドリーなインターフェースを提供します．

迅速なエンジニアリング

いくつかのプロンプトエンジニアリング手法を実装しています。例えば例えば、Few-Shot CoT (Chain-of-Thought)、EmotionPrompt、Expert Promptingなど。

敵対的プロンプトの評価

プロンプトベンチはプロンプト攻撃を統合しており、研究者はモデルに対するブラックボックス的な敵対的プロンプト攻撃をシミュレートし、その頑健性を評価することができる。

潜在的なテストデータ汚染を軽減する動的評価

動的評価フレームワークDyValを統合しました。

PromptBenchとは？

PromptBenchは、プロンプトの品質を評価するための新しいベンチマークとデータセット。

PromptBenchは、さまざまなNLPタスク（例えば、質問応答、文章生成、感情分析など）におけるプロンプトの効果を評価するためのもので、それぞれのタスクに対して複数のプロンプトが用意されている。