Terminal-Bench
code:txt
#####################################################################
# _____ _ _ ______________ #
# |_ _|__ _ __ _ __ ___ (_)_ __ __ _| | || || #
# | |/ _ \ '__| '_ _ \| | '_ \ / _ | | || > || #
# | | __/ | | | | | | | | | | | (_| | | || || #
# |_|\___|_| |_| |_| |_|_|_| |_|\__,_|_| ||____________|| #
# ____ _ |______________| #
# | __ ) ___ _ __ ___| |__ \\############\\ #
# | _ \ / _ \ '_ \ / __| '_ \ \\############\\ #
# | |_) | __/ | | | (__| | | | \ ____ \ #
# |____/ \___|_| |_|\___|_| |_| \_____\___\____\ #
# #
#####################################################################
Agent ターミナル操作を実際に行う “エージェント実装” の名前
LLMをどう呼び、エラー時にリトライし、bash/vim/edit コマンドを組み立てるかまでを決める
Terminus, Claude Code など
Model エージェント内部で呼び出している LLM
claude-4-sonnet, gpt-4.1 など
Date 評価を実行した日
Agent Org そのエージェントを作った組織・コミュニティ
Stanford, Warp, Anthropic…
Model Org LLM を提供している会社
Anthropic, OpenAI, Google…