Terminal-Bench

code:txt

#####################################################################

# _____ _ _ ______________ #

# |_ _|__ _ __ _ __ ___ (_)_ __ __ _| | || || #

# | |/ _ \ '__| '_ _ \| | '_ \ / _ | | || > || #

# | | __/ | | | | | | | | | | | (_| | | || || #

# |_|\___|_| |_| |_| |_|_|_| |_|\__,_|_| ||____________|| #

# ____ _ |______________| #

# | __ ) ___ _ __ ___| |__ \\############\\ #

# | _ \ / _ \ '_ \ / __| '_ \ \\############\\ #

# | |_) | __/ | | | (__| | | | \ ____ \ #

# |____/ \___|_| |_|\___|_| |_| \_____\___\____\ #

# #

#####################################################################

Agent ターミナル操作を実際に行う “エージェント実装” の名前

LLMをどう呼び、エラー時にリトライし、bash/vim/edit コマンドを組み立てるかまでを決める

Terminus, Claude Code など

Model エージェント内部で呼び出している LLM

claude-4-sonnet, gpt-4.1 など

Date 評価を実行した日

Agent Org そのエージェントを作った組織・コミュニティ

Stanford, Warp, Anthropic…

Model Org LLM を提供している会社

Anthropic, OpenAI, Google…