Terminal-Bench
Terminal-Bench
https://www.tbench.ai/leaderboard/terminal-bench/2.0
https://www.tbench.ai/leaderboard/terminal-bench/2.1
コーディングエージェントのベンチマーク
ハーネス + モデル の組み合わせを評価している
2026/6/9
https://www.tbench.ai/leaderboard/terminal-bench/2.0
みる
get-vix/vix: Sleek, Fast and Token Efficient AI Coding Agent
claude のトークン節約 & claude api 専用
Terminus 2 何?
harbor 経由で実行する評価用のリファレンス実装
うーん、有名どころでなく、CLI で、OpenRouter が使えるもの、意外とないな
OpenCode, OpenHands
aaif-goose/goose: an open source, extensible AI agent that goes beyond code suggestions - install, execute, edit, and test with any LLM
なんか Linux foundation に渡ってるけどいいのか?
#LLM