Browser Use CLI 2.0
public.icon
概要
AIエージェント向けブラウザ自動化CLIツール
2026/3/20 発表(v0.11.4ベース)
Y Combinator W2025 卒業、$17M シード資金調達
MITライセンスのOSS
2.0 の主な変更点
Playwright ベース → Chrome DevTools Protocol(CDP)直接接続へ
仲介層を排除し、ブラウザとの直接通信を実現
前世代比 2倍の高速化、コスト半減
デーモン常駐による約50msのコマンド実行レイテンシ
Stagehand/Browserbase も同様に Playwright 脱却(v3で5倍高速化)→ 業界トレンド
アーキテクチャ
主要コンポーネント
CLI Main:コマンドラインインターフェース
Daemon:バックグラウンド常駐プロセス(マルチセッション管理)
Agent:タスク実行エンジン(オーケストレーター)
BrowserSession:CDP経由のブラウザ制御抽象層
Tools Registry:40個以上のアクション登録
Watchdogs:11種類の監視モジュール(CAPTCHA、ポップアップ、クラッシュ等)
DOM:HTML解析とLLM向け形式変換(Markdown/JSON)
MCP Server:Model Context Protocolサーバー
デーモン
初回コマンド時に自動起動、ブラウザ終了時に自動停止
Unix socket(WindowsはTCP)経由で通信
~/.browser-use/ に状態を一元管理
インストール
推奨(一行インストーラー)
curl -fsSL https://browser-use.com/cli/install.sh | bash
オプション: --full / --local-only / --remote-only
手動インストール
uv pip install browser-use
browser-use install(Chromiumインストール)
browser-use doctor(診断・検証)
要件
Python 3.11以上
基本的な使い方
3ステップワークフロー
1. browser-use open https://example.com — ページへナビゲーション
2. browser-use state — 要素インデックス取得
3. browser-use click 5 / browser-use input 3 "text" — 要素を操作
主なコマンド
ナビゲーション: open, back, scroll, close-tab
クリック: click 5(インデックス), click 100 200(座標), hover, dblclick, rightclick
入力: type, input, select, upload, keys
データ取得: screenshot, get, eval, python
Wait: wait selector ".button", wait text "Success" --timeout 10000
ブラウザモード
ヘッドレスChromium(デフォルト)
--headed:可視ブラウザウィンドウ
--profile "Default":実Chromeプロファイル(既存ログイン・Cookie保持)
--connect:CDP自動検出(Chrome, Brave, Edge等)
`--cdp-url "ws://...":CDP URL明示指定
クラウドブラウザ(Cloud API経由)
セッション管理
browser-use --session work open https://example.com
browser-use sessions(一覧表示)
browser-use --session work close(終了)
browser-use close --all(全終了)
AI モデル対応
ChatBrowserUse(推奨・自動化タスク最適化、従来比3〜5倍高速)
入力: $0.20/1Mトークン(キャッシュ時$0.02)、出力: $2.00/1Mトークン
OpenAI, Anthropic, Google Gemini, Groq, DeepSeek
ローカルLLM(Ollama等)でも動作可能 → API課金ゼロ運用の事例あり
スクリーンショットベースのビジョン機能によるページ認識
Claude Code スキル統合
公式 Agent Skill を提供
code:mkdir -p ~/.claude/skills/browser-use && curl -o ~/.claude/skills/browser-use/SKILL.md https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md
自然言語からbrowser-useコマンドを自動生成・実行
MCP サーバーモード
browser-use --mcp で起動
Claude Desktop等のMCPクライアントから自動化機能を利用可能
他ツールとの比較
vs Selenium/Playwright
Selenium/Playwright: スクリプト単位で起動・終了、別途LLM連携コード必要
Browser Use CLI: デーモン常駐で約50ms、LLM統合済み、CLI/MCP/Python APIの3形態
vs PinchTab
PinchTab: 約800トークン/ページ、日常的なテキスト抽出に最適
Browser Use: トークン消費多いがフォーム入力等の複雑なワークフロー向き
vs agent-browser
agent-browser: Auth Vault、動画記録対応。Windowsで環境変数の回避策必要
結論: 用途に応じた使い分けが最適
ユースケース別推奨構成
| ユースケース | ブラウザモード | LLM | 備考 |
| ローカル開発 | --headed | ChatBrowserUse | 可視モードで目視確認 |
| CI/CD | ヘッドレス | Gemini Flash | 高速・低コスト |
| 既存ログイン活用 | --profile | 任意 | Cookie保持 |
| Claude Desktop連携 | 任意 | Claude(MCP経由) | --mcpで起動 |
| 大量並列処理 | クラウド | 任意 | Cloud APIでスケールアウト |
トラブルシューティング
browser-use doctor で診断
セッション問題: browser-use close --all
要素が見つからない: browser-use state → scroll down → state
Windows ゾンビプロセス: netstat -ano | findstr 49698 → taskkill /PID <pid> /F
macOS/Linux デーモン残留: ps aux | grep browser-use → kill <pid>
参考資料