Agents for Software Development
開発者は何に時間を使っているのか?
コードを書く以外にもタスクがある(コミュニケーションが3分の1)
エージェントと環境のインタフェース
Figure 2
2.1 event stream
数少なく強力なツール (2.1 Actions)
cmd
ipython
BrowseURLAction
BrowseInteractiveAction ブラウザ操作
コード編集
StrReplaceAction
引数でview, replace, undoなどサポート
ファイル特定
3つの方法
ソフトウェアエージェントの評価
テスト環境
能力を個別に
エンドツーエンド
Webサイトをローカルで立ち上げる
60%のissueを閉じられる
ただしOSSは言語モデルの訓練に使われている
それぞれの言語モデルの実力は? (slide=24)
claude+o1+critic 61%
どのように改善するか
その他のトピック
使えば使うほどエージェントがよくなってほしい
安全な使用
https://youtu.be/VU6Qy-7-2HI?si=wkrt-TH3FzwxsUWW