そのコーディングAIエージェントにどんな振る舞いを期待しているか
最近気づいたこと
コーディングAIエージェントの評価は、人によって・時と場合によって、コロコロ変わる。なぜか?
(モデルの性能差やツールの改善改悪はもちろんある)
何に驚くか、つまり「どんな振る舞いを期待して使っているのか」が違うというのもあると思うteramotodaiki.icon
驚きポイントはいくつかある
1. 短い・曖昧な指示に対して、いい感じに空気を読んで行動した
2. 指示に対して、逆に「〜じゃないですか?」と疑義を呈した
3. 長い・複雑な指示に厳密に従い、指示通りに行動した
どの振る舞いを期待しているかによって、評価が180度変わりうる
(1) を期待していた人は、 (2) の振る舞いに「ごちゃごちゃうるせえ!いいからやれ!」と思う
(2) を期待していた人は、 (3) の振る舞いに「しょせんはインターンレベルの能力か〜」と思う
(3) を期待していた人は、 (1) の振る舞いに「指示してないだろ!勝手に行動すんな!」と思う
教訓
AIエージェントに指示する時は、「どんな振る舞いを期待しているのか」を考え、そのつもりで指示を書くべし
例
プロダクトオーナーになったつもりで、当事者意識を持ち、自ら考え、意思決定もして欲しい
バディとして、ユーザーと意見を交わしつつ、二人三脚で作業を進めて欲しい
作業者として、指示に厳密に従い、指示にないことは一切やらないで欲しい
ツールによって役割を変えるのも手teramotodaiki.icon
例:codex CLIはバディとして、Devinは作業者としての役割に期待する
他人がAIエージェントに過剰に期待していたり、過小評価していたら、
その人は何を期待していたのか
どこに期待とのギャップがあったのか
に、想いを馳せると良い