ChatGPT Agentの特徴と問題点　2025年7月19日

https://gyazo.com/04d9545dea7af35727da729397274311https://gyazo.com/9d84429797e25dff75807cd872d562af

https://wirelesswire.jp/2025/07/88936/　#清水亮

やはり予想した通りChatGPT Agentが肩透かしなものになった。どのように肩透かしになったのかは筆者の個人ブログを参照されたい(ChatGPT Agentの特徴と問題点)。

結局ChatGPT Agentが肩透かしだったことによって強くわかったことがある。

当たり前なのだが、会社というのは人と人が集まった場所だ。

エージェンティックAI以後の世界では、ここにエージェンティックAIが加わる。もう面倒なので略してAAIとでも呼ぶか。

人とAAI、人と人とAAI、AAIとAAIと人、などのような新しい関係性が職場に持ち込まれることになる。

DevinやManusのようなコーディング専用AAIは、すでに現場に入り始めている。ただ筆者はこうした専用ツール的なAAIには費用対効果に対して懐疑的だ。

コマンドラインでClaude CodeやGemini-CLIを使った方が効率がいいからだ。DevinやManusを使うにはそれなりにコーディングの知識が必要になるので、ターゲットが不鮮明に見える。

ClaudeにしてもOpenAIのo4にしても、日によって気分が変わる。最近、Claudeがユーザーへの告知なしに制限が急に厳しくなったというニュースがあったが、これらのLLMのバージョンが上がる際、バイブコーディング環境のプロンプトチューニングはやり直しになる。これが結構負担が大きい。ここまで不安定だと仕事に使うには厳しい。

結局、この手のツールもローカル動作するLLMにとって変わられるのではないかと思い始めている。実際、ローカルLLMでのコーディング支援は定期的に話題になる。

ローカル環境のいいところは、自分でハードウェアをメンテナンスできることだ。途中で制限が変わったり機能を落として入れ替えたりされる心配がない。

OpenAIのAPIを普段使っていると、同じ「o4-mini」という名前のAPIであっても、日によって解答の質が変わるケースが多い気がしている。

これは内部的にGPU負荷を減らしたり、効率化したりといったことをやっているからと想像できるが、ちょっとした設定の変化で回答が大きく変化してしまうと、プロンプトチューニングを毎日やり直すことになって大変効率が悪い。

これがローカルLLMなら、設定は自分が固定すれば固定されるので安心して使えるというわけだ。

例えば今月Mistralが開発したDevstral-small-2507は、MacBookPro M2 128GB上でローカルで動く。

わずか13GBしかない小規模なモデルだが、ソフトウェア開発ベンチマークであるSWEBenchでGPT4.1に匹敵するスコアを誇るという。

簡単なコマンドライン操作ならこれでも十分できるはずで、この性能差はクラウドとローカルでどんどん縮まるようになるだろう。

AAIは、仕事の一部を代替するが、クリティカルなことは結局人間がやらなくてはならない。

それでは何も変わらないじゃないかと思うかもしれないが、少なくともコーディングレベルのAAIは、劇的に作業効率を上げている。この変化は全てのビジネス領域で起きる。

重要なのは、AAIと人間が、信頼関係を構築する新しく納得の行く方法を考えることだ。

もはや高度なAI(LLM/VLM/VLA)の開発競争は終わりが見えている。どうせ結局オープンソースが勝つ。画像生成と動画生成では既にオープンソースの勝ちで決着がついたと思う。

大金を賭けた勝負は、どのみち日本の会社はできない。

それよりも、知恵と工夫でAAIとの関係を「どう構築するか」もっと別の言葉で言えば、「AAIをどうもてなすか」

そこを考えるところに、真のフロンティアがある。

https://note.com/shi3zblog/n/n2d4abbb0123c

ChatGPT Agentが公開された。今のところProアカウントじゃないと試せないようだ。

Mazzoさんが解約したつもりでまだ契約していたProアカウントでChatGPT Agentと小一時間ほど遊んでみた結果、この機能の利点と問題点が色々とわかってきた。

Mazzoさんの操作で、ChatGPT Agentについての記事を書かせてみたところ、ChatGPT Agent関連の記事を自動的に検索してnoteに記事を投稿するところまでできた。画像を生成してヘッダーとして設定させることもできた。

ただ、このnoteを読めばわかるが、内容はかなりレベルが低い。わざわざ3万円も払って使うほどの内容ではないし、これを月に400回まで使えると聞かれても、疲れてしまう。一つ一つの作業を人間がつきっきりで見てなければならない。

ChatGPT Agentの特徴

・ChatGPTの新しい「ツール」で、ブラウザ操作を自動化する

・従来のOperatorよりもきめ細かいブラウザ操作が可能

・ブラウザ操作をユーザーが途中から引き継ぐことができる。

これにより、ログインが必要な場面などでユーザーがログイン可能

・ログインするとその情報は保持される

・作業結果はPDFや.docx、.pptx、.xlsxなどで取得可能

と言うことで、色々とアップグレードされている。

しかし、致命的な問題点がいくつかある。

ChatGPT Agentの問題点

・Googleアカウントにログインできない

・めちゃくちゃ遅い

・作業がいちいち止まる

・思考過程は英語でしか表示されない

・かなり頭が悪い

まず、Googleアカウントにログインできないのは参った。普段の仕事をさせようとしてもこれでは全く使えない。

まあきっとMicrosoft365とかにはログインできるのかもしれない。でもそれならConnectorでもいいしなあ。

次に、めちゃくちゃ遅い。噛んで含めるような動きをする。これも致命的に使いにくい。PC操作に慣れてないお爺さんの操作を後ろで見ているかのようなイライラ感。ChatGPT Proを使うような人は相当なITリテラシーだろうから、これは耐えられない気がする。

しかも、完全に放置できればいいのだが、何重にも張り巡らされた保護機構ガードレールによって念には念を押すみたいな感じで何度も聞かれる。マジ使えないシルバー人材センター。

「noteを勝手に更新しろ」と言ってるのに何度も「公開していいの?公開していいんだよね?」と聞いてくる。いい加減にして欲しい。しかも、人間Organic Intelligenceなら一度か二度言えば勝手にやってくれるが、こいつが勝手にやってくれる可能性は限りなくゼロに近い。これだったらClaude Codeでコマンドラインツールを作った方が作業の自動化はしやすい。

ChatGPT Agentも内部的にコマンドラインを持っていて、似たようなこともできるらしいのだが、直接操作できないVirtual Machine上のコマンドラインを使うなら、手元のコマンドラインを使った方が安心感が高い。

ChatGPT Agentを有効利用するには、ユーザーに天才的発想が必要

これを使うにはProで月間400件、それ以外の有料プランで40件までと言うことなのだが、これで40件も何か意味のあることをさせるには人間の側に相当なクリエイティビティが要求される。

個人的には、怖くてとても買い物は頼めないと思った。

たとえば、人間の秘書がこれを使うと作業が効率化されるのなら導入する価値があると思うが、多分秘書が直接PCを操作した方が早いし確実だ。

では秘書を介さずにボスが直接こいつを秘書代わりに使えるかと言うと、全く無理だろう。

たとえばJRの新幹線の予約とかをやらせたいと思っても、多分安全装置のおかげでいちいち細かく聞いてくる。細かく聞かれるんだったら自分でとったほうが早いと考える人の方が多いはずだ。あと、とにかく見ていてイライラするほどに動作が遅い。Virtual Machineの動作ももっさりしているし、誤クリックもする(人間よりポンコツ度が高い)。

あともう数世代すれば、完璧な操作をキビキビできるようになるのかもしれないが、根本的に全体のアーキテクチャを練り直さないとこれをクラウド環境で提供するのはもう難しいのではないかと感じた。

AnthropicのComputer Useでは、ユーザーのローカル環境にVirtual Machineを立ち上げていたのでコンピューティングリソースとしてはClaudeのAPIだけで良かったのだが、ChatGPT AgentはVirtual Machineもクラウド上にあるため多分原価がかかりすぎてる。そのため、価格には一応の理解はできるが、価格相応の価値が提供できているかというと難しいなと思う。

Virtual Machineが遅いから待ち時間も遅くなり、ChatGPT AgentのVLM(視覚言語モデル)がまだ未成熟だから誤クリックしたり非効率的なPC操作を積極的に選択したりして作業時間がかかってしまう。一つの仕事を終えるのに20件くらいのやりとりが必要なので、Proプラン以外は実用的に使うのは難しいのではないか。

このモデルの最大の問題は、言ってみれば「AIの性能が悪く、ユーザーをイラつかせればイラつかせるほど金がかかる」と言う、ユーザーベネフィットと逆方向に機能設定・価格設定がされていることだ。これは製品を出す以前に企画段階でもっと真剣にユーザーベネフィットとコストのバランスを考えるべきだったのではないか。

少なくとも何らかの方法でローカルに処理の負荷を逃す工夫をしないと価格を下げたりスピードアップしたりするのは難しいと感じる。

最近のOpenAIのこの手の機能追加では、「夢のようなビジョン」を語りながら、いざ使ってみるとガッカリすることを繰り返しているように見える(Operatorしかり)。

ChatGPT AgentはITスキルのない人への税金

結論として、ITスキルがある人間、LinuxのコマンドラインやちょっとしたPythonコードを操作できる、スキルがある人間にとってChatGPT Agentはほとんど何の役にも立たない。

ただし、「コマンドラインって何ですか?」と言う人で、金が唸るほど余っている人なら、ChatGPT Agentを使って自分一人ではできなかったことをAIにやらせることができるようになる。

ただし、それは「これまでAIができなかったこと」を多少やらせることができるようになるだけで、その多くは、「これまで人間の秘書ができたこと」をつきっきりで「AIにやってもらう」ことができるようになるだけだ。

普通、秘書を雇う目的は、自分の時間を効率的に使うためなので、そもそもつきっきりで秘書の肩越しにPCの画面を見たりはしないものだ(時間の無駄だ)。ChatGPT Agentは、善悪の判断が自分でできるように教育されておらず、リスクを最小化しようとしているため、常にユーザーがつきっきりで指導しなければならない。

有機知性にんげんの秘書を諸費用込みで月額30万円で雇うか、人工知性エーアイの秘書を月額3万円で雇うか。コストは1/10になるのだろうか。

有機知性は自分がこれまでやっていたメールチェックや郵便物の仕分け、電話の取次、アポの設定、スケジュール管理、航空券の予約、タクシーや弁当の手配を完全に自動で行ってくれる。最初の頃は多少、意識の齟齬があっても、何度か繰り返すことでこちらの状況や好みを覚えてくれてそのように設定してくれる。

ChatGPT Agentはアポの設定やスケジュール管理、航空券の予約はやってくれるかもしれないが、その間、つきっきりで見てなければならない。つまり時間の節約にはならない。

そもそもユースケースがあまり新しくない。自動的にスライドを作成したり、調査して資料化するだけなら、Deep Researchで充分と言う気がする。わざわざ高価で動作が遅いChatGPT Agentを使う必要はない。

人間の秘書とChatGPT Agentの一番の違いは、「秘書」と言う言葉の持つ意味である。「秘書」は英語ではsecretaryである。秘密secretと言う言葉が入っていることからわかるように、日本における秘書とは「大切な秘密を明かせる書生」である。ちなみにアメリカで法人を作る時、社長(president)、副社長(vice president)、会計役(treasurer)、秘書(secretary)の4つの役職の人物を登録しなければならない。アメリカにおいて秘書とはそれほど重要な役割なのである。だから「アシスタント」と「秘書」は概念的に分けられている。

その根底には、絶対的な信頼関係がある。

なぜChatGPT Agentがいちいち確認するかといえば、「信頼関係」が構築できないからだ。それは、OpenAI自身が「ChatGPT Agent」を信用できてないのである(まあそりゃそうだろうな)。

秘書に対する信頼とは、「仮に何かミスをしてもボスが自分の責任範囲でリカバリーできる」と言う前提に成り立ってる。例えば、航空券の発注を間違えてキャンセル料がかかったとしても、「次は気をつけてね」と言えば次は同じミスはしないだろうという「信頼」だ。その信頼は長い時間をかけてしか築き上げることはできない。だから優秀なビジネスパーソンは大抵誰でも長年にわたって付き合っている秘書がいるのだ。自分と相性の合う秘書を探すのは本当に大変なことだ。僕に言わせれば大抵のAI研究者は秘書を持ったことがないか、持ったとしても信頼関係を構築してきた経験が乏しいのだ。

ChatGPT Agentに同じような意味で「信頼」を持てるだろうか?

多分今の状況では無理だろう。

また、もう一つ、秘書は雇われている間は、スタッフとしてボスの権限で雇われている。つまり何かミスをしても責任はボスか秘書個人にあるのだが、ChatGPT Agentが失敗した場合、責任がOpenAIに行く可能性はどこまで行っても捨てきれない。そしてどのような致命的な失敗をするか予見することはかなり難しい。

そんなOpenAIが「あなたの秘書AIです。失敗したら責任はユーザーが取ってください」といくら利用規約に書いたとしても、裁判になる可能性は捨てきれない。そんなリスクを取ることができるだろうか。できやしない。

これを乗り越えるにはもっと根本的なアーキテクチャを変える必要がある。

それはユーザーとAIの間の信頼関係をどのように構築するべきかという観点で設計されるべきだろう。そのような議論はこれまでほとんどされてきていない。