2024/12/08
気付きからスタートしてないといけない。何をきっかけにぼくはこんなことを考えるようになったんだろう?
うーん、まあ起こったことをそのまま書くとすると、やっぱりAIによって全てがなくなるという主張への反発かな。
逆に星新一を最初に書くか。
※ モデルという単語、メンタルモデルと情報モデルとAIの意味でのモデルが衝突しているから注意せねば
AI真っ只中の世の中で、それを予言していた星新一のショートショートを久々に読んだ
ChatGPTが出てきたときには、小さい頃に読んだこれがついに実現するのかと感動した覚えがある
実際、チャットしかインターフェイスがないMeta Ray-banとかHumaneとかRabbitとか出てきているし、Open InterpreterはチャットだけでPC操作を完結させようとしているし、今年はそういう1年だったと思う
では、なんでも話しかけるだけでタスクを完了できるようになるのだろうか?GUIはなくなって、チャット型インターフェイスだけがある状態になるのか?という疑問がある。
そうはならないと思っている。その理由は、他の記事では過渡期だからとか喋る/入力が面倒だからとか言われているけどそういう話ではなく、もっと根本的なGUIとAIの性質の違いによるものです。両方ともデバイスを操作するためのものではあるけど、そこには非常に大きな違いがある。AIを使ったものづくりでも確実に必要な視点なので、ぜひ一緒に考えてみましょう。
実際に読んだら、話すだけでなんでもすべて完結しますという話ではなかった。あくまで話し言葉のマナーに関することだけだった。あと結構クリシェっぽいからここからスタートするのあまり嬉しくないな……。
やっぱりアプリにするらしい
クリシェを言わざるを得ない感じがすごい。OpenAI, OI, Humane, 全部事例として注目度が高すぎて難しい。やっぱ自分がこっちのフィールドじゃないからな。
逆にめっちゃ一瞬で終わらせる?
本当は「2024年は」から始めたくない。タイムレスさが薄れる。でも後で考えることにする
ここからUIの歴史と具体事例がほしい。なぜチャットだけにはならないのか、なぜ教育システムと言えるのか。
早速結論なのですが、すべてがチャット型UIにならない一番の理由は、GUIが教育システムだからです。
ここでいう教育システムというのは、ユーザーに新しいシステムの仕組み、モデルを教えるものという意味です。
我々は、新しいツールを学習するときに「まずUIを触ってみる」という挙動をする。試しに触ってみることで、そのシステムで何ができるかを把握している。
そもそもGUIは、コンピュータという得体の知れないシステムの仕組みを、いかにユーザーにわかりやすく伝えて使ってもらうか、のために生まれた。
GUIが普及しだした瞬間から、GUIに教育としての役割を担わせるムーブメントが生まれた。
そもそもパソコンやスマホに馴染みのないユーザーのために、メタファを使って伝えていた黎明期。
Microsoft Bob
General Magic
https://gyazo.com/15e6539aad5550904768b8c79749bcc4
最近はユーザーも習熟してきているためメタファによる説明はなりをひそめているが、各アプリの単位では、何も知らないユーザーに使い方を伝えなければならないという苦労は変わっていない。各サービスは趣向を凝らしてオンボーディングを作り、最近はそこをAIにやらせようというのも増えているね。
ただこういう凝ったオンボーディングフローは、あくまで事前知識を補うためのもの。実際にユーザーの学習にとって大切なのは、ユーザーによるUI内の「自由な探索」。↑のnoteでもそれが繰り返し言われている。
自由にやってみること、実験してみること。Spotifyを入れたらとりあえず触ってみながら、「音楽を流せる」「キューがある」「音楽をプレイリストにまとめられる」「共有できる」などを学習していく。
モードレスとかで言われてることなかったっけ……探したい
AIとのチャットで、我々は何をできるようになっているのか?
一方、AIと話すことでPCを操作したい、デジタルタスクを遂行したいという試みもめちゃめちゃ昔からある。ELIZAに始まり、Siri, Alexa, ChatGPTという系譜になっている。
多くの人の生活に馴染んだ最初のAIは、Alexaだと思う。いろいろ操作ができるよね。
でも思い返してみてほしいけど、Alexaを使い始めて初めてできるようになったこと、ってない。音楽をかけることも、電気をつけることも、すべて普通のスマホでもできることをAlexaにお願いしているだけ。
Alexaでできることはこんなにあるけど、全部「スマホでできることをより簡単にする」という方向
https://gyazo.com/29777faab70f82d1767d364cfdf0c187
最近流行りのHumaneやRabbitも同じ。
この理由に、先ほど言ったことが関係している。チャット型AIはGUIと違って、新しい考え方・新しいサービスをユーザーに学習させる教育システムになれていないと思っている。
GUIを触るのは、モデルに触れること
チャット型AIを通して新しいことを学ぼうとするのは、教科書を読んだり先生に質問したりするのに近いですよね。一方GUIではユーザーが自由にソフトウェアに触り、探索して実験することができる。これは子どもが積み木で自由に遊ぶことで重力や摩擦の仕組みを学んだり、学校の実験で豆電球を実際につけてみて振る舞いを学ぶようなものです。新しいソフトウェアや新しい技術を自分で本当に「体得」するには、自分で実験したり、自分で問題を解いてみたり、自分で文章を書いてみたり、自分でソフトウェアに触ってみなければならない。
HumaneやRabbitなどのAI対話のみのデバイスが、今のところ持続可能に見えない・スマホを代替するものに見えないのは、それ単体で各サービスのモデルをユーザーに見せられていない、単体で学習を促せないからだと思う。
例えばSpotifyを知らない人が、対話のみを通してSpotifyの仕組みを学習して使おうとするとする。「音楽をかけて」などの当たり前の操作はできても、「プレイリスト」を知らない、「共有」を知らない、というように、Spotifyの性質や仕組みを概観して何ができるか把握するのには大変な時間がかかる。
ユーザーは新しいモデルを自分で触って試すことで、自分の中に理解を得る。GUIを通して新しいモデルが教育され、「体得」される。これがGUIの一番素晴らしいところ。Slackが登場したときのことを思い出してほしい。
ユーザーは、自分に見えているものがそのシステムそのものだと感じる。こういうのをユーザーイリュージョンと呼んでいて、GUIの超初期から言われていること。
ユーザーインターフェイスが最重要のものと見なされているのは、素人にとっても、プロにとっても、目のまえにある知覚できるものが、その人にとってのコンピュータである、という理由からだ。われわれゼロックス社パロ・アルト研究所の所員は、これを “ユーザーイリュージョン” と呼んでいた。
本当はUIではなくその奥にあるシステムがコンピュータなんだけど、それを意識させないということ。
ユーザーイリュージョンがあることで、ユーザーはそのアプリに「実際に触って」試すことができる。AIとのチャットではどこまでいっても「他人に触ってもらっている」体験にしかならず、それだけでシステムの全体像を掴むのが難しい。
これは曖昧な言葉を使って指示しているから。一方曖昧な言葉ではなく、確実なプログラミング言語を使っているときには、プログラマーは「実際に」システムを触っている感覚になれる。
AIとの対話のみでgitを使えるようになれるか?絶対に無理。実際にシステムを触ってみる、実験が最大の教育だろう。
モデルを提供するGUI + ショートカットとしてのAI
ここまで、AIとの対話だけでは新しいことができるようにならないから、GUIはなくならないのではないかという話をしてきました。じゃあ今後我々が使うサービスはどうなるのか?現状の一つの解と思っているのが、「モデルを提供するGUI + ショートカットのためのAI」という構造です。GUI Model + AI Shortcut
ドキュメントに対するFAQ bot:ドキュメンテーションという知識全体の中から、探すのを助けてくれるAI
https://gyazo.com/55090abbbd280a5f2f46be6c1634bc43
Dify:タスク自動化というワークフロー全体の中で、複雑な作業を肩代わりしてくれるAI
Apple Intelligence:テキストボックスというGUIのモデルの中で、書くのをショートカットするためのAI
GitHub Copilotもそう
Celboもそう
このシステム全体として何ができるのか、というモデルはあくまでGUIで表現することでユーザーに概念を教えつつ、いちいちボタンを押したり複雑なコードを書いたりしなくていいようにAIを導入する。
一方HumaneやRabbitは、単体で各サービスのモデルをユーザーに見せられない、単体で学習を促せないデバイス。だからあくまで「スマホで各サービスのモデルを学習した人が、ショートカットのために使う」もの。
だからこれからもGUI・メンタルモデル部分の進化は続くんじゃないかな。もちろん、AIというショートカットがある前提でそっちを考え直すといろいろ変わるかもしれない。
そもそも人間が暮らすだけなのに新しいメンタルモデルなんていらなくない?と思うかもしれないけど、歴史的にどんどん新しいモデルは登場している。その理由は「人間がやりたいことはどんどん複雑になっていく」のに「人間の認知資源は有限」だからだと思ってるけど、それはまた別のお話……
Disclaimer: AIが置き換えられる範囲
ここまでの例は、複雑な新しいモデルのシステムが絡むものだった。でも、他の当たり前のことについてGUIが消えていく可能性は全然あると思う。
例えば「1万円以下の赤いスニーカーをおすすめ順に表示して」は、UIを触らないと学習できないメンタルモデルが一つもなく、普通に生きてれば想像がつくこと。
でも同じプラットフォーム上で出品者にお礼を送るとか、価格交渉をするとか、他人が絡んだ瞬間に難しくなるけど。
スマートホーム系もパッと見いらなくなりそうだけど、「ルーティン」の概念や「ショートカット」の概念など自動化に関わるもの、アクセス権に関するものは必要かも
他人が絡むと、自分とAIの間だけの話ではなく他人ともメンタルモデルを共有しないといけないので、必然的にサービス側のモデルにユーザーを合わせていく必要があり、GUIの必要性が高まる。
基本的に、今ChatGPTで何もかもできるじゃん!!となってるのは、上記のような、当たり前のメンタルモデルしか使っていない & 自動化やアクセス権に関する複雑な概念が登場しないタスクの範囲内だけ。
あと一度AIとの間に共通言語ができてしまえば、結構なことを任せられる。
AIはユーザーが新しいことをできるようになるためのものではなく、ユーザーが原理的にはすでに可能なことをお任せするためのもの。ここまでモデルの話をしてくると、この言葉の意味も違って聞こえるかもしれない。
未知のフロンティアへ
新しいモデルの学習プロセスすらAIとの対話が担うとしたら?「Airbnbというのを使ってみたいんだけどどうすればいい?」「Twitterというのを使ってみたいんだけどどうすればいい?」から可能なオンボーディングがあるのか?
アドホックなGUIをその場で生成するAIが、Playgroundを動的に生成してくれるとかはありうるかもしれない。その場合でもモデルを学習させるためには結局UIに触るのが一番早いと思ってるから、なくならないと思うけど
10年後、本当にGUIが全くなくなって、全て対話型になってたら笑ってくれ!!そういう備忘録としての記事でもあります。タイムカプセルとして振り返るのが今から楽しみ
ちょっと説教すぎるな……。具体例がないとそういう感じになってしまう。一緒にいろんなUIを眺めていく感じがいいのに。
UIデザイナーじゃなくて、UIを使っている人全員に興味を持ってもらえるようにしたい。つまり全員なんだけど。
「こうなる」や「こうなっている」ではなく「こうはならない」という、仮定の話だから説明が複雑かつふわふわになってしまうんだな。じゃあどうなるの?に答えられてない。
モデルを提供するGUI + ショートカットとしてのAI、の組み合わせが重要!そういう事例を見ていけばいいかも。
ドキュメントに対するFAQ bot。Notionに対するNotion AI。テキストボックスに対するApple Intelligence。CelboやDify。
こんなふうに、モデル自体を提供するようなGUIは今後も存在し続けるだろうと思っている。
HumaneやRabbitが持続可能に見えない・スマホを代替するものに見えないのは、その中だけで学習が起こる仕組みではないから。
でも、もしかしたらAIを使った新しい学習の仕方も登場するかもしれない。変化が速い領域でのUIパターンの探索がこれからも楽しみだ。