人間が機械に命令する時代から、機械が人間の問題を解く時代へのシフト
人間が頭を使って部分問題に分けた指示をプロンプトエンジニアリングとかやるのは局所最適でしかない
LLMが起こした相転移は、コンピュータが人間の問題をe2eで解くことができるようになったことを意味する。 #end-to-end 以前は、人間がコンピュータに合わせて問題を分割し、統計処理してモデル化していたが、DNNによってe2eでのモデル化が可能になった。
適切に設計されたLLMがあれば、人間がe2eで解きたい問題とその解を全て食べさせることができる。
GPT4は、マルチモーダルな問題にも対応できる可能性を示している。
人間が機械に命令する時代から、機械が人間の問題をe2eで解く時代へのシフトが進んでいる。
機械に人間の問題を認識させるためのモデルのあり方や、その大規模モデルを効率的に学習させる方法、必要なデータなど、多くの課題がある。
Prompt Engineeringはfine tuningやfew shot learningの類に過ぎず、中長期的な視点での投資が必要。
機械が世界の叡智をモデル化することができれば、その恩恵は計り知れない。
コンピュータは24/365で働けるため、その脅威を具体的にイメージする必要がある。
hrjn 半分くらいは妄想/大袈裟でいうけど、LLMが起こした相転移はコンピュータが人間の問題をe2eで"そこそこ"役にたつ解を出せるようになったということなんだよ。今までは人間さまがコンピュータに合わせてやらねばならなかっただけ。 なぜ学習データが多いかといえばそれが人間がe2eで解きたい問題だから
before DNNの世界は人間さまが機械にわかるように問題を部分問題に分割して、人間さまが試行錯誤して分かち書きして統計処理してモデル化して問題を解いてた。それがDNNによってe2eでのモデル化を可能にした。… さらに表示
雑にいうと適切に設計したLLMがあれば、人間の言葉で表現できる問題とその解を全て食べさせることができるのよ。有史以来の全デジタル化されてる人間の叡智が全て対象になる。
それが今まさに起きている。
GPT4が示した可能性はそれをさらにマルチモーダルに押し広げてるのよね。文字から画像に。もちろんStable Diffusionとかテキスト2イメージな手法とかあるんだからできるだろうと思ってたけど。
すでに画像と文字もできる。必然動画も対象になっていくよね。
この先にある世界は、人類が小説で書いていたような「お願いしたらあとはやっておいてくれる」万能秘書への入り口なのよね。
もちろん、まだ少し時間はかかるけど、そろそろ人間さまが機械に合わせて命令する時代からのシフトに差し掛かってる。
問題は、機械にどう人間さまの問題を認識させるか、認識させるためのモデルのあり方はどうあるべきか、その大規模モデルを効率的に学習させる数学的/情報学的基礎は何か、機械に食べさせるデータは何か、そういう世界になってるよね。
人間が頭を使って部分問題に分けた指示をプロンプトエンジニアリングとかやるのは局所最適でしかない。
本質的には人類の叡智を機械にどう効率よく喰わせるかなんだよ。その規模の前にはクソみたいな細かい個別指示なんてどうでも良いんだよ。
というのが大局的なはなしで、足元はそれでもやはりLLMをfine tuningする技法が中心にはなるだろうね。
Prompt Engineeringは所詮はfine tuningやfew shot learningの類に過ぎないので、まだまだ人工言語よりタスクだとは思う。
けど、ここで変な局所最適的なprompt engineeringに最適化されてしまうと間違いなく遅れをとると思う。
中長期投資として、機械が人間の問題をe2eで解けるようにする世界への投資が行われないと、データの物量の前に負けてしまうと思う。
いちエンジニアが人類の叡智に勝てるわけないやろ。本気か知らんけど「GPTの書くコードが美しすぎる」とか言ってる時点で人間が知識の物量に勝てるわけないってことに早く気づくべき。
Software is eating the worldなんて話があったけど、もはやコンピュータが世界を食べ始めてるんだよ。
コンピュータは24/365で食べ続けられる。この脅威をもっと具体的にイメージすべき。
もし、Google規模で世界の叡智がモデル化されたらどうなるか?そのために何が?
nishio「人間が機械に命令する時代から、機械が人間の問題をe2eで解く時代へのシフト」に関して、人間が問題を言葉にして機械に伝えるのは過渡期に過ぎなくて、大部分の人間には問題を適切に言葉にする能力がないから「機械に人間が観測するのと同じデータを流し込み、機械が問題を発見する」になりそうだな 「機械に人間が観測するのと同じデータを流し込み」のところで動画とか音声を連想する人も多いだろうけど、グループウェアが十分普及して業務上のコミュニケーションの大部分がデジタルテキストになってる組織は一足早くLLMと繋がれるボーナス機なのかもな