深層学習の原理
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
https://www.youtube.com/watch?v=hOJCs1X5q8g
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
深層強化学習の汎用に向けて
Shixiang Shane Guさんのめちゃ面白い講演のメモと考察
脳知能と人工知能の境界を探る
https://www.youtube.com/watch?v=ICpa0UnEQtU&feature=youtu.be
Beyond AI
統計数理研究室
生成AIのしくみ
1章 生成AIを作る
2章 生成AIの歴史
3章 流れをつかった生成
4章 拡散モデルとフローマッチング
5章 流れをつくった技術の今後
ChatGPT
二段階アプローチの継続的発展: サツケバー氏は、まず大規模な教師なし学習で世界知識をモデルに習得させ(第1段階)、次に強化学習や人間のフィードバックでモデルの振る舞いを望ましい形に調整する(第2段階)というプロセスが、今後のAI開発の基本路線になると示唆しています
NOTE.COM
。彼はこの第2段階を「極めて重要」と位置づけており、洗練されたフィードバック調整によってモデルがより有用で信頼できるものになると語っています
NOTE.COM
。今後、このアプローチを改良することで、AIはますます人間の意図に沿った賢明な振る舞いが可能になるでしょう。
マルチモーダル学習への展開: サツケバー氏は、人間が視覚や聴覚など複数の感覚から世界を学んでいる点に触れ、AIもテキストだけでなく画像など様々なデータソースから学習するマルチモーダル学習が重要だと述べています
NOTE.COM
NOTE.COM
。実際、GPT-4では画像も入力できるようになり、視覚情報を取り入れることで「世界についてより多くを学ぶ」ことが可能になると指摘しています
NOTE.COM
。視覚を取り入れることでモデルの有用性は飛躍的に高まり、テキストだけでは習得しづらい概念理解が促進されると考えられます。例えば、人間は一生で耳にする言葉がせいぜい数十億語程度ですが、視覚からはそれを上回る情報を得ています。同様に、AIもできるだけ多くの情報源から学ぶことでより包括的な知識を身につけられるというのが彼の主張です
NOTE.COM
NOTE.COM
。このようにマルチモーダル化した教師なし学習と強化学習の組み合わせによって、AIはより人間に近い包括的な理解力を持つようになるでしょう
NOTE.COM
。
スケーリングと汎用AIへの道: サツケバー氏はモデルの**スケーリング(大規模化)にも強い信念を示しています。より大きく深いネットワークと大量のデータで訓練すれば性能が向上することを直感的に信じ、GPT-1からGPT-3への道のりでそのスケーリング法則を実証してきました
NOTE.COM
。今後もモデル規模の拡大とデータ量の増大によって、教師なし学習で得られる知識の質が高まり、強化学習で達成できるタスクの複雑さも増していくと予想されます。彼はこうした進歩の延長線上に汎用人工知能(AGI)**の実現を見据えており、AIの発展は社会にポジティブなインパクトを与え続けると考えています。現に、サツケバー氏らが追求する巨大モデル+強化学習のアプローチは、ChatGPTやGPT-4のような実用的AIを生み出し、我々の生活や産業に変革をもたらしつつあります。
要約すると、教師なし学習は「知識の土台」を築く手法、強化学習は「知能の振る舞い」を鍛える手法として、サツケバー氏は両者の重要性を説いています。そしてこれらを組み合わせたアプローチが、現在のChatGPTのような先進的AIを生み出し、今後ますます高度なAI(ひいてはAGI)の実現に寄与すると展望しています
NOTE.COM
NOTE.COM
。彼のビジョンでは、教師なし学習と強化学習の発展がAIの能力を飛躍的に押し上げる原動力であり、AIの未来を切り拓くキーとなるのです。
岡野原大輔のランチタイムトーク Vol.37「人間を超える知能へ"経験の時代"」
【人間を超える知能へ"経験の時代"】論文
最近発表された論文「経験の時代」について紹介します。この論文は、デイビッド・シルバーとリチャード・サットンという非常に有名な研究者2人がペアで書いたものです。
デイビッド・シルバーはAlphaGoを作ったDeepMindの人で、リチャード・サットンは強化学習の基礎を作った人です。強化学習のトップ2と言っても過言ではない人たちです。
今後、「Designing an Intelligence」という本が出されるそうで、その本の1章としてこれが書かれました。この章に書いてある内容が非常に示唆的で面白いと話題になっていまして、私も読んでみて面白く、学ぶところが多かったので紹介したいと思います。
◆現状のAIの限界と新しいアプローチの必要性
今のLLMを中心としたAIの発展というのが結局何かというと、膨大なデータを用いた教師あり学習です。
人間が良質なデータを日常活動の中でひたすらたくさん作っていて、ファインチューニングするときも専門家がファインチューニング用のデータを作っている場合が多く、そういったものによって成功した、人間のデータの時代と言えます。
今後も人がどんどんたくさんのデータを出していくので、こうした方法は重要なんですが、一方でこの手法はある程度の成功しかせず、人間を超える知能を獲得するのはこのアプローチだと難しい。
具体的には、数学とかプログラム、サイエンスとかそういった領域だと、人間がデータから得られる知識の限界に達しつつあります。
そもそもこういった領域というのはデータが足りていなくて学習しきれないし、ほとんどの学習モデルが生成したデータを使い始めています。
真に価値ある新しい知見、定理、技術、科学的発見は、既存の人間のデータをいくら集めても捉えることができないかもしれません。
こうしたことから、さらに継続的に進化していくためには、AIエージェントが強くなるに従って継続的に新しいデータ生成方式を見つけ、そのデータを使って賢くなっていくような仕組みが必要です。
その賢くなる上で、エージェントが環境と相互作用することが重要だと言っています。
◆「経験の時代」の4つの特徴
「経験の時代」は、次のような点で今と比べて違いがあります。
1つ目が、今のAIは断片的なやり取りをしていて、例えば入力を渡したら答えを出すとか、ソフトウェア開発補助においても一部分の「ここのコードだけ直してね」と言ったら直します、というようなことだけをやるんですが、今後エージェントというのは、経験の流れの中に存在するようになると。
一連のやり取りが次回の利用時に引き継がれているようになる。人間が実際パフォーマンスを出せている理由の1つが、何年にも渡って続く行動と観察の連続した流れの中で、だんだん環境に適応して、目標を修正したりできているから、こうなってるんじゃないかというようなことがあります。
例えば、会社の中で仕事をするという1つの例でいくと、会社で仕事をして初日からマックスなパフォーマンスを上げられる人ってほとんどいないわけですね。
大体1ヶ月ぐらい経って、周りの環境とか会社の情報が分かってきて、3ヶ月ぐらい経つと周りの人ともネットワークも経験もできて、1年ぐらい経つと本当に力が出せて、という感じです。
同じように今のAIも、あたかも毎日が初日の新入社員みたいな感じで、全くコンテキストが与えられないような状況で突然問題がバッと与えられて、「このユーザーは何を求めてるんだろう」とか、「この人は結局どういうところを重要/重要じゃないと思ってるんだ」とか、「使える情報はこれ以外にもあるんだろうか」みたいなことを知らない中でやっているので、やれることに限界があるというのが課題です。
なので、エージェントはどんどん経験の流れの中に存在するようになります。
2つ目が、ちょっと議論をよぶ話題です。
今のエージェントの行動と観察というのは、基本的には人間との対話ベースになっていますが、そうではなくて、もっと環境に深く結びついたものになります。
これは、今はエージェントは人間を向いているんだけれど、AIは人間に向かずに環境に向くようになるという、ちょっと人間中心的なAIとは違う考え方を言っています。
既に今のエージェントは、デジタル世界のAPIを呼び出したり、画面見て操作するようになっているけれども、より世界を能動的に理解して制御する手段が増えてくると、AIは人間中心でコミュニケーションするよりは、自律的に環境と行動する方向へ進んでいくと。
3つ目が、この人たちは強化学習の人たちなので、基本的には強化学習で物事をまとめて話すんですが、エージェントというのは与えられた報酬があって、その報酬を最大化するように行動を修正していくわけです。
その報酬は、今は人間がこういうのは良いよね悪いよねっていうのを決めていますが、今後エージェントの報酬は人間が与えた報酬ではなくて、環境との経験に基づいたものになると。
彼らはgrounded reward(報酬)と言ってるんですが、これからは環境から生じる信号によって定義されるような報酬が必要になると。
例えば、素材とかは分かりやすいですね。新しい素材で、非常に電導率が高くて軽くて作りやすいです、みたいな報酬を定義してあげて、それをどうやって達成するのかは分からないけれども、その報酬を最大化するようにエージェントが試行錯誤をしていくことになる。
この他にも、環境によって定義される、人間のバイアスが入らないような報酬を、しかもその報酬は一体どうやったら上がるのか分かんないようなものであればあるほどハックしにくいので良いというのがあります。
デイビッド・シルバーは、元々reward is enoughという論文を出していて、すごくいい報酬信号があったら、その単一の報酬信号を徹底的に最適化するだけで汎用的な知能が現れるという主張をしています。それほどその単一の報酬をあげるのが難しい。
例えば、地球の気温を下げるというのを報酬として設定したら、それはどこをどう動かしたらどうなるというのが、現実世界を全部理解してないといけなかったりするわけです。
報酬自体が現実世界を理解する上でのいいタスクになっているし、それができるくらいになっていると、実はその報酬を最適化するだけでなく、他の様々な別の報酬も最適化しようとしたときに「温度じゃなくて本当にやりたかったのは海面を1m下げたい」とかだったら、「分かりました、それだったらこうやればできるんです」みたいな、そういうことができるようにするのが目標としてあります。
こういうエージェントが現実世界と繋がって、いろんな行動を取れるようになって、観察できるようになっていると、そこにおいてgrounded rewardを設計することがとても重要だという話をしています。
4つ目、これも議論が分かれるところですが、エージェントは今は人間の言語の思考に縛られているが、そうではなくて経験に基づいて、人間の言語とは違うようなものを使って思考を表現していくのが必要じゃないかということを考えています。
人間が今使ってる言語は記号的で離散的で、微分は計算できなくて、言葉は同じ時間に1個しか出せないんですが、そうじゃなくて、色んな形で思考を表すことができて、そういう形で考えることができると。
これは、どうやってそういうのがいいのかってことすらも経験を通じて発見、改良できることがあるんじゃないかと考えています。
人間の思考を使った場合だと、もしくは模範解答を模倣する場合だと、データに含まれる誤った前提やバイアスを引き継ぐ可能性がある。
この論文の中で例を挙げていたのは、例えば1950年ぐらいで量子力学みたいなものが登場する前は、光が今は真空の中を飛んでいるのはもう常識のようになっていますが、1940年ぐらいは、世界はエーテルって呼ばれる媒体で満たされていて、その中を波のように進むんだというのが主流で、そうではなく真空の中を行くっていうのはクレイジーと思われていたわけですね。
そういう感じで、もしかしたら今これが真実だって思われているようなことでもバイアスがあるかもしれない。そういったところを超越した考え方ができるようなAIにすると。
それをするためには、現実世界との相互作用が不可欠であり、仮説を立てて実験を行って、その結果を観察して原理を更新するような、そういうエージェントを構築することが重要だと考えている。
◆「経験の時代」への期待と課題
今はLLMを中心に急速に発展している人間のデータの時代だけれども、こういった人間のデータに頼らないようなAIを作るのは昔からやりたかったけどできなかった。
だけど一周回って、人が学習データをたくさん提供してあげて、そのおかげで最初のエージェントが登場し始めてきていて、エージェント自身が現実世界とちゃんと意味ある形で試行錯誤をできるようになってきたおかげで、今後はこういう経験の時代が出てくるんじゃないかという風に話をしています。
経験のデータの量と質が、人間のデータをはるかに凌駕するような時代がやってくるのではないかということです。
以上が論文の内容で、自分の感想としては、「そうかもしれない」。
今のLLMがデータ枯渇問題に直面しているのは確かで、人間自体のデータ生成も増えてはいますが、良質なデータはもうかなり限られているという問題があります。
例えば数学のデータってすごく足りないし、プログラムとかもPythonとかJavaScriptとか言語データが豊富なものは性能が良くて、マイナーな言語はそうじゃないんですよね。
なので、今後は人が作ったデータに頼らないでやっていくのは必要じゃないかなと思います。
一方で、現実世界で試行錯誤するのはすごく難易度が高い。ここは散々経験してるところでして、例えばロボットの場合、ロボットを動かして壁壊しちゃいました。それを元に戻すためにリセットボタンがあるかっていうとないんですよね。
なので、試行錯誤しにくいところもあり、物理的制約があるので、おそらく膨大な量のデータを同じように作るっていうのは難しくて、下手すると1例とか2例ぐらいの事例から汎化させるみたいなことをやらないといけない。
実際に物理化学実験とかってそういう感じで、非常に少数の事例から、「超新星爆発がどこかでこことここで起きてるから、こういうことが起きているはずだ」っていうのを予測立てて、それを観察してみたら、実際光曲がっているとか見えて、それであっているかもねっていう形で進んでいたりするわけなんです。
そういう形で必ずしも全部データから帰納的にやるよりは、仮説立てたりするところの積み重ねと、既存の知識を活用することが重要だろうと思います。
一方で、今はその知識もほとんどは人間が積み重ねてきたものですが、下手したら5年後10年後くらいに我々が持っている知識の積み重ねは、大部分がAIが積み重ねたものになるかもしれない。
その知識を元に、新しい経験をちょっと積んで、分かっていることを増やしていくような時代も起きてくるんじゃないかなと思います。
Welcome to the Era of Experience
Learning Universal Predictors
https://www.youtube.com/watch?v=MMIJKKNxvec
On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning
岡野原大輔のランチタイムトーク Vol.45「AIと数学の最前線」
深層学習の原理にせまる
xxx