LLMsなら言葉をインタフェースにしてあらゆるメディアにアクセスできる
public.icon
言語をAPIに持つすべてのもの(人間、コンピュータ、区役所、猫、音楽、数学…)がChatGPTやBingプロメテウスによってアクティベートされたのになぜみんなこんなに落ち着いてられるのか… アクティベートされる、ってのはBingプロメテウス君がアクティブに言語を習得するので自然言語ですべてのツールが操作可能になるって意味。例えばAPIの使用例を与えるとその場で学んでくれる。「部屋の電気をつけて」という命令は自然言語→hueのAPI→電圧みたいな翻訳が必要でその間を頑張って接続してたんだけど、これがon-the-flyで接続される。つまり信号が伝わるようにしておけばAPIやインタフェースの接続は必要なく、入力と出力のパターンをプロメテウス君にあげてその場でAPI設計して貰えば良い。人間to人間のインタフェースも例外ではなく二者間の最適な言語をon-the-flyで構築可能(人間が習得できるかは別) text2musicは音楽しか出せないけどLLMsなら言葉をインタフェースにしてあらゆるメディアにアクセスできる。言語自体もその対象だし、音楽、数学、絵画、ファッションなど語彙と文法が定義可能な対象なら何でもアップデートできる。 メモ
「AとBの違いはなんですか?カラムを適切に選んで表にしてください」が最近のお気に入り。カラムの選択は高次元のマトリクスチャートと等価(次元圧縮すると2次元のマトリクスチャートになる)なので分野の把握にとても便利なんよね
1/n 我々の過去の研究では、“左”や“右”など文法上、類似した品詞、単語表現の扱いは、言語の学習だけでは曖昧になる、という知見がありました。
しかしGPT-4は、画像の学習をしてない場合でも、空間に関する質問に答えたり、図形を描画ソフトで描いたりできるとのこと。
2/n つまりあるレベルでの“空間(世界)モデル“を”言語学習のみ“から獲得しているようにみえます。 そもそも言語が、“人間(身体)“というフィルターを介した実世界の良い表現となっており、膨大な文章の文脈に即した予測学習により、抽象的な世界モデルが獲得されるのだろうと推察します。
3/n LLMが学習に利用した言語ではない、他の言語で利用された際でも高い性能を出すのは、このような抽象的な内部表現を獲得するためだろうと考えています。
しかし、もし「世界モデルを手に入れること」が重要なのだとすれば、それを言語(や画像)のみから行うことは必ずしも効率的とは思えません。
4/ モデルの学習の際に、環境とのインタラクション、感覚運動のデータを(たとえ少量でも)利用することでモデルを効率的に学習できる可能性があると考えています。