世界からのサンプリング

世界からのサンプリング

nishio 先日の交流会では「LLMがLLMの出力を学習したら性能が下がる」という意見に対して「いやAlphaGoのように自分で作ったデータで学習しても賢くなる」という話がされていたが、どちらの意見も少しズレていたなと思った。

nishio まず「みんながGPTで作った文章をネットに載せ、それを将来のLLMが人間の入力だと思って学習してしまう」「だから性能が劣化する」という主張に関しては、LLM生成テキストであること識別してフィルターできるから前提が成り立たない

nishio 「AlphaGoのように自分で作ったデータ」という点に関しては「碁盤と勝敗」という「世界」がプログラムとして実行可能な記述に変換済みで、自己対戦のデータは「世界からのサンプリング」だった。LLMが自己生成テキストを学習してもそれは世界のサンプリングではない。

nishio 「テキストや画像の入力が入ってきて、それに対してリアクションすると、また別の入力が来る世界」が作られていて、それを1億人のアクティブユーザが使ってる。ChatGPTのこと。「いずれLLMに与えることのできるWeb上のデータがなくなる」「データを作るところが大事になる」の作り方の一つ

nishio プログラミングは「コードを書いて実行してみると、結果が得られる」という「定義された世界」なのでAlphaGo同様に「世界のサンプリング」を自己生成できる。

nishio LLMのプログラミング能力は他の能力より伸びやすいというわけ。出てきたコードが一発で動く確率が今後どんどん上がってくるので、人間が1文字1文字入力してtypoしたりするのに比べて生産性が高くなる。人間が全部直接入力するスタイルのプログラミングが駆逐されていくことになる。

nishio 同様に「考えてるだけで行動してない人」の「考える」は世界のサンプリングではない。その種の「考え」の方はLLMの発展とともに緩やかに「価値の低いもの」とみなされるようになっていく。実装なき思想は、もう要らない。