データをデカくすると突然性能が良くなる現象
Characterizing Emergent Phenomena in Large Language Models – Google AI Blog
via https://twitter.com/takuyakitagawa/status/1619513571213467648
More is differentも紹介されている
@takuyakitagawa: データを食わせることでAIは賢くなるのだが、すでにデータ量や計算量を増やすことによる改善は飽和していると思われていた最中!
あるポイントでAIが突然変異をした
この現象が物理学における相転移にそっくりであることは以前のツイートで詳しく説明した 2/n
https://twitter.com/takuyakitagawa/status/1619513559326818305?s=20
@ktakahashi74: そこで一旦基本に戻る。機械学習モデルが出来るのは学習に使ったデータからの帰納だ(既に見たことがあることしか予測出来ない)。しかしGPT3/4は柔軟な応答や多段論法など一見学習データセットから直接的に導けるとは思えない演繹的なタスクを実行しているように見える。可能な説明は二つある。(5/15)
@ktakahashi74: 1つ目は我々がこれまで演繹と思っていたものの大部分が帰納だったという可能性だ。例えばシマウマと聞いて縞模様のあるウマを想起するとき、ある特徴とあるモノとを組み合わせて別のモノを導き出すこれと同型のパターンはデータセットのどこかに含まれていた。(6/15)
@ktakahashi74: おそらく10の24乗FLOPSというのは人類が言語情報の形で蓄積した知識の総体から意味ネットワークを抽出するのに必要な計算量なのだろう。丁度その辺りの閾値を超え急激に意味ネットワークがつながり性能が向上した。この場合今後はシグモイド的(急激な上昇の後に停滞期が来る)に推移するだろう。(7/15
@ktakahashi74: もし1つ目の可能性が正しい場合、計算量とモデル規模の伸びに対していずれ学習データ量が追従出来なくなり、「人類がこれまで言語その他の情報の形で書き溜めた知識の総体」を学習し切ったところで性能向上は頭打ちになるだろう。(11/15)
@ktakahashi74: 2つ目の可能性は、北川さん(@takuyakitagawa)やgoogleのブログにあるように、ネットワークモデルに創発的(相転移的)な現象が起きているということだ。つまり、計算力の適用によりデータセットには明示的に含まれていない新しい連関や意味ネットワークが生まれているという可能性だ。(8/15)
@ktakahashi74: 2つ目の可能性が正しい場合には、当面は際限なく性能が向上するように見えるだろう。その場合、計算力に関する物理的な制約がクリティカルになることは何度か紹介している私の2018年の論文でシナリオ整理している通り( https://www.jstage.jst.go.jp/article/jjsai/33/6/33_867/_article/-char/ja/ )。(12/15)
人類を加速させる計算資源が足りない