Transformerのscaling law
例えば,他の2変数がボトルネックにならない場合,パラメータ数を2倍にすると性能は2のべき乗倍になる
Transformerの深さ・幅・ヘッド数は最小限の影響しかない
https://gyazo.com/1bcc0d083d0b81046779df6099e0d83e
https://gyazo.com/6626a4c401658d4b5315202ccfe18102
The best models of 2021 will make the best models of 2020 look dull and simple-minded by comparison. Written by Ilya Sutskever (chief scientist of OpenAI). GPT-4はScaling Law第二の論文のスケールアップになる可能性が高いです.テキストの言語モデルからマルチモーダルの生成モデルにフォーカスを広げ,スケーリングとベンチマークの性能の関係性を深掘りすると思います.
https://gyazo.com/2e0c529812199509055d9167a8e86054
最近のOpenAIはTransformerのスケーリングを事業の中心にしようと考えている節があります.
OpenAIには120人の従業員がいますが,論文一覧の発表数を数えると2018年に30本,19年に16本,20年に8本と減少傾向で,Scaling LawとGPT-3の共著者はかなり多いです.また,チーフサイエンティストのIlya SutskeverはスケーリングがAGIを実現する鍵だと主張しています.彼は2012年にAlexNet,2014年にSeq2Seqを発明した人物です.