長い文章に対応できるトークン数がない
from
大規模言語モデルが進化すると賢さが主観的にわかる人は少なくなっていく
/villagepump/GPT3が一度にインプットできるトークンは4000程度
GPT-4で拡張された
日本語が不利
/villagepump/英語は日本語の2倍GPT3に文脈情報を渡せる
清水
Hyena
のような別の技術で代替されると思う
Transformerの計算量は
$ O(N^2)
Hyenaは
$ O(N \log N)
計算量がO(N*N)のTransformerにかわりHyenaという、O(N*logN)で済むアーキテクチャも出てきた。
Hyenaは同じサイズのGPTモデルと匹敵する精度でありながら100倍高速だという。しかもシーケンス長が長くなればなるほど速度差は開いていく。
クリエイターの時代 – WirelessWire News
https://twitter.com/ImAI_Eruel/status/1650456978127462400?s=20