長い文章に対応できるトークン数がない - 基素基

長い文章に対応できるトークン数がない

from 大規模言語モデルが進化すると賢さが主観的にわかる人は少なくなっていく

/villagepump/GPT3が一度にインプットできるトークンは4000程度

GPT-4で拡張された

日本語が不利

/villagepump/英語は日本語の2倍GPT3に文脈情報を渡せる

清水 Hyenaのような別の技術で代替されると思う

Transformerの計算量は$ O(N^2)

Hyenaは$ O(N \log N)

計算量がO(N*N)のTransformerにかわりHyenaという、O(N*logN)で済むアーキテクチャも出てきた。

Hyenaは同じサイズのGPTモデルと匹敵する精度でありながら100倍高速だという。しかもシーケンス長が長くなればなるほど速度差は開いていく。

クリエイターの時代 – WirelessWire News

https://twitter.com/ImAI_Eruel/status/1650456978127462400?s=20