モデルの扱えるトークン数の比較
context windowの長さを比較したい
table:トークン数
モデル名 context windowの長さ 備考
Gemini 1.5 Pro 2000000
Gemini 1.5, GPT-4.1 1000000 Gemini 1.5は内部的には1000万まで達成しているらしい
GPT-5 400000
Claudeファミリー、o1 200000
Mistral Small, Mistral Large, Pixtral Large, Pixtral, Mistral Nemo 131000
GPT-4o, GPT-4o mini, GPT-4 Turbo, Gemma 3(1B以外) 128000 GPT-4oはtokenizerの改良で日本語が40%多く読めるようになった
DeepSeek-R1 64000
Qwen2.5 1.5BやGemma 3の1B 32768
GPT-3.5-turbo(1106/0125) 16385
GPT-3.5-turbo(gpt-3.5-turbo-instruct) 4096 LM Studioのデフォルトコンテキスト長でもある
Source
GPT-5 https://platform.openai.com/docs/models/gpt-5
当初256kという記載があったが40万に修正された。256kと報じているメディアもある基素.icon
Claudeファミリー
https://docs.anthropic.com/ja/docs/about-claude/models/overview
GPT-4.1 https://openai.com/index/gpt-4-1/
Gemini 1.5 Pro /villagepump/Google I/O 2024#664424715f1e0d00009d4abb
GPT-4o https://platform.openai.com/docs/models/overview
deepseek r1 https://api-docs.deepseek.com/quick_start/pricing
from 雑談 2024年2月
今って、どれぐらいの情報を一度に扱えるんだっけ?基素.icon
GPT-4 Turboが128000token
https://platform.openai.com/docs/models/continuous-model-upgrades
Gemini 1.5が100万token
こっちは動画も扱える
1 時間の動画、11 時間の音声、30,000 行以上のコードベース、70 万以上の単語など、膨大な量の情報を一度に処理することが可能となります。
https://cloud.google.com/blog/ja/products/ai-machine-learning/gemini-on-vertex-ai-expands?hl=ja
内部的には1000万tokenできているらしいから、そうすると30万行のコードベースか
後2桁増やして10000万tokenぐらいになると、多くのサービスのコードがまるまる入れられそう
複雑なChromiumのコードは4000万行あるからこれでもまるまるは無理
一時みんなコンテキスト長ばっかり競ってたけど最近あんまり注目されなくなったなnomadoor.icon
Claude 2.1が200k
ただしハルシネーションがひどいという研究がどっかにあった気がする
それだと実用できないな基素.icon
トークン長によるハルシネーション
無限の我らがRWKV
よく分かっていないけど、何でも無限にできるらしいStreamingLLM
奇しくも2月14日に1MトークンでハルシネーションなしLLMが出ていた
Large World Models
LLMじゃないなこれ、しっかり論文読みます
重みの公開されてるモデルだと、DeepSeek V3/DeepSeek-R1が12800064000らしい…?で割と標準的。Qwen2.5-1Mとか言う脅威の1M(1,000,000)トークンのモデルも出た(ただし1M扱うにはメモリが7Bモデルでも120GBも必要になる…)morisoba65536.icon
ローカルLLMだと、VRAMの都合で4096に設定してる人がまだ多いイメージbsahd.icon