LLMに入力できる日本語の文字数とトークンの関係
日本語だと
ひらがな1文字=トークン数1~2個。
漢字1文字=トークン数2~3個。
以下の記事を参考に、1トークン: 0.96文字と計算
ChatGPT
約4000文字の日本語
約14000文字の日本語
約8000文字の日本語
約31500文字の日本語
約123000文字の日本語
本に換算すると300ページ分ものテキスト
2023年11月、Claude 2.1にアップデートし、10万トークン -> 20万トークンへ
約96000文字 -> 約192000文字の日本語へ
Claude 2.1は無料ユーザーも利用可能だが、20万トークンのコンテキストウィンドウは、Webサイト経由のProユーザー(月額20ドル)限定
コンテキストウィンドウは、20万トークンのまま
最大1000万トークンまでの入力の長文コンテキスト理解を可能にする。
これはつまり、1440ページの本、41070行のコード、オーディオ録音の1日分を快適に処理できることに。
関連情報