Time To First Token
#対話型AI #大規模言語モデル
Time To First Token (TTFT) とは、ChatGPTのような大規模言語モデルを用いた対話型AIアプリケーションにおいて、クライアントからプロンプトを送信してから、最初のトークンが生成されてクライアントに届くまでの時間
サーバからクライアントへのレスポンスはServer-Sent Events等を用いたストリームレスポンスが用いられることが多い
TTFTに作用する要素として、モデル規模・ハードウェア性能・ネットワーク状況・プロンプトの長さや複雑さ・Reasoningなどが挙げられる
https://platform.claude.com/docs/en/about-claude/glossary#ttft-time-to-first-token