TensorRT-LLM
TensorRT for Large Language Models Beta Release
TensorRT-LLMは、
NVIDIA Tensor Core GPU
上の最新のLLMの推論性能を高速化し、最適化するオープンソースの
ライブラリ
です。
TensorRT-LLMは、
FasterTransformer
をさらに強化して製品化したものです。
NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs
https://gyazo.com/8e9487b6dac6d58cf48de6332a3a7094
Llama 2
70B H100での性能比較
TensorRT
LLMの高速化
#Nvidia