TensorRT-LLM
TensorRT for Large Language Models Beta Release
TensorRT-LLMは、NVIDIA Tensor Core GPU上の最新のLLMの推論性能を高速化し、最適化するオープンソースのライブラリです。
TensorRT-LLMは、FasterTransformerをさらに強化して製品化したものです。
NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs
https://gyazo.com/8e9487b6dac6d58cf48de6332a3a7094
Llama 2 70B H100での性能比較
TensorRT
LLMの高速化
#Nvidia