TensorRT-LLM - work4ai

TensorRT-LLM

TensorRT for Large Language Models Beta Release

TensorRT-LLMは、NVIDIA Tensor Core GPU上の最新のLLMの推論性能を高速化し、最適化するオープンソースのライブラリです。

TensorRT-LLMは、FasterTransformerをさらに強化して製品化したものです。

NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs

https://gyazo.com/8e9487b6dac6d58cf48de6332a3a7094

Llama 2 70B H100での性能比較

LLMの高速化