Nvidia planea lanzar una biblioteca de software de código abierto que, según afirma, duplicará la velocidad de inferencia de modelos de lenguaje grande (LLM) en sus GPU H100.

TensorRT-LLM se integrará en el marco NeMo LLM de Nvidia como parte del paquete de software Nvidia AI Enterprise a principios del próximo mes. Actualmente está disponible en acceso anticipado.

"Hemos duplicado el rendimiento utilizando las últimas técnicas, los últimos programadores e incorporando las últimas optimizaciones y kernels", afirmó Ian Buck, vicepresidente de hiperescala y HPC de Nvidia.

"Esas técnicas mejoran el rendimiento, no sólo aumentando la eficiencia sino también optimizando el algoritmo de un extremo a otro".

TensorRT-LLM también admitirá otras GPU de Nvidia, incluidas A100, L4, L40, L40S y el próximo Grace Hopper Superchip (que es un H100 combinado con una CPU Grace).

La biblioteca de software incluye un nuevo programador de 'procesamiento por lotes en vuelo' que permite que el trabajo entre y salga de la GPU independientemente de otras tareas. La biblioteca también ofrece conversión automática de FP8, un compilador DL ​​para fusión de kernel y un optimizador de precisión mixto.