Noticias

TensorRT 8.0 de Nvidia ofrece un rendimiento de IA conversacional más rápido






Nvidia ha lanzado TensorRT 8.0 para las GPU de Nvidia, incluidos sus módulos Jetson. Este último SDK para la optimización de la inferencia de IA ofrece hasta el doble de rendimiento de consultas en lenguaje natural en comparación con la versión 7.0 con una latencia de 1.2 ms usando BERT.

En GTC 2021 en abril, Nvidia anunció TensorRT 8.0 junto con tecnologías relacionadas como un marco TAO basado en GUI que facilita el entrenamiento de modelos de IA para plataformas con GPU. El SDK de TensorRT 8.0 ahora está disponible para permitir la inferencia de aprendizaje profundo en todos los productos de GPU de Nvidia, incluidos los módulos Jetson basados ​​en Linux.



TensorRT 8.0 en el flujo de trabajo de inferencia de IA
(Click para ampliar la imagen)

La mejora más significativa en TensorRT 8.0 (o TensorRT 8) es la adición de optimizaciones de compilador para redes basadas en transformadores para procesar lenguaje natural como BERT (Representaciones de codificador bidireccional de Transformers). Según Nvidia, la nueva versión ofrece hasta el doble del rendimiento de optimización del transformador de TensorRT 7.0 con una latencia de inferencia de 1.2 ms en BERT-Large. Esto permite a los clientes «duplicar o triplicar el tamaño de su modelo para lograr mejoras dramáticas en la precisión», dice Nvidia.

Un testimonio de Hugging Face afirma que la API de inferencia acelerada de Hugging Face logró una latencia de inferencia de solo 1 ms en BERT con TensorRT 8.0. Hugging Face lanzará la tecnología a finales de este año.

LEER  Ubisoft dice que los jugadores deben acostumbrarse a no tener juegos

Otras mejoras de TensorRT 8.0 incluyen hasta el doble de precisión de Quantization Aware Training (QAT) en comparación con TensorRT 7.0 cuando se usa INT8, afirma Nvidia. La nueva versión también ofrece soporte para la tecnología de escasez que es posible gracias a las GPU Ampere de gama alta de Nvidia, como las tarjetas gráficas T4 y A100. Con Sparsity, los desarrolladores pueden acelerar las redes neuronales reduciendo las operaciones aritméticas.



Soporte de hardware y marco TensorRT 8.0
(Click para ampliar la imagen)

TensorRT se utiliza para optimizar e implementar redes neuronales en producción, incluidas CNN, RNN y transformadores. El software puede acelerar los marcos y ofrece optimizaciones para TensorFlow y PyTorch, así como compatibilidad con ONNX y otros marcos. Después de ajustar los modelos en el Transfer Learning Toolkit (TLT) de Nvidia TAO, los desarrolladores pueden recurrir a TensorRT para encontrar la relación óptima entre tamaño y precisión para cada sistema de destino.

– PUBLICIDAD –



Las aplicaciones de TensorRT se pueden implementar en una variedad de escenarios, desde centros de datos de hiperescala hasta productos integrados o automotrices. En los últimos cinco años, más de 350.000 desarrolladores de 27.500 empresas han descargado TensorRT casi 2,5 millones de veces, dice Nvidia.

Información Adicional

TensorRT 8.0 ya está disponible y es gratuito para los miembros desarrolladores de Nvidia. Visite el anuncio y la página del producto de Nvidia para obtener más información.

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba