Amazon Web Services (AWS) ha lanzado instancias EC2 con las últimas GPU Nvidia y chips Trainium.

El gigante de la nube también ha revelado sus planes para su chip Trainium3, durante un discurso de apertura pronunciado por su director ejecutivo Matt Garman en el evento Re:Invent de esta semana en Las Vegas.

Garman reveló tres nuevas instancias EC2: las instancias P6 y Trn2 y los Trn2 UltraServers.

La familia de instancias P6 cuenta con las últimas GPU Blackwell de Nvidia y estará disponible en 2025. AWS espera que las instancias ofrezcan un procesamiento hasta 2,5 veces más rápido que la generación actual de GPU.

“AWS y Nvidia han estado colaborando juntos durante 14 años para garantizar que seamos realmente excelentes en la operación y ejecución de cargas de trabajo de GPU”, afirmó Garman sobre la asociación.

La compañía también ha estado desarrollando instancias que utilizan sus chips Trainium de desarrollo propio.

Las instancias Trn2 de Amazon EC2 ya están disponibles para el público en general y, según Garman, son las instancias más potentes para la IA generativa. Ofrecen un rendimiento entre un 30 y un 40 por ciento mejor que las GPU actuales. Las instancias tienen 16 chips trainium2 conectados por un NeuronLink interconectado de alto ancho de banda y baja latencia, y pueden ofrecer 20,8 petaflops.

AWS también ha lanzado los Amazon EC2 Trn2 UltraServers, compuestos por cuatro instancias Trn2 y conectados con un NeuronLink, los UltraServers tienen 64 chips Trainium2 y pueden ofrecer hasta 83,2 FP8 petaflops de potencia informática.

En realidad, los UltraServers son cuatro instancias combinadas en un nodo, explicó Garman. “Ahora se puede cargar uno de estos modelos realmente grandes en un solo nodo, lo que ofrece una latencia mucho mejor y un rendimiento mucho mejor para los clientes sin tener que dividirlo”.

Garman también anunció el Proyecto Rainer, que se está desarrollando junto con Anthropic. El Proyecto Rainer construirá un clúster de Trainium2 UltraServers que contendrá cientos de miles de chips Trainium interconectados con redes EFA de tercera generación y baja latencia a escala de petabits.

Cuando esté terminado, se espera que sea el clúster de computación de inteligencia artificial más grande del mundo.

“El clúster tendrá cinco veces la cantidad de exaflops que el clúster actual que Anthropic utilizó para entrenar su conjunto líder de modelos cuadráticos para atención médica, cinco veces la cantidad de cómputo que utilizan en la generación actual. Estoy muy emocionado por ver lo que el equipo de Anthropic puede lograr con ese tamaño”, dijo Garman.

Garman también ha revelado planes para el chip Trainium3, que dijo llegará "a finales del próximo año".

"Trainium3 será nuestro primer chip en AWS fabricado con un nodo de proceso de 3 nanómetros. Brindará el doble de capacidad de procesamiento que Trainium2 y será un 40 por ciento más eficiente", afirmó Garman.

"Permitirá crear aplicaciones más grandes, más rápidas y más emocionantes".