“No estamos pensando realmente en chips”.

Ian Buck ha pasado la mayor parte de su vida pensando en chips. Pero ahora, el responsable de computación acelerada de Nvidia, la empresa de chips más grande del mundo, está pensando en algo más grande.

"No se puede comprar Blackwell como un chip", dijo Buck, también vicepresidente del centro de datos y del negocio HPC de la empresa, a DCD, haciendo referencia a la próxima generación de su línea de GPU. "Es por una buena razón: quiere estar integrado con la CPU. Quiere estar integrado con NV Link. Quiere estar conectado".

En lugar de centrarse en semiconductores individuales, Nvidia se ha transformado en una empresa de plataformas. Ya no se preocupa por un solo acelerador y se centra en sistemas grandes e integrados.

“Esa fue la decisión que tomamos en la generación Pascal [en 2016], porque la IA quería estar presente en múltiples GPU”, afirma Buck. “La era P100 cambió lo que construimos y lo que llevamos al mercado o ponemos a disposición. Ahora son los sistemas”.

Esto ha comenzado a cambiar la composición de los centros de datos, dice Buck. “La oportunidad de que la informática sea transformadora comenzó con la supercomputación, pero con la llegada de la IA eso se ha ampliado.

“Cada centro de datos se está convirtiendo en una fábrica de inteligencia artificial. No se mide en fallas o megavatios, sino en tokens por segundo y en cuántos terabytes de datos estás convirtiendo en ganancias de productividad para tu empresa”.

Esta oportunidad, ya sea una burbuja o no, ha provocado una avalancha de nuevas construcciones de centros de datos. “Pero no pueden esperar dos años para un proyecto de construcción”, dice Buck. “Por eso hemos visto una aceleración de la gente que retira la infraestructura antigua; simplemente están sacando su infraestructura de CPU, moviendo sus GPU y acelerando, de modo que cada centro de datos pueda ser una fábrica de IA”.

“Lo que veremos no es solo una GPU de Nvidia, sino una combinación de plataformas y ecosistemas, lo que permitirá a todos construir el tipo correcto de fábrica de IA y la carga de trabajo que necesitan. Todos estarán en diferentes fases de ese proceso o en diferentes puntos de optimización”, agregó.

Por supuesto, por mucho que Nvidia intente dejar de centrarse en los chips específicos dentro de estas llamadas “fábricas de IA”, su punto de diseño térmico (TDP) define la composición de gran parte del resto del sistema. “Hopper es de 700 W y lo refrigeramos por aire”, dice Buck.

“El HGXB100 también tiene 700 W y está diseñado para adaptarse perfectamente a la situación de Hopper”, añade. “Así, cuando el HGXB100 llegue al mercado, todos nuestros servidores, todo ese centro de datos, incluso la alimentación de los racks, podrán seguir siendo los mismos”.

La industria puede “tomar todo ese ecosistema y actualizarlo e implementarlo a escala”, afirma Buck. Y, dice que los clientes “obtienen el beneficio completo de la GPU Blackwell, ese P4, el motor del transformador, el doble de velocidad de NV Link entre ellos. Por eso Blackwell llegará al mercado mucho más rápido que Hopper, en parte por esa razón”.

La empresa también tiene una versión de 1000 W del HGX: “el mismo silicio, una ligera modificación de los servidores, tienen que ser un poco más altos, y una solución de refrigeración por aire diferente. Básicamente, lo máximo que se puede hacer con refrigeración por aire”.

Pero después de ese punto, las cosas se complican un poco más. "Para el NVL72, queremos asegurarnos de tener lo mejor disponible", dice Buck, con el rack que cuenta con GPU B200. "Eso es 1200 W por GPU, y se convierte en el verdadero impulsor de la refrigeración líquida.

“¿Cuatro GPU en 1U? Liquid es fundamental para aprovechar las ventajas del NVL72. Y eso le brinda el beneficio de un rendimiento de inferencia 30 veces mayor”.

Sin embargo, lo mejor no siempre es lo mejor. “El TDP no es la forma correcta de responder a la pregunta”, argumenta. “¿Cuál es la carga de trabajo y qué es lo que tiene más sentido para su configuración? Si está realizando una inferencia de modelo de 7 mil millones de parámetros, o 70 mil millones, HGX puede ser ideal y puede que no necesite el 100 por ciento de potencia todo el tiempo”.

Sin embargo, la tendencia es claramente hacia chips más grandes, que consumen más energía y necesitan ser enfriados a temperaturas más bajas. La propia Nvidia es parte del programa Coolerchips del Departamento de Energía de los EE. UU., enfocado en soluciones de enfriamiento radicales para semiconductores cada vez más calientes.

Buck se negó a comentar sobre la evolución del TDP, especialmente ahora que la empresa pasa a una cadencia anual de lanzamiento de GPU. “Simplemente estamos trabajando tan rápido como podemos”, afirma. “Sin esperar. Sin reservas. Construiremos lo mejor que podamos y seguiremos adelante”.