Mientras Riken y otras empresas del campo de la supercomputación buscan ideas en la nube, los hyperscalers también han recurrido al campo de HPC para comprender cómo implementar sistemas interconectados de forma masiva.

Pero, como hemos visto, los gigantes han descubierto que sus recursos financieros les han permitido superar a las supercomputadoras tradicionales.

Los cambios repentinos siempre son posibles pero, por ahora, esto deja a los hyperscalers como Microsoft y Google a la cabeza, y en el proceso desarrollan nuevas arquitecturas para su nube.

Microsoft: hiperescala a superescala

"Mi equipo es responsable de construir la infraestructura que hizo posible ChatGPT", dijo Nidhi Chappell, gerente general de Microsoft para Azure AI. "Así que trabajamos muy de cerca con OpenAI, pero también trabajamos en toda nuestra infraestructura general de IA".

La división de Chappell ha sido responsable de implementar algunos de los clústeres de cómputo más grandes del mundo. “Es una mentalidad de combinar hiperescala y supercomputación en la generación de superescala”, dijo.

Esta ha sido una transición de varios años en la empresa, ya que une los dos mundos. Parte de eso involucró una serie de contrataciones de alto perfil del sector HPC tradicional, incluido Glenn Lockwood de NERSC, el CTO de Cray, Steve Scott, y el jefe de esfuerzos de exaescala de Cray, el Dr. Dan Ernst.

“Todas estas personas de las que habla son parte de mi equipo”, dijo Chappell. “Cuando vas a una escala mucho mayor, te enfrentas a desafíos que se encuentran en una escala completamente diferente. La supercomputación es la próxima ola de hiperescala, en cierto sentido, y debe repensar por completo sus procesos, ya sea cómo adquiere capacidad, cómo la va a validar, cómo la escala y cómo la va a reparar.”

Microsoft no comparte exactamente cuál es esa escala. Para sus instancias públicas estándar, ejecutan hasta 6000 GPU en un solo clúster, pero "algunos clientes superan las ofertas públicas", dijo Chappell.

OpenAI es uno de esos clientes, que trabaja con Microsoft en implementaciones especializadas que son mucho más grandes, desde el acuerdo de mil millones de dólares entre las empresas. “Pero son los mismos bloques fundamentales que están disponibles para cualquier cliente”, dijo.

El tamaño no es el único desafío que enfrenta su equipo. Como vimos anteriormente, los investigadores trabajan con modelos cada vez más grandes, pero también los ejecutan durante mucho más tiempo.

“Cuando ejecuta un solo trabajo sin parar durante seis meses, la confiabilidad se convierte en el centro de atención”, dijo. “Realmente tienes que repensar el diseño por completo”.

A la escala de miles de GPU, algunas se estropearán. Tradicionalmente, "los hyperscalers tendrán muchos trabajos independientes, por lo que puedes sacar una flota y estar de acuerdo con ello", dijo.

“Para el entrenamiento de IA, tuvimos que volver atrás y repensar y rediseñar la forma en que hacemos la confiabilidad, porque si está sacando un porcentaje de su flota para mantenerla, ese porcentaje literalmente no está disponible.

“Tuvimos que pensar cómo podríamos recuperar la capacidad rápidamente. Ese tiempo de respuesta tuvo que reducirse para garantizar que toda la flota esté disponible, en buen estado y confiable todo el tiempo. Eso es casi luchar contra la física en algún momento”.

Esa escala solo crecerá a medida que los modelos se expandan en alcance y tiempo requerido. Pero así como OpenAI se está beneficiando del volante de datos de uso para mejorar su próxima generación de modelos, Microsoft también está aprendiendo una lección importante al ejecutar la infraestructura de ChatGPT: cómo construir la próxima generación de centros de datos.

“La infraestructura de ChatGPT no se construye desde cero”, dijo. “Tenemos un historial de construcción de supercomputadoras que nos permitió construir la próxima generación. Y hubo muchos aprendizajes sobre la infraestructura que usamos para ChatGPT, sobre cómo pasar de un hyperscaler tradicional a un hyperscaler de supercomputación”.

A medida que los modelos se hacen más grandes y requieren más tiempo, eso “requerirá que continuemos al ritmo de una infraestructura más grande y poderosa”, dijo. “Así que creo que el momento crucial [del lanzamiento de ChatGPT] es en realidad el comienzo de un viaje”.

Google: de la búsqueda a la IA

Google también ve esto como el comienzo de algo nuevo. “Una vez que realmente tiene estas cosas en manos de las personas, puede comenzar a especializarse y optimizar”, dijo el jefe del equipo de infraestructura de servicios y sistemas globales del gigante de las búsquedas, Amin Vahdat.

“Creo que verás un montón de refinamiento en el lado del software, el compilador y el hardware”, agregó. Vahdat comparó el momento con los primeros días de la búsqueda web, cuando hubiera sido inimaginable que cualquiera pudiera indexar los contenidos de Internet a la escala que hacemos hoy. Pero tan pronto como los motores de búsqueda crecieron en popularidad, la industria aceptó el desafío.

“Durante los próximos años, verá mejoras dramáticas, algunas de ellas en el hardware y muchas en el software y las optimizaciones. Creo que la especialización en hardware puede continuar y continuará, según lo que aprendamos sobre los algoritmos. Pero ciertamente, no vamos a ver 10 veces al año durante muchos años más, hay algunas cosas fundamentales que se romperán rápidamente”.

Ese crecimiento en la computación en la nube se produjo a medida que la industria aprendió y tomó prestado del sector de la supercomputación tradicional, lo que permitió un rápido aumento en la cantidad que los hyperscalers pueden ofrecer como clústeres únicos.

Pero ahora que se han puesto al día, presentando sistemas que estarían entre los 10 primeros de la lista Top500 de las supercomputadoras más rápidas, tienen que allanar su propio camino.

“Los dos sectores están convergiendo, pero lo que nosotros y otros estamos haciendo es bastante diferente de la supercomputación [tradicional], ya que realmente reúne las fuentes de datos de extremo a extremo de una manera mucho más dramática”, dijo Vahdat.

“Y también diría que la cantidad de especialización que estamos aportando al problema no tiene precedentes”, agregó, haciéndose eco de las preocupaciones del profesor Matsuoka sobre los tipos divergentes de HPC (ver la parte III).

“En otras palabras, mucho de lo que hacen estos modelos es esencialmente preprocesar enormes cantidades de datos. No es la totalidad del conocimiento humano, pero es mucho, y se está volviendo cada vez más multimodal”. Solo preparar la entrada correctamente requiere canalizaciones de procesamiento de datos que "no tienen precedentes".

Del mismo modo, aunque HPC ha combinado procesadores de uso general con redes de latencia muy baja, esta carga de trabajo permite sobres de latencia ligeramente más altos, vinculados a una configuración de cómputo especializada acelerada.

“No se necesita esa latencia ultra estrecha de casi nanosegundos con un tremendo ancho de banda a escala completa”, dijo Vahdat.

“Todavía lo necesita, pero a escala mediana a grande, no a escala extra grande. Veo los paralelismos con la supercomputación, pero las diferencias de segundo y tercer orden son sustanciales. Ya estamos en territorio desconocido”.

La empresa se diferencia de la HPC tradicional al llamarla "supercomputación especialmente diseñada para el aprendizaje automático", dijo.

En Google, eso puede significar grandes grupos de su familia de chips de TPU interna (también usa GPU). Para este tipo de supercomputación puede acoplar 4.096 TPUv4s. Está determinado por su topología. Resulta que tenemos un toroide 3D y la raíz de su chip”, dijo Vahdat, lo que esencialmente significa que se trata de cuántos enlaces salen de cada chip y cuánto ancho de banda se asigna a lo largo de cada dimensión de la topología.

“Así que 4096 es realmente una cuestión de tecnología y de bienes raíces del chip, ¿Cuánto asignamos a SerDes y ancho de banda fuera del chip? Y luego, dado ese número y la cantidad de ancho de banda que necesitamos entre chips, ¿Cómo conectamos las cosas?”

Vahdat señaló que la compañía “podría haber llegado a, digamos, duplicar la cantidad de chips, pero entonces habríamos estado restringiendo el ancho de banda. Así que ahora puede tener más escala, pero la mitad del ancho de banda de bisección, que era un punto de equilibrio diferente”.

El sector podría volverse aún más especializado y crear clústeres que no solo sean mejores en el aprendizaje automático, sino que sean específicamente mejores en los LLM, pero por ahora, el sector se está moviendo demasiado rápido para hacer eso.

Sin embargo, está impulsando a Google a mirar más allá de lo que significa un clúster y unirlos como un solo sistema más grande. Eso podría significar combinar varios clústeres dentro de un centro de datos.

Pero, a medida que estos modelos se hacen más grandes, incluso podría significar que varios centros de datos trabajen en conjunto. “Los requisitos de latencia son más pequeños de lo que podríamos pensar”, dijo. "Así que no creo que esté fuera de discusión poder acoplar múltiples centros de datos".

Todo este cambio significa que las líneas tradicionales de lo que constituye un centro de datos o una supercomputadora están comenzando a desdibujarse. “Estamos en un momento súper emocionante”, dijo. “La forma en que computamos está cambiando, la definición de una supercomputadora está cambiando, la definición de computación está cambiando.

“Hemos hecho mucho en el espacio durante las últimas dos décadas, como con TPUv4. Vamos a anunciar los próximos pasos en nuestro viaje, en los próximos meses. Por lo tanto, la tasa de innovación de hardware y software no disminuirá en los próximos años”.