El papel de las supercomputadoras estatales

La mayor parte de la actividad de capacitación en IA ahora se centra en los enormes recursos disponibles para los gigantes tecnológicos, que construyen supercomputadoras virtuales en sus nubes. Pero antes, la investigación se llevó a cabo en gran medida en las supercomputadoras de los laboratorios de investigación del gobierno.

Durante la década de 2010, las naciones avanzadas del mundo se apresuraron a construir instalaciones con suficiente potencia para realizar investigaciones de IA, junto con otras tareas como el modelado molecular y el pronóstico del tiempo. Ahora esas máquinas se han quedado atrás, pero sus recursos están siendo utilizados por jugadores más pequeños en el campo de la IA.

Cuando el gobierno de EE. UU. lanzó Summit en 2018, en el Laboratorio Nacional de Oak Ridge, la máquina de 13 megavatios era la supercomputadora más poderosa del mundo. Ahora, según los puntos de referencia tradicionales de Linpack (FP64), es la quinta supercomputadora más rápida del mundo con 200 petaflops, utilizando modelos más antiguos de GPU de Nvidia.

Para las fronteras de la IA, es demasiado antigua y demasiado lenta, pero el grupo de código abierto EleutherAI está feliz de recoger los desechos. "Obtenemos casi todo Summit", dijo Quentin Anthony de EleutherAI.

"Mucho de lo que te atasca es que esas antiguas GPU [Tesla] simplemente no tienen la memoria para adaptarse al modelo. Entonces, el modelo se divide en una tonelada de GPU, y la comunicación te mata", dijo.

"Si no tiene el mejor y más reciente hardware, simplemente no puede competir, incluso si tiene la supercomputadora Summit completa".

Una historia similar se encuentra en Japón, donde Fugaku era la máquina más rápida del mundo cuando se lanzó en 2020.

"Tenemos un equipo que intenta realizar una capacitación similar a GPT en Fugaku, estamos tratando de idear los marcos para construir modelos básicos en él y escalar a una cantidad bastante grande de nodos", dijo el profesor Satoshi Matsuoka, director del Centro RIKEN de Ciencias Computacionales.

“Según los estándares globales para sistemas, Fugaku sigue siendo una máquina de inteligencia artificial muy rápida”, dijo. “Pero cuando lo comparas con lo que OpenAI ha creado, tiene menos rendimiento. Es mucho más rápido en términos de HPC, pero con códigos de IA no es tan rápido como 25 000 A100 [GPU Nvidia]”.

Morgan Stanley estima que el próximo sistema GPT de OpenAI se está capacitando en 25 000 GPU Nvidia, con un valor aproximado de 225 millones de dólares.

Fugaku fue construido con 158,976 procesadores Fujitsu A64FX Arm, diseñados para computación paralela masiva, pero no tiene GPU.

“Por supuesto, Fugaku Next, nuestra supercomputadora de próxima generación, tendrá una gran optimización para ejecutar estos modelos básicos”, dijo Matsuoka.

La supercomputadora actual y el equipo de investigación que la usa ayudaron a impulsar el ecosistema Arm y ayudaron a resolver los problemas de operar arquitecturas masivamente paralelas a escala.

“Nuestra función como laboratorio nacional es buscar la última y mejor computación avanzada, incluida la IA, pero también otros aspectos de la HPC mucho más allá de la trayectoria normal en la que los proveedores pueden pensar”, dijo Matsuoka.

“Necesitamos ir más allá de la hoja de ruta del proveedor, o alentar a los proveedores a acelerar la hoja de ruta con algunas de nuestras ideas y hallazgos; ese es nuestro papel. Estamos haciendo eso con los proveedores de chips para nuestra máquina de próxima generación. Lo estamos haciendo con los proveedores de sistemas y con los proveedores de la nube. Avanzamos colectivamente en la computación por el bien común”.

Moralidad y máquinas masivas

Así como los desarrolladores de código abierto están ofreciendo la transparencia y el conocimiento que tanto se necesitan sobre el desarrollo de esta próxima etapa de inteligencia artificial, las supercomputadoras estatales brindan una manera para que el resto del mundo se mantenga al día con los gigantes corporativos.

"Los peligros de estos modelos no deben inflarse, debemos ser muy, muy sinceros y muy objetivos sobre lo que es posible", dijo Matsuoka.

Las supercomputadoras estatales han controlado durante mucho tiempo quién accede a ellas. “Examinamos a los usuarios y monitoreamos lo que sucede”, dijo. "Nos hemos asegurado de que la gente no extraiga Bitcoin en estas máquinas, por ejemplo".

Se envían propuestas para el uso de computación y los expertos verifican los resultados. “Muchos de estos resultados se hacen públicos, o si una empresa los usa, se supone que los resultados son para el bien público”, continuó.

Las centrales nucleares y las armas están altamente controladas y protegidas por niveles de seguridad. “Aprenderemos los riesgos y peligros de la IA”, dijo. “El uso de estas tecnologías podría revolucionar la sociedad, pero se deben prevenir modelos fundacionales que puedan tener fines ilícitos. De lo contrario, podría caer en manos equivocadas y podría causar estragos en la sociedad. Si bien puede o no acabar con la raza humana, aún podría causar mucho daño”.

Eso requiere supercomputadoras respaldadas por el estado, argumentó. “Estos recursos públicos permiten cierto control, en la medida en que con transparencia y apertura podemos tener algunas garantías en las que confiar. Es una forma mucho más segura que simplemente dejarlo en una nube privada”.

Construyendo las supercomputadoras más grandes del mundo

"Ahora estamos en un ámbito en el que, si queremos obtener modelos básicos muy efectivos, debemos comenzar a entrenar básicamente en un rendimiento de nivel de multiexaescala con baja precisión", explicó Matsuoka.

Mientras que los modelos tradicionales de simulación y aprendizaje automático usan números de punto flotante de "precisión simple" de 32 bits (y, a veces, números de punto flotante de "precisión doble" de 64 bits), la IA generativa puede usar una precisión más baja.

Cambiar al formato de punto flotante de precisión media FP16, y potencialmente incluso FP8, significa que puede colocar más números en la memoria y en el caché, así como transmitir más números por segundo. Este movimiento mejoró enormemente el rendimiento informático de estos modelos y ha cambiado el diseño de los sistemas utilizados para entrenarlos.

Fugaku es capaz de generar 442 petaflops en el punto de referencia Linpack basado en FP64 y logró dos exaflops (es decir, 1018) utilizando el punto de referencia HPL-AI de precisión mixto FP16/FP64.

OpenAI mantiene en secreto sus recursos de capacitación, pero Matsuoka cree que "GPT-4 fue entrenado en un recurso que es equivalente a una de las mejores supercomputadoras que el estado puede estar instalando", estimando que podría ser una máquina de 10 exaflops (FP16). "con optimizaciones de IA".

"¿Podemos construir una máquina de 100 exaflops para soportar la IA generativa?" preguntó Matsuoka. "Por supuesto que podemos. ¿Podemos construir una máquina zettascale en FP8 o FP16? Todavía no, pero podremos en un futuro cercano. ¿Podemos escalar el entrenamiento a ese nivel? En realidad, es muy probable.

Esto significará enfrentar nuevos desafíos de escala. “Apoyar una máquina de 20.000 o 100.000 nodos es mucho más difícil”, dijo. Pasar de una máquina de 1000 nodos a 10.000 no requiere simplemente escalar por un factor de 10. "Es realmente difícil operar estas máquinas", dijo, "es cualquier cosa menos pan comido".

De nuevo, todo se reduce a la cuestión de cuándo y dónde los modelos comenzarán a estabilizarse. “¿Podemos ir cinco órdenes de magnitud mejor? Tal vez. ¿Podemos ir dos órdenes de magnitud? Probablemente. Todavía no sabemos hasta dónde podemos llegar. Y esto es algo en lo que estaremos trabajando”.

Algunas personas incluso advierten que HPC se quedará atrás debido a las inversiones en la nube, porque lo que los gobiernos pueden invertir es superado por lo que los hyperscalers pueden gastar en sus presupuestos de investigación.

Escalamiento débil y el futuro de HPC

Para entender lo que le depara el futuro a la HPC, primero debemos comprender cómo surgieron los grandes sistemas informáticos paralelos de la actualidad.

Las tareas informáticas, incluida la IA, se pueden hacer para que se ejecuten más rápido dividiéndolas y ejecutando partes de ellas en paralelo en diferentes máquinas, o en diferentes partes de la misma máquina.

En 1967, el científico informático y pionero de mainframe, Gene Amdahl, señaló que la paralelización tenía límites: no importa en cuántos núcleos se ejecute, un programa solo puede ejecutarse tan rápido como las partes que no se pueden dividir y paralelizar.

Pero en 1988, John Gustafson de Sandia Labs esencialmente le dio la vuelta al problema y cambió el enfoque de la velocidad al tamaño del problema.

“Entonces, el tiempo de ejecución no disminuirá a medida que agregue más núcleos paralelos, pero el tamaño del problema aumenta”, dijo Matsuoka. "Así que estás resolviendo un problema más complicado".

Eso se conoce como escalado débil y, desde entonces, la comunidad de HPC lo ha utilizado para cargas de trabajo de investigación.

"Las tecnologías avanzaron, los algoritmos avanzaron, el hardware avanzó, en la medida en que ahora tenemos máquinas con esta inmensa potencia y podemos utilizar esta escala masiva", dijo Matsuoka. "Pero todavía estamos progresando con esta escala débil, incluso cosas como GPU, es una máquina escaladora débil".

Ese es “el status quo actual en este momento”, dijo.

Esto podría cambiar a medida que nos acercamos al final de la Ley de Moore, la observación de que la potencia de una CPU (basada en la cantidad de transistores que se le pueden poner) se duplicará cada dos años. La Ley de Moore ha funcionado para ofrecer un número cada vez mayor de núcleos de procesador por dólar gastado en una supercomputadora, pero a medida que la fabricación de semiconductores se acerca a los límites físicos fundamentales, este ya no será el caso.

“Ya no podremos lograr la velocidad deseada solo con una escala débil, por lo que puede comenzar a divergir”, advirtió Matsuoka.

Ya estamos empezando a ver signos de diferentes enfoques. Con modelos de aprendizaje profundo como la IA generativa capaz de depender de una precisión más baja como FP16 y FP8, los diseñadores de chips han agregado unidades de multiplicación matricial a su último hardware para hacerlos significativamente mejores en órdenes de precisión tan bajos.

“Sigue siendo un escalado débil, pero la mayoría de las aplicaciones de HPC no pueden utilizarlas porque la precisión es demasiado baja”, dijo Matsuoka. “Entonces, los diseñadores de máquinas están proponiendo todas estas ideas para mantener la escala de rendimiento, pero en algunos casos, ocurren divergencias que pueden no conducir a un diseño uniforme en el que todos los campos puedan aprovechar la mayoría de los recursos. Esto conduciría a una inmensa diversidad de tipos de cómputo”.

Esto podría cambiar el panorama de las supercomputadoras. “Algunas personas afirman que va a ser muy diverso, lo cual es malo, porque luego tenemos que construir estas máquinas específicas para un propósito específico”, dijo. “Creemos que debería haber más uniformidad, y es algo en lo que estamos trabajando activamente”.

La nubosidad de HPC

Riken, el instituto de investigación de Matsuoka, está buscando cómo mantenerse al día con la cadencia de los hyperscalers, que gastan miles de millones de dólares cada trimestre en las últimas tecnologías.

“Tampoco es fácil para los muchachos de la nube: una vez que comienzas estas guerras de escalamiento, debes aceptar este juego”, dijo Matsuoka.

Los programas de HPC respaldados por el estado toman alrededor de 5 a 10 años entre cada sistema principal, trabajando desde cero en una máquina de cambio gradual. Durante este tiempo, los sistemas basados ​​en la nube pueden pasar por varias generaciones de hardware.

“La única forma que prevemos para resolver este problema es ser ágiles combinando múltiples estrategias”, dijo Matsuoka. Quiere seguir lanzando sistemas enormes, basados ​​en I+D fundamental, una o dos veces por década, pero aumentarlos con actualizaciones más periódicas de sistemas comerciales.

Matsuoka espera que un programa paralelo pueda entregar nuevas máquinas más rápido, pero a un costo menor. “No serán mil millones de dólares [como Fugaku], pero podrían ser unos 100 millones de dólares. Estos modelos básicos y sus implicaciones nos están golpeando a un ritmo muy rápido, y tenemos que actuar de manera muy reactiva”.

Riken también está experimentando con la 'Fugaku Cloud Platform' para que su supercomputadora esté más disponible en asociación con Fujitsu.