Incluso con las enormes inversiones realizadas en la construcción de supercomputadoras en la nube o en el laboratorio, pueden surgir problemas.

“Recientemente, vimos que, debido a un problema con las GPU en nuestro clúster, en realidad tuvimos que reducir su velocidad de reloj, porque superarían los 500 vatios por GPU a toda velocidad, y eso básicamente quemaría la GPU y su ejecución moriría. ”, dijo Shivanshu Purohit de EleutherAI.

“Incluso el proveedor de la nube no lo consideró porque pensó que no debería suceder, porque no suele suceder. Pero luego lo hizo.

Del mismo modo, las partículas de alta energía “pueden atravesar todas las redundancias y corromper su GPU”, dijo.

“Puede haber nuevos problemas a medida que escalamos más allá de donde estamos ahora, hay un límite en la cantidad de GPU que puede almacenar en un solo centro de datos. Actualmente, el límite es de alrededor de 32.000, tanto debido a la potencia como a los desafíos sobre cómo diseñar realmente el centro de datos”.

Quizás la respuesta no sea construir centros de datos cada vez más grandes, sino alejarse de las GPU.

La nueva ola de la informática

Durante la última media década, a medida que la Ley de Moore se ha ralentizado y han proliferado otras aplicaciones de IA, las empresas de chips de IA han brotado como hongos bajo la lluvia.

Muchos han fracasado, o han sido adquiridos y despojados de sus activos, ya que la prometida revolución de la IA ha tardado en producirse. Ahora, cuando una nueva ola de cómputo parece estar lista para inundar los centros de datos, tienen la esperanza de que haya llegado su momento.

Cada empresa con la que hablamos cree que su enfoque único podrá resolver el desafío que plantean los modelos de IA en constante crecimiento.

Tentorrent

“Creemos que nuestra tecnología es excepcionalmente buena en lo que creemos que van a ser los modelos”, dijo Matt Mattina, jefe de IA en la startup de chips Tenstorrent.

“Si acepta esta idea de que no puede obtener de forma nativa 10 billones de parámetros, o la cantidad de billones que desee, nuestra arquitectura tiene escalabilidad integrada.

“Entonces, la IA generativa es fundamentalmente multiplicaciones de matrices [una operación binaria que produce una matriz a partir de dos matrices], y son grandes modelos”, continuó. “Para eso, se necesita una máquina que pueda realizar multiplicaciones matriciales con un alto rendimiento y baja potencia, y debe poder escalar. Debe poder conectar muchos, muchos chips juntos.

“Se necesita un bloque de construcción fundamental que sea eficiente en términos de máximos (operaciones de tera por segundo) por vatio y que pueda escalar de manera eficiente, lo que significa que no necesita un bastidor de interruptores cuando agrega otro nodo de estas cosas.”

Cada uno de los chips de la compañía tiene Ethernet integrado, "por lo que la forma en que se escala es simplemente conectando los chips a través de Ethernet estándar, no hay un laberinto de conmutación y otras cosas a medida que avanza a tamaños más grandes", y la compañía afirma que su software facilita el escalado.

“Es una arquitectura muy prometedora”, dijo Dylan Patel de SemiAnalysis. “Es muy interesante desde el punto de vista del escalado y la memoria y desde el punto de vista de la programabilidad del software."

"El hardware existe en cierta medida y todavía se está trabajando en el software. Es un problema difícil para ellos descifrar y ser utilizables, y aún queda mucho por hacer”.

Cerebras

Cerebras tiene un enfoque diferente para escalar: simplemente hacer que el chip sea más grande.

El chip Wafer Scale Engine 2 (WSE-2) tiene 2,6 billones de transistores, 850 000 núcleos 'optimizados por IA', 40 GB de memoria SRAM en el chip, 20 petabytes de ancho de banda de memoria y 220 petabits de ancho de banda de estructura agregado. Está empaquetado en Cerebras CS-2, una caja de 15U que también incluye un servidor HPE SuperDome Flex.

“Cuando estas grandes empresas están pensando en entrenar IA generativa, a menudo piensan en gigaflops de cómputo”, dijo el CEO y cofundador de Cerebras, Andrew Feldman. "Somos más eficientes [que el enfoque de GPU actual], sin duda, pero aun así vas a usar una cantidad absurda de cómputo, porque estamos entrenando en una especie de fuerza bruta".

Feldman nuevamente cree que habrá un límite para el enfoque actual de los modelos gigantes, "porque no podemos ser más y más grandes para siempre, hay un límite superior". Él piensa que los enfoques de escasez ayudarán a reducir el tamaño de los modelos.

Aún así, está de acuerdo en que sean cuales sean los modelos, requerirán enormes clústeres de cómputo. “Los grandes grupos de GPU son increíblemente difíciles de usar”, dijo. “El cómputo distribuido es muy doloroso, y distribuir el trabajo de IA, donde tiene que ir en paralelo con el modelo de tensor, y luego tiene que ir en paralelo con el modelo de tubería, y así sucesivamente, es un proceso increíblemente complicado”.

La compañía espera resolver parte de ese desafío moviendo lo que sería manejado por cientos de GPU a un megachip multimillonario.

“Hay dos razones por las que interrumpes el trabajo”, dijo. “Uno es que no puede almacenar todos los parámetros en la memoria, el segundo motivo es que no puede hacer un cálculo que se necesita, y eso suele ser una gran matriz multiplicada en una gran capa”.

En el parámetro GPT-3 de 175.000 millones, la matriz más grande multiplicada es de aproximadamente 12.000 por 12.000. “Podemos admitir cientos de veces más, y debido a que almacenamos nuestros parámetros fuera del chip en nuestra tecnología MemoryX, tenemos un almacén de parámetros arbitrariamente grande: 100-200 billones no es un problema”, afirmó. “Por lo que tenemos la capacidad de almacenar una gran cantidad de parámetros, y de hacer el paso de multiplicación más grande”.

Sin embargo, el enorme chip único no es lo suficientemente grande para lo que requieren los modelos más grandes. “Y así construimos Andromeda, que tiene 13,5 millones de núcleos. Es una vez y media más grande que [el sistema de exaescala de Oak Ridge] Frontier en cuanto a número de núcleos, y pudimos soportarlo en tres días. El primer cliente que lo puso fue Argonne [otro laboratorio informático nacional de EE. UU.], y estaban haciendo cosas que no podían hacer en un clúster de 2000 GPU”.

La supercomputadora Andromeda, disponible en la nube, combina 16 de los sistemas CS-2 de Cerebras, pero Cerebras tiene la capacidad potencial de escalar a 192 de esos sistemas como un solo grupo. “La limitación de escala es de unos 160 millones de núcleos”, dijo Feldman.

Cerebras no es la única empresa que ofrece su hardware especializado como producto en la nube.

Graphcore

“Hemos decidido cambiar nuestro modelo de negocio de vender hardware a operar una nube de IA”, dijo Simon Knowles, CTO de la empresa británica de chips de IA Graphcore.

“¿Es realista configurar y operar una nube de IA? Claramente, es sensato debido a los enormes márgenes que Nvidia puede cosechar. La verdadera pregunta es, ¿existe un mercado para una nube de IA especializada que una nube genérica como AWS no ofrece? Nosotros creemos que sí, que lo hay, y eso es con las UIP”.

La IPU (Unidad de procesamiento de inteligencia) de la compañía es otro procesador paralelo diseñado desde cero para cargas de trabajo de IA.

“Las IPU se diseñaron desde el primer día con el mandato de no parecerse a las GPU”, dijo Knowles. “Estoy sorprendido de cuántas de las nuevas empresas han tratado de ser básicamente una GPU alternativa. El mundo no necesita otra Nvidia; Las Nvidia son bastante buenas”.

Él cree que "lo que el mundo necesita son máquinas de diferentes formas, que funcionarán bien en cosas en las que claramente se puede vencer a Nvidia". Esa es parte de la razón por la que Graphcore está construyendo su propia nube. Si bien aún venderá algo de hardware, descubrió que los clientes no se comprometerán a comprar hardware, porque quieren que sea tan bueno o mejor que las GPU de Nvidia en todas las cargas de trabajo.

“Querían un seguro que satisficiera todas sus necesidades futuras de las que no sabían”, dijo. “Mientras que, como un servicio en la nube, es como 'para este conjunto de funciones, podemos hacerlo a la mitad del precio de ellas'”.

Del mismo modo, no quiere competir con AWS en todas las métricas. “Habría que ser muy audaz para creer que una nube basada en una tecnología podría hacerlo todo bien”, dijo.

Sambanova

Otra startup que ofrece hardware especializado en la nube, en las instalaciones o como servicio es SambaNova. “A medida que crecen los modelos, simplemente creemos que [la arquitectura de SambaNova] Dataflow es lo que va a necesitar”, dijo el CEO Rodrigo Liang. “Simplemente creemos que con el tiempo, a medida que estos modelos crezcan y se expandan, la potencia requerida, la cantidad de costo, todas esas cosas serán prohibitivas en estas arquitecturas heredadas.

“Así que creemos fundamentalmente que la nueva arquitectura nos permitirá crecer con el tamaño de los modelos de una manera mucho más efectiva y eficiente que las formas heredadas de hacerlo”.

Pero los diseñadores de chips heredados también han presentado hardware destinado a satisfacer las necesidades de capacitación e inferencia de los últimos modelos de IA.

Intel

"Habana Gaudi ya ha demostrado tener el doble de rendimiento que la GPU A100 en el punto de referencia MLPerf", afirmó el Dr. Walter Riviera, líder técnico de inteligencia artificial de Intel para EMEA, sobre el procesador de capacitación de aprendizaje profundo de la compañía.

“Cuando se trata de la GPU, tenemos la serie Flex. Y, nuevamente, dependiendo de la carga de trabajo, es competitivo. Mi consejo para cualquier cliente es probar y evaluar qué es lo mejor para ellos”.

AMD

En los últimos años, AMD le ha arrebatado cuota de mercado de CPU a Intel. Pero en el mundo de las GPU, tiene el segundo mejor producto del mercado, cree Dylan Patel de SemiAnalysis, y aún tiene que ganar una participación significativa.

“Si alguien va a poder competir, es la GPU MI300”, dijo. “Pero también le faltan algunas cosas, no está en el software, y hay algunos aspectos del hardware que van a ser más costosos”.

Brad McCredie, CVP de AMD, señaló que el liderazgo de la empresa en HPC como una ventaja clave. “Estamos en la supercomputadora más grande de tres continentes”, dijo. “Una parte tan grande de este hongo de IA explosivo es la escala, y hemos demostrado nuestra capacidad de escala.

McCredie también cree que los éxitos de AMD al incluir una gran cantidad de ancho de banda de memoria en sus chips resultarán particularmente convincentes para la IA generativa. “Cuando entras en la inferencia de estos LLM, la capacidad de memoria y el ancho de banda pasan a primer plano. Tenemos ocho pilas de memoria de gran ancho de banda en nuestro MI250”.

Otra área clave que destacó es la eficiencia energética. “Cuando comienzas a llegar a esta escala, la eficiencia energética es muy importante”, dijo. “Y va a seguir creciendo”.

TPU de Google

Luego está la unidad de procesamiento de tensor (TPU), una familia de chips de IA personalizada desarrollada por Google, la misma compañía que ideó el modelo de transformador que forma la base de los enfoques actuales de IA generativa.

“Creo que una de las principales ventajas de las TPU es la interconexión”, dijo el investigador Finbarr Timbers.

“Tienen una red muy alta entre chips, y eso es increíblemente útil para el aprendizaje automático. Para los transformadores en general, el ancho de banda de la memoria es un cuello de botella. Se trata de mover los datos de la memoria RAM de la máquina a la memoria del chip. Las TPU son la mejor manera de hacer esto en la industria, porque tienen toda esta infraestructura dedicada para ello”.

La otra ventaja del chip es que Google lo utiliza para fabricar sus modelos más grandes, por lo que el desarrollo del hardware y los modelos se puede realizar en conjunto.

“Todo se reduce al codiseño”, dijo Amin Vahdat de Google. "Comprender lo que necesita el modelo desde una perspectiva computacional, averiguar cómo especificar mejor el modelo desde una perspectiva del lenguaje, descubrir cómo escribir el compilador y luego asignarlo al hardware".

La compañía también promociona la eficiencia energética de la TPU como una gran ventaja a medida que crecen estos modelos. En un artículo de investigación, la compañía dijo que sus TPUv4 usaban DSA ~2-6 veces menos energía y producían ~20 veces menos CO2e que los chips rivales (sin incluir H100), pero la advertencia principal es que estaba comparando su centro de datos de hiperescala a una instalación en las instalaciones.

Trainium de Amazon

Amazon también tiene su propia familia de chips Trainium. Todavía tiene que causar tanto impacto, aunque Stability AI anunció recientemente que consideraría entrenar algunos de sus modelos en el hardware (probablemente como parte de su acuerdo de nube con AWS).

"Una capacidad que me gustaría destacar es el redondeo estocástico acelerado por hardware", dijo el director de EC2 de AWS, Chetan Kapoor.

“Así que el redondeo estocástico es una capacidad que hemos construido en el chip que inteligentemente dice, está bien, ¿voy a redondear un número hacia abajo o hacia arriba?”, dijo, con sistemas que normalmente solo redondean hacia abajo. "Básicamente significa que con el redondeo estocástico se puede obtener el rendimiento del tipo de datos FP16 y la precisión del FP32".

Nvidia: El rey de la IA generativa

Nvidia no ha estado durmiendo la siesta, y los rivales de chips que esperan interrumpir sus amplios márgenes encontrarán la tarea desalentadora, como Bing de Microsoft mordisqueando la imagen de superioridad de búsqueda de Google.

En lugar de ver esto como el final de su dominio y un momento de 'código rojo' similar a lo que está sucediendo en Google, Nvidia dice que esta es la culminación de décadas de preparación para este mismo momento.

“Han estado hablando de esto durante años”, dijo Patel de SemiAnalysis. “Claro que fueron tomados por sorpresa con la rapidez con que despegó en los últimos meses, pero siempre estaban apuntando a esto. Creo que están muy bien posicionados”.

Fuera del uso de TPU por parte de Google, prácticamente todos los principales modelos de IA generativa disponibles en la actualidad se desarrollaron en las GPU A100 de Nvidia. Los modelos del mañana se construirán principalmente con sus H100 recién lanzados.

Décadas de liderazgo en el espacio de la IA han significado que se haya construido todo un sector en torno a sus productos. “Incluso como usuario académico, si me dieran computación infinita en esos otros sistemas, tendría que hacer un año de trabajo de ingeniería de software antes de que pueda hacerlos útiles porque toda la pila de aprendizaje profundo está en Nvidia y Nvidia Mellanox [la plataforma de red de la empresa]”, dijo Anthony de EleutherAI.

Purohit agregó: “Es todo el ecosistema, no solo Mellanox. Lo optimizan de extremo a extremo para tener el mejor hardware. La brecha generacional entre un A100 y un H100 de las pruebas preliminares que hemos realizado es suficiente para que Nvidia sea el rey de la computación en el futuro previsible”.

En su opinión, Nvidia ha perfeccionado el ciclo hardware-mejora-software-mejora-hardware, “y el único que compite es básicamente Google. Alguien podría construir un chip mejor, pero el software está optimizado para Nvidia”.

Un ejemplo clave de los esfuerzos de Nvidia para mantenerse a la vanguardia fue el lanzamiento del núcleo tensor a finales de 2017, diseñado para un rendimiento de aprendizaje profundo superior en comparación con los núcleos regulares basados ​​en la plataforma paralela CUDA (Arquitectura de dispositivo unificado de cómputo) de Nvidia.

“Cambió el juego”, dijo Anthony. "Un usuario normal puede simplemente cambiar su código para usar núcleos de tensor de precisión mixtos para computar y duplicar su rendimiento".

Ahora, Nvidia espera llevar las cosas más lejos con un motor transformador en el H100, para el FP8. “En realidad, es una combinación de hardware y software”, dijo Ian Buck, jefe de centros de datos e IA de Nvidia. “Básicamente agregamos capacidad de punto flotante de ocho bits a nuestra GPU, y lo hicimos de manera inteligente mientras manteníamos la precisión”.

Un motor de software esencialmente monitorea la precisión del trabajo de entrenamiento e inferencia en el camino, y baja dinámicamente las cosas a FP8.

“Los núcleos de tensor acabaron con el entrenamiento FP32 por completo. Antes de eso, todo estaba en FP32”, dijo Anthony. “No sé si el paso al FP8 será el mismo, tal vez no sea suficiente precisión. Todavía tenemos que ver si las personas de aprendizaje profundo aún pueden hacer converger sus modelos en ese hardware”.

Pero así como las GPU de Tesla en Summit son demasiado viejas para los desafíos de hoy, las H100 no estarán listas para los modelos del futuro.

“Están evolucionando juntas”, dijo Buck, señalando que las tarjetas GTX 580 de Nvidia se usaron para construir AlexNet, una de las redes neuronales convolucionales más influyentes jamás creadas, allá por 2012.

“Esas GPU son completamente poco prácticas hoy en día, ni siquiera se podría construir un centro de datos para que se adapten a los modelos actuales, simplemente se caería”, dijo Buck.

“Entonces, ¿las GPU actuales nos llevarán a 150 billones de parámetros? No. Pero la evolución de nuestras GPU, la evolución de lo que se incluye en los chips, la arquitectura en sí, la interconexión de memoria, NVLink y los diseños del centro de datos sí lo harán. Y luego todas las optimizaciones de software que están ocurriendo en la parte superior es la forma en que superamos la Ley de Moore”.

Por ahora, este mercado sigue siendo de Nvidia para perder. “Como todos están tratando de avanzar en la construcción de estos modelos, van a usar las GPU [de Nvidia]”, dijo Patel. “Son mejores y más fáciles de usar. En general, en realidad, también son más baratos cuando no tienes que gastar tanto tiempo y dinero en optimizarlos”.

Esto puede cambiar a medida que los modelos maduren. Actualmente, en un espacio feroz donde el rendimiento y la velocidad de implementación son primordiales, Nvidia representa la apuesta segura y altamente capaz.

A medida que pasa el tiempo y la presión disminuye, las empresas pueden buscar arquitecturas alternativas y optimizar las implementaciones en equipos más baratos.