Dado que los grandes modelos de lenguaje (LLM) y otros sistemas de IA generativa siguen siendo la carga de trabajo del día, los centros de datos se han adaptado para admitir implementaciones de decenas de miles de GPU para ejecutar modelos de entrenamiento e inferencia en ellos.
Nvidia sigue siendo líder en la carrera de capacitación, con sus GPU de alta gama dominando el mercado. Pero, a medida que el mercado de la IA generativa madure, el tamaño de los modelos y la forma en que se infieren podrían cambiar.
"Estamos en esa parte del ciclo de exageración en la que poder decir 'el modelo tiene cientos de miles de millones de parámetros que tardaron meses en entrenarse y requirieron la energía de una ciudad para hacerlo' se considera realmente algo bueno en este momento. ", dijo a DCD el director de productos de Ampere, Jeff Wittich.
"Pero nos estamos perdiendo el punto, que es el ángulo de la eficiencia. Si eso es lo que se necesitaba para hacerlo, ¿Fue esta la forma correcta de abordar el modelado?"
Wittich forma parte de una serie de figuras de la industria que creen que el futuro no consistirá únicamente en estos megamodelos, sino también en innumerables sistemas más pequeños y altamente especializados: "Si tienes una IA que ayuda a la gente a escribir código, ¿Es necesario que conozca la receta del soufflé?
Esa versión del mañana resultaría lucrativa para Ampere, que desarrolla CPU de alto rendimiento basadas en Arm. "Incluso hoy en día, se podrían ejecutar muchos modelos LLM en algo que sea más eficiente", afirmó.
"Se podrían ejecutar en CPU, pero la gente simplemente no lo hace porque construyeron gigantescos clústeres de entrenamiento con GPU y luego los usaron para entrenar e inferir los modelos".
Parte del problema es la velocidad a la que se mueve actualmente el mercado, ya que la IA generativa sigue siendo un sector incipiente con mucho por lo que luchar. Las GPU de Nvidia, si puede conseguirlas, funcionan fantásticamente y tienen una amplia biblioteca de software para respaldar un rápido desarrollo.
"Se trata simplemente de 'lanzarle la mayor potencia posible, para ser el más rápido y el más grande'", dijo Wittich. "Pero eso será lo que volverá a perseguirnos. Tiene tanta hambre de energía y es tan costoso hacerlo que cuando eso empiece a importar, podría ser lo que lo condene, al menos en el corto plazo."
Las GPU seguirán estando en el centro del entrenamiento, especialmente con los modelos más grandes, dijo Wittich, pero se pregunta si realmente fueron el chip más óptimo para la inferencia. "La gente va y construye el mismo material para la fase de inferencia cuando no lo necesita porque hay una solución más eficiente para usar", dijo.
"Hemos estado trabajando con los socios Wallaroo.AI en inferencia basada en CPU, optimizando los modelos para ello y luego escalando, y pueden obtener un par de veces más rendimiento de resultados de inferencia con la misma latencia sin consumir más energía."
Tomando como ejemplo el modelo de reconocimiento de voz generativo Whisper de OpenAI, Ampere afirma que su CPU Altra de 128 núcleos consume 3,6 veces menos energía por inferencia que la A10 de Nvidia (por supuesto, la A100, más cara y que consume más energía, tiene mejores estadísticas que la A10).
La inferencia de alta huella de memoria probablemente seguirá siendo mejor en las GPU, pero Wittich cree que la mayoría de los modelos serán más adecuados para las CPU. El equipo de IA de la empresa ha desarrollado la biblioteca de software AI-O para ayudar a las empresas a pasar el código de las GPU a las CPU.
Los desarrolladores de CPU también están tomando prestado lentamente de las GPU. Ampere, así como Intel, AMD y otros, han integrado cada vez más funciones informáticas de IA en su hardware.
"Cuando nos fijamos en el diseño de Ampere One, hicimos cosas específicas a nivel de microarquitectura que mejoran el rendimiento de la inferencia", dijo Wittich, señalando la adquisición de la empresa de inteligencia artificial OnSpecta por parte de la compañía en 2021. "La IA es una de esas cosas en las que cosas que hace años eran muy especializadas eventualmente se vuelven de uso general".
Sin embargo, siempre hay compensaciones en el diseño: "Si se incluye un bloque, se está robando área, energía y recursos de validación".
Añadió: "Si algo se usa entre el 80 y el 90 por ciento del tiempo, eso es lo que quiero en cada una de nuestras CPU. Si es entre el 20 y el 30 por ciento del tiempo, puedo crear variaciones de productos que me permitan incorporarlo cuando sea necesario".
"No quieres un montón de aceleradores esotéricos en la CPU que siempre están consumiendo energía y espacio".
Por supuesto, las GPU y las CPU no son lo único en juego, ya que varios proveedores de chips desarrollan chips de inferencia dedicados que cuentan con estadísticas competitivas de inferencia y consumo de energía.
Aquí, Wittich responde con el otro tema de las burbujas industriales: que a menudo estallan.
"Muchos de los chips de inferencia de IA que existen son realmente buenos en un tipo de red o un tipo de modelo", dijo. "Cuanto más te especializas, normalmente mejor lo haces.
"Pero el problema es que es mejor que hayas adivinado correctamente y estés bastante seguro de que aquello en lo que eres realmente bueno será lo importante dentro de un par de años".
Cuando el valor de Bitcoin se desplomó, los mineros se quedaron con miles de ASIC altamente especializados que eran inútiles para cualquier otra tarea. Muchos de los chips simplemente fueron destruidos y enviados a vertederos.
Los mineros de Ethereum, por otro lado, dependían principalmente de GPU. Varios proveedores, como CoreWeave, han adaptado con éxito su negocio a la ola actual de IA.
Las CPU son inherentemente de propósito general, lo que significa que una empresa no tiene que apostar por un modelo de negocio específico. "Sabemos que la demanda general de computación va a crecer en los próximos años, ya sea en inferencias, demanda de bases de datos, cargas de trabajo de medios o algo más", dijo Wittich.
"Estás a salvo independientemente de lo que suceda después de salir de la fase de auge".