La IA generativa parece lista para cambiar la forma en que trabajamos, creamos y vivimos. Los gobiernos, las empresas y las personas están lidiando con lo que significa para la economía y nuestra especie, pero luchan porque simplemente no sabemos de qué será capaz la IA, o los costos y beneficios de aplicarla.

Detrás de esta transformación se encuentra una historia más profunda, de grandes cambios en las arquitecturas informáticas, las topologías de redes y el diseño del centro de datos. La implementación de los recursos informáticos masivos que requieren estos sistemas podría cambiar la industria de la nube y poner en riesgo el sector de la supercomputación tradicional.

Para comprender lo que significa este momento y lo que podría venir después, DCD pasó cuatro meses hablando con casi dos docenas de investigadores de IA, especialistas en semiconductores, expertos en redes, operadores de la nube, visionarios de supercomputación y líderes de centros de datos.

Esta historia comienza con los modelos, los algoritmos que determinan fundamentalmente cómo funciona un sistema de IA. Miramos cómo se hacen y cómo podrían crecer. En funcionamiento, observamos los requisitos gemelos de capacitación e inferencia, y los llamados "modelos básicos" a los que pueden acceder las empresas y los usuarios. También nos preguntamos qué depara el futuro para el desarrollo de IA de código abierto.

A partir de ahí, pasamos al mundo de las supercomputadoras, entendiendo su uso actual y por qué la IA generativa podría cambiar radicalmente el sector tradicional de la computación de alto rendimiento (HPC). A continuación, hablamos con los tres hyperscalers que han construido gigantescas supercomputadoras de IA en la nube.

Luego pasamos a los chips, donde Nvidia tiene una ventaja en los procesadores GPU que alimentan las máquinas de IA. Hablamos con siete compañías que intentan interrumpir a Nvidia, y luego escuchamos al jefe de centros de datos e IA de Nvidia para saber por qué será tan difícil derrocar al líder.

Pero la historia de la computación no tiene sentido sin comprender las redes, por lo que hablamos con Google sobre un intento audaz de revisar cómo se conectan los bastidores.

Finalmente, aprendemos qué significa todo esto para el centro de datos. Desde el director ejecutivo de Digital Realty hasta el director ejecutivo de DE-CIX, escuchamos a quienes están listos para construir la infraestructura del mañana.

Creando un modelo

Nuestro viaje a través de esta industria comienza con el modelo. En 2017, Google publicó el documento 'La atención es todo lo que necesita' que introdujo el modelo de transformador, que permitió una paralelización significativamente mayor y redujo el tiempo para entrenar IA.

Esto desencadenó un auge en el desarrollo, con modelos generativos de IA, todos construidos a partir de transformadores. Estos sistemas, como el modelo de lenguaje grande (LLM) GPT-4 de OpenAI, se conocen como modelos básicos, en los que una empresa desarrolla un modelo preentrenado para que otros lo utilicen.

“El modelo es una combinación de muchos datos y mucha computación”, dijo a DCD Rishi Bommasani, cofundador del Centro de Investigación sobre Modelos de Fundación de Stanford y autor principal de un artículo fundamental que define esos modelos . “Una vez que tenga un modelo base, puede adaptarlo para una amplia variedad de diferentes aplicaciones posteriores”, explicó.

Cada modelo básico de este tipo es diferente, y los costos para capacitarlos pueden variar mucho. Pero hay dos cosas claras: las empresas que construyen los modelos más avanzados no son transparentes sobre cómo los entrenan, y nadie sabe qué tan grande será la escala de estos modelos.

Las leyes de escala son un área de investigación en curso, que intenta encontrar el equilibrio óptimo entre el tamaño del modelo, la cantidad de datos y los recursos computacionales disponibles.

Criar una chinchilla

Un artículo de 2020 de Jared Kaplan de OpenAI, que describe la relación de la ley de potencia entre el tamaño del modelo, el tamaño del conjunto de datos y la potencia de cómputo utilizada para el entrenamiento, señaló que "las relaciones de escala con el tamaño del modelo y el cómputo son especialmente misteriosas".

A medida que aumenta cada factor, también lo hace el rendimiento general del modelo de lenguaje grande.

Esta teoría condujo a modelos cada vez más grandes, con recuentos de parámetros cada vez mayores (los valores que un modelo puede cambiar a medida que aprende) y más tokens (las unidades de texto que procesa el modelo, esencialmente los datos). La optimización de estos parámetros implica la multiplicación de conjuntos de números o matrices, lo que requiere muchos cálculos y significa grupos de cómputo más grandes.

Ese documento fue reemplazado en 2022 por un nuevo enfoque de DeepMind, subsidiaria de Google, conocido como "leyes de escala de Chinchilla", que nuevamente trató de encontrar el parámetro óptimo y el tamaño del token para entrenar un LLM con un presupuesto de cómputo determinado. Descubrió que los modelos del día estaban enormemente sobredimensionados en los parámetros en relación con los tokens.

Mientras que el artículo de Kaplan decía que un aumento de 5,5 veces en el tamaño del modelo debería combinarse con un aumento de 1,8 veces en la cantidad de fichas, Chinchilla descubrió que los tamaños de los parámetros y las fichas deberían escalarse en proporciones iguales.

La subsidiaria de Google entrenó el modelo Chinchilla de 67 000 millones de parámetros según este enfoque de cómputo óptimo, utilizando la misma cantidad de presupuesto de cómputo que el modelo anterior, el Gopher de 280 000 millones de parámetros, pero con cuatro veces más datos. Las pruebas encontraron que era capaz de superar a Gopher, así como a otros modelos comparables, y usaba cuatro veces menos cómputo para el ajuste fino y la inferencia.

Fundamentalmente, bajo el nuevo paradigma, DeepMind descubrió que Gopher, que ya tenía un presupuesto de cómputo masivo, se habría beneficiado de más cómputo utilizado en 17,2 veces más datos.

Mientras tanto, un modelo óptimo de un billón de parámetros debería usar unas 221,3 veces más presupuesto de cómputo para los datos más grandes, superando los límites de lo que es posible hoy en día. Eso no quiere decir que uno no pueda entrenar un modelo de un billón de parámetros (de hecho, el mismo Google lo ha hecho), es solo que la misma computación podría haberse usado para entrenar un modelo más pequeño con mejores resultados.

Con base en los hallazgos de Chinchilla, la firma de investigación de semiconductores SemiAnalysis calculó que los costos computacionales aproximados de entrenar un modelo de un billón de parámetros en Nvidia A100 serían de $308 millones durante tres meses, sin incluir el preprocesamiento, la restauración de fallas y otros costos.

Yendo más allá, Chinchilla descubrió que un modelo óptimo de 10 billones de parámetros usaría unas 22.515,9 veces más datos y cómputos resultantes que el modelo Gopher óptimo. SemiAnalysis cree que entrenar un sistema de este tipo costaría 28.900 millones de dólares en dos años, aunque los costos habrán mejorado con el lanzamiento de las GPU H100 más avanzadas de Nvidia.

Se entiende que OpenAI, Anthropic y otros en este espacio han cambiado la forma en que optimizan la computación desde la publicación del artículo para estar más cerca de ese enfoque, aunque Chinchilla no deja de tener sus críticas.

A medida que estas empresas buscan construir la próxima generación de modelos y esperan mostrar mejoras drásticas en un campo competitivo, se verán obligadas a lanzar clústeres de centros de datos cada vez más grandes al desafío. Las estimaciones de la industria sitúan los costos de capacitación de GPT-4 hasta 100 veces más que los de GPT-3.5.

OpenAI no respondió a las solicitudes de comentarios. Anthropic se negó a comentar, pero sugirió que hablemos con Epoch AI Research, que estudia el avance de tales modelos, sobre el futuro del escalado de cómputo.

“El modelo más costoso en el que podemos calcular razonablemente el costo de la capacitación es Minerva [parámetro de 540 mil millones] de Google”, dijo Jaime Sevilla, director de Epoch. “Estimamos que se necesitaron alrededor de $ 3 millones para entrenar en sus centros de datos internos. Pero hay que entrenarlo varias veces para encontrar un modelo prometedor, por lo que cuesta más de 10 millones de dólares".

En uso, es posible que también sea necesario volver a entrenar ese modelo con frecuencia, para aprovechar los datos recopilados de ese uso o para mantener una comprensión de los eventos recientes.

“Podemos razonar sobre la rapidez con la que han aumentado las necesidades informáticas hasta ahora y tratar de extrapolar esto para pensar en lo caro que será dentro de 10 años”, dijo Sevilla. “Y parece que la tendencia aproximada de aumento de costos se multiplica por 10 cada dos años. Para las top models, eso parece estar desacelerándose, por lo que se multiplica por 10 cada cinco años”.

Tratar de pronosticar a dónde conducirá eso es un ejercicio tenso. “Parece que en 10 años, si continúa esta tendencia actual, que es un gran si, costará entre $ 3 mil millones o $ 3 billones para todas las carreras de capacitación para desarrollar un modelo”, explicó Sevilla.

“Hace una gran diferencia que, como lo primero, es algo que empresas como Microsoft pueden permitirse hacer. Y luego no podrán impulsarlo aún más, a menos que generen los ingresos para justificar inversiones más grandes”.

Desde que hablamos con Sevilla, Techcrunch informó que Anthropic ahora planea desarrollar un modelo único a un costo de mil millones de dólares.

Inferir la inferencia

Esos modelos, grandes y pequeños, tendrán que ser utilizados realmente. Este es el proceso de inferencia, que requiere significativamente menos recursos informáticos que el entrenamiento por uso, pero consumirá mucho más cómputo general, ya que se implementarán múltiples instancias de una IA entrenada para hacer el mismo trabajo en muchos lugares.

El chatbot Bing AI de Microsoft (basado en GPT-4), solo tuvo que ser entrenado unas pocas veces (y se vuelve a entrenar a una cadencia desconocida), pero millones lo usan a diario.

"Chinchilla y Kaplan son artículos realmente excelentes, pero se centran en cómo optimizar el entrenamiento", explicó Finbarr Timbers, ex investigador de DeepMind. "No tienen en cuenta los costos de inferencia, pero eso va a empequeñecer totalmente la cantidad de dinero que gastaron entrenando a estos modelos”.

Timbers, quien se unió a la compañía de imágenes de IA generativa Midjourney (que se usó para ilustrar esta pieza) después de nuestra entrevista, agregó: “Como ingeniero que intenta optimizar los costos de inferencia, hacer que el modelo sea más grande es peor en todos los sentidos excepto en el rendimiento. Es este mal necesario lo que haces.

“Si observa el documento GPT-4, puede profundizar el modelo para mejorarlo. Pero la cuestión es que lo hace mucho más lento, requiere mucha más memoria y lo hace más doloroso de manejar en todos los sentidos. Pero eso es lo único que puedes hacer para mejorar el modelo”.

Será difícil rastrear cómo se escala la inferencia, porque el sector se está volviendo menos transparente, ya que los principales actores se incluyen en los gigantes tecnológicos. OpenAI comenzó como una empresa sin ánimo de lucro y ahora es una empresa vinculada a Microsoft, que invirtió miles de millones en la empresa. Otro jugador líder, DeepMind, fue adquirido por Google en 2014.

Públicamente, no existen leyes de escalamiento al estilo de Chinchilla para la inferencia que muestren diseños de modelo óptimos o predigan cómo se desarrollará.

La inferencia no era una prioridad de los enfoques anteriores, ya que los modelos se desarrollaron principalmente como herramientas prototipo para la investigación interna. Ahora, están comenzando a ser utilizados por millones y se está convirtiendo en una preocupación primordial.

“A medida que tengamos en cuenta los costos de inferencia, obtendrá nuevas leyes de escala que le indicarán que debe asignar mucho menos al tamaño del modelo porque aumenta los costos de inferencia”, cree Bommasani. “La parte difícil es que no controlas la inferencia por completo, porque no sabes cuánta demanda obtendrás”.

No todo el escalado ocurrirá uniformemente, tampoco.

Los modelos de lenguaje grande son, como su nombre indica, bastante grandes. “En texto, tenemos modelos que tienen 500.000 millones de parámetros o más”, dijo Bommasani. No es necesario que ese sea el caso para todos los tipos de IA generativa, explicó.

“En visión, acabamos de recibir un artículo reciente de Google con modelos con 20 mil millones de parámetros. Cosas como Stable Diffusion están en el rango de mil millones de parámetros, por lo que es casi 100 veces más pequeño que los LLM. Estoy seguro de que continuaremos escalando cosas, pero es más una cuestión de dónde escalaremos y cómo lo haremos”.

Esto podría conducir a una diversificación en la forma en que se fabrican los modelos. “En este momento, hay mucha homogeneidad porque es pronto”, dijo, y la mayoría de las empresas e investigadores simplemente siguen y copian al líder, pero tiene la esperanza de que a medida que alcancemos los límites informáticos, se encontrarán nuevos enfoques y trucos.

“En este momento, las estrategias son bastante brutales, en el sentido de que se trata simplemente de 'usar más cómputo' y no hay nada intelectualmente complicado en eso”, dijo. “Tienes una receta que funciona, y más o menos, solo ejecutas la misma receta con más cómputo, y luego funciona mejor de una manera bastante predecible”.

A medida que la economía se pone al día con los modelos, es posible que terminen cambiando para centrarse en las necesidades de sus casos de uso. Los motores de búsqueda están destinados a un uso intensivo y frecuente, por lo que los costos de inferencia dominarán y se convertirán en el factor principal para desarrollar un modelo.

Manteniendo la escasez

Como parte del esfuerzo por reducir los costos de inferencia, también es importante tener en cuenta la escasez: el esfuerzo de eliminar tantos parámetros innecesarios como sea posible de un modelo sin afectar su precisión. Fuera de los LLM, los investigadores han podido eliminar hasta el 95 por ciento de los pesos en una red neuronal sin afectar significativamente la precisión.

Sin embargo, la investigación sobre la escasez está nuevamente en sus inicios, y lo que funciona en un modelo no siempre funciona en otro. Igualmente importante es la poda, donde la huella de memoria de un modelo se puede reducir drásticamente, nuevamente con un impacto marginal en la precisión.

Luego está la mezcla de expertos (MoE), donde el modelo no reutiliza los mismos parámetros para todas las entradas como es típico en el aprendizaje profundo. En cambio, los modelos MoE seleccionan diferentes parámetros para cada ejemplo entrante, eligiendo los mejores parámetros para la tarea a un costo computacional constante mediante la incorporación de pequeñas redes de expertos dentro de la red más amplia.

"Sin embargo, a pesar de varios éxitos notables del Ministerio de Educación, la adopción generalizada se ha visto obstaculizada por la complejidad, los costos de comunicación y la inestabilidad de la capacitación", señalaron los investigadores de Google en un documento de 2022 donde describieron un nuevo enfoque que resolvió algunos de esos problemas. Pero la compañía aún tiene que implementarlo dentro de sus modelos principales, y aún se está estudiando el tamaño óptimo y la cantidad de expertos para poner dentro de un modelo.

Corren rumores de que GPT-4 utiliza MoE, pero nadie fuera de la empresa lo sabe con certeza. Algunos de los modelos técnicamente más grandes de China se aprovechan de ellos, pero no son muy eficaces.

El analista jefe de SemiAnalysis, Dylan Patel, cree que 2023 "será el año del Ministerio de Educación", ya que los enfoques actuales ponen a prueba la capacidad de la infraestructura informática actual. Sin embargo, tendrá su propio impacto, le dijo a DCD : "Los MoE en realidad conducen a un mayor crecimiento de la memoria en comparación con el crecimiento de la computación", ya que los recuentos de parámetros tienen que aumentar para los expertos adicionales.

Pero, dijo que independientemente del enfoque que adopten estas empresas para mejorar la eficiencia de la capacitación y la inferencia, "sería un tonto decir 'oye, con todas estas eficiencias, hemos terminado de escalar'".

En cambio, “las grandes empresas van a seguir escalando, escalando y escalando. Si obtiene una mejora de 10 veces en la eficiencia, dado el valor de esto, ¿por qué no 20 veces su cálculo?

¿Dónde termina?

A medida que la escala genera más escala, es difícil ver un límite para el tamaño de los LLM y los modelos multimodales, que pueden manejar múltiples formas de datos, como texto, sonido e imágenes.

En algún momento, nos quedaremos sin datos nuevos para darles, lo que puede llevarnos a alimentarlos con su propia salida. También es posible que nos quedemos sin cómputo. O bien, podríamos chocar contra muros fundamentales al escalar leyes que aún no hemos concebido.

Para la humanidad, la cuestión de dónde termina la escalada podría ser fundamental para el futuro de nuestra especie.

"Si las leyes de escala se escalan indefinidamente, habrá algún punto en el que estos modelos se vuelvan más capaces que los humanos en básicamente todas las tareas cognitivas", dijo Shivanshu Purohit, jefe de ingeniería de EleutherAI e ingeniero de investigación de Stability AI.

“Entonces tienes una entidad que puede pensar un billón de veces más rápido que tú, y es más inteligente que tú. Si no puede planificarte y si no tiene los mismos objetivos que tú…”

Eso está lejos de estar garantizado. “Las expectativas de la gente se han inflado tanto y tan rápido que podría haber un punto en el que estos modelos no puedan cumplir con esas expectativas”, dijo Purohit.

Purohit es un investigador de "alineación", que estudia cómo dirigir los sistemas de IA hacia los objetivos e intereses previstos de sus diseñadores, por lo que dice que un límite para escalar "en realidad sería un buen resultado para mí". Pero el cínico en mí dice que tal vez puedan seguir entregando, lo cual es una mala noticia”.

El colega de EleutherAI, Quentin Anthony, está menos preocupado de inmediato. Él dice que el crecimiento generalmente tiene límites, haciendo una analogía con el desarrollo humano: "Si mi niño pequeño continúa creciendo a este ritmo, ¡estará en la NBA en cinco años!"

Purohit no está de acuerdo. “Supongo que estoy en el extremo opuesto de eso. Hay un dicho que dice que el tipo que duerme con un machete se equivoca todas las noches menos una”.