Por Ed Ansett, cofundador y presidente de i3 Solutions Group
A finales de 2023, cualquier previsión sobre cuánta energía necesitará la IA generativa era inexacta.
Los titulares tienden a hacer estimaciones aproximadas de “5x, 10x, 30x de energía necesaria para la IA” y “Suficiente energía para hacer funcionar cientos de miles de hogares”, etc. Mientras tanto, los informes en publicaciones especializadas, como la prensa de centros de datos, hablan de densidades de energía que aumentan a 50 kW o 100 kW por rack.
¿Por qué la IA generativa consume tantos recursos? ¿Qué medidas se están tomando para calcular su coste energético potencial y su huella de carbono? O, como dice un artículo de investigación, ¿cuál es el “enorme costo computacional de entrenar a estos gigantes”? Hoy en día, gran parte de esta información no está disponible.
Los analistas han pronosticado sus propias estimaciones para escenarios de carga de trabajo específicos (ver más abajo), pero con pocas cifras reveladas de los hyperscalers de la nube a la vanguardia de la construcción de modelos, hay muy pocos datos concretos para continuar en este momento.
Cuando se han realizado análisis, el costo de carbono de la construcción de modelos de IA desde el entrenamiento hasta la inferencia ha arrojado algunas cifras aleccionadoras. Según un informe de Harvard Business Review, los investigadores han argumentado que se estima que entrenar un "modelo único de aprendizaje profundo de un gran lenguaje", como el GPT-4 de OpenAI o el PaLM de Google, produce alrededor de 300 toneladas de CO2.
Otros investigadores calcularon que entrenar un modelo de IA generativa de tamaño mediano utilizando una técnica llamada "búsqueda de arquitectura neuronal" utilizó un consumo de electricidad y energía "equivalente a 626.000 toneladas de emisiones de CO2".
Entonces, ¿qué está pasando para que la IA tenga tanta hambre de potencia? Datos
¿Es el conjunto de datos, es decir, el volumen de datos? ¿El número de parámetros utilizados? ¿El modelo transformador? ¿La codificación, decodificación y ajuste? ¿El tiempo de procesamiento? La respuesta es, por supuesto, una combinación de todo lo anterior.
A menudo se dice que los modelos de lenguaje grande (LLM) de GenAI y el procesamiento del lenguaje natural (NLP) requieren grandes cantidades de datos de entrenamiento. Sin embargo, medido en términos de almacenamiento de datos tradicional, este no es realmente el caso.
Por ejemplo, ChatGPT utilizó datos de www.commoncrawl.com. Commoncrawl dice que es el corpus de entrenamiento principal en cada LLM y que suministró el 82 por ciento de los tokens sin procesar utilizados para entrenar GPT-3: “Hacemos que la extracción, transformación y análisis al por mayor de datos web abiertos sean accesibles para los investigadores…. Más de 250 mil millones de páginas que abarcan 16 años. Se agregan entre 3 y 5 mil millones de páginas nuevas cada mes”.
Se cree que ChatGPT-3 fue entrenado en 45 Terabytes de texto sin formato Commoncrawl, filtrado hasta 570 GB de datos de texto. Está alojado en AWS de forma gratuita como contribución a los datos de IA de código abierto.
Pero los volúmenes de almacenamiento, los miles de millones de páginas web o tokens de datos que se extraen de la Web, Wikipedia y otros lugares, luego se codifican, decodifican y ajustan para entrenar ChatGPT y otros modelos, no deberían tener un impacto importante en un centro de datos.
De manera similar, los terabytes o petabytes de datos necesarios para entrenar un modelo de texto a voz, de texto a imagen o de texto a video no deberían ejercer una presión extraordinaria sobre los sistemas de energía y refrigeración en un centro de datos construido para alojar equipos de TI que almacenan y procesar cientos o miles de petabytes de datos.
Un ejemplo de modelo de conversión de texto a imagen es LAION (Red abierta de IA a gran escala), un modelo de IA alemán con miles de millones de imágenes. Uno de sus modelos, conocido como LAION 400m, es un conjunto de datos web de 10 TB. Otro, LAION5B, tiene 5.850 millones de pares de imágenes de texto filtrados con clips.
Una de las razones por las que los volúmenes de datos de entrenamiento siguen siendo de un tamaño manejable es que está de moda entre la mayoría de los creadores de modelos de IA utilizar modelos de preentrenamiento (PTM), en lugar de modelos de búsqueda entrenados desde cero. Dos ejemplos de PTM que se están volviendo familiares son las representaciones de codificadores bidireccionales de transformadores (BERT) y la serie de transformadores generativos preentrenados (GPT), como en ChatGPT.
Parámetros y transformadores de la IA.
Otra medida del entrenamiento de IA que es de interés para los operadores de centros de datos son los parámetros.
Los modelos de IA generativos utilizan los parámetros de IA durante el entrenamiento. Cuanto mayor sea el número de parámetros, mayor será la precisión de la predicción del resultado deseado. ChatGPT-3 se construyó sobre 175 mil millones de parámetros.
Pero para la IA, el número de parámetros ya está aumentando rápidamente. WU Dao, una primera versión china de LLM utilizó 1,75 billones de parámetros. WU Dao, además de ser un LLM, también proporciona texto a imagen y texto a video. Espere que las cifras sigan creciendo.
Sin datos concretos disponibles, es razonable suponer que la potencia computacional necesaria para ejecutar un modelo con 1,7 billones de parámetros será significativa. A medida que avanzamos hacia una mayor generación de videos con IA, los volúmenes de datos y la cantidad de parámetros utilizados en los modelos aumentarán.
Los transformadores son un tipo de arquitectura de red neuronal desarrollada para resolver el problema de la transducción de secuencias o traducción automática neuronal. Eso significa cualquier tarea que transforme una secuencia de entrada en una secuencia de salida.
Las capas de transformador se basan en bucles, de modo que cuando los datos de entrada se mueven hacia una capa de transformador, los datos regresan a su capa anterior y salen a la siguiente. Estas capas mejoran el resultado predictivo de lo que viene a continuación. Ayuda a mejorar el reconocimiento de voz, la transformación de texto a voz, etc.
¿Cuánto es suficiente potencia? Lo que dicen los investigadores, analistas y la prensa
Un informe de S&P Global titulado POTENCIA DE LA IA: predicciones descabelladas de la demanda de energía de la IA ponen a la industria al límite cita varias fuentes: "Con respecto a la demanda de energía de EE. UU., es realmente difícil cuantificar cuánta demanda se necesita para cosas como ChatGPT", dijo el director general de la consultora Indigo Advisory Group, David Groarke, en una entrevista telefónica reciente. "En términos de cifras macro, para 2030 la IA podría representar entre el 3 y el 4 por ciento de la demanda mundial de energía. Google dijo que en este momento la IA representa entre el 10 y el 15 por ciento de su uso de energía, o 2,3 TWh al año".
S&P Global continúa: “La investigación académica realizada por Alex de Vries, candidato a doctorado en la Escuela de Negocios y Economía VU Amsterdam [cita] investigación de la firma de análisis de semiconductores SemiAnalysis. En un comentario publicado el 10 de octubre en la revista Joule, [citado por de Vries] se estima que el uso de IA generativa como ChatGPT en cada búsqueda de Google requeriría más de 500.000 servidores A100 HGX de Nvidia, con un total de 4,1 millones de unidades de procesamiento de gráficos o GPU. Con una demanda de energía de 6,5 kW por servidor, eso daría como resultado un consumo de electricidad diario de 80 GWh y un consumo anual de 29,2 TWh”.
RI.SE, el Instituto de Investigación de Suecia, ofreció un cálculo de la potencia real utilizada para entrenar modelos de IA. Dice: “Entrenar un modelo de lenguaje súper grande como GPT-4, con 1,7 billones de parámetros y utilizando 13 billones de tokens (fragmentos de palabras), es una tarea sustancial. OpenAI ha revelado que les costó 100 millones de dólares y les llevó 100 días, utilizando 25.000 GPU Nvidia A100. Los servidores con estas GPU utilizan alrededor de 6,5 kW cada uno, lo que da como resultado un consumo estimado de energía de 50 GWh durante el entrenamiento”.
Esto es importante porque la energía utilizada por la IA se está convirtiendo rápidamente en un tema de debate público.
Los centros de datos ya están en el mapa y las organizaciones centradas en la ecología están tomando nota: Según el sitio 8billiontrees “Aún no hay estimaciones publicadas sobre la huella total de la industria de la IA, y el campo de la IA está explotando tan rápidamente que un número exacto ser casi imposible de obtener.
Observar las emisiones de carbono de los modelos individuales de IA es el estándar de oro en este momento... La mayor parte de la energía se dedica a alimentar y enfriar los centros de datos a hiperescala, donde se produce toda la computación”.
Mientras esperamos que surjan los números sobre el uso de energía pasado y actual para ML e IA, lo que está claro es que una vez que los modelos entren en producción y uso, estaremos en la escala de cálculo de exabytes y exaflops. En el caso de la energía y la refrigeración de los centros de datos, es entonces cuando las cosas se vuelven realmente interesantes y más desafiantes.