Investigadores de la Universidad de Michigan han informado que pueden reducir el consumo de energía del entrenamiento de IA hasta en un 75 por ciento.

Los modelos de aprendizaje profundo y los MLL se pueden entrenar de manera más eficiente sin un cambio de hardware, por lo que el proceso usa menos energía, según el grupo ML.Energy de Michigan, que presentó el marco de optimización de energía Zeus en el Simposio USENIX 2023 sobre diseño y sistemas en red.

98 OpenAI DALL·E 2 - A supercomputer studying dark matter, ukiyo-e art 2.png
– DCD/DALL·E 2

Las aplicaciones de inteligencia artificial, como GPT-3 y GPT-4 de OpenAI, exigen cada vez más la infraestructura del centro de datos, mientras que su uso de energía se ignora en gran medida y no se revela. El grupo ML.Energy cree que el uso de energía de la IA debe exponerse y discutirse más abiertamente para fomentar la optimización.

"A escalas extremas, entrenar el modelo GPT-3 solo una vez consume 1287 MWh, que es suficiente para abastecer a un hogar estadounidense promedio durante 120 años", dijo Mosharaf Chowdhury, profesor asociado de ingeniería eléctrica e informática.

Los modelos de aprendizaje profundo ya se utilizan ampliamente para la generación de imágenes, así como para chatbots expresivos y sistemas de recomendación para servicios como Netflix, Tik Tok y Amazon. Un examen reciente de DCD sobre la evolución del hardware de IA reveló que las demandas de energía están aumentando rápidamente.

"El trabajo existente se centra principalmente en optimizar la capacitación de aprendizaje profundo para una finalización más rápida, a menudo sin considerar el impacto en la eficiencia energética", dijo Jae-Won Chung, estudiante de doctorado en informática e ingeniería y coautor del estudio. "Descubrimos que la energía que invertimos en las GPU está dando rendimientos decrecientes, lo que nos permite reducir significativamente el consumo de energía, con una ralentización relativamente pequeña".

Las técnicas de aprendizaje profundo utilizan redes neuronales artificiales multicapa, también conocidas como redes neuronales profundas (DNN). Estos son modelos complejos, que se alimentan con conjuntos de datos masivos. Alrededor del 70 por ciento de la energía en el entrenamiento de IA se quema dentro de las unidades de procesamiento gráfico (GPU).

Zeus les da a los investigadores de IA dos "perillas" de software. Uno establece un límite de potencia de GPU, reduciendo el uso de energía de GPU y ralentizando el entrenamiento hasta que la configuración se ajuste nuevamente. La otra perilla controla el parámetro del tamaño del lote, la cantidad de datos que asimila el modelo antes de reconstruirse. Los investigadores de IA a menudo usan lotes grandes para reducir el tiempo de capacitación, pero esto aumenta el consumo de energía.

Debido a que Zeus puede ajustar cada una de estas configuraciones en tiempo real, los investigadores pueden encontrar el mejor punto de equilibrio, donde el uso de energía se minimiza con el menor impacto posible en el tiempo de entrenamiento. El software se conecta directamente a los flujos de trabajo existentes y se ha creado para varias tareas de aprendizaje automático y GPU.

En las pruebas, el equipo de ML.Energy probó todas las combinaciones posibles de los dos parámetros para encontrar la mejor combinación. En la práctica, ese nivel de minuciosidad no será necesario.

"Afortunadamente, las empresas entrenan el mismo DNN una y otra vez con datos más nuevos, cada hora. Podemos aprender sobre cómo se comporta el DNN al observar esas recurrencias", dijo Jie You, un recién graduado de doctorado en informática e ingeniería y coautor principal del estudio.

El equipo también ha creado Chase, una capa superior de software que ajusta los parámetros de Zeus según la energía disponible. Cuando el sistema funciona con energía baja en carbono, Chase hace que la velocidad sea la prioridad. Cuando la intensidad de carbono es mayor, vuelve a una mayor eficiencia a expensas de la velocidad. Chase se presentará el 4 de mayo en el Taller de la Conferencia Internacional sobre Representaciones de Aprendizaje.

"No siempre es posible migrar fácilmente los trabajos de capacitación de DNN a otras ubicaciones debido al gran tamaño de los conjuntos de datos o las regulaciones de datos", dijo Zhenning Yang, estudiante de maestría en informática e ingeniería. "Diferir los trabajos de capacitación a plazos más ecológicos tampoco puede ser una opción, ya que las DNN deben capacitarse con los datos más actualizados e implementarse rápidamente en producción para lograr la mayor precisión.

"Nuestro objetivo es diseñar e implementar soluciones que no entren en conflicto con estas limitaciones realistas, al mismo tiempo que reducimos la huella de carbono de la capacitación de DNN".