Investigadores del Laboratorio Nacional de Oak Ridge han publicado un artículo de investigación que detalla cómo entrenaron un LLM de un billón de parámetros en la supercomputadora Frontier utilizando solo 3.072 de sus 37.888 GPU.
El equipo también detalló cómo pudo entrenar un LLM de 175 mil millones de parámetros utilizando solo 1.024 de las GPU de la supercomputadora. Un LLM de un billón de parámetros está en la misma escala que el modelo GPT4 de OpenAI.
Hay una serie de desafíos que conlleva la capacitación de LLM con miles de millones de parámetros, como los considerables recursos informáticos y la memoria necesarios. Para superar esto, los investigadores han buscado técnicas de entrenamiento en paralelo de datos y su huella de memoria, latencia de comunicación y eficiencia computacional de la GPU. Esto permitió a los investigadores utilizar el "ajuste de hiperparámetros" para encontrar las estrategias más eficientes para capacitar a grandes LLM.
Los resultados arrojaron rendimientos de GPU del 31,96 por ciento logrados para el modelo de un billón de parámetros y del 36,14 por ciento para el modelo de 17 mil millones de parámetros. Además, para ambos modelos, los investigadores lograron una eficiencia de escalamiento débil del 100 por ciento y eficiencias de escala fuertes del 89 por ciento para el modelo de 175 mil millones de parámetros y del 87 por ciento para el modelo de un billón de parámetros.
Sin embargo, el artículo de investigación no proporciona ninguna información sobre cuánto tiempo llevó entrenar los modelos utilizando este método.
La supercomputadora Frontier tiene una puntuación de referencia HPL (High-Performance Linpack) de 1.194 exaflops, utiliza procesadores AMD Epyc 64C de 2 GHz y se basa en la arquitectura HPE Cray EX235a. El sistema tiene un total de 8.699.904 núcleos combinados de GPU y CPU y utiliza la red Slingshot 11 de HPE para la transferencia de datos.
En noviembre de 2023 obtuvo el primer puesto en la lista Top500 de los superordenadores más rápidos del mundo.