Así como el silicio está siendo llevado al límite para manejar enormes modelos de IA, las redes y la arquitectura de los centros de datos enfrentan desafíos.
“Con estos grandes sistemas, pase lo que pase, no se puede colocar en un solo chip, incluso si eres Cerebras”, dijo Dylan Patel de SemiAnalysis. “¿Cómo conecto todos estos chips separados? Si son 100 es manejable, pero si son miles o decenas de miles, entonces están empezando a surgir dificultades reales, y Nvidia está implementando precisamente eso. Podría decirse que son ellos o Broadcom los que tienen la mejor red del mundo”.
Pero las empresas de la nube también se están involucrando más. Tienen los recursos para construir su propio equipo de red y topologías para admitir clústeres de cómputo en crecimiento.
Amazon
Amazon Web Services ha implementado clústeres de hasta 20.000 GPU, con tarjetas de red Nitro diseñadas específicamente por AWS. “Y desplegaremos múltiples clústeres”, dijo Chetan Kapoor de la compañía. “Esa es una de las cosas que creo que diferencia a AWS en este espacio en particular. Aprovechamos nuestra tecnología Nitro para tener nuestros propios adaptadores de red, a los que llamamos adaptadores de tejido elástico”.
La empresa está en proceso de implementar su segunda generación de EFA. “Y también estamos en el proceso de aumentar el ancho de banda por nodo, alrededor de 8 veces entre A100 y H100”, dijo. "Vamos a subir a 3200 Gbps, por nodo".
En Google, un ambicioso esfuerzo de varios años para revisar las redes de su enorme flota de centros de datos está comenzando a dar sus frutos.
La compañía ha comenzado a implementar la tecnología de conmutación óptica personalizada de Mission Apollo a una escala nunca antes vista en un centro de datos.
Las redes de centros de datos tradicionales utilizan una configuración en la que las computadoras se conectan a los conmutadores de la parte superior del bastidor, que luego se conectan a la columna vertebral, que consta de conmutadores de paquetes electrónicos. Project Apollo reemplaza la columna vertebral con interconexiones completamente ópticas que redirigen los rayos de luz con espejos.
"Las necesidades de ancho de banda para el entrenamiento y, en cierta medida, la inferencia, son enormes", dijo Amin Vahdat de Google.
Apollo ha permitido a la compañía construir “topologías de red que se asemejan más a los patrones de comunicación de estos algoritmos de entrenamiento”, dijo. “Hemos establecido redes dedicadas y especializadas para distribuir parámetros entre los chips, donde enormes cantidades de ancho de banda están ocurriendo sincrónicamente y en tiempo real”.
Esto tiene múltiples beneficios, dijo. A esta escala, los chips individuales o los bastidores fallan con frecuencia, y "un interruptor de circuito óptico es bastante conveniente para reconfigurar en respuesta, porque ahora mis patrones de comunicación coinciden con la topología lógica de mi malla", dijo.
“Puedo decirle a mi interruptor de circuito óptico: 'Toma otros chips de otro lugar, vuelve a configurar el interruptor de circuito óptico para conectar esos chips en el orificio que falta y luego sigue adelante'. No es necesario reiniciar todo el cálculo o, en el peor de los casos, comenzar desde cero”.
Apollo también ayuda a implementar la capacidad de manera flexible. El TPUv4 de la empresa escala hasta bloques de 4096 chips. "Si programo 256 aquí, 64 allá, 128 aquí, otros 512 allá, de repente voy a crear algunos huecos, donde tengo 64 bloques de fichas disponibles".
En una arquitectura de red tradicional, si un cliente quisiera 512 de esos chips, no podría usarlos. “Si no tuviera un interruptor de circuito óptico, estaría hundido, tendría que esperar a que terminaran algunos trabajos”, dijo Vahdat. “Ya están ocupando partes de mi malla y no tengo 512 contiguos, aunque podría tener 1024 chips disponibles”.
Pero con el interruptor del circuito óptico, la compañía puede “conectar las piezas correctas para crear una hermosa malla de 512 nodos que es lógicamente contigua. Por lo tanto, separar la topología lógica de la física es súper poderoso".
Colos y mayoristas
Si la IA generativa se convierte en una carga de trabajo importante, todos los centros de datos del mundo podrían encontrar que tienen que reconstruir su red, dijo Ivo Ivanov, director ejecutivo del intercambio de Internet DE-CIX. “Hay tres conjuntos críticos de servicios que vemos: 1) Intercambio en la nube, por lo tanto, conectividad directa a nubes individuales, 2) Interconexión directa entre diferentes nubes utilizadas por la empresa, y 3) Peering para interconexión directa a otras redes de usuarios finales y clientes”.
"Si estos servicios son fundamentales para crear el entorno que la IA generativa necesita en términos de infraestructura, entonces cada operador de centro de datos de hoy necesita tener una solución para una plataforma de interconexión", argumentó.
Ese servicio de red preparado para el futuro tiene que ser perfecto, dijo: "Si los operadores de centros de datos no ofrecen esto a sus clientes hoy y en el futuro, simplemente se reducirán a operadores para servidores".
Otros artículos de esta serie
-
IA generativa y el futuro de los Data Centers: Parte III - Las supercomputadoras
¿Qué pasará con HPC en el mundo de la IA generativa?
-
IA generativa y el futuro de los centros de datos: Parte IV - La nube
Cómo los hyperscalers planean dominar la IA generativa
-
IA generativa y el futuro de los centros de datos: Parte V - Los chips
Una explosión de semiconductores para satisfacer las demandas de la IA