Uno de los datos fascinantes escondidos en el artículo de investigación que anuncia el modelo de lenguaje grande Gemini de Google fue que fue entrenado no sólo en múltiples grupos de cómputo, sino en múltiples centros de datos.
"Los aceleradores TPUv4 se implementan en 'SuperPods' de 4.096 chips, cada uno conectado a un conmutador óptico dedicado, que puede reconfigurar dinámicamente cubos de chips 4x4x4 en topologías toroidales 3D arbitrarias en aproximadamente 10 segundos", afirma el documento.
Ese interruptor óptico es la Misión Apolo de Google, perfilada exclusivamente por primera vez en mayo por DCD. Noam Mizrahi, director de tecnología de la empresa de chips Marvell, ve a Apollo como la primera parte de una historia mucho más amplia: el paso a un centro de datos totalmente óptico.
“A medida que los modelos se hacen cada vez más grandes, la presión se traslada a la interconexión de todo eso, porque si piensas en eso, cada GPU o TPU hoy en día tiene terabits por segundo de ancho de banda para comunicarse con sus GPU/TPU pares en un clúster, y tu La red está diseñada para cientos de gigabits”, dijo Mizrahi.
“Esos son los puntos de conectividad que tienes, lo que significa que, siempre y cuando permanezcas dentro de tu caja orgánica como un DGX, puedes comunicarte con esas tasas de terabits. Pero una vez que necesitas crear grupos de aproximadamente 1.000, debes pasar por un puerto mucho más estrecho que se convierte en el cuello de botella de todo”.
El segundo desafío es cómo crear una red que de manera eficiente "reúna decenas de miles de nodos que aparecerían como uno solo, en todo un centro de datos o centros de datos", continuó Mizrahi. "Y creo que la respuesta a todas estas cosas es simplemente tener muchos más tipos de conectividad óptica para crear las redes".
En las topologías de red tradicionales, las señales saltan entre eléctrica y óptica. Movimientos como el de Google reducen la cantidad de esos saltos, pero todavía están a un nivel de instalación. “El problema empieza aún más abajo, a unos pocos bastidores. Si los conectas, ya podrías llevarte al dominio óptico”, dijo.
Espera que los sistemas adopten la óptica lo antes posible: "No vayas de un lado a otro entre el dominio digital y luego el óptico, simplemente transfiérelo a la óptica y luego pasa todo por la óptica y luego solo retrocede en el otro lado", dijo.
“Entonces, una GPU podría tener un puerto óptico (que puede ser un chiplet óptico dentro de la GPU o enchufable) y está conectada a una red con un puerto óptico. Y luego tenemos grupos de memoria, también con óptica, y tenemos grupos de almacenamiento, también con óptica, y la red es toda óptica”, dijo Mizrahi.
Esto permitiría que “la memoria escale a su propio ritmo, porque ahora también es un cuello de botella calcular el límite de cuánto se puede conectar (consulte la página siguiente). El almacenamiento tendrá que escalar por sí mismo y por la red, y luego computar, todo de forma independiente”.
Es una visión prometedora que tiene muchos defensores. Pero también existe desde hace algún tiempo y aún no ha dado lugar a una revolución totalmente óptica. La tecnología aún se está desarrollando y lo que existe es costoso, incluso para los estándares de los centros de datos.
"Es algo gradual, no sucederá en un día", admitió Mizrahi. “Ningún centro de datos será rediseñado completamente en este momento para hacer eso. Pondrán una plataforma y luego reemplazarán una parte. Hará falta tiempo para evolucionar”.
Esto también significará que llevará algún tiempo sentir el verdadero beneficio: mientras haya saltos intermedios de lo óptico a lo eléctrico, seguirá habiendo ineficiencias.
"Pero en algún momento tendremos que hacer algo más que el enfoque actual, porque chocaremos contra un muro", dijo Mizrahi. “Y con la IA generativa chocas contra las paredes muy rápido. Es muy diferente a todo lo que hemos visto hasta ahora".