A medida que la industria de los centros de datos entra en una nueva fase, todos los operadores se han visto obligados a tener en cuenta dos incógnitas: ¿Cómo de grande será la ola de IA y a qué tipo de densidades nos enfrentaremos?

Algunos han hecho todo lo posible y están construyendo centros de datos refrigerados por líquido, mientras que otros esperan superar el momento actual y esperar hasta que el futuro esté más claro.

Para Meta, que ha adoptado la IA en todo su negocio, este punto de inflexión ha significado descartar una serie de proyectos de centros de datos en desarrollo en todo el mundo, tal y como informó en exclusiva DCD a finales del año pasado.

Canceló instalaciones que ya tenían trabajadores para la construcción en el lugar, ya que rediseñó sus instalaciones teniendo en mente las GPU y otros aceleradores.

Ahora, con la empresa iniciando la construcción del primero de sus centros de datos de próxima generación en Temple, Texas, hablamos con el hombre detrás del nuevo diseño.

"Vimos la evidencia de la escala potencial de esta tecnología hace unos dos años", dijo Alan Duong, director global de ingeniería de centros de datos de Meta.

Meta apostó anteriormente por las CPU y sus propios chips internos para manejar tanto las cargas de trabajo tradicionales como las de IA. Pero a medida que el uso de la IA se disparó, las CPU no pudieron seguir el ritmo, y los esfuerzos en torno a los chips de Meta planteados inicialmente fracasaron.

Ahora ha relanzado el proyecto, y se espera que el Meta Training and Inference Accelerator (MTIA) de 7 nm se implemente en el nuevo centro de datos junto con miles de GPU.

Esas GPU requieren más potencia y, por lo tanto, más refrigeración, y también deben estar estrechamente conectadas en red para garantizar que no haya un exceso de latencia al entrenar modelos gigantes.

Eso requirió un centro de datos completamente nuevo.

La refrigeración

Las nuevas instalaciones estarán parcialmente refrigeradas por líquido, y Meta implementará refrigeración directa al chip para las GPU, mientras mantendrá la refrigeración por aire para sus servidores tradicionales. "Durante ese viaje de dos años, consideramos crear centros de datos dedicados a la IA y decidimos avanzar hacia una combinación mayor, porque sabemos que habrá esta transición", dijo Duong.

“El 95 por ciento de nuestra infraestructura actual admite x86 más tradicional, lectores de almacenamiento y servicios front-end; eso no va a desaparecer. ¿Quién sabe dónde evolucionará eso dentro de muchos años? Para entonces ya sabremos que lo necesitaremos”.

Los sistemas de IA también requerirán acceso al almacenamiento de datos, "por lo que, si bien se pueden optimizar los centros de datos para IA de alta densidad, todavía será necesario colocar estos servicios con datos, porque así es como se realiza la capacitación".

"Tener la configuración híbrida permite a Meta expandirse con el mercado de la IA, pero no sobreaprovisionar algo que aún es impredecible", dijo Duong.

"No podemos predecir lo que va a pasar y, por eso, la flexibilidad en nuestro diseño nos permite hacerlo. ¿Qué pasa si la IA no alcanza las densidades que todos predijimos?"

Esa flexibilidad conlleva una compensación, admitió Duong. "Vamos a gastar un poco más de capital para brindar esta flexibilidad".

La compañía se ha decidido por 30°C (85°F) para el agua que suministra al hardware y espera lograr que la temperatura se adopte más ampliamente a través del Open Compute Project (OCP).

Qué medio exactamente se utiliza en esas tuberías hacia el chip aún es una cuestión en la que estamos trabajando, reveló Duong. "Todavía estamos determinando cuál es el medio correcto para aprovechar. Tenemos años para desarrollar esa solución real a medida que comenzamos a implementar líquido a chip. Todavía estamos desarrollando el hardware asociado, por lo que aún no hemos determinado específicamente qué vamos a usar".

Sin embargo, la compañía ha decidido que no utilizará refrigeración por inmersión, al menos en un futuro previsible. "Lo hemos investigado", dijo Duong. "¿Es algo que sea escalable y operativo para nuestro uso y nuestra escala? Por el momento no.

"Cuando imaginas las complicaciones del enfriamiento por inmersión para las operaciones, es un desafío importante que tendríamos que superar y resolver si alguna vez tuviéramos que implementar algo así a escala".

Next-Gen Data Center Design 2.jpg
– Meta

Otro enfoque que no prosperará es un sistema de refrigeración que se muestra brevemente en una imagen de principios de este año de un fluido cayendo en cascada sobre una placa fría (ver la foto). "Estos son experimentos, ¿verdad? Yo diría que, en general, esa no es una solución que vaya a ser escalable por el momento para nosotros".

"Por lo tanto, lo que veremos dentro de uno o dos años es una tecnología más tradicional directa al chip sin ninguna de estas cascadas tan sofisticadas".

Si bien el diseño a nivel de instalación está completamente finalizado, todavía se está trabajando en parte de la tecnología a nivel de bastidor, lo que dificulta las predicciones exactas de la densidad. "En comparación con la densidad de las hileras actuales, diría que seremos desde dos veces más densos como mínimo hasta entre ocho y nueve veces más densos como máximo".

Meta "aún no ha aterrizado del todo, pero estamos considerando una capacidad máxima potencial de fila de 4 a 500 kilovatios", dijo Duong.

"Definitivamente tenemos más confianza a nivel de instalaciones", añadió Duong. "Ya hemos lanzado al mercado nuestro diseño y el tipo de respuesta que hemos recibido nos ha dado la confianza de que nuestras proyecciones se están haciendo realidad".

Cambiando las cosas

Además de los cambios en la refrigeración, la empresa ha simplificado su diseño de distribución de energía.

"Cuanto más equipo se tiene, más complicado es", afirmó Duong. "Hay capas adicionales de fallas y más equipos que mantener".

La empresa revisó qué equipos podía retirar, sin necesidad de equipos nuevos y más complejos.

"Tenemos una gran cantidad de equipos en nuestro canal de distribución actual, ya sean interruptores, tableros de distribución, múltiples interruptores, múltiples esquemas de transición de A a B, etc., y pensé: '¿Puedo deshacerme de todo eso y simplemente ir desde la fuente donde la energía se convierte directamente a la fila?'"

Este nuevo diseño también permitió a Meta "escalar desde una densidad de rack muy baja a una densidad de rack mucho mayor sin atascarse ni sobrecargar el electroducto, el disyuntor o el tablero", dijo.

Pasar directamente del transformador al propio rack nos permitió "no sólo eliminar equipos, sino construir un poco más rápido y barato, además de reducir la complejidad y los controles, sino que también nos permite aumentar nuestra capacidad".

Temple Data Center Meta
– Meta

Más rápido, más barato

Quizás la afirmación más sorprendente que Meta ha hecho con su nuevo diseño es que será un 31 por ciento más barato y le levará la mitad de tiempo construirlo (desde que sea innovador hasta que esté en funlcionamiento) que el diseño anterior.

"Las proyecciones actuales que estamos viendo de nuestros socios es que podremos construirlo en los tiempos que hemos estimado", dijo Duong.

"Podríamos incluso mostrarnos un poco mejores de lo que esperábamos inicialmente".

Por supuesto, la empresa primero tendrá que construir los centros de datos para saber realmente si sus proyecciones son correctas, pero espera que la velocidad compense los proyectos de centros de datos cancelados.

"Desde esa perspectiva no hay forma de ponerse al día", afirmó Duong. "Es posible que nos vean obteniendo capacidad aproximadamente al mismo tiempo que lo planeamos".

¿Cuánto durarán?

Los primeros centros de datos de Meta (entonces Facebook) se lanzaron hace 14 años. "Y no van a ir a ninguna parte, no es que vayamos a eliminarlos", dijo Duong.

"Tendremos que encontrar una manera de seguir aprovechando estos edificios hasta el final de su vida útil".

Con las nuevas instalaciones, espera superar ese plazo, sin requerir grandes modernizaciones o mejoras durante al menos los próximos 15 años.

"Pero estas son instalaciones de más de 20 a 30 años, y tratamos de incluir la posibilidad de modernización en su diseño", dijo. "Tenemos que crear este concepto donde, si necesitamos modernizar el diseño, podamos hacerlo".

Al recordar el momento en que comenzó el proyecto hace dos años, Duong sigue confiando en que el diseño fue la apuesta correcta para los años venideros. "Como equipo que siempre intenta predecir un poco el futuro, hay muchos errores", dijo.

"Tenemos diseños que potencialmente están más orientados al futuro, pero simplemente no los vamos a necesitar. Nos preparamos para la IA antes de esta explosión, y cuando la IA se convirtió en un gran impulso [para Meta] solo tuvimos que introducir las tecnologías que hemos estado evaluando durante años para ese diseño".