Con el lanzamiento de la última generación de GPU de Nvidia, la refrigeración líquida ha pasado de ser un lujo a una necesidad para muchas empresas. Los chips que son demasiado potentes para enfriarse mediante métodos basados en aire están impulsando la adopción de intercambiadores de calor de puerta trasera y de conexión directa al chip.
A medida que los operadores de centros de datos que brindan servicios a hyperscalers, los proveedores de nube de GPU y las empresas líderes buscan adaptar sus ofertas para satisfacer cargas de trabajo cada vez más densas, será necesario realizar cambios en la forma en que las empresas abordan la resiliencia, la redundancia y el tiempo de actividad.
¿El líquido es más o menos resistente que el aire?
Los operadores de centros de datos en general están implementando salas de datos habilitadas con refrigeración líquida, y muchos hyperscalers están desarrollando sistemas personalizados con refrigeración líquida en sus propios centros de datos.
La necesidad de adoptar líquidos para el hardware de alta gama actual es simplemente una cuestión de física. El aire como medio de refrigeración tiene un límite físico y, después de cierto punto, no se puede pasar ninguna cantidad de aire frío sobre los chips con la suficiente rapidez como para mantener el hardware dentro de los umbrales de temperatura requeridos.
“Los operadores de centros de datos han hecho todo lo posible con los sistemas de refrigeración basados en aire”, afirma Ben Coughlin, presidente y cofundador de Colovore, operador de centros de datos refrigerados por líquido. “Llega un punto de inflexión en el que resulta imposible ignorar los problemas físicos y solo es necesario contar con líquido como medio de refrigeración”.
Si bien pasar al líquido puede ser una necesidad, trae consigo nuevas dificultades para garantizar el mismo nivel de tiempo de actividad de "cinco nueves" que los clientes esperan.
Vlad-Gabriel Anghel, director de ingeniería de soluciones en la unidad de capacitación de DCD , DCD>Academy, señala que si bien habrá menos ventiladores y piezas móviles que mantener, los operadores ahora dependen de un líquido en movimiento continuo para mantener las condiciones ambientales que el hardware necesita para funcionar correctamente.
“La robustez no vendrá del uso de un sistema sobre otro, sino de su integración en el sistema más amplio”, afirma.
Coughlin, de Colovore, añade: “No existe un manual que explique en qué consiste la refrigeración líquida. Hay muchas formas distintas de suministrarla: intercambiadores de calor en la puerta trasera, conexiones de líquido directas en el chasis del servidor o agua suministrada por una unidad de distribución de refrigeración (CDU) ya sea en el armario o en una CDU montada en el suelo”.
Cómo el líquido cambia la resiliencia y la redundancia
NTT GDC tiene más de 200 MW de capacidad refrigerada por líquido (principalmente directamente al chip) distribuida en media docena de centros de datos en todo Estados Unidos, una de las mayores presencias de este tipo a nivel mundial.
Bruno Berti, vicepresidente sénior de gestión global de productos de NTT Global Data Centers, nos dijo que, hasta la fecha, sus implementaciones no han experimentado fallos importantes.
“Tenemos mucho menos tiempo para afrontar cualquier tipo de interrupción de ese líquido, por lo que debemos asegurarnos de que ese líquido siga fluyendo para extraer continuamente el calor”, afirma. “La resiliencia en los sistemas de distribución de líquido es más importante que la redundancia en un sistema basado en aire. Por eso, definitivamente es algo que ha estado en la mente de nuestros equipos de diseño e ingeniería”.
Anghel de DCD>Academy nos dice que la inercia térmica es considerablemente menor en los sistemas de enfriamiento líquido en comparación con el enfriamiento por aire, lo que significa que incluso una interrupción muy breve en el flujo de agua puede provocar picos masivos de temperatura, que pueden hacer que el hardware se acelere o potencialmente provocar daños permanentes.
“La velocidad a la que se acumula el calor en un sistema de refrigeración líquido hace que las fallas de refrigeración sean mucho más críticas que con la refrigeración por aire”, afirma. “Sin una redundancia adecuada y una supervisión proactiva, el riesgo de una interrupción del servicio es significativamente mayor en esta nueva era de la informática de alto rendimiento”.
“Si bien los objetivos principales de confiabilidad y tiempo de funcionamiento siguen siendo los mismos, la refrigeración líquida requiere un enfoque más integrado que combine redundancia física, monitoreo avanzado y automatización”, agrega Anghel. “Si bien los principios de redundancia 2N y N+1 aún se aplican, deben adaptarse para abordar las vulnerabilidades únicas de la refrigeración líquida, como la rápida acumulación térmica, las fugas de refrigerante y las interrupciones del flujo”.
Para lograrlo, afirma, los operadores deben priorizar los circuitos de refrigeración, las bombas y los intercambiadores de calor redundantes, asegurándose de que estos sistemas sean totalmente independientes para evitar fallos en cascada. El monitoreo en tiempo real de los caudales, la presión y las temperaturas, junto con los mecanismos de conmutación por error automatizados, es fundamental para mantener el tiempo de actividad en caso de una falla.
Diseño de sistemas líquidos para el tiempo de funcionamiento
Colovore, con sede en California, es un defensor desde hace mucho tiempo de la refrigeración líquida. La empresa inauguró su primera instalación totalmente líquida en Santa Clara hace más de una década. La empresa está a punto de inaugurar un segundo centro de datos en las inmediaciones y tiene previsto abrir más en Reno y Chicago.
En su sitio, la empresa afirma que la instalación original ha mantenido un tiempo de actividad del 100 por ciento durante toda su operación, ofreciendo densidades de hasta 250 kW a través de intercambiadores de calor de puerta trasera y enfriamiento directo al chip.
"No creo que haya otra forma de pensarlo", dice Coughlin de Colovore. "Todavía se tienen en cuenta las consideraciones de diseño fundamentales básicas para suministrar energía y refrigeración a un rack".
“Los sistemas tradicionales basados en aire deben poder recibir mantenimiento de manera simultánea y, si surge un problema con una determinada parte del suelo, conviene aislarla”, añade. “También hay que tener en cuenta esos problemas en un sistema refrigerado por líquido, como la distribución del agua, tener vías redundantes y poder cerrar determinadas válvulas y grifos en determinadas situaciones”.
Si bien los objetivos fundamentales pueden ser los mismos, aún hay aspectos prácticos que considerar. Una de las principales consideraciones en torno a la resiliencia de los circuitos de agua es si se debe construir un sistema con caudales de agua de alta o baja presión y tuberías muy grandes o estrechas. Hay factores relacionados con los materiales que se deben considerar: ¿se debe utilizar una manguera de goma o una manguera trenzada de metal plateado?
Coughlin dice que la compañía siempre ha pecado de usar “componentes muy industriales y muy, muy gruesos, pero hay muchos proveedores que usan mangueras de plástico en tubos de goma para distribuir agua”.
“Generalmente, diseñamos nuestro sistema con tuberías más grandes y caudales más bajos, porque creemos que es un enfoque más seguro”, dice Coughlin de Colovore. “Los flujos de agua a alta presión, en el caso de que haya una fuga o una rotura, pueden derivar en problemas más graves”.
“Siempre hemos pecado de utilizar componentes muy industriales y muy, muy gruesos, pero hay muchos proveedores que utilizan mangueras de plástico en tubos de goma para distribuir agua”, añade.
“En términos generales, parece que la industria tiende hacia temperaturas de entrada de agua más cálidas y caudales más bajos, lo que coincide bien con la forma en que hemos diseñado nuestro sistema”.
Berti afirma que NTT tiene un diseño flexible que puede combinar refrigeración por aire y por líquido, lo que le permite instalar unidades de refrigeración por aire en lugares donde de otro modo habría ventiladores. La experiencia de la empresa con circuitos de agua primarios para enfriadores refrigerados por aire hizo que NTT se sintiera cómoda con la idea de un circuito secundario para los sistemas basados en líquido.
“Desde una perspectiva de resiliencia, creo que el líquido es más complicado y presenta más escenarios de falla”, afirma. “Hay muchas tuberías dentro del centro de datos; muchas juntas, muchas piezas móviles, muchas posibilidades de fugas. También hay muchas válvulas que la gente conecta y desconecta.
“Tenemos múltiples CDU en una configuración de tipo N+1. Si alguna bomba falla, siempre habrá más CDU para manejar cualquier escenario de falla y avería, y tenemos un sistema de doble circuito que nos permite aislar ese circuito en cualquier punto”.
El aislamiento es importante. Berti señala que algunos clientes y otros proveedores de servicios de instalación podrían conformarse con instalar un circuito de agua en los bastidores, pero esto significa que, si hay una fuga, hay que apagar todo el sistema.
“Si hay una fuga en algún lugar, tenemos varios lugares donde podemos interceptar ese circuito para colocarlo en el circuito secundario”, dice Berti. “Y como podemos aislar ese circuito, también podremos agregar unidades de distribución de combustible más adelante en el proceso”.
“Eso es importante en el aspecto de la resiliencia: ¿cómo se realiza el mantenimiento de estos equipos inherentemente menos resilientes?”
SLA líquidos: ¿Es necesario cambiar las garantías?
Si bien están surgiendo estándares, la industria aún está definiendo estándares industriales y mejores prácticas para muchos aspectos de la refrigeración líquida.
“Todavía queda mucho trabajo por hacer para determinar cuáles serán los estándares de la industria”, afirma Coughlin. “No existe un manual que diga ‘así es como se diseña un centro de datos refrigerado por líquido’. Estamos trabajando en esto en tiempo real”.
“En última instancia, depende de las plataformas de servidores y de sus requisitos. Hasta que no logremos cierta coherencia en el lado del hardware, siempre habrá algún grado de personalización, porque no tenemos uniformidad en esos estándares”.
Más allá de los estándares, las preguntas sobre qué garantías deben ofrecer los operadores en torno a los sistemas líquidos aún no han sido totalmente respondidas.
Berti, de NTT, dice que la compañía está actualizando y redefiniendo una serie de SLA para implementaciones refrigeradas por líquido y ha actualizado algunos contratos con clientes.
“Estamos creando un conjunto completamente nuevo de acuerdos de nivel de servicio”, explica. “El caudal y la presión diferencial entre el suministro y el retorno de las unidades de distribución central son acuerdos de nivel de servicio que se están definiendo. Las temperaturas del agua, tanto primaria como secundaria, se están actualizando. La temperatura del líquido secundario, el caudal secundario, el retorno secundario y la presión diferencial de suministro son los aspectos en los que estamos trabajando ahora mismo con nuestros clientes, redefiniéndolos y poniéndolos en acuerdos de nivel de servicio estándar”.
“Antes nunca teníamos que aplicar un SLA a las temperaturas del circuito de agua primario porque era el aire el que determinaba a qué temperatura podíamos hacer funcionar el líquido. Pero ahora es importante debido a los requisitos de extracción de calor que existen en el lado primario”.
Los contratos de nivel de servicio para sistemas refrigerados por líquido “deben ir más allá de las garantías típicas de tiempo de funcionamiento y confiabilidad de los equipos que se observan en los sistemas refrigerados por aire”, afirma Anghel de DCD>Academy. Estos deben incluir, dice, requisitos de caudal, rangos de temperatura, redundancia, monitoreo y mantenimiento específicos para la refrigeración por líquido.
Sin embargo, para el proveedor de colocation minorista Colovore, las cosas pueden ser diferentes.
“Las variables críticas son, en última instancia, lo que requieren las plataformas de hardware”, afirma Coughlin. “Hasta cierto punto, ya está incorporado en la ecuación. Si no se pueden cumplir esas especificaciones [de hardware], no tiene sentido tener un acuerdo de nivel de servicio [porque] no se puede hacer”.
Reconoce que eso puede cambiar en el futuro, pero por ahora, dice, a la base de clientes de la empresa “en última instancia no le importa demasiado” el medio.
“Tenemos que suministrar energía y refrigeración a los entornos de nuestros clientes. Esas métricas y requisitos finales desde una perspectiva de SLA no han cambiado. El medio de refrigeración puede ser ligeramente diferente, pero, desde la perspectiva del cliente, eso no importa”.
También hay dudas sobre quién es el propietario de esa infraestructura hídrica, especialmente de las unidades de distribución centralizadas. Algunos clientes pueden querer que esa infraestructura sea administrada por el operador del centro de datos (o quizás por el proveedor de las unidades de distribución centralizadas), pero parte de esa infraestructura puede estar ubicada en áreas a las que el personal de las instalaciones tradicionalmente no estaría autorizado a ingresar.
¿Tiene importancia en un entorno centrado en la conmutación por error?
La mayor parte de la tecnología de refrigeración líquida ha madurado en el ámbito de la informática de alto rendimiento.
Jacqueline Davis, analista de investigación del Uptime Institute, sugiere que debido a esto, el panorama de la refrigeración líquida todavía habla el lenguaje del tiempo de actividad y el tiempo medio entre fallas, en lugar de la redundancia.
“En la actualidad, la refrigeración líquida se utiliza para solucionar problemas térmicos en los que los operadores tienen pocas opciones. No se elige principalmente por razones de eficiencia”, afirma Davis. “Pueden elegir bombas, conexiones de fluidos, etc. muy duraderas para intentar obtener el mejor tiempo de funcionamiento y el mejor tiempo medio entre fallos. Pero es más difícil construir cosas redundantes”.
El hecho de que gran parte del hardware de GPU y, por lo tanto, la refrigeración líquida todavía se centren en la formación (de forma similar a la mentalidad de computación por lotes de las implementaciones de HPC) significa que las interrupciones de la carga de trabajo no suelen significar una pérdida inmediata de servicio o ingresos. Por eso, el dinero de los proveedores no se destina a productos que puedan ofrecer el mayor nivel de redundancia.
"No creo que su objetivo sea alcanzar los estándares de redundancia que tenían en el pasado con la TI empresarial convencional", afirma Davis. "Dado que la refrigeración líquida todavía se utiliza principalmente en el mundo de la informática de alto rendimiento y la inteligencia artificial, todavía no se le pide que satisfaga esa necesidad de redundancia".
Sugiere que las cargas de trabajo que requieren tanto alta disponibilidad como refrigeración líquida podrían concentrarse mejor en la resiliencia en la capa de software en lugar de en el hardware de refrigeración. Es mejor realizar una conmutación por error a otro servidor o bastidor que intentar realizar una conmutación por error a otra bomba o tubería.
A pesar del alto precio de las GPU y la dificultad de obtenerlas, Davis sugiere que los hyperscalers están bien versados en este tipo de pensamiento de conmutación por error y tendrán los fondos para absorber el golpe porque el objetivo es la velocidad hacia un producto terminado, es decir, un modelo entrenado.
De la misma manera, sugiere que los proveedores de GPU en nube más pequeños podrían simplemente estar dispuestos a correr el riesgo de utilizar GPU más potentes y con menor consumo en el corto plazo para lograr objetivos similares.
Después de eso, ¿qué sucede cuando pasamos de los modelos de entrenamiento a la inferencia diaria?
Microsoft sugirió recientemente que está viendo una gran demanda de sus GPU para inferencia, pero el mercado aún debe determinar por completo qué hardware realizará gran parte del trabajo diario de la IA y, por lo tanto, qué tipo de enfriamiento se requerirá.
“Algunas personas optarán por ejecutar sus inferencias en hardware de CPU”, dice Davis. “Otras lo harán en silicio más específico para la aplicación. Habrá un conjunto diverso de hardware para realizar inferencias. Algunos de ellos estarán refrigerados por líquido, otros no”.
¿Qué pasa con el resto de la industria?
Más allá de las GPU de alta gama y los chips específicos para IA, quedan dudas sobre si otros tipos de computación requerirán refrigeración líquida.
Davis, de Uptime, predice que la industria experimentará una segmentación “significativa”, en la que las densidades extremas estarán reservadas para el entrenamiento de IA “por bastante tiempo” todavía.
En el caso de las cargas de trabajo que no requieren inteligencia artificial, aún no se ha llegado a un consenso. Coughlin, de Colovore, sugiere que hay muchas aplicaciones y servicios que hacen un uso intensivo de los datos y que los clientes están implementando y utilizando y que no requieren GPU ni inteligencia artificial.
“Tenemos varios proveedores de datos de atención médica que utilizan servidores de CPU, ni siquiera GPU, y un gabinete completamente equipado con la mayoría de los sistemas de servidores de CPU modernos alcanza los 25 kW”.
Señala que un rack lleno de algunos de los sistemas de almacenamiento de mayor densidad también podría alcanzar más de 20 kW; no exactamente en el punto de inflexión en el que se necesite absolutamente líquido, pero no muy lejos. Las redes, si bien se están volviendo más densas, aún están lejos de necesitar líquido.
"Aún no hemos llegado a ese punto", dice Coughlin. "¿Llegaremos a un punto en el que necesiten refrigeración líquida? No lo sé, todas estas piezas de hardware subyacentes se han vuelto cada vez más densas".
Davis sugiere que actualmente la TI empresarial convencional carece del incentivo general para densificarse. Y si bien algunos fabricantes de equipos originales (OEM) de hardware están ofreciendo dispositivos de almacenamiento y redes cada vez más densos, cree que es probable que sigan siendo dominio exclusivo de la pequeña minoría en la cima durante un tiempo.
“Pasarán varios años antes de que esas CPU de altísima potencia y esos productos de altísima densidad se comercialicen en masa”.
Si la refrigeración líquida se convierte en estándar en más instalaciones, es totalmente posible que las salas totalmente líquidas como la de Colovore se vuelvan más comunes y arrastren las cargas de trabajo que no sean de GPU a ser refrigeradas por líquido de manera predeterminada.
Sin embargo, otros proveedores siguen decididos a ofrecer flexibilidad, lo que significa que la refrigeración por aire seguirá siendo viable durante un tiempo. Sin embargo, la resiliencia y la redundancia seguirán siendo prioridades, sea cual sea el medio.