Con la llegada de la IA generativa, junto con el lanzamiento de las GPU cada vez más potentes, en 2023 se han intensificado significativamente los debates sobre cargas de trabajo de alta densidad en los centros de datos.

En los últimos años, "alta densidad" generalmente ha significado cualquier valor entre dos dígitos y hasta 30 kW. Ahora, algunas empresas hablan de operar con densidades en el rango de las tres cifras de kilovatios.

La refrigeración por aire tiene sus limitaciones y estos nuevos diseños de alta densidad tendrán que utilizar refrigeración líquida de alguna forma. Pero, ¿están preparados los operadores de centros de datos (y especialmente los proveedores de colocación) para ese cambio?

Los diseños de los centros de datos se vuelven más densos, al menos para los hyperscalers

Schneider Electric predice que las cargas de trabajo basadas en IA podrían crecer de 4,3 GW a 13,5 GW en los próximos cinco años, pasando del ocho por ciento de las cargas de trabajo actuales al 15-20 por ciento.

"Está creciendo más rápido, pero no representa la mayoría de las cargas de trabajo", dijo Andrew Bradner, director general del negocio de refrigeración de Schneider Electric, durante una visita de DCD a la fábrica de sistemas de refrigeración de la empresa en Conselve, Italia.

"Ellos [los hypescalers] están en una carrera armamentista, pero muchos de nuestros clientes de colocación están tratando de entender cómo se implementan a esta escala".

Después de años de pruebas, los hypescalers utilizan refrigeración líquida en diversas formas para acomodar chips cada vez más densos diseñados para cargas de trabajo de IA.

"Estamos viendo mucha más actividad con implementaciones planificadas a gran escala centradas en los EE. UU. con los típicos gigantes de Internet", le dijo Bradner a DCD en una conversación de seguimiento. "Donde vemos que la escala comienza primero es una construcción expresa y propia de esos gigantes de Internet".

En 2021, Microsoft se asoció con Wiwynn para probar el enfriamiento por inmersión de dos fases en una implementación de producción en una instalación en Quincy, Washington. En noviembre de 2023, la compañía reveló un nuevo diseño de bastidor personalizado para albergar su chip acelerador de IA personalizado conocido como Maia.

El diseño de bastidor, conocido como Ares, presenta una infraestructura de enfriamiento de alojamiento "lateral" en el costado del sistema que hace circular líquido a las placas frías y requerirá que algunos centros de datos implementen CDU de agua a aire.

En noviembre de 2023, Amazon dijo que sus nuevas instancias con los Superchips Grace Hopper GH200 de Nvidia serían la primera infraestructura de inteligencia artificial en AWS que contaría con refrigeración líquida.

En particular, Meta detuvo una gran proporción de la construcción de su centro de datos global a fines de 2022 como parte de un "reajuste" en toda la empresa mientras buscaba adaptar sus diseños para la IA. Las instalaciones de nuevo diseño estarán parcialmente refrigeradas por líquido, y Meta implementará refrigeración directa al chip para las GPU, mientras se apegará a la refrigeración por aire para sus servidores tradicionales.

La compañía le dijo a DCD que tener la configuración híbrida permite a Meta expandirse con el mercado de la IA, pero no sobreaprovisionar algo que aún es impredecible. Dijo que no utilizará refrigeración por inmersión en el futuro previsible, ya que en este momento no es "escalable ni operacionalizado" para los requisitos de las redes sociales.

En el ámbito de la colocación y la venta mayorista, empresas como Digital Realty, CyrusOne y DataBank ofrecen nuevos diseños de alta densidad que pueden utilizar refrigeración líquida y por aire.

Digital dijo recientemente que su nuevo servicio de colocación de alta densidad estará en 28 mercados en América del Norte, EMEA y Asia Pacífico. El servicio ofrecerá densidades de hasta 70 kW por rack utilizando tecnologías de refrigeración líquida asistida por aire (AALC), que luego se confirmó a DCD como “intercambiadores de calor de puerta trasera en racks”.

Universal Data Hall Design (UDHD) de DataBank ofrece un diseño flexible capaz de albergar una combinación de cargas de trabajo de alta y baja densidad. El diseño base incorpora pisos de losa con enfriamiento perimetral, con la opción de incluir pisos elevados, mientras que la compañía ha dicho que tecnologías como intercambiadores de calor de puerta trasera o enfriamiento directo al chip se pueden implementar con un "mínimo esfuerzo".

En 2023, CyrusOne anunció un nuevo diseño de centro de datos diseñado específicamente para IA que puede acomodar densidades de hasta 300 kW por rack. La compañía ha dicho que su diseño Intelliscale podrá utilizar tecnología de refrigeración de líquido a chip, sistemas de refrigeración de intercambiador de calor de puerta trasera y refrigeración por inmersión en un espacio de construcción de una cuarta parte del tamaño de sus construcciones habituales.

shell immersion cooling
– Shell

Las densidades aumentan, pero el comercio minorista aún no ha visto el auge de los líquidos

DCD habló con varios proveedores de colocación minorista sobre lo que están viendo en términos de demandas de densidad frente a refrigeración líquida. Si bien la mayoría dijo que las densidades están aumentando, esto es lento. El interés líquido que existe sigue siendo directo al chip y actualmente hay poca demanda de refrigeración por inmersión entre su base de clientes más amplia.

Bradner, de Schneider, señala que las limitaciones de la cadena de suministro en torno a las últimas GPU y chips de IA significan que las demandas de alta densidad extrema aún no han salido de las propias instalaciones de las empresas de hiperescala y han llegado a sus implementaciones de colocación, y mucho menos alcanzar la disponibilidad masiva para el mercado general: “Y hasta que eso suceda, llevará tiempo que sea tan frecuente en todo el mundo”, afirma.

“Eso no quiere decir que la refrigeración líquida no esté creciendo y que la gente ya no esté apilando racks hasta 30-40kW. Estamos viendo muchas más solicitudes en todo el mundo para una mayor densidad. Pero lo que es difícil decir es si se trata de la densidad planificada o de la densidad desplegada real; Tengo la sensación de que en gran medida se trata de una densidad más planificada”.

Mientras tanto, incluso sin el último y mejor hardware de IA, la densidad promedio de las instalaciones de colocación sigue aumentando.

En su convocatoria de resultados del tercer trimestre de 2023, Equinix señaló que está observando un aumento gradual de las densidades promedio en toda su huella. El director ejecutivo, Charles Meyers, señaló que durante los primeros tres trimestres de 2023, la compañía había estado cambiando gabinetes durante ese período con una densidad promedio de 4kW por gabinete, pero agregando nuevas cabinas facturables a un promedio de 5,7kW.

"La realidad es que hemos estado remando duro contra ese aumento de densidad en lo que respecta al crecimiento del gabinete", dijo. “Todavía vemos una demanda significativa muy por debajo de esos 5,7 [kW] y luego vemos algo significativamente por encima de eso. Es posible que veamos ofertas de 10, 15, 20 o más kilovatios por gabinete. Es posible que incluso estemos considerando la refrigeración líquida para satisfacer algunos de esos requisitos de altísima densidad.

"Es una oportunidad para nosotros, ya que tenemos esta dinámica de liberación de espacio en la medida en que podemos combinarlo con energía y enfriarlo adecuadamente usando refrigeración líquida u otros medios tradicionales de refrigeración por aire, por lo que creo que es una oportunidad para desbloquear más valor de la plataforma”.

Equinix también está implementando refrigeración líquida para parte de su infraestructura básica. En febrero de 2023, el gigante de colo dijo que la compañía había estado probando los sistemas de refrigeración líquida de ZutaCore en su centro de co-innovación durante un año, y en junio de 2022 instaló parte de la tecnología de dos fases en servidores activos para su infraestructura metálica como oferta de servicios.

En ese momento, un rack lleno de refrigeración operativa de dos fases había permanecido estable durante seis meses en su centro de datos NY5 en Secaucus, Nueva Jersey.

En diciembre de 2023, el gigante colo anunció planes para ampliar el soporte para tecnologías de refrigeración líquida, incluida la directa al chip, a más de 100 de sus centros de datos International Business Exchange (IBX) en todo el mundo.

Bradner señala que muchas grandes empresas todavía están en la fase de aprendizaje sobre cómo serán las implementaciones a gran escala: "He hablado con grandes clientes de Internet diciendo que están pensando en hacer racks de 40 kW, pero no están realmente seguros de cómo lo van a hacer".

"Sabemos que muchos de nuestros clientes de colo están realizando implementaciones puntuales de computación de alta densidad", afirma, "pero hay mucha segregación de implementaciones pequeñas en la infraestructura existente, que puede soportar eso, porque no se están implementando en escala."

Cyxtera, una empresa de colocación minorista adquirida recientemente por Brookfield, también está viendo aumentar la densidad de clientes en general.

“Si miramos al Reino Unido hace más de cinco años, las densidades tenían suerte de alcanzar los 4kW en promedio. Ahora vemos regularmente más de 10 para los clientes”, afirma Charlie Bernard, director de estrategia de crecimiento para EMEA, Cyxtera. “Los entornos se están densificando y estamos obteniendo mucho más rendimiento con menos hardware que tenga puntos de diseño térmico (TDP) altos, junto con la afluencia de infraestructura hiperconvergente (HCI) que está aumentando la cantidad de densidad que se puede lograr en un solo gabinete”.

Cyxtera dice que tiene 19 sitios que pueden soportar cargas de trabajo de más de 70 kW con una combinación de refrigeración por aire en contención de pasillo frío y refrigeración líquida.

“Las cargas de trabajo específicas de IA y HPC están superando los límites, y ya estamos viendo solicitudes de más de 50 kW con bastante regularidad, recibimos algunas por semana y hemos implementado el directo al chip en EE. UU. de forma masiva para algunos de estos requisitos.”, dice Bernard. “Pero incluso las cargas de trabajo tradicionales que estamos viendo; nube privada, clústeres de SAP, etc. Está aumentando constantemente”.

Hasta la fecha, afirma, la refrigeración líquida ha sido dominio exclusivo de empresas y proveedores de servicios muy grandes, la mayoría de los cuales utilizan directamente el chip.

“Creo que el razonamiento detrás de esto probablemente sea la falta de soporte de los OEM. La mayoría de los clientes no van a seguir adelante con una solución que no puedan obtener soporte y garantía total por parte del proveedor de servicios y OEM con el que están trabajando. Veremos una adopción espectacular una vez que los OEM respalden y garanticen el hardware y lo respalden ante los clientes”.

Colovore Cooling.jpg
– Sebastian Moss

¿La refrigeración híbrida se convertirá en la norma?

Si bien un patrimonio totalmente líquido podría ser más fácil de manejar, sería excesivo en entornos con una variedad de requisitos de hardware y cargas de trabajo.

Esto significa que las implementaciones híbridas que combinan refrigeración por aire con diferentes variedades de refrigeración líquida probablemente se conviertan en la norma a medida que aumenten las densidades.

Bradner de Schneider dijo a DCD que para los chips de 350 W, la refrigeración por aire seco sigue siendo viable, pero una vez que alcancemos los 500 W por chip, las empresas deben empezar a pensar en el líquido, aunque sin compresores mediante sistemas de refrigeración seca o adiabáticos. Pero con chips de 700 W, los operadores necesitarán refrigeración mecánica junto con agua, y es menos probable que la refrigeración gratuita sea factible.

"Por debajo de 40 kW por bastidor, tienes algunas opciones más", afirma. “Algunos son más eficientes que otros, pero se puede utilizar la refrigeración por aire como forma de enfriar esas cargas. A medida que se alcanzan los 50 kW por rack, la refrigeración por aire se vuelve menos viable en términos de sostenibilidad de la eficiencia. Y luego, con más de 60 kW por bastidor, no tenemos otra opción, realmente es necesario recurrir a aplicaciones líquidas.

"Puede que no sea la forma más sostenible, pero estamos viendo que muchas personas diseñan para refrigeración por aire de hasta 40 kW y no realizan cambios arquitectónicos para pasar a refrigeración líquida".

Y, si bien el directo al chip podría ser la opción líquida más frecuente hoy en día, todavía tiene sus limitaciones, lo que significa que todavía se necesita aire para eliminar el calor sobrante.

“Cuando se habla de una carga de 50 kW y solo se hace el 70 por ciento de ella [vía directo al chip], le quedan 15 kW. Bueno, eso es casi lo mismo que la demanda de refrigeración actual en la mayoría de los centros de datos”, afirma Bradner.

Spencer Lamb, CCO de la firma de colo del Reino Unido Kao Data, dijo que la densidad de rack promedio de la compañía en las instalaciones actuales es de alrededor de 7 a 10 kW por rack, pero la demanda de densidad está "aumentando significativamente".

“Estamos implementando bastidores de IA refrigerados por aire de 40 kW en nuestras salas de datos. Logramos esto ejecutando análisis CFD, determinando cómo y dónde nuestros clientes requieren racks de mayor densidad dentro de sus implementaciones, garantizando así que el sistema de enfriamiento no se vea comprometido”.

Lamb dijo que los clientes buscan implementar enfriamiento directo al chip y por inmersión, pero el plan de diseño de la compañía le permite implementar cualquiera de los dos sin ingeniería significativa, para complementar el sistema de enfriamiento por aire existente.

"Desde el punto de vista de la ingeniería del centro de datos, mantener estas tecnologías separadas es el resultado ideal, pero no es del todo apropiado para los clientes que buscan implementar esta tecnología", afirma. “Es muy probable que un usuario final que adquiera una plataforma de refrigeración líquida directa al chip busque un sistema de red y almacenamiento adyacente que esté refrigerado por aire, por lo que se requerirá cierto nivel de refrigeración por aire y esta será una tendencia que veremos en un futuro inmediato.

El enfriamiento directo al chip seguirá generando calor residual y requerirá aire acondicionado. En el futuro, las salas de datos deben poder adaptarse a un enfoque híbrido para albergar con éxito estos sistemas”.

¿Están los colos preparados para ofrecer líquido a escala?

Si bien existen centros de datos con refrigeración líquida especialmente diseñados (Colovore en California es uno de los ejemplos más conocidos), la mayoría de los proveedores de colo enfrentan el desafío de densificar las instalaciones existentes y modernizarlas con refrigeración líquida.

Por ahora, muchos proveedores de colo aprovecharán el directo al chip porque el número y la escala de implementaciones de alta densidad son lo suficientemente bajos como para poder aprovechar los diseños de instalaciones existentes sin demasiados cambios. Pero el cambio está por llegar.

"Existe un desafío con las modernizaciones incluso antes de que entremos en ese ámbito de alta densidad en sitios antiguos donde es complicado llegar a 10-15kW por rack", dice Bradner de Schneider. “Ante la pregunta de qué sucede con densidades aún más altas, podrían aceptar densidades más altas pero menos. Pero gran parte del aprovisionamiento de energía del sitio no contemplaba que en lugar de 10 a 20 MW para un edificio completo, podrían necesitarlo solo en un piso”.

Bernard, de Cyxtera, señala que muchos operadores todavía están explorando cómo estandarizar, poner en funcionamiento y, en última instancia, convertir en producto la refrigeración líquida, lo que plantea múltiples preguntas: "Cuando analizamos su puesta en funcionamiento, tenemos que preguntarnos cuál de nuestros centros de datos puede soportar esto; ¿Cuáles podemos aprovechar para los circuitos de agua, cuáles tienen el exceso de capacidad que podemos utilizar para ello? ¿Cómo vamos a manejar los fluidos en términos de manejo de fluidos? Cada centro de datos es diferente; Habrá un costo diferencial al aprovechar las tuberías".

“Uno de los desafíos en este momento es la falta de estándares con los tanques; Todos tienen conectores ligeramente diferentes a los que hay que enchufar desde el punto de vista del líquido, algunos tienen CDU, otros tienen un intercambiador de calor”, añade. “Y una vez que los tanques están en su lugar, ¿cómo tomamos esas múltiples métricas y datos que obtenemos de los tanques en términos de temperatura, por ejemplo, y colocamos esos datos en nuestro BMS para que podamos monitorearlos? No existe un estándar universal establecido entre todos los fabricantes; todos tienen sus propias API únicas hasta ahora”.

Telehouse, un proveedor minorista global de colo que opera un campus de cinco edificios en Londres, dijo a DCD que aún no ha visto un gran interés en la refrigeración líquida, pero está viendo un aumento gradual en las densidades en todas sus instalaciones.

“La mayoría de los equipos están ahora en la categoría estándar de 8 a 12 kW”, afirma Mark Pestridge, director senior de experiencia del cliente en Telehouse Europe. “También estamos empezando a ver algunos de 20 kW. No necesitamos utilizar inmersión o refrigeración líquida para hacer eso. Algunas personas todavía solo quieren 2kW en un rack, pero definitivamente estamos viendo un movimiento hacia la alta densidad estándar”.

"Hemos recibido un par de consultas [sobre líquidos]", dice Pestridge, "pero creemos que faltan entre tres y cinco años".

La empresa todavía está explorando el mercado y cómo las diferentes tecnologías podrían afectar los diseños futuros de nuevos edificios o posibles modernizaciones de las instalaciones existentes.

Paul Lewis, vicepresidente senior de servicio técnico de Telehouse Europe, señala que para los operadores centrados en la interconexión, todavía quedan dudas sobre cómo combinar el espacio tradicional de piso elevado con líquido que necesitará un diseño de losa, y luego combinarlo con las salas de reuniones.

Bernard, de Cyxtera, señala que puede haber más consideraciones regulatorias y de cumplimiento a tener en cuenta, el hecho de que diferentes fluidos de enfriamiento tienen diferentes puntos de inflamación y que diferentes clientes pueden utilizar diferentes fluidos de enfriamiento en diferentes tanques.

Es posible que los SLA también tengan que cambiar en el futuro, lo que podría obligar a los operadores a garantizar flujos garantizados de agua u otros fluidos.

"Actualmente, nos ocupamos de la temperatura, de la humedad, de la disponibilidad de energía, pero en última instancia, también vamos a tener que ocuparnos de la disponibilidad de agua", añade. "Actualmente, no es un SLA definido en todos los ámbitos, pero creo que no tenemos ninguna duda de que vamos a tener medidas sobre nosotros para proporcionar agua al tanque con cierta consistencia".

Bradner también señala que es posible que sea necesario cambiar el pensamiento sobre la redundancia, especialmente si los SLA ahora están vinculados al agua.

“Dependiendo del diseño, los sistemas líquidos a veces cuentan con respaldo de UPS. Pero ahora es mucho más crítico debido a lo que sucedería con los eventos térmicos si se perdieran las bombas en una CDU debido a una pérdida de energía”.

“A densidades más bajas, había algún tipo de inercia si tenía un sistema de agua fría para mantener todo funcionando hasta que se encendieran los grupos electrógenos. Ahora, con esas densidades más altas, es un gran problema, y ​​¿cómo se maneja y diseña para eso?”