Por Patrick Quirk, director de tecnología de Nautilus Data Technologies


Los centros de datos siempre han sido entornos muy estables y resueltos. Estas instalaciones están diseñadas para resistir cambios que podrían afectar a la TI, pero la búsqueda frenética de la IA crea una desconexión fundamental entre lo que han sido los centros de datos y lo que deben llegar a ser. Las aplicaciones de IA actuales y sus requisitos dinámicos están reintroduciendo cambios en el entorno de los centros de datos.

Centros de datos – hasta ahora

Las cargas base estables han sido durante mucho tiempo la piedra angular del funcionamiento de los centros de datos. A medida que se incorporan más equipos informáticos, las cargas energéticas aumentan de forma lenta y uniforme, lo que permite un suministro de energía, espacio y refrigeración relativamente invariable y estable las 24 horas del día, los 7 días de la semana y los 365 días del año.

Tiene sentido que nuestros sistemas de energía y refrigeración hayan sido diseñados y configurados para soportar un consumo continuo y uniforme.

Por naturaleza, la IA está rompiendo el molde que hemos creado. Cuando se crean empleos, los niveles de potencia cambian radicalmente y aumentan de forma espectacular. Una carga de 600 a 700 kW puede superar en un instante el megavatio, y durar días con este nivel de consumo antes de volver a caer de forma igualmente repentina.

Por supuesto, esto cambia la carga de refrigeración y calor, lo que convierte a la IA en un desafío multifacético. Goldman Sachs informa que se necesitarán 47 GW de capacidad de generación de energía incremental para respaldar el crecimiento de la demanda de energía de los centros de datos de EE.UU. hasta 2030, y las demandas no hacen más que aumentar. Desde una perspectiva de marco básico, es probable que este sea el tema más importante en la agenda de cualquier centro de datos de IA.

Sin embargo, la densidad de potencia también es un desafío clave para la IA. Los clientes de IA ya quieren implementar inicialmente 50-60 kW por rack, pero dentro de seis meses, querrán 100 kW por rack. Este ritmo de evolución presiona significativamente contra esos entornos de centros de datos estables de los que hemos dependido durante mucho tiempo. Generar este nivel de densidad (y atender la carga térmica) es en sí mismo muy complicado, pero lograr la elasticidad necesaria para la IA es fundamental. Los centros de datos actuales simplemente no están diseñados para ello.

En esta situación nos encontramos hoy como industria. Frente a estos desafíos, los operadores se esfuerzan por modernizar las salas de datos (o establecer nuevas instalaciones) para dar soporte a las soluciones de refrigeración líquida y la infraestructura densa que se necesitan hoy y mañana.

Analizando el problema

Durante la mayor parte de una década, todos hemos estado en el rango de gabinetes de 5 a 10 kW. Algunos gabinetes pueden haber sido etiquetados como "gabinetes HPC" y pueden consumir 50 kW. Aun así, estos casos a menudo estarían especializados y aislados del entorno más grande para que se pudiera contener el calor. Estas implementaciones de HPC han sido, hasta hace poco, la excepción, no la regla.

Ahora, todos los racks de su centro de datos estarán al nivel de aquellos racks de HPC que alguna vez fueron especializados. De repente, las operaciones y los planes que los respaldan ya no son tan sencillos.

A medida que las densidades estándar aumentan significativamente, los principales culpables de frenar el avance de los centros de datos o impulsarlos hacia la preparación para la IA son las cadenas eléctricas y las capacidades del sistema de refrigeración. Sin mencionar que, con las implementaciones de IA, cada nanosegundo importa para la conectividad del clúster.

Los gabinetes deben estar densamente agrupados para ayudar con el rendimiento computacional en la sala de datos y dentro de cada gabinete. Ya no tenemos el lujo de distribuir la carga o segmentar los gabinetes. Es de estas maneras que la creación de verdaderos centros de datos de IA no solo es exhaustiva, sino compleja.

En cuanto a la refrigeración, los centros de datos se han diseñado tradicionalmente asumiendo un nivel máximo de kW por gabinete y un volumen de intercambio de aire necesario que ya hemos superado. Ya no nos movemos en el terreno de las "enormes salas de datos con pocos gabinetes", lo que hace que los diseños de refrigeración por aire tradicionales sean totalmente inadecuados para los clústeres densos y agrupados de IA.

Por supuesto, nada de esto es una novedad para la mayoría de los operadores. Muchos ya están buscando activamente el cambio. Lamentablemente, el problema que muchos aún desconocen (o tal vez no aceptan) es el nivel de cambio verdaderamente radical que se requiere no solo para alcanzar la IA en su estado actual, sino también para anticiparse a dónde debe llegar.

Por qué ni siquiera las soluciones diseñadas específicamente funcionan

Algunos proveedores de coubicación suponen que pueden reinventarse para la IA simplemente pidiendo un sistema de refrigeración líquida y colocándolo al final de la fila. Lamentablemente, esto es como poner una curita sobre un agujero de bala.

Existen varias razones por las que ni siquiera las nuevas inversiones, modernizaciones y ampliaciones en infraestructuras están contribuyendo a que la IA dé el salto. En primer lugar, está el desafío que conocemos muy bien: los problemas de la cadena de suministro. Los plazos de entrega de los sistemas de refrigeración líquida son tan largos que, entre el pedido y la implementación, los centros de datos están incluso más retrasados ​​que cuando empezaron. El crecimiento de la IA está superando la velocidad de implementación.

Además, gracias a la altísima demanda de IA para tecnología de refrigeración líquida, Vertiv ha informado de un aumento orgánico del 60% en los pedidos en el primer trimestre de 2024 en comparación con el primer trimestre de 2023. Si un proveedor de centros de datos tiene que llevar líquido al rack, perderá terreno cada día, esperando detrás de los hyperscalers.

La otra cara de la moneda es la implementación con suficiente redundancia y resiliencia. Una vez que se tienen los sistemas necesarios, no se pueden instalar en cualquier lugar. La primera reacción de algunos operadores es colocar un enfriador en fila con un circuito de distribución de agua. Pero, ¿qué sucede si falla un componente del circuito? De repente, un centro de datos tiene un único punto de falla inaceptable. Ofrecer capacidad de mantenimiento y resiliencia simultáneas incluso si se rompe un componente o una tubería es primordial, pero la redundancia es ahora más complicada que nunca.

Los centros de datos ahora deben lidiar con el agua presurizada que fluye alrededor de los equipos de TI. Si el agua va a parar al rack, los operadores deben tener una prevención de fugas y una planificación de emergencia impecables. ¿Cómo es el proceso de recuperación y cuál será el impacto posterior? Incluso en estas preguntas iniciales, vemos que estar preparado para la IA es mucho más complicado, holístico y con visión de futuro que simplemente poner los sistemas en funcionamiento.

A la velocidad necesaria de transformación de la IA, los costos de oportunidad de la escrupulosidad pueden hacer que muchos operadores se salten pasos, pero esto no crea un centro de datos de IA, sino una responsabilidad.

Afortunadamente, el mercado de soluciones de inteligencia artificial para centros de datos está madurando. Por ejemplo, los sistemas de refrigeración por agua para salas de datos que funcionan con vacío ayudan en la resiliencia y la recuperación, evitando paradas si ocurren problemas. Sin embargo, muchos operadores ni siquiera están pensando en la preparación para la inteligencia artificial con este nivel de detalle y previsión necesarios, y no están cuestionando las suposiciones de larga duración que deberían estar haciendo.

Cambiando nuestro paradigma

En el fondo de estos desafíos, las cargas de trabajo altamente dinámicas y las densidades cada vez mayores de la IA no hacen más que acelerar la carrera y aumentar la presión. En realidad, la IA está obligando a la industria a basarse no sólo en la realidad, sino también en la especulación.

Desde una perspectiva de inversión de capital, los centros de datos actuales deben ser viables durante las próximas décadas. Por lo tanto, ¿Cuán escalables deberían (o pueden) ser? ¿Cuántos nodos agrupados en cuántos clústeres podemos lograr con la densidad de área que tenemos en el mercado y los umbrales tecnológicos actuales? En definitiva, las renovaciones continuas deben ser fáciles de realizar para dejar espacio para cambios dinámicos, y esa todavía no es una realidad cómoda para los centros de datos.

Los aspectos operativos como la recuperación ante desastres no hacen más que agravar la tensión que presentan los requisitos reales y previstos. Con todas estas consideraciones en mente, los operadores se ven obligados a dar saltos cuánticos hacia adelante sin pasar por alto ningún detalle. Es como intentar dar en el blanco mientras se conduce por el objetivo a velocidades de Indy 500.

En este desafío, la modularidad se ha convertido en una ventaja, pero no es suficiente. Más allá de un cambio operativo o incluso físico, necesitamos un cambio filosófico en la forma en que vemos el problema y la solución.

Hasta hoy, hemos operado desde la perspectiva de tener una cantidad X de espacio fijo en el que podemos introducir una cantidad Y de capacidad de refrigeración y energía. La IA nos obliga a darle la vuelta a este problema.

Podemos estar de acuerdo en que es mucho mejor desperdiciar espacio que dejar sin suministro eléctrico o de refrigeración, por lo que nuestra filosofía de construcción de larga duración está al revés. Invirtamos la ecuación: si un operador necesita asegurarse de que un diseño pueda manejar cinco veces su densidad de potencia o refrigeración actual, ¿Cómo debe adaptarse a eso el espacio de implementación inicial? Además, ¿Cómo puede el espacio permitir que el equipo se retire y reemplace fácilmente sin sacrificar la integridad del edificio en el proceso?

Ahora estamos empezando a ver cómo podemos alejarnos de la idea de un edificio fijo y sellado y, al mismo tiempo, hacer que las operaciones de TI sean aún más avanzadas. Esto permite que los centros de datos preserven las inversiones de capital iniciales y hagan que la rotación de capital sea mucho más viable e incremental para respaldar la rentabilidad frente al cambio.

No te preocupes, no eres el único

Muchos operadores no logran reconocer el alcance de la disrupción que supone la IA, pero, como industria, tenemos que compartir la culpa: todavía no estamos diseñando soluciones integrales que ayuden a los operadores a resolver estos problemas.

Desde los fabricantes de equipos originales (OEM) hasta las empresas de semiconductores y más allá, mantener la rentabilidad, preservando la similitud de los productos es un obstáculo que todos debemos superar, pero esa es una discusión para otro día.

En definitiva, las soluciones y los socios adecuados pueden marcar una gran diferencia a la hora de navegar en un mercado complejo o difícil de superar. Cuando busque sistemas de refrigeración líquida y soluciones integrales necesarias para la IA, céntrese en sistemas fácilmente ampliables. Cuando busque soluciones, busque modularidad, resiliencia, flexibilidad y escalabilidad, y no confíe en proveedores que afirmen conocer el futuro por completo.

La capacidad de adaptarse de manera integral y, al mismo tiempo, mantener la seguridad y estabilidad operativas de la TI será el pan de cada día de cualquier centro de datos en el futuro previsible. Este es el punto desde el que deben comenzar las complejas negociaciones de IA en el entorno del centro de datos.