Por Chris Downie, director ejecutivo de Flexential


Se prevé que el mercado global de IA aporte 15,7 billones de dólares a la economía mundial para finales de la década. Los líderes de todos los sectores apuestan a su potencial para optimizar las operaciones, mejorar la productividad, generar ingresos y apoyar la innovación.

Sin embargo, la IA es una tecnología que consume mucha energía. Según una estimación, los servidores que alimentan la IA pueden consumir tanta electricidad a lo largo de un año como un país del tamaño de Suecia o Argentina. Los entornos de computación de alto rendimiento (HPC) necesarios para ejecutar cargas de trabajo de IA utilizan entre 300 y 1000 veces más energía que las cargas de trabajo tradicionales, lo que produce mucho más calor como resultado. Eso significa que los centros de datos deben consumir incluso más energía para enfriar adecuadamente los servidores para que funcionen de manera confiable.

Para aprovechar todo el potencial de la IA, las organizaciones pueden tener que hacer concesiones significativas en sus objetivos ambientales, sociales y de gobernanza (ESG), a menos que la industria reduzca drásticamente el impacto ambiental de la IA. Esto significa que todos los operadores de centros de datos (incluidos los equipos internos y los socios externos) deben adoptar capacidades innovadoras de refrigeración de centros de datos que puedan mejorar simultáneamente la eficiencia energética y reducir las emisiones de carbono.

Tres estrategias para mejorar la eficiencia de refrigeración manteniendo un alto rendimiento

La necesidad de capacidades de HPC no es exclusiva de la IA. La computación en red, la agrupación en clústeres y el procesamiento de datos a gran escala se encuentran entre las tecnologías que dependen de la HPC para facilitar cargas de trabajo distribuidas, coordinar tareas complejas y manejar inmensas cantidades de datos en múltiples sistemas.

Sin embargo, con el rápido crecimiento de la IA, la demanda de recursos de HPC ha aumentado, lo que ha intensificado la necesidad de infraestructura avanzada, eficiencia energética y soluciones sostenibles para gestionar los requisitos asociados de energía y refrigeración. En particular, las grandes unidades de procesamiento gráfico (GPU) necesarias para respaldar modelos complejos de IA y algoritmos de aprendizaje profundo generan más calor que las CPU tradicionales, lo que crea nuevos desafíos para el diseño y la operación de los centros de datos. Las implementaciones deben admitir soluciones de almacenamiento y red que pueden no requerir soluciones líquidas.

Estos desafíos requieren tecnologías de refrigeración de vanguardia y sistemas de eficiencia energética para garantizar un rendimiento óptimo sin comprometer los objetivos de sostenibilidad. Para obtener los mejores resultados, los centros de datos deberán adoptar una combinación de soluciones de refrigeración por aire y líquido que puedan adaptarse a los requisitos específicos de cada implementación:

Tecnología CRAC modernizada

Los sistemas tradicionales de aire acondicionado para salas de ordenadores (CRAC) se basan en una distribución de aire centralizada, en la que el aire frío se distribuye por toda la sala desde una cantidad limitada de puntos. Este método funciona bien para configuraciones de menor densidad en las que la disipación de calor es relativamente uniforme entre los servidores, pero tiene dificultades para satisfacer las necesidades de entornos de alta densidad llenos de sistemas basados ​​en GPU que generan mucho calor.

Por el contrario, los sistemas CRAC modernos utilizan tecnologías de refrigeración sofisticadas, como ventiladores de velocidad variable y economizadores, para controlar dinámicamente la refrigeración en todo el centro de datos. Este método se centra en los puntos calientes y ajusta el flujo de aire en tiempo real para reflejar las condiciones ambientales reales. Como resultado, los sistemas CRAC modernos son más eficientes energéticamente que sus predecesores y ofrecen una solución escalable diseñada para cargas de trabajo fluctuantes.

Suministro de aire fungible

Los centros de datos que utilizan sistemas de suministro de aire fungibles pueden personalizar los recursos de refrigeración a nivel de sala, fila y rack. Estas soluciones personalizadas respaldan los requisitos de rendimiento y sostenibilidad.

    • A nivel de la sala: la refrigeración modular se puede colocar estratégicamente para dirigir el aire hacia donde más se necesita. Por ejemplo, el flujo de aire se puede ajustar cuando cambia la distribución de la sala o se instala un nuevo equipo. Las técnicas como la contención de pasillos fríos y calientes (alinear los racks de servidores en filas alternadas con aire frío entrando por un lado y saliendo por el otro) también ayudan a evitar la mezcla de aire, lo que permite una refrigeración más eficiente.
    • A nivel de fila: se integran unidades de refrigeración dedicadas en cada fila de gabinetes para suministrar más aire de manera eficiente a las áreas de alta densidad. Estas unidades se pueden reubicar o ajustar a medida que cambian las configuraciones de las filas.
    • A nivel de rack: la refrigeración directa a rack proporciona un suministro de aire más específico y eficiente. Si bien la incorporación de unidades a nivel de rack puede aumentar los costos y la complejidad, reduce significativamente la temperatura en áreas de mucho calor.

Tecnología de refrigeración líquida

Las importantes salidas térmicas de los sistemas de IA avanzados son difíciles de enfriar solo con circulación de aire. La refrigeración líquida funciona en conjunto con los métodos de refrigeración por aire para compensar el calor que rodea a los racks de alta densidad, lo que evita fallas relacionadas con la energía y el calor. La industria considera que 30-35 kW es el punto de transición típico en el que el líquido tiene más sentido y puede ser más efectivo en términos de TCO. Sin embargo, en muchos entornos de centros de datos, como el de Flexential, se pueden admitir racks refrigerados por aire de mayor densidad.

Ahora, con la llegada de racks de densidad extrema y preintegrados que admiten más de 300 kW (una cifra que sigue aumentando), la necesidad de tecnologías de refrigeración avanzadas continúa creciendo.

La refrigeración líquida implica la circulación de un fluido refrigerante, normalmente agua o una solución a base de agua, a través de un sistema de circuito cerrado para absorber y disipar el calor. El agua se recicla continuamente, lo que permite obtener un nivel de eficacia en el uso del agua (WUE) de cero. Los centros de datos también pueden complementar este enfoque con otras técnicas de refrigeración líquida para satisfacer de forma más eficiente los requisitos de rendimiento de procesamiento rápido de la IA.

Por ejemplo, la refrigeración directa al chip pone placas frías en contacto directo con las GPU y las CPU, mientras que la refrigeración por inmersión implica sumergir componentes completos del servidor en un fluido refrigerante no conductor. Existen varias tecnologías para disipar el calor, como la de líquido a líquido (parte de un sistema de circuito cerrado) o la de líquido a aire. Al utilizar una combinación de estas tecnologías, los centros de datos pueden adaptarse para maximizar la eficiencia en cualquier tipo de implementación.

Además, las unidades de distribución de refrigeración (CDU) admiten varias configuraciones de hardware y pueden requerir líquido en la parte superior, o algunas pueden ser autónomas para admitir soluciones de modernización. A medida que las implementaciones de IA crecen para admitir la inferencia de Edge, es importante admitir estas diferentes arquitecturas de implementación.

Es posible alinear las implementaciones de IA y las iniciativas ESG

Al ir más allá de las soluciones de refrigeración universales, los centros de datos pueden equilibrar de forma más eficaz los requisitos técnicos de las implementaciones de IA con las prioridades de sostenibilidad. Este enfoque ofrece flexibilidad para enfriar las áreas más calientes del centro de datos sin importar la configuración del servidor, logrando temperaturas óptimas en toda la instalación y maximizando la eficiencia energética.

Con técnicas de enfriamiento innovadoras y un enfoque multifacético, los centros de datos pueden seguir brindando la confiabilidad y el rendimiento necesarios para las exigentes cargas de trabajo de IA actuales, y preparar el escenario para una adopción generalizada de IA basada en las mejores prácticas de ESG.