Por Daniel Bizo, director de investigación en Uptime Institute


Los operadores de centros de datos y los inquilinos de TI han adoptado tradicionalmente una visión binaria del rendimiento de la refrigeración: cumple los compromisos de nivel de servicio o no los cumple. La relación también es fríamente transaccional: siempre que lleguen al rack de TI suficientes volúmenes de aire con la temperatura y la calidad adecuadas (cumpliendo con los acuerdos de nivel de servicio que normalmente siguen la orientación de ASHRAE), la misión de la instalación del centro de datos se ha cumplido.

Lo que suceda después de ese punto con el enfriamiento de TI y cómo afecta el hardware de TI no es asunto de las instalaciones.

Los tiempos están cambiando

Esta práctica nació en una era en la que la densidad de potencia del hardware de TI era mucho más baja y en la que los procesadores de servidor aún tenían un rendimiento fijo. Los procesadores estaban funcionando a una frecuencia nominal dada, bajo cualquier carga, que se definió en el momento de la fabricación. Esta frecuencia siempre estaba garantizada si había suficiente refrigeración disponible, independientemente de la carga de trabajo.

Los fabricantes de chips guían a los desarrolladores de sistemas de TI y a los clientes a seleccionar los componentes correctos (disipadores de calor, ventiladores) a través de las especificaciones térmicas del procesador. A cada procesador se le asigna una clasificación de potencia para la cantidad de calor que su sistema de enfriamiento debe poder manejar en el límite de temperatura correspondiente. Esta no es la potencia máxima teórica, sino la máxima que se puede sostener de manera realista (segundos o más) ejecutando software del mundo real. Este máximo se denomina potencia de diseño térmico (TDP).

La mayoría de las aplicaciones de software no presionan al procesador lo suficiente como para acercarse al TDP, incluso si usan el 100 por ciento del tiempo del procesador; por lo general, solo el código de computación de alto rendimiento hace que los procesadores trabajen tan duro.

Con frecuencias fijas, esto significa que, en la mayoría de los casos, el consumo de energía (y la energía térmica) está considerablemente por debajo de la clasificación TDP. Desde principios de la década de 2000, las velocidades nominales del procesador han tendido a estar limitadas por la potencia en lugar de la velocidad máxima de los circuitos, por lo que para la mayoría de las aplicaciones existe un potencial de rendimiento sin explotar dentro de la envolvente TDP.

Esta brecha es aún mayor en los procesadores multinúcleo cuando el software no puede beneficiarse de todos los núcleos presentes. Esto da como resultado que una porción aún mayor del presupuesto de energía no se utilice para aumentar el rendimiento de la aplicación. Cuanto mayor sea el recuento de núcleos, mayor puede ser esta brecha, a menos que la carga de trabajo sea muy multiproceso.

Procesadores en busca de oportunidades

La mayoría de los procesadores y aceleradores de servidores que salieron al mercado en la última década cuentan con mecanismos para abordar este desequilibrio (siempre creciente). Aunque los detalles de implementación difieren entre los fabricantes de chips (Intel, AMD, NVIDIA, IBM), todos implementan dinámicamente el presupuesto de energía disponible para maximizar el rendimiento cuando y donde más se necesita.

Este equilibrio se produce de dos formas principales: escalado de frecuencia y gestión de la asignación de energía a los núcleos. Cuando un procesador de servidor moderno entra en una fase de alta utilización pero permanece por debajo de su especificación térmica, comienza a aumentar el voltaje de suministro y luego iguala la frecuencia en pasos incrementales. Continúa escalando los pasos hasta que alcanza cualquiera de los límites preestablecidos: frecuencia, corriente, potencia o temperatura, lo que ocurra primero.

Si la carga de trabajo no se distribuye uniformemente entre los núcleos o deja algunos núcleos sin usar, el procesador asigna energía no utilizada a núcleos muy utilizados (si la energía fuera el factor limitante para su rendimiento) para permitirles escalar sus frecuencias aún más. El principal beneficiario del escalado de núcleo independiente es el vasto depósito de software de subproceso único o subproceso ligero, pero las aplicaciones de subprocesos múltiples también se benefician cuando luchan con la ley de Amdahl (cuando la aplicación se ve obstaculizada por partes del código que no están paralelizados, de modo que en general el rendimiento depende en gran medida de la rapidez con la que un núcleo puede funcionar a través de esos segmentos).

Este comportamiento oportunista de los procesadores modernos significa que la calidad de la refrigeración, considerando tanto el suministro de aire frío como su distribución dentro del servidor, ya no es binaria. Un enfriamiento considerablemente mejor aumenta el rendimiento del procesador, un fenómeno que los proveedores y usuarios de supercomputación han estado explorando durante años. También tiende a mejorar la eficiencia general porque se realiza más trabajo por la energía utilizada.

El rendimiento se sirve mejor frío

Una mejor refrigeración desbloquea el rendimiento y la eficiencia de dos maneras principales:

  • El procesador opera a temperaturas más bajas (si todo lo demás es igual).
  • Puede operar a niveles de potencia térmica más altos.

La reducción de la temperatura operativa a través de un enfriamiento mejorado brinda muchos beneficios de rendimiento, como permitir que los núcleos de procesadores individuales funcionen a velocidades elevadas durante más tiempo sin alcanzar su límite de temperatura.

Otro beneficio, probablemente considerable, radica en la reducción de la energía estática en el silicio. La potencia estática es potencia perdida por corrientes de fuga que no realizan ningún trabajo útil, pero siguen fluyendo a través de las puertas del transistor incluso cuando están en estado "apagado". La energía estática no era un problema hace 25 años, pero se ha vuelto más difícil de suprimir a medida que las estructuras de los transistores se han vuelto más pequeñas y, en consecuencia, sus propiedades de aislamiento empeoran. Los diseños lógicos de alto rendimiento, como los de los procesadores de servidores, se ven particularmente afectados por la energía estática porque integran una gran cantidad de transistores de conmutación rápida.

Los ingenieros de tecnología de semiconductores y los diseñadores de chips han adoptado nuevos materiales y sofisticadas técnicas de ahorro de energía para reducir las corrientes de fuga. Sin embargo, el problema persiste. Aunque los fabricantes de chips no revelan el consumo de energía estática de sus productos, es probable que tome un componente considerable del presupuesto de energía del procesador, probablemente un porcentaje bajo de dos dígitos.

Varios trabajos de investigación académica han demostrado que las corrientes de fuga estáticas dependen de la temperatura del silicio, pero el perfil exacto de esa correlación varía mucho entre las tecnologías de fabricación de chips; estos detalles permanecen ocultos a la vista del público.

Los enfriadores de aire actualizados pueden mejorar considerablemente el rendimiento de la aplicación cuando el procesador está limitado térmicamente durante períodos de alta carga, aunque dicha aceleración tiende a ser de un solo dígito bajo. Esto se puede lograr bajando la temperatura del aire de entrada o, más comúnmente, mejorando el enfriamiento de los procesadores para reducir la resistencia térmica. Ejemplos de esto son: agregar disipadores de calor optimizados para CFD más grandes construidos con una aleación térmicamente mejor conductora (por ejemplo, aleaciones a base de cobre); utilizando mejores materiales de interfaz térmica; y la introducción de ventiladores más potentes para aumentar el flujo de aire. Si se combina con una mejor entrega de aire de la instalación y temperaturas de entrada más bajas, la aceleración es aún mayor.

Sin balas de plata, solo refrigeración líquida

Pero la resistencia térmica marcadamente más baja y la consiguiente temperatura de silicio más baja del enfriamiento líquido directo (DLC) hace una diferencia más pronunciada. En comparación con los enfriadores de aire a la misma temperatura, DLC (placa fría e inmersión) puede liberar más energía al reducir el componente dependiente de la temperatura de las corrientes de fuga estáticas.

Existe un potencial de rendimiento aún mayor en las mejores propiedades térmicas de la refrigeración líquida: prolongar el tiempo que los procesadores de servidor pueden pasar en variaciones de potencia controladas por encima de su nivel de TDP, sin alcanzar los límites críticos de temperatura. Este comportamiento, ahora común en los procesadores de servidor, está diseñado para ofrecer ráfagas de rendimiento adicional y puede generar una carga de calor a corto plazo (decenas de segundos) que es sustancialmente mayor que el requisito de enfriamiento nominal.

Por lo general, las excursiones alcanzan entre un 15 y un 25 por ciento por encima del TDP, lo que anteriormente no representaba un desafío importante. Sin embargo, en la última generación de productos de AMD e Intel, esto da como resultado hasta 400 vatios (W) y 420 W, respectivamente, de potencia térmica sostenida por procesador, frente a menos de 250 W hace unos cinco años.

Estos niveles de alta potencia no son exclusivos de los modelos de procesadores destinados a aplicaciones informáticas de alto rendimiento: un número creciente de modelos de procesadores principales destinados a la nube, el alojamiento y la consolidación de cargas de trabajo empresariales pueden tener estos exigentes requisitos térmicos. La economía favorable de los servidores de mayor rendimiento (incluida su eficiencia energética en una variedad de aplicaciones) genera demanda de procesadores potentes.

Aunque estos TDP y los niveles de excursión de potencia aún son manejables con aire cuando se utilizan disipadores de calor de alto rendimiento (a costa de una densidad de mayor rendimiento del rack debido a disipadores de calor muy grandes y mucha potencia de los ventiladores), los niveles máximos de rendimiento comenzarán a disminuir fuera del alcance de la refrigeración por aire estándar en los próximos años. Las hojas de ruta de desarrollo de procesadores para servidores exigen modelos de procesadores aún más potentes en los próximos años, que probablemente alcancen los 600 W en potencia de excursión térmica a mediados de la década de 2020.

A medida que aumenta la potencia del procesador y los límites de temperatura se vuelven más restrictivos, incluso las opciones de temperatura de DLC serán un dilema de compensación cada vez mayor, ya que los operadores de infraestructura de TI y centros de datos intentan equilibrar los costos de capital, el rendimiento de refrigeración, la eficiencia energética y las credenciales de sostenibilidad. Inevitablemente, la relación entre la refrigeración del centro de datos, el rendimiento del servidor y la eficiencia general de TI exigirá más atención.