ASHRAE ha publicado nuevas pautas para los sistemas de refrigeración líquida de los centros de datos para ayudar a los operadores a lidiar con los desafíos que plantean los chips avanzados.
La organización, que representa a los ingenieros de calefacción, refrigeración y aire acondicionado, ha emitido un boletín técnico que detalla dos “preocupaciones principales” que tiene sobre la refrigeración de las GPU y otros componentes utilizados para impulsar cargas de trabajo avanzadas como la IA.
La demanda de sistemas de IA significa que los racks de los centros de datos están cada vez más calientes y densos, y muchos operadores buscan refrigeración líquida como una solución para mantener sus servidores en funcionamiento.
Según el boletín de ASHRAE, la potencia de los chips se está adentrando en un “territorio desconocido”.
“Las cargas de trabajo informáticas siguen exigiendo chips más rápidos, más potentes y más eficientes, lo que da como resultado una potencia de chip extrema, requisitos de temperatura más bajos y un uso más amplio de refrigeración líquida”, ha afirmado la asociación. “La pérdida de refrigeración puede ser catastrófica cuando se admiten potencias de chip extremas.
“La extrema potencia del chip supone un desafío tanto en cuanto a diseño como a funcionamiento”.
El aviso identifica dos “preocupaciones principales” causadas por un hardware cada vez más potente: la limitación o “rendimiento computacional reducido debido a variaciones de temperatura en los componentes de TI” y el potencial daño al hardware causado por picos rápidos de temperatura.
Para mitigar estos problemas, ASHRAE ha sugerido una serie de medidas técnicas y operativas.
Desde el punto de vista técnico, ASHRAE recomienda utilizar una unidad de distribución de refrigerante (CDU) para garantizar la demarcación entre el sistema de agua de las instalaciones (FWS) y el sistema de enfriamiento tecnológico (TCS) dentro del centro de datos.
Los centros de datos deberían aumentar la inercia térmica para evitar daños térmicos en el hardware debido a grandes cambios de carga y pérdida de energía, e incorporar redundancia activa para mantener la refrigeración durante el cambio de sistemas primarios a redundantes. La organización también recomienda realizar modelos transitorios “para verificar el rendimiento de los sistemas, productos y componentes que no cuentan con datos empíricos de pruebas anteriores”.
Desde el punto de vista operativo, ASHRAE afirma que se deben implementar sistemas para monitorear la calidad y la filtración del refrigerante, ya que esto puede tener un efecto adverso en un sistema de líquido, lo que lleva a una menor eficiencia o un mayor consumo de energía.
Sus recomendaciones también incluyen el uso de estrategias de migración de carga para que los centros de datos estén preparados para una interrupción del sistema de refrigeración. Estas estrategias deberían “funcionar dentro del marco temporal del tiempo mínimo de aceleración del servidor en función de la falla del diseño resiliente en el peor de los casos”, dice el aviso.
ASHRAE ha dicho que proporcionará una nueva plantilla térmica de refrigeración líquida en su Enciclopedia Datacom TC 9.9, que será publicada a finales de este año.