Por Chris Sharp, CTO de Digital Realty


La repentina aparición de la IA comercial a gran escala durante el año pasado, especialmente nuevas aplicaciones de IA generativa como ChatGPT, ha impuesto un nuevo conjunto de requisitos técnicos a las instalaciones de los centros de datos donde residen estas aplicaciones. La infraestructura que los respalda consumirá más energía, consumirá más datos y utilizará más ancho de banda que nunca, todo dentro de instalaciones que pueden haberse construido hace 20 años. Estas instalaciones ahora necesitan adaptarse para soportar lo que en algunos casos puede ser un aumento de un orden de magnitud en el consumo de energía por rack.

La única forma de lograrlo es con un diseño modular. 

Todo menos estático

Los centros de datos pueden parecer entidades muy estáticas. Por lo general, son enormes edificios de ladrillo y cemento con fila tras fila de generadores y otros equipos en el exterior, todos diseñados cuidadosamente para mantener las instalaciones funcionando en todo tipo de condiciones, desde las típicas condiciones del día a día hasta un apagón total de la red eléctrica, sin interrupción. Sin embargo, el centro de datos moderno es todo menos estático; Muchas instalaciones están diseñadas desde el principio para ser altamente modulares, y el piso de un centro de datos determinado puede adaptarse a cambios en la topología de la red, consideraciones de flujo de aire y redundancia física varias veces al año si es necesario. ¿Qué impulsa esta necesidad y cómo se satisface? 

La aparición generalizada de implementaciones de IA en el centro de datos muestra cuán rápido pueden cambiar los requisitos de los clientes. Mientras que sólo el año pasado un operador de centro de datos podía haber planificado un consumo de energía promedio de 10 kilovatios por bastidor de equipo del cliente, la necesidad de bloques cada vez más grandes de bastidores de 25, 50 o incluso 100 kilovatios en diferentes lugares de ese La misma instalación de centro de datos está aquí y seguirá creciendo. Con un diseño estático tradicional, esto puede crear muchos problemas en términos de rendimiento, mantenimiento y redundancia.  

En primer lugar, estos racks tan densos suelen requerir más ancho de banda de red para funcionar con su máximo nivel de eficiencia. Esto a menudo se pasa por alto y un cliente estará muy descontento si implementa un rack tan denso (o 10 o 100 de ellos) y luego no puede obtener el ancho de banda que necesita. 

En segundo lugar, un aumento desigual en el consumo de energía en el piso de un centro de datos a menudo puede estresar un sistema de enfriamiento que no fue diseñado para acomodar este tipo de puntos calientes. Un rack denso en un extremo de una fila en el centro de datos podría fácilmente provocar un aumento de temperaturas en el otro extremo. 

Finalmente, las medidas de resiliencia y redundancia se basan en dónde se encuentran las cargas eléctricas específicas en la instalación y cómo se distribuyen. Si se agrega un grupo muy denso de equipos en un área, es posible que los diseños estáticos no puedan garantizar que esté cubierta por una capacidad de generador suficientemente confiable. 

Obstáculos para la IA

Como puede imaginar, para el cliente de IA, cada una de estas preocupaciones es un problema importante que va desde la incapacidad de operar su equipo de IA a su máximo potencial de rendimiento hasta la posibilidad de incurrir en tiempos de inactividad no deseados en caso de un corte de energía u otro estrés en el sistema. Al utilizar un marco de diseño modular altamente adaptable, estos problemas se pueden abordar en centros de datos de cualquier edad. 

Por un lado, los espacios se pueden reutilizar o diseñar desde el comienzo de la instalación para usarlos como salas de red adicionales para permitir la instalación de más circuitos de red, conmutadores y enrutadores para aumentar el ancho de banda de la red para el cliente con el tiempo. Además, un método modular de diseño e implementación de bandejas de cables permite al operador del centro de datos llevar físicamente esa conectividad al cliente, lo que a menudo se pasa por alto en diseños estáticos y no flexibles. Algunas tecnologías que permiten la IA, como InfiniBand, pueden utilizar cableado grande y pesado, que solo puede instalarse de forma modular para evitar problemas operativos y de rendimiento reales en el futuro.  

Comprender el verdadero estado de enfriamiento en una instalación mediante el uso de CFD (dinámica de fluidos computacional) proporciona al operador del centro de datos los medios para identificar el flujo de aire atrapado, patrones de flujo de aire no deseados que pueden resultar en un enfriamiento subóptimo y dónde se puede aumentar la capacidad de aire. Sucede que se puede utilizar para enfriar implementaciones de IA densas y calientes. Muchas instalaciones de centros de datos también pueden ser lo suficientemente modulares como para actualizarlas, desde una configuración de enfriamiento solo por aire a una configuración híbrida donde el enfriamiento por aire y líquido (tanto AALC como DLC) están disponibles, según sea necesario, lo que permite establecer implementaciones de IA como parte de un piso de centro de datos existente o una suite más grande.

Con una configuración de energía modular, donde el centro de datos se conceptualiza como una serie de bloques, cada uno con su propia infraestructura de respaldo, energía y enfriamiento, los componentes centrales se pueden dimensionar e implementar adecuadamente según la implementación del cliente en incrementos relativamente pequeños para garantizar que, como las implementaciones se agregan a un espacio, incluso si difieren enormemente en el consumo de energía, se pueden admitir al nivel esperado de resiliencia.  

Estos son solo algunos ejemplos de cómo un enfoque modular para el diseño del centro de datos ayuda a garantizar que las implementaciones de IA, incluso con densidades de rack muy altas, puedan soportarse de manera altamente eficiente, robusta y rentable en una instalación de centro de datos existente. Los diseños modulares marcarán la diferencia entre poder soportar las generaciones actuales y futuras de implementaciones de IA en sitios existentes y la necesidad de construir.