La IA y el aprendizaje automático se realizan cada vez más por hardware especializado dentro y fuera del centro de datos. Esto inevitablemente genera más demandas en la infraestructura. Estas tecnologías cambian la forma en que las instalaciones manejan la energía y la refrigeración, pero podemos relajarnos. Estamos listos para hacerlo, según un destacado académico.
Cargas de trabajo optimizadas
“A medida que avanzamos hacia 2030, veremos un alejamiento del entorno de cómputo homogéneo del uso de CPU, a una situación en la que usamos GPU, ASIC y FPGA, usando silicio de hardware informático que está más optimizado para la carga de trabajo que está intentando procesar ", predijo Suvojit Ghosh, director gerente del Centro de Investigación de Infraestructura de Computación (CIRC) en la Universidad McMaster en Ontario, en DCD> Nueva York 2019.
Durante años, las GPU han sido tres veces más eficientes que las CPU en números cruciales, dijo Ghosh. En algunos casos, agregar una GPU por CPU puede ahorrar aproximadamente el 75 por ciento del gasto de capital, dijo.
Pero las cargas de trabajo de IA son fundamentalmente diferentes de las tradicionales, y hacen mucho uso de cálculos de menor precisión. "Si la mitad de la carga informática se puede hacer con una sola precisión, las GPU no son solo tres veces mejores, son 20 o 30 veces mejores que las CPU".
Al admitir este recurso informático heterogéneo, se espera ver un almacenamiento heterogéneo, también optimizado para diferentes tipos de carga de trabajo.
La llegada de procesadores especializados ahorra energía, pero también conduce a densidades más altas, dijo. Algunos podrían tener inquietudes al respecto, pero él dice que deberíamos aceptarlo: "Tenemos esta idea errónea común de que correr alta densidad es muy costoso, pero eso en realidad no es cierto".
Las implementaciones de alta densidad, tal vez tan altas como 100kW por rack, pueden ser más baratas debido al costo de bienes raíces, los costos de hardware de las masas de racks y, significativamente, el costo de proporcionar interconexiones entre los servidores dentro de un centro de datos: "El costo por kilovatio disminuye con la densidad”, afirmó. "Te animo a mirar un poco más de cerca cuando hagas tu propio caso de negocios".
Enfriamiento líquido
Por supuesto, alta densidad significa refrigeración líquida, lo que hace sonar las alarmas. La mayoría de la gente cree que los ahorros prometidos tienen un alto costo de capital, pero Ghosh dice que este es otro mito: “Cuando la densidad es correcta, el enfriamiento líquido es realmente más barato, incluso en la instalación, y en los gastos de capital. Y no un poco, es casi un tercio del costo de la infraestructura total".
Los ahorros de opex son aún más obvios, por supuesto. El análisis de Rittal sugiere que una carga de TI de 2MW podría costar 1.400 millones de dólares por año para enfriarse usando sistemas CRAC convencionales, una cifra que cae a 690.000 dólares con bastidores refrigerados por líquido y enfriamiento gratuito (aire exterior). El enfriamiento por inmersión por parte de Submer o GRC puede eliminar virtualmente la demanda de energía del enfriamiento por completo, reduciendo el costo a solo 26.000 dólares por año.
"En 2030, pronosticaría que usaremos algún tipo de refrigeración líquida", dijo. “El enfriamiento por inmersión probablemente se usará solo para aplicaciones especializadas de ultra alta densidad. Para usos más generales, piensa que los servidores refrigerados por líquido directo al chip serán lo suficientemente buenos, ofreciendo una mejora sustancial sobre el enfriamiento por aire.
Entonces, tomando esas predicciones juntas, Ghosh predice: "vamos a tener muchos circuitos específicos de aplicaciones enfriados por agua".
Prometió que los subsistemas de refrigeración líquida y de alimentación tolerantes a fallos de hoy en día proporcionados por la costosa redundancia de hardware eventualmente serán reemplazados por sistemas inteligentes de predicción de fallos.
Sugirió que habrá un control integrado de "TI" e "Instalaciones", y gran parte de este estará automatizado, por lo que no es necesario contar con personal en las instalaciones. Una persona, con el apoyo de un sistema de control adaptativo inteligente, podrá administrar una "constelación" de centros de datos desde un solo panel de vidrio.
Por supuesto, ese tipo de inteligencia nos lleva a un círculo completo. Como vimos en otras partes del suplemento DCD AI, los centros de datos ya están comenzando a aprovechar la inteligencia artificial para mejorar sus propias operaciones, desde la refrigeración inteligente hasta el equilibrio más inteligente de la carga de trabajo.