Por Charlotte Trueman, editora de computación, almacenamiento y redes en DCD
La GPU B200 Blackwell de 1kW de Nvidia aún no está en manos de los clientes, pero el gigante de los semiconductores ya ha nombrado a su sucesora: Rubin.
Y, aparentemente, no contento con la reciente capitalización de mercado de 3 billones de dólares de la compañía, el CEO de Nvidia, Jensen Huang, también anunció que la hoja de ruta actualizada de la compañía verá el lanzamiento de una nueva familia de productos cada año.
Nvidia claramente ha puesto su mira en reforzar su dominio del mercado y aumentar la demanda de GPU Blackwell por parte de los clientes antes de su lanzamiento. Esto ha dejado a los fabricantes luchando por mantener el ritmo de la oferta, lo que demuestra que todavía es en gran medida el mundo de Nvidia y que todos vivimos en él.
Sin embargo, se rumorea que Nvidia no es la única empresa que aspira a alcanzar 1 kW y más. AWS recientemente anunció que su chip Trainium3 de próxima generación podría consumir cantidades similares de energía, mientras que se cree que Intel está preparando un chip que podría alcanzar los 1,5 kW.
La directora ejecutiva de AMD, la Dra. Lisa Su, también utilizó su discurso inaugural en Computex para anunciar de manera similar que la compañía de chips también lanzaría un nuevo producto al mercado cada año.
Pero, en sus intentos por soportar cargas de trabajo cada vez mayores, en particular tras el auge de la IA generativa, ¿Están las empresas de hardware a punto de empezar a superar a la infraestructura de los centros de datos? ¿Y qué impacto ambiental podría tener sobre el planeta esta continua carrera hacia la cima?
Cuando un chip supera los 1.000 vatios, necesita refrigeración líquida. Si bien esta técnica se ha utilizado para refrigerar hardware informático en cierta medida desde la década de 1960, es posible que ahora estemos acercándonos a sus límites técnicos.
Si bien el enfriamiento líquido por inmersión monofásica actualmente puede alcanzar alrededor de 1 kW (casi igual que Nvidia), el enfriamiento por inmersión bifásica, que podría usarse para manejar procesadores con TDP más altos, no está exento de desafíos, ya que modernizar los centros de datos para admitir la tecnología puede ser complicado y costoso.
También vale la pena señalar que, meses después del lanzamiento de Blackwell, Nvidia aún no ha confirmado la temperatura óptima a la que debe enfriarse su GB200 DGX SuperPod refrigerado por líquido.
Sin embargo, lo que quizás sea aún más preocupante es que los costosos líquidos dieléctricos que se utilizan en la refrigeración bifásica pueden contener fluorocarbonos o sustancias perfluoroalquiladas (PFAS), sustancias químicas sintéticas conocidas también como "sustancias químicas eternas". Estas sustancias no se descomponen cuando se liberan al medio ambiente y, por lo tanto, pueden acumularse en las personas o los animales con el tiempo.
En un evento reciente en Londres, un ejecutivo de HPE dijo que su tecnología de refrigeración líquida actualmente puede soportar todo el portafolio de productos de Nvidia, pero agregó que era correcto reconocer que los chips solo iban en una dirección y, por lo tanto, las limitaciones de energía podrían convertirse en un factor limitante en el futuro.
Como resultado, no está claro cuánto tiempo podrá seguir el ritmo de la hoja de ruta de productos de alta velocidad de Nvidia y otros fabricantes de chips.
Para complicar aún más las cosas, un informe reciente del grupo de expertos Interface afirma que el desarrollo de soluciones de limpieza química o la introducción en el mercado de alternativas químicas sin PFAS podrían llevar décadas. Una vez más, Nvidia está planeando lanzar una nueva familia de GPU que, como podemos suponer, serán cada vez más potentes cada año.
Y no es sólo la forma en que mantenemos fríos estos futuros chips lo que es motivo de preocupación.
En medio del aumento de las cargas de trabajo de IA, si bien los chips de 1 kW aún no son un pilar de los centros de datos, ya se ha estimado que se necesitarán 47 GW de capacidad de red incremental para atender el crecimiento de carga impulsado por los centros de datos en los EE. UU. hasta 2030.
Por otro lado, el mismo informe de Interface advirtió que el nivel de fabricación de semiconductores que la Unión Europea (UE) espera fomentar bajo la Ley de Chips de la UE podría hacer que la industria del continente genere tantos gases de efecto invernadero como los sectores químico, siderúrgico y de aviación de Europa.
La producción de chips Blackwell ya está en marcha en Taiwán, fabricados mediante un proceso 4NP personalizado de TSMC. Si bien TSMC tiene una política de cero emisiones netas para 2050 y ha tomado medidas para tratar de reducir sus emisiones, el consumo de electricidad de la empresa es, con diferencia, su mayor emisor de gases de efecto invernadero. En 2023, se informó de que TSMC consumía aproximadamente el seis por ciento de toda la red de Taiwán.
Para ponerlo en contexto, ese es el mismo porcentaje de electricidad que se genera actualmente con energía renovable en Taiwán.
Si bien TSMC no tiene la culpa de que Taiwán dependa tanto de combustibles fósiles importados, lamentablemente se espera que su consumo, y, por lo tanto, sus emisiones, aumenten significativamente a medida que la empresa adopte los procesos de litografía ultravioleta extrema que consumen mucha energía.
Como sin duda se avecinan chips que consumen cada vez más energía y se espera que se compren en cantidades aún mayores, ¿podría ser el momento de que las compañías de chips y los operadores de centros de datos se unan y hagan un balance, y consideren si el planeta, y mucho menos su centro de datos, está realmente listo para hardware con un consumo de energía de más de 1kW o más?