À medida que as temperaturas dos chips e as densidades dos racks aumentam, uma infinidade de empresas se apresentou para apresentar sua visão do futuro.
As demandas de resfriamento de inteligência artificial e outras cargas de trabalho de alta densidade superaram as capacidades dos sistemas de ar, exigindo alguma forma de resfriamento líquido.
"Quando você pensa sobre o cenário do resfriamento líquido, vemos três categorias técnicas diferentes", explicou o CEO da JetCool, Bernie Malouin.
"Há imersão monofásica, mergulhando no óleo. E isso é interessante, mas existem algumas limitações na potência do chip - por muito tempo, eles ficaram presos em 400W. Há alguns que estão tentando melhorar um pouco isso, mas não tanto quanto o necessário".
A segunda categoria são os dielétricos bifásicos: "Vemos aqueles que lidam com os processadores mais altos [ponto de design térmico (TDP)], para que possam chegar a 900-1.000 W. Eles são adequados tecnologicamente para o futuro da computação, mas são retidos pelos produtos químicos”.
Muitas soluções bifásicas usam substâncias perfluoroalquil (PFAS), também conhecidas como produtos químicos eternos, que estão ligadas a riscos à saúde humana e enfrentam restrições nos EUA e na Europa. Empresas como a ZutaCore se comprometeram a mudar para outras soluções até 2026, mas a mudança se mostrou lenta.
"É uma preocupação para muitos de nossos clientes, eles estão vindo até nós porque estão preocupados com a segurança desses fluidos", disse Malouin. "Eles estão preocupados com a disponibilidade contínua desses fluidos”.
E depois há a terceira categoria: placas frias de resfriamento líquido direto (DLC). "Nós somos um deles", disse Malouin. "Existem outros".
As placas frias DLC são uma das formas mais antigas de resfriamento líquido de TI - simplesmente transportando líquido frio para placas de metal montadas diretamente nos componentes mais quentes. Eles são usados há muito tempo pela comunidade de computação de alto desempenho, mas a JetCool acredita que o conceito precisa de uma atualização.
Em vez de passar fluido sobre uma superfície, seus jatos de resfriamento direcionam o fluido diretamente para a superfície de um chip. "Temos essas matrizes de mil minúsculos jatos de fluido e trabalhamos diretamente com os principais fabricantes de chips - Intels, AMDs, Nvidias - e projetamos de forma inteligente esses jatos para se alinharem com as fontes de calor em um determinado processador".
Em vez de tratar o chip como um todo com um requisito de resfriamento singular, a abordagem de resfriamento microconvectivo "tenta equilibrar as cargas de calor díspares, requisitos térmicos díspares de certas partes dessa pilha de chips", disse Malouin.
"Quando você começa a pensar em pacotes realmente integrados, os próprios núcleos podem ser capazes de executar uma temperatura um pouco mais alta, mas então você pode ter seções de memória de alta largura de banda (HBM) que não consomem tanta energia, mas têm um limite de temperatura mais baixo".
Em vez de tentar projetar para os núcleos de alta potência e o HBM sensível à temperatura, cada seção pode ser resfriada a uma taxa ligeiramente diferente. "Isso permite que você desacople essas coisas e permite que você tenha resfriamento de precisão onde precisar", disse Malouin.
Embora Malouin acredite que o resfriamento líquido no nível da instalação seja o futuro dos Data Centers, a empresa também possui um sistema autônomo para aqueles que desejam mergulhar em águas mais frias, com uma parceria com a Dell focada em implantações de soquete duplo.
Dois pequenos módulos de bombeamento fornecem a circulação do fluido e um trocador de calor de ar ejeta o calor na outra extremidade do sistema Smart Plate.
"Quando adicionamos essas bombas, você adiciona algum consumo elétrico, mas não precisa que os ventiladores funcionem com tanta força, o que torna 15 a 20 decibéis mais silencioso - e na rede, retiramos cerca de 100 W por servidor depois de recebermos a penalidade das bombas", afirmou Malouin.
Quando você vai para 10 racks ou mais, ir para o nível da instalação faz mais sentido, disse ele. Questionado sobre a temperatura de entrada preferida, Malouin disse que o sistema era flexível, mas acrescentou: "na verdade, gostamos muito dos fluidos quentes".
Ele disse: "Temos instalações hoje que estão nos alimentando com temperaturas de resfriamento de entrada de 60 ° C ou mais. E ainda estamos resfriando esses dispositivos sob carga total." Isso ainda não é comum, mas Malouin acredita que águas mais quentes crescerão em popularidade em lugares como a Europa devido ao potencial de reutilização do calor.
De volta aos EUA, a empresa faz parte do projeto COOLERCHIPS do Departamento de Energia, que visa avançar drasticamente os sistemas de resfriamento de Data Centers.
O foco do prêmio de 1 milhão de dólares (5,7 milhões de reais) da JetCool não está apenas no potencial de resfriamento, mas em um benefício secundário tentador: "Temos casos em que tornamos o silício intrinsecamente entre oito e 10% mais eletricamente eficiente", afirmou Malouin.
"Isso não tem nada a ver com o uso de energia do sistema de refrigeração, mas com vazamento".
Malouin não se refere ao vazamento do sistema de refrigeração, mas sim ao fenômeno quântico de correntes de fuga de semicondutores que podem afetar significativamente o desempenho de um chip.
A história recente do resfriamento do Data Center tende a supor que permitir que as temperaturas subam mais economizará energia porque menos é usado no resfriamento. Os resultados, incluindo a pesquisa de Jon Summers, do instituto de pesquisa sueco RISE, estão descobrindo que as correntes de fuga no silício limitam os benefícios de funcionar mais quente.
"Uma grande parte do nosso esforço COOLERCHIPS é substanciar isso por meio de evidências científicas mais rigorosas e extrapolá-lo para diferentes ambientes para ver onde ele se mantém ou para onde não vai."
Olhando ainda mais à frente, Malouin vê uma oportunidade de se aprofundar no silício. "Em alguns casos, ele pode realmente ser integrado como uma camada embutida no silício e, em seguida, acoplá-lo a um sistema externo que está fazendo alguma reutilização de calor. Quando pensamos nisso de forma holística, achamos que há uma oportunidade real para uma mudança radical na eficiência do Data Center”.
Por enquanto, a empresa diz que é capaz de suportar as cargas de 900W das maiores GPUs da Nvidia e atualmente está resfriando chips 'sob medida' não revelados que usam 1.500W.
"Em última análise, você realmente terá que olhar para o resfriamento líquido se quiser executar não apenas o futuro da IA generativa, mas se quiser executar o agora da IA generativa".