Todos nós sabemos que o resfriamento líquido é o futuro dos Data Centers. O ar simplesmente não consegue lidar com as densidades de energia que estão chegando aos data halls, então fluidos densos com alta capacidade de calor estão fluindo para assumir o controle.

À medida que a densidade de calor dos equipamentos de TI aumenta, os líquidos se aproximam cada vez mais deles. Mas quão perto os líquidos podem chegar?

A execução de um sistema de circulação de água pelas portas traseiras dos gabinetes do Data Center tornou-se bem aceita. Em seguida, os sistemas têm circulado água para placas frias em componentes particularmente quentes, como GPUs e CPUs.

Além disso, os sistemas de imersão afundaram racks inteiros em tanques de fluido dielétrico, para que o líquido de resfriamento possa entrar em contato com todas as partes do sistema. Os principais fornecedores agora oferecem servidores otimizados para imersão.

Mas há mais um passo. E se o fluido pudesse ser aproximado da fonte desse calor - os transistores dentro dos próprios chips de silício? E se os refrigerantes fluíssem dentro dos processadores?

Husam Alissa, diretor de tecnologia de sistemas da Microsoft, vê isso como uma opção futura empolgante: “Na microfluídica, às vezes chamada de resfriamento incorporado, 3D heterogêneo e integrado, trazemos o resfriamento para o interior do silício, super perto dos núcleos ativos que estão executando o trabalho”.

Isso é mais do que apenas um sistema de resfriamento melhor, diz ele: “Quando você entra na microfluídica, não está mais apenas resolvendo um problema térmico”. Chips com sistema de resfriamento próprio podem resolver o problema na fonte, no próprio hardware.

Nascimento da microfluídica

Em 1981, os pesquisadores David Tuckerman e RF Pease, de Stanford, sugeriram que o calor poderia ser removido de forma mais eficaz com minúsculos “microcanais” gravados em um dissipador de calor usando técnicas semelhantes às usadas em fundições de silício.

Os pequenos canais têm uma área de superfície maior e removem o calor de forma mais eficaz.

O dissipador de calor poderia ser parte integrante dos chips VLSI, eles sugeriram, e sua demonstração provou que um dissipador de calor de microcanal poderia suportar um fluxo de calor impressionante de 800W por m².

A partir de então, a ideia persistiu nas universidades, mas afetou apenas tangencialmente o silício da vida real nos Data Centers.

Em 2002, os professores de Stanford Ken Goodson, Tom Kenny e Juan Santiago criaram a Cooligy, uma startup com um design impressionante de “microcanais ativos” em um dissipador de calor construído diretamente no chip, junto com uma bomba eletrocinética de estado sólido silenciosa inteligente para circular a água.

As ideias de Cooligy foram absorvidas por partes do mainstream. A empresa foi comprada pela Emerson Network Power em 2005. Sua tecnologia e parte de sua equipe ainda circulam na nova encarnação da Emerson, a Vertiv.

A ideia de integrar resfriamento e processamento tornou-se mais prática à medida que a fabricação de silício se desenvolveu e passou a ter três dimensões. A partir da década de 1980, os fabricantes experimentaram construir vários componentes uns sobre os outros em uma matriz de silício.

Fazer canais nos andares superiores de um chip de silício multicamadas é potencialmente uma vitória rápida para o resfriamento, pois pode começar simplesmente implementando pequenas ranhuras semelhantes às aletas vistas nos dissipadores de calor.

Mas a ideia não ganhou muita força, pois os fornecedores de silício queriam usar técnicas 3D para empilhar componentes ativos. Essa abordagem agora é aceita para memória de alta densidade, e as patentes sugerem que a Nvidia pode estar pretendendo empilhar GPUs.

Na indústria de microprocessadores, o resfriamento e o processamento eram vistos como disciplinas separadas. Os chips tiveram que ser projetados para dissipar seu calor, mas isso foi feito por meios relativamente pouco sofisticados, usando materiais térmicos para sugar o calor para o grande dissipador de calor de cobre na superfície.

O dissipador de calor poderia ser melhorado gravando canais menores, mas era um item separado, e o calor tinha que atravessar uma barreira de adesivo para chegar lá.

Mas alguns pesquisadores puderam ver as possibilidades. Em 2020, Tiwei Wei, do Centro Interuniversitário de Microeletrônica e KU Leuven, na Bélgica, integrou refrigeração e eletrônica em um único chip.

Wei, cujo trabalho foi publicado na Nature em 2020, não achava que a ideia pegaria nos microprocessadores, dizendo que os canais de micro resfriamento seriam mais úteis na eletrônica de potência, onde chips de grande porte feitos de semicondutores como o nitreto de gálio (GaN) realmente gerenciam e convertem eletricidade dentro dos circuitos.

Isso possivelmente explica por que a Emerson/Vertiv queria se apossar da Cooligy, mas Wei não via a tecnologia indo além: “Esse tipo de solução de resfriamento embarcado não se destina a processadores e chips modernos como a CPU”, disse ele ao IEEE Spectrum.

Cavando os chips

Naquela época, os pesquisadores já vinham trabalhando na gravação de canais microfluídicos na superfície de chips de silício há alguns anos. Uma equipe da Georgia Tech trabalhando com a Intel em 2015 pode ter sido a primeira a fabricar chips FPGA com uma camada de resfriamento microfluídico integrada, em cima do silício, “a algumas centenas de mícrons [micrômetros] de distância de onde os transistores estão operando”.

“Eliminamos o dissipador de calor no topo da matriz de silício movendo o resfriamento líquido a apenas algumas centenas de mícrons de distância do transistor”, disse o professor Muhannad Bakir, líder da equipe Georgia Tech, no comunicado de imprensa da Georgia Tech. “Acreditamos que a integração confiável do resfriamento microfluídico diretamente no silício será uma tecnologia disruptiva para uma nova geração de eletrônicos”.

Em 2020, pesquisadores da École Polytechnique Fédérale de Lausanne, na Suíça, levaram isso adiante, na verdade, executando fluido em túneis sob os transistores geradores de calor.

O professor Elison Matioli viu a oportunidade de aproximar ainda mais as coisas: “Projetamos a eletrônica e o resfriamento juntos desde o início”, disse ele em 2020, quando o artigo de sua equipe foi publicado na Nature.

A equipe de Matioli conseguiu projetar uma rede 3D de canais de resfriamento microfluídico dentro do próprio chip, logo abaixo da parte ativa de cada dispositivo transistor, a apenas alguns micrômetros de distância de onde o calor é produzido. Essa abordagem pode melhorar o desempenho de resfriamento por um fator de 50, disse ele.

Matioli gravou fendas de micrômetro de largura em uma camada de nitreto de gálio em um substrato de silício e, em seguida, alargou as fendas no substrato de silício para formar canais que seriam grandes o suficiente para bombear um refrigerante líquido.

Depois disso, as pequenas aberturas na camada de nitreto de gálio foram seladas com cobre e um dispositivo de silício comum foi criado no topo. “Temos apenas microcanais na pequena região do wafer que está em contato com cada transistor”, disse ele na época. “Isso torna a técnica eficiente”.

Matioli conseguiu fazer dispositivos que consomem muita energia, como um circuito retificador de 12kV CA para CC, que não precisava de dissipador de calor externo. Os microcanais levaram o fluido direto para os pontos de acesso e lidaram com incríveis densidades de potência de 1,7 kW por cm². Isso é 17 MW por m², várias vezes o fluxo de calor nas GPUs atuais.

Para o silício padrão

Enquanto isso, o trabalho continua para adicionar microfluídica ao silício padrão, criando estruturas microfluídicas na parte de trás dos microprocessadores existentes.

Em 2021, uma equipe liderada pela Microsoft, incluindo Husam Alissa, usou aletas de “micropinos” gravadas diretamente na parte traseira de uma CPU Intel Core i7-8700K padrão pronta para uso.

“Na verdade, pegamos um processador de classe desktop pronto para uso e removemos o gabinete”, diz ele. Sem a tampa do dissipador de calor e o material de interface térmica (TIM), a matriz de silício do chip foi exposta.

“Quando esse dado foi exposto, aplicamos métodos de gravação para esculpir os canais que queremos ver”, continua ele. A parte de trás da matriz foi gravada seletivamente, a uma profundidade de 200 mícrons, deixando um padrão de campo de restolho de hastes de 100 mícrons de espessura - os “micropinos” que formam a base do sistema de resfriamento direto ao chip integral.

Essa é uma tarefa delicada, adverte Alissa: “Você tem que considerar a profundidade com que está gravando, para não impactar as áreas ativas do silício”.

Finalmente, a parte traseira da matriz da CPU foi selada em um coletor impresso em 3D, que fornecia refrigerante para fluir entre os micropinos. O chip foi então overclockado para dissipar 215W de energia - mais que o dobro de sua potência de design térmico (TDP), a energia que foi projetada para lidar com segurança sem superaquecimento.

Surpreendentemente, o chip foi capaz de funcionar nesse nível usando apenas água em temperatura ambiente. Entregue através do coletor. O experimento mostrou uma redução de 44% na resistência térmica da junção à entrada e usou um trigésimo do volume de refrigerante por Watt do que seria necessário para uma placa fria convencional. O desempenho foi avaliado com programas de benchmark padrão.

Essa foi a primeira vez que os canais microfluídicos foram criados diretamente em uma CPU de consumo padrão e alcançaram a maior densidade de potência com resfriamento microfluídico em um dispositivo CMOS ativo. Os resultados mostram o potencial de operar Data Centers com mais eficiência sem a necessidade de sistemas de refrigeração com uso intensivo de energia, relatou o grupo no IEEE Xplore.

Tudo o que seria necessário seria que o fabricante de chips produzisse processadores em massa com micropinos gravados e os vendesse embalados com um coletor conectado no lugar da tampa do dissipador de calor usual.

Se fundições como a TSMC pudessem fornecer seus chips com refrigeração líquida integrada, isso mudaria a dinâmica de adoção. Também permitiria que a tecnologia ultrapassasse ainda mais os limites, diz Alissa.

“Com placas frias, você pode obter água a 40 ° C (104 ° F), mas com microfluídica você provavelmente poderia ter 80 ° C (176 ° F) ou mais saindo desses chips, porque o refrigerante está muito próximo dos núcleos ativos”, diz ele. “Isso obviamente aumenta a eficiência e os benefícios da recuperação de calor, combinados com requisitos mais baixos de vazão”.

O futuro da microfluídica

“Existem dois sabores principais de microfluídica”, diz Alissa. A opção de toque mais leve, que ele diz que poderia ser implantada “em alguns anos”, é a abordagem que sua equipe mostrou - para gravar canais em chips comerciais: “Vá comprar chips, faça a gravação e pronto”.

Uma versão mais desenvolvida dessa abordagem seria as fundições fazerem a gravação antes que o chip chegue ao consumidor - porque nem todo mundo quer alavancar a parte de trás de um processador e atacá-lo com ácido.

Além disso, há o que Alissa chama de abordagem de “toque mais pesado”. Nisso, você “chega cedo na fundição e começa a construir estruturas 3D”. Com isso, ele quer dizer chips porosos que empilham componentes uns sobre os outros com canais de refrigeração nas camadas intermediárias.

Esse é um desenvolvimento baseado na abordagem usada por Matioli em Lausanne. Como Alissa diz: “Isso promete mais, mas, obviamente, é mais trabalho”.

Alissa tem um objetivo: “A meta que queremos alcançar é onde podemos otimizar em conjunto este chip para resfriamento e eletricamente ao mesmo tempo, empilhando várias matrizes umas sobre as outras, com [microcanal] gravando no meio”.

O resfriamento permitiria que vários componentes fossem empilhados e conectados “através de vias de chip” (TCVs), que são conexões de cobre que viajam através da matriz de silício. Esses chips de torre podem precisar de menos energia e funcionar muito mais rápido, pois os componentes estão mais próximos: “No geral, você está ganhando desempenho, resfriamento e também latência por causa da proximidade”.

Há outro benefício. Se a microfluídica permitir que os chips cheguem a um ponto de design térmico (TDP) mais alto, isso poderia remover um dos obstáculos atualmente enfrentados pelos projetistas de silício.

The Future of Cooling

Preparing for a high-density data center

05 Dez 2023

A dificuldade de remover o calor significa que os maiores chips de hoje não podem usar todos os seus transistores de uma só vez, ou superaquecerão. Os chips têm áreas de “silício escuro” (veja o quadro), e a aplicação de microfluídica pode permitir que os projetistas as iluminem, aumentando o desempenho do chip.

Mas não espere que a microfluídica resolva tudo. Em 2012, o professor Nikos Hardavellas (veja o quadro) previu o próximo problema: “Mesmo que tecnologias exóticas de resfriamento fossem empregadas, como resfriamento líquido acoplado a microfluídica, o fornecimento de energia ao chip provavelmente imporia uma nova restrição”.

Depois de descobrirmos como obter mais calor do chip, teremos que desenvolver maneiras de fornecer uma grande quantidade de energia, que possa fornecer integridade de sinal nas baixas tensões exigidas pelos transistores.

Estamos prontos para isso?

Silício escuro

As gerações atuais e futuras de chips têm um problema fundamental. O desempenho sempre aumentou, à medida que mais transistores são empacotados em um único processador. Mas agora, são tantos que não podem ser usados todos de uma vez sem o superaquecimento do chip.

Os fabricantes de processadores publicam um poder de design térmico (TDP) para cada chip, que é a quantidade de energia que ele pode manipular e dissipar com segurança - e assumirão que há um bom dissipador de calor no chip.

Os TDPs cresceram muito. Por exemplo, a GPU H100 SXM5 Nvidia tem um TDP de 700W, que é enorme em comparação com CPUs padrão como Intel Xeons, que consomem cerca de 130W.

Mas quanto você pode fazer com esse poder? Atualmente, os transistores fabricados a 4 nm consomem minúsculos 10 attoJoules (10-18 Joules) cada, portanto, se um deles mudar a 1,8 GHz, consumiria 18 microWatts (18 x 10-9 W).

Isso é minúsculo, mas os processadores de hoje têm um número colossal de transistores. Jon Summers, do instituto de pesquisa sueco RISE, calcula que a GPU Nvidia H100, que possui 80 bilhões de transistores, geraria 1.440 W - mais que o dobro do TDP que a Nvidia publica para ela.

“Com um TDP de 700W, isso deve significar que 51% do chip é silício escuro”, disse Summers a uma audiência no DCD Connect London em novembro de 2023.

A miniaturização contínua não resolverá a situação. Transistores menores têm uma energia de comutação mais baixa, então mais podem ser iluminados dentro do envelope TDP, mas o número de transistores também está aumentando.

Summers diz que a Intel planeja ter um trilhão de transistores em um chip até 2030, cada um usando cerca de 1aJ por switch. Se a velocidade do clock subiu para 4 GHz, o chip é de 1.000 mm quadrados e fluxo térmico, isso significa que 40% dos transistores devem permanecer escuros.

Agora, os TDPs são baseados em um fluxo máximo de calor (ou fluxo) que pode ser removido de um chip. A Nvidia H100 tem uma área de 814 mm², então o fluxo de calor é de 860kW por m². Isso é comparável aos níveis vistos em demonstrações de fusão nuclear, e Summers espera que a Intel avance para 2,4 MW por m².

A questão do silício escuro é conhecida há muito tempo: em 2012, o professor Nikos Hardavellas, da Northwestern University, disse na revista da Advanced Computing Association, Usenix: “A menos que haja um milagre tecnológico, caminhamos para uma era de “silício escuro”, capaz de construir dispositivos densos que não podemos pagar. Sem a capacidade de usar mais transistores ou executá-los mais rapidamente, as melhorias de desempenho provavelmente estagnarão, a menos que mudemos de rumo”.

Tem havido muitas abordagens para o problema, principalmente aumentando o uso de núcleos especializados dentro de chips, que são usados apenas quando necessário.

Mas talvez uma maneira de reduzir o silício escuro seja se os fluidos pudessem fluir dentro do próprio chip, onde podem remover mais energia e permitir mais fluxo de calor.

Microfluídica: resfriamento dentro do chip

Nascimento da microfluídica

Cavando os chips

Para o silício padrão

O futuro da microfluídica

The Future of Cooling

Mais sobre Canal Power & Cooling

Relatório de progresso de data center 2025

Quanta capacidade existe em data centers antigos?

Episode A evolução do UPS, backup e a proteção da carga crítica de TI

Tags