À medida que a indústria de data centers entra em uma nova fase, todos os operadores foram forçados a contar com duas incógnitas: quão grande será a onda de IA e que tipo de densidades enfrentaremos?

Alguns arriscaram tudo e estão construindo data centers refrigerados a líquido, enquanto outros esperam aproveitar o momento atual e esperar até que o futuro seja mais claro.

Para a Meta, que abraçou a IA em todos os seus negócios, esse ponto de inflexão significou o abandono de vários projetos de data centers em desenvolvimento em todo o mundo, como a DCD relatou com exclusividade no final do ano passado.

A empresa cancelou instalações já em construção, enquanto redesenhava suas instalações com GPUs e outros aceleradores em mente.

Esta reportagem foi publicada na edição 50 da DCD Magazine. Leia de graça hoje.

Agora, com a empresa abrindo caminho no primeiro de seus data centers de próxima geração em Temple, Texas, conversamos com o homem por trás do novo design.

“Vimos potencialidade dessa tecnologia há cerca de dois anos”, disse Alan Duong, diretor global de engenharia de data center da Meta.

A Meta apostou anteriormente em CPUs e seus próprios chips internos para lidar com cargas de trabalho tradicionais e de IA. Mas, à medida que o uso de IA cresceu, as CPUs não conseguiram acompanhar, enquanto a aposta nos chips da Meta inicialmente fracassou.

A empresa agora relançou o projeto, com o Meta Training and Inference Accelerator (MTIA) de 7nm previsto para ser implantado no novo data center ao lado de milhares de GPUs.

Essas GPUs exigem mais energia e, portanto, mais refrigeração, e também precisam estar intimamente conectadas para garantir que não haja latência excessiva ao treinar modelos gigantes.

Isso exigiu um data center totalmente novo.

O resfriamento

As novas instalações serão parcialmente refrigeradas a líquido, com a Meta implementando resfriamento direto para chip para os GPUs, enquanto mantém o resfriamento a ar para seus servidores tradicionais. “Durante essa jornada de dois anos, consideramos fazer data centers dedicados à IA e decidimos avançar para mais uma mistura, porque sabemos que haverá essa transição”, disse Duong.

“95% da nossa infraestrutura hoje oferece suporte a x86 mais tradicionais, leitores de armazenamento e serviços front-end - isso não vai desaparecer. Quem sabe como isso vai evoluir, daqui a alguns anos ? E por isso sabemos que é algo necessário”.

Os sistemas de IA também exigirão acesso ao armazenamento de dados, “então, embora você possa otimizar os data centers para IA de alta densidade, ainda precisará colocalizar esses serviços com dados, porque é assim que você faz seu treinamento”.

Ter a configuração híbrida permite que a Meta se expanda com o mercado de IA, mas não provisione demais para algo que ainda é imprevisível, disse Duong.

“Não podemos prever o que vai acontecer e, portanto, essa flexibilidade em nosso design nos permite fazer isso. E se a IA não se mover para as densidades que todos previmos?”.

Essa flexibilidade vem com uma compensação, admitiu Duong. “Vamos gastar um pouco mais de capital para dar essa flexibilidade”, ele disse.

A empresa estabeleceu 30°C para a água que fornece ao hardware e espera obter a temperatura mais comumente adotada por meio do Open Compute Project (OCP).

Qual meio exatamente é usado na tubulação para o chip ainda é uma questão de pesquisa, revelou Duong. “Ainda estamos classificando qual é o meio correto para aproveitarmos. Temos anos - eu não diria vários anos - para desenvolver essa solução real à medida que começamos a implantar o liquid-to-chip. Estamos desenvolvendo o hardware associado, então ainda não chegamos especificamente ao que vamos usar”.

A empresa, no entanto, decidiu que não usará resfriamento por imersão, pelo menos no futuro próximo. “Nós pesquisamos isso”, disse Duong. “É algo escalável e operacionalizado para o nosso uso e a nossa escala? No momento, não”.

“Quando você imagina as complicações do resfriamento por imersão para operações, é um grande desafio que teríamos que superar e resolver se fôssemos implantar algo assim em escala”.

Next-Gen_Data_Center_Design_2.width-358
– Meta

Outra abordagem que não vai adiante é um sistema de resfriamento brevemente mostrado em uma imagem no início deste ano de um fluido em cascata em uma placa fria como uma cachoeira (foto). “São experiências, certo? Eu diria que essa geralmente não é uma solução que será escalável para nós agora”.

“E então o que você vai ver daqui a um ou dois anos é a tecnologia direct-to-chip mais tradicional, sem nenhuma das cachoeiras extravagantes”.

Embora o projeto em nível de instalação esteja totalmente finalizado, parte da tecnologia em nível de rack ainda está sendo trabalhada, dificultando as previsões exatas de densidade. “Em comparação com minhas densidades de fileiras hoje, eu diria que seremos de duas vezes mais densos no mínimo a oito a nove vezes mais densos no máximo”.

A Meta “ainda não aterrissou, mas estamos olhando para uma capacidade máxima potencial de 4-500 quilowatts”, disse Duong.

“Estamos definitivamente mais confiantes sobre as instalações”, acrescentou Duong. “Agora entramos no mercado com nosso design, e o tipo de resposta que recebemos de volta nos deu confiança de que nossas projeções estão se concretizando”.

Mudando as coisas

Junto com as mudanças de refrigeração, a empresa simplificou seu projeto de distribuição de energia.

“Quanto mais equipamentos você tem, mais complicado é”, disse Duong. “Você tem camadas extras de falha, tem mais equipamentos para manter”.

A empresa revisou quais equipamentos poderia remover, sem a necessidade de novos equipamentos mais complexos.

“Temos muitos equipamentos em nosso canal de distribuição atual, seja interruptor, quadro de distribuição, vários disjuntores, vários esquemas de transição de A para B, etc., e eu disse 'posso simplesmente me livrar de tudo isso e ir diretamente da fonte de onde a energia é convertida diretamente para a linha?”.

Esse novo design também permitiu que a Meta “escalasse de uma densidade de rack muito baixa para uma densidade de rack muito maior sem encalhar e sobrecarregar o busway, o disjuntor e o quadro de distribuição”, disse ele.

Ir diretamente do transformador para o rack em si “nos permitiu não apenas eliminar equipamentos, mas construir um pouco mais rápido e barato, bem como reduzir a complexidade e os controles e nos permite aumentar nossa capacidade”.

Temple_Data_Center_Meta.width-358
– – Meta

Mais rápido, mais barato

Talvez a afirmação mais surpreendente que a Meta fez com seu novo design é que ele será 31% mais barato e levará metade do tempo para construir (da inovação ao funcionamento) em relação ao design anterior.

“As projeções atuais que estamos vendo de nossos parceiros é que podemos construí-lo dentro dos tempos estimados”, disse Duong.

“Podemos até ver algo um pouco melhor do que o que esperávamos inicialmente”.

É claro que a empresa primeiro terá que construir os data centers para realmente saber se suas projeções estão corretas, mas espera que a velocidade compense os projetos de data center cancelados.

“Não há recuperação nessa perspectiva”, disse Duong. “Você pode nos ver colocando em funcionamento uma capacidade na mesma duração originalmente planejada”.

Isso foi fundamental para conseguir fazer a mudança drástica, disse ele. “Compramos esses poucos meses extras, isso fazia parte do planejamento”.

Quanto tempo vão durar?

Os primeiros data centers da Meta (então Facebook) foram lançados há 14 anos. “E eles não vão a lugar nenhum, não é como se fôssemos descartá-los”, disse Duong.

“Vamos ter que descobrir uma maneira de continuar a utilizar esses edifícios até o final de sua vida útil”.

Com as novas instalações, ele espera superar esse prazo, sem precisar de grandes modernizações e upgrades pelos próximos 15 anos, no mínimo.

“Mas são instalações com 20 a 30 anos de idade, e tentamos incluir a modernização em seu projeto”, disse ele. “Temos que criar esse conceito em que, se precisarmos modernizar esse design, podemos”.

Olhando para trás, para quando o projeto começou, há dois anos, Duong continua confiante de que o design era a aposta certa para os próximos anos. “Como uma equipe que está sempre tentando prever um pouco o futuro, há muitas falhas”, disse ele.

“Temos projetos que são potencialmente mais voltados ao futuro, mas simplesmente não vamos precisar disso. Nós nos preparamos para a IA antes dessa explosão, e quando a IA se tornou um grande impulso [para a Meta], ela apenas exigiu que inseríssemos as tecnologias que avaliamos há anos nesse design”.