A Amazon Web Services anunciou novos componentes de data center projetados para dar suporte à próxima geração de inovação em Inteligência Artificial (IA). Esses recursos combinam inovações em energia, resfriamento e design de hardware para criar um data center mais eficiente em termos de energia que sustentará mais inovações para os clientes. Esses novos recursos serão implementados globalmente nos novos data centers da AWS, e muitos componentes já estão presentes em seus servidores existentes.
“Esses recursos de data center representam um importante passo, com maior eficiência energética e suporte flexível para cargas de trabalho emergentes. Mas o que é ainda mais empolgante é que eles foram projetados para serem modulares, para que possamos adaptar nossa infraestrutura existente para resfriamento líquido e eficiência energética para alimentar aplicativos de IA generativa e reduzir nossa pegada de carbono", disse Prasad Kalyanaraman, vice-presidente de serviços de infraestrutura da AWS.
A AWS vem construindo data centers de grande escala há 18 anos e servidores baseados em GPU para cargas de trabalho de IA há 13 anos. Hoje, os data centers da AWS oferecem suporte a milhões de clientes ativos em todo o mundo, incluindo centenas de milhares que usam os serviços de IA e aprendizado de máquina da AWS e dezenas de milhares de clientes globais que usam o Amazon Bedrock para criar seus aplicativos de IA generativa. Como o uso da IA generativa continua a crescer e as demandas de capacidade de GPU aumentam, os data centers da AWS estão se adaptando para suportar as densidades de energia cada vez maiores. As principais melhorias incluem:
Projeto elétrico e mecânico simplificado para alta disponibilidade
A AWS se concentra continuamente em oferecer aos clientes a infraestrutura mais confiável. Projetos elétricos e mecânicos simplificados são mais confiáveis e fáceis de manter, garantindo que os clientes aproveitem os benefícios da alta confiabilidade que a AWS oferece desde o início.
As melhorias mais recentes no projeto do data center da AWS incluem sistemas mecânicos e de distribuição elétrica simplificados, que permitem uma disponibilidade de infraestrutura de 99,9999%. Os sistemas simplificados também reduzem em 89% o número potencial de racks que podem ser afetados por problemas elétricos.
Em um data center, a eletricidade passa por vários sistemas de conversão e distribuição antes de chegar ao equipamento de TI. Cada etapa passa naturalmente por ineficiência, perda de energia e possíveis pontos de falha. Como um novo exemplo de projeto, a AWS simplificou a distribuição elétrica e, ao fazer isso, reduziu o número de possíveis pontos de falha em 20%. Outros exemplos de simplificações incluem aproximar a energia de backup do rack e reduzir o número de ventiladores usados para exaurir o ar quente. A AWS está usando o diferencial de pressão natural para exaurir esse ar, o que melhora a quantidade de eletricidade disponível para os servidores. Todas essas mudanças ajudam a reduzir o consumo geral de energia e, ao mesmo tempo, minimizam o risco de falhas.
Inovações em refrigeração, design de racks e sistemas de controle
A AWS desenvolveu recursos novos e aprimorados para oferecer maior desempenho, alta disponibilidade e eficiência energética. As inovações do novo data center incluem:
Resfriamento líquido: Os servidores de IA mais novos se beneficiam do resfriamento líquido para resfriar com mais eficiência os chips de computação de alta densidade. A AWS desenvolveu novas soluções de resfriamento mecânico que fornecem resfriamento configurável de líquido para chip em seus data centers novos e existentes.
Algumas tecnologias da AWS utilizam infraestrutura de rede e armazenamento que não requerem resfriamento líquido, portanto, os sistemas de resfriamento atualizados integrarão perfeitamente os recursos de resfriamento a ar e líquido para os chipsets de IA mais potentes, como o AWS Trainium2 e as soluções de supercomputação de IA em escala de rack, como o NVIDIA GB200 NVL72, bem como os switches de rede e servidores de armazenamento da AWS. Esse design de resfriamento flexível e multimodal permite que a AWS forneça o máximo de desempenho e eficiência com o menor custo, seja executando cargas de trabalho tradicionais ou modelos de IA. O design exclusivo do rack de resfriamento líquido foi desenvolvido em colaboração com os principais fabricantes de chips para acelerar o tempo de comercialização das cargas de trabalho de IA.
Suporte para cargas de trabalho de IA de alta densidade: A AWS está maximizando a forma como a energia é usada, otimizando a forma como posiciona os racks em um data center. Isso foi alcançado por meio de um software, alimentado por dados e IA generativa, que prevê a maneira mais eficiente de posicionar os servidores. A AWS agora reduzirá a quantidade de energia ociosa - energia que está disponível, mas não é utilizada ou é subutilizada - e fará uso mais eficiente da energia disponível.
Esse design será compatível com a próxima geração de hardware e racks de alta densidade necessários para cargas de trabalho de IA, mas é flexível o suficiente para acomodar uma ampla variedade de outros tipos de hardware. Além do projeto de resfriamento multimodal flexível, a AWS desenvolveu inovações de engenharia em seus sistemas de fornecimento de energia, que permitem à AWS suportar um aumento de 6x na densidade de energia do rack nos próximos dois anos e outro aumento de 3x no futuro. Isso é fornecido, em parte, por uma nova prateleira de energia, que fornece com eficiência a energia do data center em todo o rack, reduzindo as perdas de conversão elétrica.
Em conjunto, essas inovações permitem que a AWS forneça 12% mais potência de computação por site para as cargas de trabalho dos clientes. Essas mudanças reduzirão o número total de data centers necessários para fornecer a mesma quantidade de capacidade de computação.
Sistemas de controle atualizados: A implementação de um sistema de controle de propriedade da Amazon nos dispositivos elétricos e mecânicos da AWS oferece a capacidade de padronizar o monitoramento, os alarmes e as sequências operacionais. Por exemplo, as ferramentas de telemetria criadas internamente pela AWS usam tecnologias da AWS para fornecer diagnósticos em tempo real e serviços de solução de problemas, o que permite manter condições operacionais ideais em nome dos clientes. Além disso, a AWS aumentou a redundância em seus sistemas de controle, ao mesmo tempo em que reduziu a complexidade. Esses benefícios permitem projetar uma disponibilidade de infraestrutura de 99,9999%.
Aumento da eficiência energética e da sustentabilidade
Pesquisas estimam que a infraestrutura da AWS é atualmente até 4,1 vezes mais eficiente do que a infraestrutura local, e quando as cargas de trabalho são otimizadas na AWS, a pegada de carbono associada pode ser reduzida em até 99%. Em 2023, a Amazon alcançou sua meta de equiparar toda a eletricidade consumida por suas operações com energia 100% renovável - sete anos antes de sua meta para 2030.
Os novos componentes incluem as seguintes atualizações para eficiência energética e sustentabilidade:
Um sistema de resfriamento mais eficiente que deverá reduzir o consumo de energia mecânica em até 46% em comparação com seu projeto anterior durante as condições de pico de resfriamento, sem aumentar o uso de água por megawatt. As alterações no projeto incluem um novo sistema de resfriamento de face única, redução do equipamento de resfriamento e introdução de recursos de resfriamento líquido.
Redução do carbono incorporado no concreto da estrutura do edifício do data center em até 35%, em comparação com a média do setor. A AWS está adotando especificações para aço e concreto com baixo teor de carbono e otimizando o projeto estrutural para usar menos aço em geral.
Os geradores de backup poderão funcionar com diesel renovável, um combustível biodegradável e não tóxico que pode reduzir as emissões de gases de efeito estufa em até 90% durante o ciclo de vida do combustível, em comparação com o diesel fóssil. A AWS já iniciou a transição para o diesel renovável para alimentar os geradores de backup nos data centers existentes na Europa e na América.
“Os data centers devem evoluir para atender às demandas transformadoras da IA”, disse Ian Buck, Vice-presidente de Hiperescala e HPC da NVIDIA. “Ao permitir soluções avançadas de resfriamento líquido, a infraestrutura de IA pode ser resfriada com eficiência, minimizando o uso de energia. Nosso trabalho com a AWS em seu projeto de rack de resfriamento líquido permitirá que os clientes executem cargas de trabalho de IA exigentes com desempenho e eficiência excepcionais.”
Os novos componentes do data center foram criados para serem dimensionados em toda a infraestrutura da AWS em todo o mundo, incluindo suas 34 regiões, 108 zonas de disponibilidade e outras ofertas de infraestrutura, como as zonas locais da AWS. Espera-se que a construção de novos data centers da AWS com o conjunto completo de componentes comece no início de 2025 nos Estados Unidos.