A Meta compartilhou os detalhes do hardware, rede, armazenamento, design, desempenho e software que compõem seus dois novos clusters em escala de Data Center com 24.000 GPUs que a empresa está usando para treinar seu modelo de IA de linguagem grande Llama 3.

Os novos clusters de treinamento são baseados no AI Research SuperCluster (RSC) da Meta, que foi introduzido em 2022. Desenvolvidos para auxiliar a pesquisa e o desenvolvimento de IA em áreas como processamento de linguagem natural, reconhecimento de fala e geração de imagens, os clusters recém-anunciados contêm 24.576 GPUs Nvidia Tensor Core H100. Este é um aumento significativo em relação aos clusters originais, que continham 16.000 GPUs Nvidia A100.

A Meta disse que esse aumento permite que os clusters suportem modelos maiores e mais complexos do que o RSC, abrindo caminho para avanços no desenvolvimento de produtos de IA generativa.

Até o final de 2024, a empresa pretende expandir sua infraestrutura para incluir 350.000 Nvidia H100 como parte de um portfólio que contará com poder de computação equivalente a quase 600.000 H100.

As duas soluções interconectam pontos de extremidade de 400 Gbps, mas a Meta construiu uma com uma solução de malha de rede RDMA (Remote Direct Memory Access) sobre RoCE (Remote Direct Memory Access) baseada em Arista 7800 com switches de rack OCP Wedge400 e Minipack2. O outro cluster apresenta uma malha InfiniBand Nvidia Quantum2.

A Meta disse que também continua a evoluir sua estrutura de IA PyTorch para torná-la pronta para centenas de milhares de treinamentos de GPU.

Em uma postagem de blog em coautoria com Kevin Lee, gerente de programa técnico; Adi Gangidi, Engenheiro de Redes de Produção; e Mathew Oldham, diretor de engenharia de produção, a empresa disse que continua comprometida com a inovação aberta em software e hardware de IA e lançou a AI Alliance em um esforço para construir um ecossistema aberto que traga “transparência, escrutínio e confiança ao desenvolvimento de IA e leve a inovações das quais todos possam se beneficiar, construídas com segurança e responsabilidade como prioridade”.