Enquanto a Riken e outras empresas do campo de supercomputação buscam ideias na nuvem, os hyperscalers também têm recorrido ao campo de HPC (High-Performance Computing) para compreender como implementar sistemas interconectados de forma massiva.
Mas, como vimos, os gigantes descobriram que seus recursos financeiros lhes permitiram superar as supercomputadoras tradicionais.
Mudanças repentinas sempre são possíveis, mas, por enquanto, isso coloca os hyperscalers como Microsoft e Google na liderança, e, no processo, eles desenvolvem novas arquiteturas para sua nuvem.
Microsoft: da hiperescala à superescala
"Meu time é responsável por construir a infraestrutura que tornou possível o ChatGPT", disse Nidhi Chappell, gerente geral da Microsoft para Azure AI. "Então, trabalhamos muito de perto com a OpenAI, mas também trabalhamos em toda a nossa infraestrutura geral de IA."
A divisão de Chappell tem sido responsável por implementar alguns dos maiores clusters de computação do mundo. "É uma mentalidade de combinar hiperescala e supercomputação na geração de superescala", disse ela.
Essa tem sido uma transição de vários anos na empresa, à medida que une os dois mundos. Parte disso envolveu uma série de contratações de alto perfil do setor HPC tradicional, incluindo Glenn Lockwood do NERSC, o CTO da Cray, Steve Scott, e o chefe dos esforços de exaescala da Cray, Dr. Dan Ernst.
"Todas essas pessoas das quais você fala fazem parte da minha equipe", disse Chappell. "Quando você vai para uma escala muito maior, você enfrenta desafios completamente diferentes. A supercomputação é a próxima onda da hiperescala, de certa forma, e você precisa repensar seus processos, seja como adquire capacidade, como a valida, como a escala e como a repara."
A Microsoft não compartilha exatamente qual é essa escala. Para suas instâncias públicas padrão, eles executam até 6000 GPUs em um único cluster, mas "alguns clientes ultrapassam as ofertas públicas", disse Chappell.
A OpenAI é um desses clientes, trabalhando com a Microsoft em implementações especializadas que são muito maiores, desde o acordo de bilhões de dólares entre as empresas. "Mas são os mesmos blocos fundamentais que estão disponíveis para qualquer cliente", disse ela.
O tamanho não é o único desafio enfrentado pela sua equipe. Como vimos anteriormente, os pesquisadores trabalham com modelos cada vez maiores, mas também os executam por períodos de tempo muito mais longos.
"Quando você executa um único trabalho sem parar por seis meses, a confiabilidade se torna o foco principal", disse ela. "Você realmente precisa repensar completamente o design."
Em uma escala de milhares de GPUs, algumas delas falharão. Tradicionalmente, "os hyperscalers terão muitos trabalhos independentes, então você pode tirar uma frota e concordar com isso", disse Chappell.
"Para o treinamento de IA, tivemos que voltar atrás, repensar e redesenhar a forma como garantimos a confiabilidade, porque se você está retirando uma porcentagem da sua frota para manutenção, essa porcentagem simplesmente não está disponível.
"Tivemos que pensar em como poderíamos recuperar a capacidade rapidamente. Esse tempo de resposta teve que ser reduzido para garantir que toda a frota esteja disponível, em bom estado e confiável o tempo todo. Isso é quase como lutar contra a física em algum momento."
Essa escala só aumentará à medida que os modelos se expandirem em alcance e tempo requerido. Mas assim como a OpenAI está se beneficiando dos dados de uso para melhorar sua próxima geração de modelos, a Microsoft também está aprendendo uma lição importante ao executar a infraestrutura do ChatGPT: como construir a próxima geração de centros de dados.
"A infraestrutura do ChatGPT não é construída do zero", disse ela. "Temos um histórico de construção de supercomputadoras que nos permitiu construir a próxima geração. E houve muitas lições aprendidas sobre a infraestrutura que usamos para o ChatGPT, sobre como passar de um hyperscaler tradicional para um hyperscaler de supercomputação."
À medida que os modelos ficam maiores e exigem mais tempo, isso "exigirá que continuemos no ritmo de uma infraestrutura maior e mais poderosa", disse ela. "Então, acredito que o momento crucial [do lançamento do ChatGPT] é na verdade o começo de uma jornada."
Google: da busca à IA
Google também vê isso como o começo de algo novo. "Uma vez que você realmente coloca essas coisas nas mãos das pessoas, pode começar a especializar e otimizar", disse o chefe da equipe de infraestrutura de serviços e sistemas globais do gigante das buscas, Amin Vahdat.
"Acredito que veremos muitos refinamentos no lado do software, compilador e hardware", acrescentou. Vahdat comparou esse momento com os primeiros dias da busca na web, quando seria inimaginável que alguém pudesse indexar o conteúdo da internet na escala que fazemos hoje. Mas assim que os motores de busca se tornaram populares, a indústria aceitou o desafio.
"Nos próximos anos, veremos melhorias dramáticas, algumas delas no hardware e muitas no software e nas otimizações. Acredito que a especialização em hardware pode continuar e continuará, de acordo com o que aprendemos sobre os algoritmos. Mas certamente, não veremos melhorias de 10 vezes por ano por muitos anos mais, pois algumas coisas fundamentais se quebrarão rapidamente".
Esse crescimento na computação em nuvem ocorreu à medida que a indústria aprendia e se inspirava no setor de supercomputação tradicional, permitindo um rápido aumento na quantidade que os hyperscalers podem oferecer em clusters únicos.
Mas agora que eles alcançaram e apresentaram sistemas que estariam entre os dez primeiros da lista Top500 das supercomputadoras mais rápidas, eles têm que abrir seu próprio caminho.
"Os dois setores estão convergindo, mas o que nós e outros estamos fazendo é bastante diferente da supercomputação [tradicional], pois realmente integra as fontes de dados de ponta a ponta de uma maneira muito mais dramática", disse Vahdat.
"E também diria que a quantidade de especialização que estamos trazendo para o problema é sem precedentes", acrescentou, ecoando as preocupações do professor Matsuoka sobre os tipos divergentes de HPC (ver parte III).
"Em outras palavras, muito do que esses modelos fazem é essencialmente pré-processar enormes quantidades de dados. Não é o conhecimento humano completo, mas é muito, e está se tornando cada vez mais multimodal". Apenas preparar a entrada corretamente requer tubulações de processamento de dados que são "sem precedentes".
Da mesma forma, embora a HPC tenha combinado processadores de uso geral com redes de baixa latência, essa carga de trabalho permite tolerar latências ligeiramente mais altas, ligadas a uma configuração de computação especializada e acelerada.
"Não é necessária aquela latência ultra estreita de quase nanossegundos com tremendo largura de banda em escala completa", disse Vahdat.
"Ainda é necessário, mas em escala média a grande, não em escala extra grande. Vejo paralelos com a supercomputação, mas as diferenças de segunda e terceira ordem são substanciais. Já estamos em território desconhecido".
A empresa se diferencia da HPC tradicional chamando-a de "supercomputação especialmente projetada para aprendizado de máquina", disse.
Na Google, isso pode significar grandes grupos de sua família de chips TPU internos (também usa GPU). Para esse tipo de supercomputação, eles podem acoplar 4.096 TPUv4s. Isso é determinado por sua topologia. "Acabamos com um toroide 3D e a raiz de seu chip", disse Vahdat, o que essencialmente significa quantos links saem de cada chip e quanto largura de banda é alocada ao longo de cada dimensão da topologia.
"Então, 4096 é realmente uma questão de tecnologia e imóveis do chip, quanto alocamos para SerDes e largura de banda fora do chip? E então, dado esse número e a quantidade de largura de banda que precisamos entre chips, como conectamos as coisas?"
Vahdat apontou que a empresa "poderia ter optado por, digamos, duplicar a quantidade de chips, mas então estaríamos restringindo a largura de banda. Agora podemos ter mais escala, mas a metade da largura de banda de interconexão, o que é um ponto de equilíbrio diferente".
O setor poderia se tornar ainda mais especializado e criar clústeres que não sejam apenas melhores em aprendizado de máquina, mas especificamente melhores em LLM (Large Language Models), mas por enquanto, o setor está se movendo rápido demais para isso.
No entanto, isso está levando o Google a olhar além do que significa um clúster e uni-los como um único sistema maior. Isso poderia significar combinar vários clústeres dentro de um centro de dados.
Mas, à medida que esses modelos se tornam maiores, isso poderia até mesmo significar que vários centros de dados trabalhem juntos. "Os requisitos de latência são menores do que poderíamos pensar", disse ele. "Então, não acredito que esteja fora de discussão a possibilidade de acoplar múltiplos centros de dados".
Toda essa mudança significa que as linhas tradicionais do que constitui um centro de dados ou um supercomputador estão começando a se desvanecer. "Estamos em um momento super emocionante", disse ele. "A forma como computamos está mudando, a definição de um supercomputador está mudando, a definição de computação está mudando".
"Fizemos muito nas últimas duas décadas, como com o TPUv4. Vamos anunciar os próximos passos em nossa jornada, nos próximos meses. Portanto, a taxa de inovação de hardware e software não diminuirá nos próximos anos".
Outros artigos desta série
-
Inteligência Artificial Generativa e o futuro dos Data Centers: Parte I - Os Modelos
Um artigo de sete partes sobre o que são os grandes modelos de linguagem e o que a próxima onda de cargas de trabalho significa para os data centers
-
IA Generativa e o futuro dos Data Centers: Parte II - Os Participantes
Por trás da IA generativa e seu impacto na indústria
-
IA Generativa e o futuro dos Data Centers: Parte III - Os supercomputadores
O que resta para a HPC no mundo da IA generativa?