O papel dos supercomputadores estatais
Atualmente, a maior parte da atividade de treinamento de IA está focada nos enormes recursos disponíveis para os gigantes da tecnologia, que constroem supercomputadores virtuais em suas nuvens. Mas nos primeiros dias, as pesquisas eram realizadas principalmente em supercomputadores de laboratórios de pesquisa governamentais.
Durante a década de 2010, as nações mais avançadas do mundo competiram para construir instalações com poder suficiente para realizar pesquisas em IA, além de outras tarefas como modelagem molecular e previsão do tempo. Agora, essas máquinas foram deixadas para trás, mas seus recursos estão sendo utilizados por atores menores no campo da IA.
Quando o governo dos Estados Unidos lançou o Summit em 2018, no Laboratório Nacional Oak Ridge, essa máquina de 13 megawatts era o supercomputador mais poderoso do mundo. Agora, de acordo com os benchmarks tradicionais de Linpack (FP64), ele é o quinto supercomputador mais rápido do mundo, atingindo 200 petaflops, utilizando modelos mais antigos das GPUs da Nvidia.
Para as fronteiras da IA, ele é muito antigo e lento, mas o grupo EleutherAI de código aberto está feliz em aproveitar o que resta. "Nós basicamente temos tudo do Summit", disse Quentin Anthony, da EleutherAI.
"Grande parte do que limita você é o fato de que aquelas antigas GPUs [Tesla] simplesmente não possuem memória suficiente para comportar o modelo. Então o modelo é dividido em várias GPUs, e você é completamente prejudicado pelos custos de comunicação", ele disse.
"Se você não possui o hardware mais avançado e recente, simplesmente não consegue competir - mesmo se receber o supercomputador Summit inteiro."
Uma história semelhante ocorre no Japão, onde o Fugaku era a máquina mais rápida do mundo quando foi lançada em 2020.
"Temos uma equipe tentando realizar treinamento semelhante ao do GPT no Fugaku. Estamos tentando criar os frameworks para construir modelos fundamentais nele e escalá-los para um número bastante grande de nós", disse o Professor Satoshi Matsuoka, diretor do RIKEN Center for Computational Science do Japão.
"Segundo os padrões globais para sistemas, o Fugaku ainda é uma máquina de IA muito rápida", disse ele. "Mas quando você compara com o que a OpenAI montou, ele é menos eficiente. É muito mais rápido em termos de HPC, mas com códigos de IA não é tão rápido quanto 25.000 A100s [GPUs da Nvidia]."
O Morgan Stanley estima que o próximo sistema GPT da OpenAI esteja sendo treinado em 25.000 GPUs da Nvidia, no valor de cerca de $225 milhões.
O Fugaku foi construído com 158.976 processadores Fujitsu A64FX Arm, projetados para computação massivamente paralela, mas não possui nenhuma GPU.
"Claro, o Fugaku Next, nosso supercomputador de próxima geração, terá uma otimização intensiva para rodar esses modelos fundamentais", disse Matsuoka.
O supercomputador atual e a equipe de pesquisa que o utiliza têm ajudado a impulsionar o ecossistema Arm e a solucionar problemas de operação de arquiteturas massivamente paralelas em grande escala.
"É nosso papel como laboratório nacional buscar a computação avançada mais recente e inovadora, incluindo a IA, mas também outros aspectos da HPC que vão além da trajetória normal que os fornecedores podem imaginar", disse Matsuoka.
"Precisamos ir além do roteiro do fornecedor ou incentivar os fornecedores a acelerarem o roteiro com algumas de nossas ideias e descobertas - esse é o nosso papel. Estamos fazendo isso com os fabricantes de chips para a nossa máquina de próxima geração. Estamos fazendo isso com os fornecedores de sistemas e com os provedores de nuvem. Coletivamente, avançamos na computação pelo bem maior."
Moralidade e máquinas massivas
Assim como os desenvolvedores de código aberto estão oferecendo transparência e insights muito necessários sobre o desenvolvimento dessa próxima etapa da inteligência artificial, os supercomputadores estatais fornecem uma maneira para o resto do mundo acompanhar os gigantes corporativos.
"Os perigos desses modelos não devem ser exagerados, devemos ser muito, muito francos e objetivos sobre o que é possível", disse Matsuoka. "No entanto, ainda assim, eles representam perigos semelhantes se caírem nas mãos erradas, assim como a energia atômica ou as tecnologias nucleares".
Há muito tempo os supercomputadores estatais controlam quem tem acesso a eles. "Nós avaliamos os usuários, monitoramos o que acontece", disse ele. "Nós garantimos que as pessoas não façam mineração de Bitcoin nessas máquinas, por exemplo."
Propostas para uso de computação são enviadas e os resultados são verificados por especialistas. "Muitos desses resultados são tornados públicos, ou se uma empresa os usa, os resultados devem ser para o bem público", continuou ele.
Usinas nucleares e armas são altamente controladas e protegidas por camadas de segurança. "Vamos aprender sobre os riscos e perigos da IA", disse ele. "O uso dessas tecnologias pode revolucionar a sociedade, mas modelos fundamentais com intenções ilícitas devem ser evitados. Caso contrário, eles podem cair nas mãos erradas e causar estragos na sociedade. Embora possam ou não exterminar a raça humana, ainda assim podem causar muitos danos".
Isso requer supercomputadores respaldados pelo Estado, argumentou ele. "Esses recursos públicos permitem algum controle, na medida em que, com transparência e abertura, podemos ter algumas garantias confiáveis. É uma maneira muito mais segura do que apenas deixar nas mãos de uma nuvem privada".
Construindo os maiores supercomputadores do mundo
"Agora estamos em um domínio em que, para obtermos modelos fundamentais muito eficazes, precisamos começar a treinar em um nível de desempenho de baixa precisão essencialmente multi-exaescala", explicou Matsuoka.
Enquanto modelos tradicionais de aprendizado de máquina e simulação usam números de ponto flutuante de 32 bits em "precisão simples" (e às vezes números de ponto flutuante de 64 bits em "precisão dupla"), a IA generativa pode usar uma precisão mais baixa.
A mudança para o formato de ponto flutuante de meia precisão FP16, e potencialmente até FP8, significa que é possível armazenar mais números na memória e na cache, além de transmitir mais números por segundo. Essa mudança melhorou imensamente o desempenho computacional desses modelos e alterou o design dos sistemas usados para treiná-los.
O Fugaku é capaz de atingir 442 petaflops no benchmark Linpack baseado em FP64 e alcançou dois exaflops (ou seja, 1018) usando o benchmark HPL-AI com precisão mista FP16/FP64.
A OpenAI mantém segredo sobre seus recursos de treinamento, mas Matsuoka acredita que o "GPT-4 foi treinado em um recurso equivalente a um dos principais supercomputadores que o estado pode estar fornecendo", estimando que poderia ser uma máquina de 10 exaflops (FP16) "com otimizações para IA".
"Podemos construir uma máquina de 100 exaflops para suportar IA generativa?", questionou Matsuoka. "Claro que podemos. Podemos construir uma máquina de escala zetasscale com FP8 ou FP16? Ainda não, mas em um futuro próximo. Podemos dimensionar o treinamento para esse nível? Na verdade, é muito provável."
Isso significará enfrentar novos desafios de escala. "Operar uma máquina com 20.000 ou 100.000 nós é muito mais difícil", disse ele. Ir de uma máquina com 1.000 nós para 10.000 não requer simplesmente escalar por um fator de 10. "É realmente difícil operar essas máquinas", disse ele, "não é nada fácil."
Novamente, a questão é quando e onde os modelos começarão a atingir um ponto de saturação. "Podemos melhorar em cinco ordens de magnitude? Talvez. Podemos melhorar em duas ordens de magnitude? Provavelmente. Ainda não sabemos até onde podemos chegar. E isso é algo em que estaremos trabalhando."
Alguns até alertam que a HPC ficará para trás nos investimentos em nuvem, porque o que os governos podem investir é superado pelo que os hiperscalers podem gastar em seus orçamentos de pesquisa.
Escalabilidade fraca e o futuro da HPC
Para entender o que o futuro pode reservar para a HPC, primeiro devemos entender como os sistemas de computação paralela de grande porte de hoje surgiram.
Tarefas de computação, incluindo IA, podem ser aceleradas ao dividir e executar partes delas em paralelo em diferentes máquinas ou em diferentes partes da mesma máquina.
Em 1967, o cientista da computação e pioneiro dos mainframes Gene Amdahl observou que a paralelização tinha limites: não importa quantos núcleos você utilize, um programa só pode ser executado tão rápido quanto as partes que não podem ser divididas e paralelizadas.
Mas, em 1988, John Gustafson, do Sandia Labs, essencialmente inverteu a questão e mudou o foco da velocidade para o tamanho do problema.
"Portanto, o tempo de execução não diminuirá à medida que você adicionar mais núcleos paralelos, mas o tamanho do problema aumenta", disse Matsuoka. "Então você está resolvendo um problema mais complicado."
Isso é conhecido como escalabilidade fraca e tem sido usado pela comunidade de HPC para cargas de trabalho de pesquisa desde então.
"As tecnologias avançaram, os algoritmos avançaram, o hardware avançou, até o ponto em que agora temos máquinas com um poder imenso e podemos aproveitar essa escalabilidade maciça", disse Matsuoka. "Mas ainda estamos progredindo com essa escala fraca, mesmo coisas como GPUs, é uma máquina de escala fraca."
Essa é a "situação atual neste momento", afirmou.
Isso pode mudar à medida que nos aproximamos do fim da Lei de Moore, a observação de que a potência de um CPU (com base no número de transistores que podem ser colocados nele) dobrará a cada dois anos. A Lei de Moore operou para fornecer um número cada vez maior de núcleos de processador por dólar gasto em um supercomputador, mas, à medida que a fabricação de semicondutores se aproxima de limites físicos fundamentais, isso não será mais o caso.
"Não seremos mais capazes de obter o aumento de velocidade desejado apenas com a escalabilidade fraca, então isso pode começar a divergir", alertou Matsuoka.
Já estamos começando a ver sinais de abordagens diferentes. Com modelos de aprendizado profundo como IA generativa capazes de usar precisões mais baixas, como FP16 e FP8, os projetistas de chips adicionaram unidades de multiplicação de matriz em seus últimos hardwares para torná-los significativamente melhores em tais ordens de precisão mais baixas.
"Ainda é uma escala fraca, mas a maioria dos aplicativos de HPC não pode aproveitá-los porque a precisão é muito baixa", disse Matsuoka. "Então, os projetistas de máquinas estão surgindo com todas essas ideias para manter o desempenho escalável, mas, em alguns casos, estão ocorrendo divergências que podem não levar a um design uniforme em que a maioria dos recursos possa ser aproveitada por todos. Isso levaria a uma imensa diversidade de tipos de computação."
Isso poderia mudar o cenário dos supercomputadores. "Algumas pessoas afirmam que será muito diversificado, o que é ruim, porque então teríamos que construir máquinas específicas para um propósito específico", disse ele. "Acreditamos que deveria haver mais uniformidade, e é algo em que estamos trabalhando ativamente."
A cloudificação da HPC
A Riken, instituto de pesquisa de Matsuoka, está buscando maneiras de acompanhar o ritmo dos hiperscalers, que estão gastando bilhões de dólares a cada trimestre em tecnologias de ponta.
"Não é fácil nem mesmo para as empresas de nuvem - uma vez que você entra nessa guerra de escalabilidade, você precisa entrar no jogo", disse Matsuoka.
Os programas de HPC respaldados pelo Estado levam cerca de 5 a 10 anos entre cada sistema principal, trabalhando desde o início em uma máquina de mudança radical. Durante esse tempo, os sistemas baseados em nuvem podem passar por várias gerações de hardware.
"A única maneira que vemos para resolver esse problema é sermos ágeis combinando várias estratégias", disse Matsuoka. Ele deseja continuar lançando sistemas enormes, baseados em P&D fundamental, uma ou duas vezes por década - mas complementá-los com atualizações mais regulares de sistemas comerciais.
Ele espera que um programa paralelo possa entregar novas máquinas mais rapidamente, mas a um custo mais baixo. "Não será um bilhão de dólares [como o Fugaku], mas pode ser algumas centenas de milhões de dólares. Esses modelos fundamentais e suas implicações estão nos atingindo em um ritmo muito rápido, e precisamos agir de maneira muito reativa".
A Riken também está experimentando a 'Plataforma Fugaku Cloud' para disponibilizar seu supercomputador de forma mais ampla em parceria com a Fujitsu.