Visitar o campus West Cambridge da Universidade de Cambridge é estar imerso em ciência e tecnologia de ponta.
Ao entrar no local, é impossível deixar de notar a enorme estrutura branca reluzente do Ray Dolby Centre, que em breve será a nova casa do Laboratório Cavendish, o departamento universitário em que o nêutron e o elétron foram descobertos. Se você está planejando uma viagem de um laboratório para outro, pode fazer um passeio (muito lento) em um dos ônibus sem motorista que muitas vezes podem ser encontrados atravessando o campus.
Escondido em um canto tranquilo perto da rodovia M11, na apropriadamente chamada Ada Lovelace Road, você também encontrará o que pretende ser o supercomputador de IA mais rápido do Reino Unido.
Instalado no Data Center de West Cambridge, o supercomputador Dawn foi criado como parte de um esforço do governo para aumentar o poder de computação nacional do Reino Unido e apoiar projetos científicos em todo o país.
O Dawn nasceu em fevereiro com o lançamento oficial da máquina, mas é a segunda fase do projeto, que pode ver suas capacidades aumentarem dez vezes, em que os benefícios podem ser verdadeiramente transformadores para os pesquisadores.
Um novo Amanhecer*
O Dawn é gerenciado pelo Cambridge Open Zettascale Lab, parte do departamento de Serviços de Computação de Pesquisa da Universidade de Cambridge. O departamento fornece serviços de IA, armazenamento de dados e computação de alto desempenho (HPC) para as equipes de pesquisa da universidade e outras instituições acadêmicas em todo o país.
“A maior parte do nosso negócio vem através dos conselhos de financiamento para fornecer serviços nacionais”, explica o Dr. Paul Calleja, diretor da Research Computing. “Antes do Dawn, provavelmente tínhamos 3.000 servidores x86 de várias gerações. Normalmente temos três gerações de chips Intel - no momento temos Cascade Lake, Ice Lake e Sapphire Rapids - e em termos de IA, temos uma grande propriedade de GPUs Nvidia”.
“Vimos a demanda por serviços de HPC crescendo a uma taxa bastante previsível, mas a IA realmente disparou nos últimos dois anos”.
De fato, o boom da IA dos últimos 18 meses, impulsionado inicialmente pela popularidade do sistema de IA generativa ChatGPT da OpenAI, pegou muitas empresas e governos em todo o mundo desprevenidos. Mas quando a IA generativa surgiu, o Reino Unido já estava avaliando suas capacidades de processamento como parte da revisão do Futuro da Computação, encomendada pelo governo no verão de 2022.
A revisão, publicada em março de 2023, descobriu que o ecossistema de computação do Reino Unido não estava atendendo às necessidades dos usuários e “limitando a capacidade científica do Reino Unido e inibindo avanços científicos”.
“Tivemos que fazer algo porque, nos últimos 10 a 15 anos, temos subfinanciado radicalmente esse espaço no Reino Unido”, diz o Dr. Calleja, cujo departamento contribuiu para o processo de revisão. “Sempre diria que precisávamos aumentar drasticamente nossos gastos com IA e HPC”.
Uma abordagem aberta ao hardware de IA
E foi assim que o Dawn foi anunciado em novembro, para coincidir com a cúpula de segurança de IA do Reino Unido, realizada em Bletchley Park. A máquina fazia parte de um plano de 300 milhões de libras (2,18 bilhões de reais) para construir o que os ministros descrevem como um novo Recurso Nacional de Pesquisa em Inteligência Artificial (AIRR). Isso também envolve a construção de outro supercomputador de IA, o Isambard-AI, na Universidade de Bristol.
Construído pela Intel e pela Dell em parceria com o fornecedor britânico StackHPC, o Dawn contém 512 processadores escaláveis Intel Xeon de 4ª geração e 1.024 aceleradores Intel Data Center GPU Max 1550 em 256 nodos de servidor Dell PowerEdge XE9640, oferecendo até 128 gigabytes de memória de alta largura de banda. O sistema se beneficia do resfriamento líquido direto.
O Dr. Calleja diz que a decisão de usar o hardware da Intel em vez do líder de mercado de GPU, Nvidia, foi motivada por dois fatores; o compromisso do fornecedor com a arquitetura aberta e o desejo de diversificar a rede de suprimentos de hardware do Reino Unido. O fato de a Intel, junto com a Dell, ter se oferecido para financiar totalmente a primeira fase do desenvolvimento da máquina provavelmente também não foi um problema.
“A direção da Nvidia é clara”, diz Calleja. “Cada movimento que faz é para tornar seu ecossistema mais proprietário, para que haja mais aprisionamento e possa manter o preço de suas ações no nível atual. É uma loucura e tem que mudar porque o ecossistema precisa de competição”.
“Como nação, temos que estar atentos à diversidade da rede de suprimentos por razões de preço, prazo de entrega e segurança. Portanto, se o Reino Unido pretende investir centenas de milhões de libras em hardware, meu argumento é que você investe dois terços disso no atual líder de mercado e investe um terço no crescimento da rede de suprimentos”.
“O ecossistema da Intel atualmente tem um número menor de grandes usuários do que o da Nvidia, mas estamos acostumados com isso com novas arquiteturas. Eles investiram significativamente na primeira fase deste sistema, e é uma situação em que todos saem ganhando, porque eles divulgam sua tecnologia, e o governo ganha porque obtém acesso a um sistema inovador”.
Calleja diz que a “longa história” de padrões de software abertos da Intel em torno de seu ecossistema de processadores x86 a coloca em boa posição para fazer incursões na IA, apesar do atual domínio da Nvidia no mercado. “O ecossistema x86 é tão rico por causa do compromisso da Intel em ser aberto”, diz ele. “98% das cargas de trabalho científicas são executadas em x86, e a Intel investe nisso e está empregando uma filosofia semelhante com GPUs”.
Onde a Nvidia tem sua estrutura de desenvolvimento Cuda para IA, a Intel tem oneAPI, um conjunto de ferramentas multiplataforma. “Isso significa que, se você desenvolver em uma API, poderá executar esse código em um sistema Nvidia, um sistema Intel ou um sistema AMD”, diz o Dr. Calleja. “Isso, acredito, acabará vencendo e já tenho clientes que usam a Nvidia, mas não querem desenvolver no Cuda porque não querem ficar presos”.
“Grandes projetos de software científico estão em ciclos de investimento de 30 anos, enquanto os ciclos de hardware são mais propensos a ser de quatro anos, por isso é muito melhor se você puder ser multiplataforma. Para mim, é acéfalo, mas a Intel precisa de impulso e a Nvidia tem uma vantagem de dez anos”.
Os racks Dell PowerEdge apresentam resfriamento líquido direto, o que significa que o líquido é pulverizado em uma placa fria conectada diretamente aos componentes quentes. O Dr. Calleja diz que isso está de acordo com o espírito do Data Center de West Cambridge. “O Data Center tem dez anos e, quando o construímos, queríamos estar prontos para usar água [para resfriamento]”, diz ele. “Portanto, todos os nossos racks têm portas traseiras de resfriamento a água por legado”.
“Por muito tempo, ficamos longe de ter água nos servidores, porque não era necessário, mas agora é. Temos uma configuração híbrida usando água e ar, e nossa última geração de chips não refrigerados a água serão os Cascade Lakes, que estão entrando agora. Os mais novos são todos refrigerados a água”.
O Dr. Calleja diz que, graças à sua configuração de resfriamento híbrido, o Data Center como um todo atinge uma pontuação de Eficácia no Uso de Energia (PUE) de 1,14.
Por meio da parceria com a StackHPC, os pesquisadores que desejam acessar o Dawn podem fazê-lo por meio de um único painel de controle baseado em nuvem, conhecido como Scientific OpenStack, que também permite que eles utilizem o restante do poder de computação na propriedade de Serviços de Computação de Pesquisa.
“Ele é otimizado para HPC e IA e nos permite fazer muitas coisas diferentes em um ambiente seguro”, explica o Dr. Calleja. “Além disso, podemos implantar plataformas de pesquisa definidas por software para nossos clientes. Mudamos completamente para a maneira de trabalhar DevOps e isso realmente revolucionou a forma como operamos em termos de usabilidade, portabilidade e segurança”.
Belo Amanhecer**
Há dúvidas se a afirmação da Dawn de ser o supercomputador de IA mais rápido do Reino Unido é real.
Dados divulgados pela Intel na conferência SC23 em Denver, Colorado, no ano passado, mostram que o sistema atingiu um pico de 19 petaflops de desempenho FP64 comparado. Isso o coloca no mesmo nível do atual supercomputador do Reino Unido, o sistema Archer 2, que tem desempenho de referência de pico de 20 petaflops. O Archer2 está na posição 39 na lista dos 500 supercomputadores mais poderosos do mundo, e as especificações declaradas da primeira fase do Dawn o colocariam em 41º lugar na lista.
No entanto, embora essa medida indique os níveis gerais de desempenho do sistema, ela não mede sua capacidade de executar cargas de trabalho de IA. Até agora, a Intel não parece ter publicado informações de desempenho FP8 e FP16, o que poderia mostrar como o Dawn se compara a outros sistemas para essas tarefas específicas.
Os detalhes completos da segunda fase do Dawn, que será entregue ainda esse ano, também não foram divulgados. Isso será financiado pelo governo do Reino Unido, que prometeu 500 milhões de libras (3,6 bilhões de reais) para o projeto, e o Dr. Calleja espera que, quando comissionado, ofereça um aumento de desempenho de 10 vezes, superando em muito o poder do Archer 2. Uma melhoria de dez vezes em 20 petaflops classificaria o Dawn Phase Two entre os dez primeiros da atual lista global Top500 dos supercomputadores mais poderosos.
A fase atual do Dawn já está sendo testada por pesquisadores em Cambridge e além. Um dos primeiros usos revelados publicamente para o sistema é um projeto conjunto da Autoridade de Energia Atômica do Reino Unido (UKAEA) e da Universidade de Cambridge, que verá os pesquisadores desenvolverem uma simulação de um reator de fusão planejado para acelerar o desenvolvimento da tecnologia.
As duas agências estão usando o Dawn para criar um gêmeo digital do protótipo da usina de fusão Spherical Tokamak for Energy Production, que está programada para criar um “plasma em chamas” até 2035 e produção líquida de eletricidade até 2040.
A fusão nuclear tem o potencial de fornecer energia sustentável ilimitada, imitando as condições do Sol, fundindo átomos leves em átomos mais pesados. No entanto, as suposições de trabalho atuais sugerem que a tecnologia permanece décadas longe da realidade. O Dawn pode ajudar a acelerar esse processo.
Em fevereiro, o Dr. Rob Akers, diretor de programas de computação da UKAEA, disse: “Ter acesso a sistemas poderosos como o Dawn é fundamental para posicionar o Reino Unido na vanguarda de uma tecnologia e indústria emergentes”.
“O prêmio final será 'engarrafar uma estrela' – aproveitando a energia de fusão aqui na Terra e mudando a agulha para um mundo livre de carbono”.
Também se espera que ele possa ser usado na descoberta de medicamentos, para permitir o desenvolvimento de medicamentos personalizados com base no DNA de um indivíduo e para ajudar os cientistas a modelar as mudanças climáticas e seu impacto.
O Dr. Calleja espera que o Dawn, juntamente com a outra infraestrutura de supercomputação do Reino Unido que forma o AIRR, também seja usado em Whitehall. “Longe da ciência, outro grande impulsionador para isso são os próprios casos de uso do governo”, diz ele. “É ver como disponibilizamos essas tecnologias aos departamentos governamentais para que eles possam obter ganhos de eficiência”.
No cargo por 17 anos, ele testemunhou várias grandes mudanças no cenário de HPC e acredita que a IA e os supercomputadores focados em IA, como o Dawn, estão prestes a mudar o curso do desenvolvimento das chamadas máquinas exascala, a próxima geração de HPC que promete oferecer exponencialmente mais poder de computação.
Um sistema exascala, o Frontier, já existe nos EUA, e a China supostamente tem dois em operação, embora não os tenha submetido a benchmarking. A UE tem dois em desenvolvimento, um dos quais será sediado na Alemanha, e em outubro o Reino Unido revelou que a Universidade de Edimburgo havia sido selecionada como o local para a primeira instalação exascale do Reino Unido. O trabalho no sistema deve começar em 2025 e que, uma vez concluído, ofereça um aumento de desempenho de 50x em comparação com o Archer2.
No entanto, o Dr. Calleja argumenta que essas máquinas podem vir a ser “a solução de ontem para o problema de amanhã”. Ele explica: “A exaescala é um desafio, essas máquinas são grandes e difíceis de operar, e fazer com que o código seja executado nessa escala é problemático”.
“A promessa da exaescala é que você pode resolver problemas maiores essencialmente forçando esses problemas com uma máquina maior. Agora você pode treinar um modelo de IA para fazer isso por você”.
Ele acrescenta: “A IA terá um grande impacto no mercado tradicional de HPC. A comunidade é inteligente e teve que se adaptar às mudanças no passado, e estamos em outro momento de mudança de época agora. Eu diria que já estamos na era pós-exaescala porque, com a IA, você pode obter muito mais retorno pelo seu investimento”.
* e **: Jogo de palavras com o nome do computador - Dawn em inglês também significa amanhecer