A batalha pelo coração do data center está esquentando.

Antigamente, a história era simples. Um mercado de servidores dominado pelas CPUs x86 da Intel, constantemente atualizadas de acordo com a Lei de Moore.

Mas, como é o caminho das coisas, monopólio gerou complacência, retardando a inovação e o progresso tecnológico. Isso mudou em 2017, quando a AMD retornou agressivamente ao mercado de servidores, entrando no mercado com a linha de processadores Epyc.

Esta reportagem foi publicada na edição 50 da DCD Magazine. Leia gratuitamente aqui.

Agora, a empresa enfrenta ameaças próprias – no CPU por uma Intel revigorada e uma série de concorrentes da Arm. Pelo GPU, onde há muito tempo está em segundo lugar atrás Nvidia, viu sua rival explodir em popularidade, vendendo A100 e H100 por tonelada.

Na cúpula de data center da empresa neste verão, conversamos com o CTO da AMD, Mark Papermaster, para discutir sua guerra em várias frentes.

O grande anúncio do designer de chips foi a linha de processadores Epyc 97X4, codinome Bergamo. Usando a nova arquitetura Zen 4c, uma versão “nativa da nuvem” do Zen 4, a Bergamo tem design de área 35% menor e o dobro de núcleos, com os chips otimizados para eficiência em vez de apenas desempenho.

“Tivemos que nocautear uma concessionária que tinha mais de 95% de participação de mercado, você não faz isso dizendo 'eu tenho uma solução mais eficiente', você tem que nocauteá-los trazendo uma solução mais eficiente. Mas fizemos isso. Agora, podemos adicionar um dispositivo de computação de taxa de transferência eficiente ao nosso portfólio”.

A empresa afirma que os hiperescalas começaram a comprar a nova família de processadores em escala, atraídos pela economia de custos de chips mais eficientes em termos de energia. “No final do dia, os clientes tomam decisões com base em seu custo total de propriedade – eles olham para a computação que estão recebendo, a energia que estão gastando, o espaço que têm para dedicar ao seu servidor, e é aí que acreditamos que temos uma vantagem significativa em relação aos concorrentes”, disse Papermaster.

“Se não tivéssemos projetado para esse ponto, teríamos deixado isso em aberto. Mas acreditamos que, com a Bergamo, temos uma história de TCO convincente contra os concorrentes da Arm”.

Papermaster defendeu o x86 contra a Arm, que é apresentado como sendo mais eficiente. “As pessoas pensam 'ah, o Arm é inerentemente mais eficiente, o Arm sempre vai ter um núcleo muito, muito menor'”, disse ele.

“Mas a grande questão é o ponto de design para o qual você otimiza – se você pegar o Arm e otimizar para o ponto de design de alto desempenho que temos no [AMD CPU] Genoa, e você tiver multi-threading simultâneo, suporte para instruções como vetores de largura 512 e suporte à rede neural, então você vai aumentar a área significativamente”.

“Fizemos o caminho inverso, tínhamos o núcleo de alta performance. E dissemos aos nativos da nuvem, vamos otimizar em um ponto diferente da curva de tensão e frequência, mas adicionar mais núcleos”.

O executivo acrescentou: “Acho que isso colocará um tremendo desafio na frente de nossos concorrentes da Arm”.

Além do CPU, a AMD também tentou competir no espaço do acelerador, operando como um distante segundo designer de GPU.

À medida que a inteligência artificial generativa se tornou a maior história do ano, a Nvidia dominou as manchetes, cortejou investidores e quebrou recordes de vendas.

“No momento, não há competição por GPU no data center”, admitiu Papermaster. “Nossa missão na vida é trazer competição”.

A missão começa com o hardware, com a AMD anunciando um MI300X focado em IA generativa ao lado de sua versão 300A de IA e HPC de uso mais geral. Papermaster diz que “Tenho certeza de que haverá”.

Mas o hardware só chega até aqui, com o domínio da Nvidia se estendendo a um amplo conjunto de softwares usados por desenvolvedores de IA, notadamente a plataforma de computação paralela CUDA.

“Nossa abordagem é aberta, e se você executar sua redução de desempenho, podemos portá-la imediatamente, porque somos um GPU", disse Papermaster. “Temos uma ferramenta de portabilidade que leva você diretamente do CUDA para o ROCm”.

O ROCm não oferece suporte à API CUDA completa, e a quilometragem de portabilidade pode variar de acordo com a carga de trabalho. Os desenvolvedores ainda atestam que o CUDA é superior a uma porta ROCm, apesar das alegações de Papermaster.

“Há algum ajuste necessário para obter o melhor desempenho, mas não será um gargalo para nós”, disse Papermaster, observando que a maioria dos programadores não está escrevendo no nível mais baixo e, em vez disso, usa principalmente o PyTorch.

A AMD também está nos estágios iniciais do uso de IA para informar o futuro de seu próprio design de chip. “Criamos um grupo de IA dentro da empresa, que está identificando aplicativos que poderiam se beneficiar tanto da IA preditiva quanto da IA generativa. No próprio design de chips, estamos descobrindo que a IA generativa pode acelerar nossos processos de design em como colocamos e roteamos os diferentes elementos e otimizamos a implementação física”.

“Estamos descobrindo que isso está acelerando nossa verificação nesses circuitos e até mesmo nossa geração de padrões de teste, porque você pode executar um modelo e ele lhe dirá a maneira mais rápida de criar padrões de teste precisos. Também estamos usando isso em nossa fabricação, porque analisamos todos os dados de rendimento, quando você testa nossos chips em nossos parceiros de fabricação, e estamos identificando áreas pontuais que podem não estar no ponto de produtividade mais ideal”.

Ainda veremos a profundidade com que a AMD abraçará a IA, e também não está claro quanto tempo a atual onda de IA vai durar. “Nossa determinação é que a IA não é uma moda”, disse Papermaster, batendo na madeira.

Para atender a esse momento da computação, é necessário que a AMD e seus concorrentes disparem em todos os lados. “Você tem que ter um computador equilibrado”, disse Papermaster. “Temos que atacar todos os elementos de uma vez. Não há um gargalo: a cada geração, o que você nos vê fazer é melhorar os mecanismos de computação, melhorar a largura de banda para memória, a condutividade da rede e a conectividade de E/S”.

“Acreditamos muito em um computador equilibrado. Assim que você se fixa em um gargalo, você está ferrado”.