A primeira coisa que todos mencionam sobre a Cerebras é o seu tamanho.

Em várias entrevistas com a DCD, o CEO da empresa tentou chamar nossa atenção para outros benefícios potenciais da arquitetura de chips e como a startup planeja construir um negócio sustentável de IA.

E, no entanto, inexoravelmente, por mais que tentássemos, voltamos ao tamanho de seus chips.

O maior chip do mundo, o Wafer Scale Engine 2, tem 2,6 trilhões de transistores, significativamente mais do que a GPU H100 high-end da Nvidia, que chega a 80 bilhões. Construído em TSMC de 7nm, o WSE-2 tem 850.000 núcleos “otimizados para IA”, 40 GB de memória SRAM no chip, 20 petabytes de banda larga de memória e 220 petabytes de banda larga de tecido agregado.

Para quem pode pagar, ele pode ser adquirido como o Cerebras CS-2, um estojo de 15U que também inclui a HPE e a CPU SuperDome Flex da AMD para uma potência máxima sustentada do sistema de 23kW. “São cerca de 1,5 milhão de dólares (7,3 milhões de reais)”, disse o CEO Andrew Feldman.

Mas não voámos para Santa Clara para ver algo nos míseros sete dígitos.

Fomos ver o computador superpotente que a Cerebras construiu a partir de vários sistemas CS-2: Andrômeda.

Com 16 CS-2s, 18.176 núcleos AMD Epyc Gen 3 e cerca de 13,5 milhões de núcleos, o Andrômeda é um dos supercomputadores mais poderosos do mundo, pelo menos em benchmarks de IA de precisão única, onde publica mais de um exaflop de computação.

A Cerebras oferece o Andrômeda como um serviço de nuvem. Feldman diz que alguns clientes usarão o serviço para testar a arquitetura exclusiva, antes de passar para uma compra maior (mais sobre isso mais tarde). Outros o usarão como uma plataforma de nuvem contínua em vez de comprar seus próprios equipamentos.

O Andrômeda é o início de um plano audacioso para abocanhar uma fatia do crescente mercado de IA, e seu data center também vê isso como uma oportunidade.

O supercomputador está alojado em uma instalação de colocation administrada pela Colovore. Depois de anos como um operador de nicho de instalação única, a Colovore vê o sistema Cerebras e outros semelhantes como um ponto de inflexão crítico, onde os requisitos de alta densidade das cargas de trabalho de IA acabarão mudando a indústria de data centers para o resfriamento líquido.

A Colovore espera se expandir pelos EUA e construir a próxima geração de data centers.

Usando um wafer inteiro

Mas, antes disso, precisamos voltar ao tamanho. A Cerebras pretende construir um produto do tamanho de um wafer semicondutor, que em teoria é grande o suficiente para os desafios atuais.

“Quando começamos a brincar com a ideia e quando começamos a empresa em 2016, vimos a necessidade de uma quantidade enorme de computação”, explicou Feldman.

Os semicondutores são fabricados em wafers circulares de 300 mm de largura. Um chip complexo pode ter até 800 milímetros quadrados e, normalmente, os fabricantes de chips obtêm cerca de 60 deles de um único wafer. A Cerebras precisava de mais do que isso.

“Pensamos que seria muito mais do que um único chip tradicional de 800 milímetros quadrados poderia oferecer. E isso significava que os chips precisavam ser montados. Havia duas maneiras de fazer isso: uma abordagem inovadora, que era a nossa abordagem, ou sair e comprar uma empresa de tecidos e pensar em como juntá-las de maneiras muito tradicionais”.

A Nvidia seguiu o caminho tradicional, comprou a Mellanox e usou seu interruptor de tecido para oferecer megachips virtuais, juntando chips: “Basicamente, todos esses chips começam no wafer e depois são cortados. E depois compra-se mais equipamento para juntar: “Volte a juntá-los. Essa é a elegância, se você mantém Humpty Dumpty inteiro, você não precisa usar cola ou outras coisas para voltar a juntá-lo”.

A Cerebras espera que seu chip Humpty Dumpty esteja pronto para um momento único em hardware de TI. O lançamento do ChatGPT e a consequente onda geradora de hype de IA representam uma oportunidade única para definir uma nova geração de hardware, além dos mercados tradicionais de CPU e GPU.

No entanto, esse boom destacou duas coisas: primeiro, que o novo mercado é liderado por uma empresa de código fechado, a OpenAI. E segundo, que nem mesmo o megachip da Celebras é grande o suficiente para o que está por vir.

Sobre o primeiro ponto, Feldman observou que “é ruim para outros fornecedores de hardware se houver um número muito pequeno de fornecedores de software muito poderosos, ruim para o ecossistema, ruim para a inovação e ruim para a sociedade”.

Vendo a oportunidade, a Cerebras ofereceu o Andrômeda à comunidade de IA e conseguiu lançar rapidamente seus próprios modelos generativos, com sete modelos variando de 11 milhões a 13 bilhões (há rumores de que o GPT-4 tenha mais de um trilhão).

Embora os modelos não possam competir com os da OpenAI, eles serviram a um propósito: mostrar à comunidade que é fácil trabalhar com o hardware da Cerebras e provar que pode escalar.

Esse é o argumento de outro tamanho que Cerebras levanta. A empresa afirma ter dimensionamento linear quase perfeito em vários CS-2.

Feldman argumenta que a arquitetura grande significa que você pode ajustar todos os parâmetros de um modelo na memória off-chip e dividir a computação igualmente em vários chips. “Como resultado, quando marcamos 16, 32 ou 64 para um cliente, dividimos os dados por esse número, enviamos uma fração dos dados para esse chip, e cada um de seus amigos, faz a média dos resultados e leva cerca de uma 16ª vez ou uma 32ª vez.

“Essa é uma característica de poder fazer todo o trabalho de computação em um único chip; é um dos grandes benefícios de ser grande”.

Benefícios ao anfitrião

Embora a empresa tenha se concentrado em ser grande, seu host de data center sempre se beneficiou de ser pequeno.

A Colovore é uma pequena operadora, cuja única instalação mal pode acomodar a Cerebras, Lambda Cloud e outros no local. Lançada em 2013, abriu um mercado igualmente pequeno em racks refrigerados a líquido com capacidade de até 35 kW.

cs-wafer-comparison-gpu-black_cerebras.width-358
– Cerebras

“Não achamos mais que o resfriamento líquido seja um nicho”, disse o CFO e cofundador Ben Coughlin. “Acho que com a adoção da IA, isso está se tornando muito mais comum. É por isso que acho que estamos passando rapidamente de um mercado pequeno e definido para algo muito maior. Achamos que há uma grande oportunidade”.

Enquanto outros ainda estão tentando definir sua estratégia de resfriamento líquido e estão se acostumando com novos projetos e processos, a Colovore tem uma década de experiência.

“Se olharmos para nossos colegas operadores de data center, será um desafio para eles terem que girar e se adaptar", disse Coughlin. “Eles têm designs muito padronizados, e os utilizaram com sucesso, mas são fundamentalmente diferentes. Não é tão fácil passar do ar ao líquido”.

O CTO, cofundador e ex-chefe do data center do Google, Peter Harrison, concordou: “[Os principais colocations] entenderam a revolução da IA, mas sentem que este não é o momento de fazer esse investimento”.

“Em parte, porque eles têm todos esses custos em instalações mais antigas e, se admitirem que esse nicho se tornou cada vez mais comum, correm o risco de serem punidos pelos mercados dizendo que seus data centers estão desatualizados”.

Harrison acredita que os hiperescalas não estão esperando que os atacadistas se atualizem e estão modernizando suas próprias instalações e ignorando o intermediário.

“E assim, quando os principais players dizem que não veem IA, eles podem realmente não vê-la. Na realidade, eles estão sendo simplesmente ignorados”.

Muitas marcas maiores também estão mirando clientes com receitas comprovadas, algo que a nova geração de startups de IA não tem. “Então, muitas startups têm dificuldade em tentar se envolver em muitas dessas instalações”, disse Harrison.

“As instalações exigem um contrato de longo prazo e grandes quantidades de compromisso inicial para a capacidade”, acrescentou. “É possível que uma startup não saiba necessariamente o que pode ser porque não conhece sua demanda. É por isso que permitimos que as empresas comecem com um gabinete e possam aumentar um gabinete de cada vez”.

Essa abordagem, juntamente com suas capacidades de resfriamento, fez com que a Colovore se expandisse tão rapidamente quanto uma das startups que hospeda. A empresa está começando perto de casa e recentemente comprou um prédio adjacente para converter em um data center de 9 MW. Então olhará mais longe.

Coughlin explicou: “Temos planos de expandir e adicionar mais capacidade dentro e fora do mercado. Estamos planejando muito com nossos clientes para determinar para onde ir”.

“Acreditamos, fundamentalmente, que essa alta densidade e alta capacidade de processamento de transações deve estar nas grandes áreas metropolitanas, porque é onde os dados são gerados, gerenciados, armazenados e analisados”.

A empresa afirma ter um projeto de data center padronizado para ambientes relativamente secos e muito úmidos, tornando a maioria das áreas metropolitanas dos EUA locais potenciais. “Há uma série de mercados mal atendidos nos EUA que achamos que também precisariam dessas instalações”, acrescentou Harrison.

“Os mercados que me vêm à cabeça seriam como Detroit”.

Colovore_Cooling.width-358
– Sebastian Moss

Enquanto outras empresas ainda estão trabalhando em sua estratégia de liquidez, Coughlin acredita que “no curto prazo temos a oportunidade de crescer rapidamente e expandir nossos negócios”.

Ele também espera conseguir se manter à frente da curva com o nível de resfriamento. “Quando usamos líquido direto, podemos obter projetos de até 300 quilowatts em um único rack”, disse Coughlin.

Para sua configuração básica, a empresa oferece resfriamento líquido por meio de um trocador de calor de porta traseira, que pode suportar até 50 kW em um gabinete.

“Dimensionamos a tubulação na frente para poder entregar as maiores densidades, mas se um cliente chega e diz que só precisa de 10 kW em um gabinete, simplesmente não fornecemos tanta água nesse rack. Podemos controlar o fluxo de cada um“, disse Coughlin.

Mas, apesar de toda a experiência da empresa com refrigeração líquida, ir além de seu único prédio seria um grande salto. Talvez, sugeriu a DCD, a empresa pudesse trabalhar com seu investidor Digital Realty?

À medida que avançamos para a próxima fase, estamos muito, muito abertos a parcerias com a Digital, eles têm presença em todos os mercados que gostaríamos de atingir”.

“E conversamos com eles informalmente sobre o lançamento da Colovore como sua oferta de alta densidade", admitiu Coughlin.

Aurora encontra a galáxia

Enquanto falávamos, outra discussão informal estava prestes a terminar. Poucas semanas após a visita, a G42, cliente de nuvem da Cerebras, assinou um grande acordo com a empresa de chips, inicialmente para construir um novo supercomputador enorme nas instalações da Colovore.

A empresa de inteligência artificial com sede nos Emirados Árabes Unidos, que é controlada pelo filho do fundador do Estado e foi acusada de espionar cidadãos dos Emirados Árabes Unidos, dissidentes e estrangeiros, recorreu à Cerebras para construir o supercomputador Condor Galaxy. Já implantado, ele tem 27 milhões de núcleos de computação de IA, com dois exaflops de desempenho de IA de precisão única.

Em poucos meses, esse supercomputador dobrará de tamanho. No primeiro semestre de 2024, mais dois entrarão em operação em data centers diferentes, um em Austin, Texas, e outro em Asheville, Carolina do Norte, com mais seis planejados ainda esse ano. No total, são 36 exaflops de desempenho de precisão única e 489 milhões de núcleos de IA.

“Esses caras procuravam estabelecer uma parceria com uma empresa que pudesse construir, gerenciar e operar supercomputadores e que pudesse implantar modelos de IA generativa muito grandes, e tinha experiência em manipular, limpar e gerenciar grandes conjuntos de dados”, disse Feldman, da Cerebras, sobre o negócio. Acredita-se que valha mais de 100 milhões de dólares (490 milhões de reais) por sistema.

“Há um equívoco de que as únicas pessoas que poderiam construir clusters desse tamanho são hiperescalas nos EUA. Isso está claramente errado. Eles estão sendo construídos em todo o mundo. E há empresas das quais muita gente nos EUA não ouviu falar. “Temos uma demanda por IA no valor de centenas de milhões de dólares”.

“É extraordinariamente emocionante, é uma nova fase para a empresa. Como uma startup, a razão pela qual você sonha alto é para clientes como esse”.

Chips e sonhos, qualquer conversa sobre a Cerebras volta a ganhar importância.