Onde os modelos vão morar?

Essa é a pergunta que pode definir a próxima geração de titãs da tecnologia, à medida que a indústria de Data Centers se esforça para suportar um aumento esperado - embora longe de ser garantido - nas cargas de trabalho de inteligência artificial (IA) generativa.

O treinamento de modelos acontecerá em grandes Data Centers, mais próximos em design dos supercomputadores da última década do que das instalações corporativas clássicas de hoje. Eles provavelmente exigirão enormes quantidades de energia, refrigeração líquida e dezenas de milhares de GPUs.

Mas e a inferência, a fase, uma vez que o modelo é treinado, ele está sendo colocado em produção? Onde os modelos de IA viverão e operarão quando estiverem todos crescidos e prontos para trabalhar?

O modelo de IA provavelmente precisará de mais computação no total nesta fase, porque será treinado apenas algumas vezes, mas usado por milhões diariamente. Ele também será mais distribuído, rodando em GPUs de baixo custo ou CPUs próximas aos usuários.

O treinamento pode acontecer longe dos usuários, pois os modelos levam meses para serem criados e não são sensíveis à latência. Mas, uma vez que está no mundo real e sendo inferido pelos usuários finais, o tempo que leva para carregar e responder pode se tornar crítico para os negócios.

Isso se soma a uma demanda por inferência no Edge, de acordo com a operadora de infraestrutura de Edge Cloudflare.

No final do ano passado, a Cloudflare disse que teria GPUs Nvidia em mais de 100 cidades oferecendo seu serviço 'Workers AI' para cargas de trabalho generativas de IA. Dentro de um ano, espera implantá-los "em quase todos os lugares" em sua rede, que abrange Data Centers em mais de 300 cidades.

A empresa começou como uma operadora de rede de entrega de conteúdo (CDN), mas se expandiu para serviços de rede e segurança mais amplos, tornando-se cada vez mais uma empresa de nuvem.

Agora, ela quer dominar o espaço de inferência de IA.

Onde o modelo mora

Algumas pessoas propuseram que a inferência de IA poderia ser delegada diretamente aos dispositivos do usuário final que estão entregando os resultados aos usuários. Os telefones de hoje certamente têm muito poder de processamento - o chip A17 do iPhone 15 tem seis núcleos de GPU, oferecendo desempenho suficiente para vídeo 4K a até 60fps - mas John Engates, CTO de campo da Cloudflare, diz que isso não é suficiente para inferência.

"Uma certa quantidade [de trabalho de IA generativa] será feita no dispositivo", disse Engates ao DCD. "Mas é limitado, o dispositivo tem apenas uma certa quantidade de poder de processamento e capacidade da bateria. As GPUs não são nem de longe tão capazes quanto as que vivem em um Data Center”.

T4-GPU-web.width-358
– Nvidia

"As pessoas gostam de falar sobre o que o iPhone mais recente é capaz em termos de GPU, mas quando você o compara com uma GPU Nvidia rodando em um servidor, são ordens de magnitude em cima de ordens de magnitude diferentes em termos de capacidade”.

Embora alguns modelos menores possam ser executados em dispositivos - assim como o reconhecimento de voz para sistemas de IA como o Google Assistant é feito pelo telefone - Engates acredita que as limitações do hardware significarão que os modelos maiores e melhores são mais adequados para o Edge.

"O Llama 2 [da Meta] tem mais de 100 gigabytes", disse ele, grande demais para dispositivos portáteis.

"Se pudermos hospedar isso no Edge e fazer alguma inferência com essas GPUs, podemos eliminar muitas das limitações de largura de banda e desempenho e combiná-las com o que está no dispositivo. Não é um 'ou-ou', mas talvez um 'ambos'".

Onde a latência é importante

"Todo o nosso modelo de negócios é construído em pequenos Data Centers em todos os lugares - alguns deles são bastante substanciais, mas de um modo geral, pequenos e em todos os lugares", disse Engates. "Eles estão vivendo dentro de fornecedores de nuvem ou empresas de telecomunicações ou Data Centers que existem em uma determinada geografia. Cada área geográfica é diferente; cada país tem seus próprios desafios."

Isso levou a uma vasta infraestrutura global focada na redução da latência.

"Estamos a 50 milissegundos de 95% da população mundial", disse ele. "O que você pode fazer com isso? A segurança faz sentido e a distribuição de conteúdo faz sentido. E então a inferência de IA no Edge faz muito sentido, porque você precisa realmente pensar em como a latência afeta o desempenho e o que podemos fazer para turbinar os aplicativos".

Isso vale a pena descompactar: com a IA generativa mudando tão rapidamente, os casos de uso final exatos permanecem desconhecidos. Certas cargas de trabalho, como a geração de imagens, levam tempo para criar artes, portanto, reduzir alguns segundos de latência terá impacto limitado.

Os usuários relataram frustração com a velocidade das conversas do ChatGPT, mas provavelmente tem mais a ver com a velocidade que o modelo leva para ser executado (juntamente com a escassez de GPU) do que com a proximidade física com os usuários. Embora ainda se beneficie de estar no Edge, Engates diz que a latência se tornará mais crítica na próxima geração de IA.

"Pense em um aplicativo de voz como o Siri. Você vai querer que seja imediato, você vai querer que seja como a conversa que você e eu estamos tendo agora", disse ele. "E isso exigirá uma combinação muito legal de no dispositivo, na nuvem e no Edge".

Engates admitiu que ainda não sabemos quais serão os aplicativos sensíveis à latência, observando que os carros autônomos podem se beneficiar da IA generativa para ajudar a perceber o mundo.

Embora os veículos autônomos atuais tenham se tornado hábeis no reconhecimento de imagens, um grande modelo de linguagem poderia ajudar a explicar essas imagens para o carro - por exemplo, o carro pode ser capaz de reconhecer um homem ou uma criança ao lado da estrada, mas o LLM seria melhor em entender que a criança poderia ser mais propensa a correr repentinamente para o tráfego que se aproxima.

Esses carros, no entanto, provavelmente continuarão a depender da computação a bordo para inferência, dada a necessidade óbvia de latência extremamente baixa.

O Edge também servirá a outra função mais mundana para a IA generativa: conformidade. Os dados já são rigidamente regulamentados em algumas regiões, mas a natureza dominante da IA generativa pode levar a muito mais supervisão do governo. Diferentes nações exigirão diferentes versões de modelos para se adequar às suas próprias opiniões sobre liberdade de informação, direitos autorais, proteção ao emprego e privacidade.

Restrição

O Workers AI da Cloudflare incluirá suas próprias restrições. Ele não suportará modelos fornecidos pelo cliente e suportará apenas os modelos Llama 2 7B e M2m100-1.2 da Meta, Whisper da OpenAI, Distilbert-sst-2-int8 da Hugging Face, Resnet-50 da Microsoft e bge-base-en-v1.5 da Baai.

A Cloudflare planeja adicionar mais modelos no futuro, com a ajuda do Hugging Face.

"Você tem que começar de algum lugar", disse Engates, vendo essa abordagem como uma garantia de que "os casos de uso básicos estejam funcionando".

Mas ele espera que os casos de uso se expandam: "Teremos que descobrir alguns sistemas para gerenciar os custos associados à hospedagem de seus próprios modelos e como eles vivem em nossa nuvem. Acho que o cache é provavelmente a coisa mais importante - quantos lugares você quer que o mesmo modelo viva? Com que rapidez ele precisa estar disponível nesses diferentes locais?”.

"Haverá clientes que nos pedirão coisas muito específicas ao longo do tempo, e teremos que descobrir como habilitá-las. Tratava-se de tentar mostrar às pessoas o que é possível e divulgá-lo rapidamente. Em seguida, a equipe volta ao trabalho e itera para a próxima rodada de lançamentos".

A primeira onda

Há demanda suficiente para este primeiro passo na IA generativa para apoiar o lançamento inicial, disse Engates.

"Todas as pessoas estão tentando experimentar o que vão fazer com a IA generativa - vi várias pessoas construindo seus próprios chatbots bem em cima do Edge da Cloudflare. Outra pessoa construiu um sistema do tipo Google Tradutor em 18 linhas de código. O objetivo é apenas tornar o mais fácil possível para os desenvolvedores experimentarem as coisas e colocá-las em funcionamento. É cedo e muitas dessas coisas ainda estão em modo beta".

Mas ele espera que o Workers AI vá além da experimentação e permita que novos projetos saiam da infraestrutura, com a mentalidade de 'construa e eles virão' que os proponentes do Edge sempre esperaram.

"Imagino que muito em breve eles amadurecerão e se transformarão em coisas nas quais as pessoas confiarão todos os dias com SLAs muito, muito rígidos em relação ao tempo de atividade e desempenho", disse ele. "Temos que divulgá-lo para que as pessoas nos digam o que querem".

Engates espera que o feedback do mercado aponte para algo transformador, semelhante aos principais saltos tecnológicos do passado.

"Isso me lembra desses grandes pontos de inflexão em nossa vida", disse ele. "Minha carreira é antiga: quando comecei no início dos anos 90, a Internet era nova. Comecei um ISP logo após a universidade e saí para ajudar a iniciar a Rackspace como CTO por quase 18 anos”.

"A próxima grande inflexão foi móvel e a próxima foi a nuvem. Agora estamos aqui com a IA, e ela me parece quase maior do que as outras combinadas. Está aproveitando todos eles e está se baseando neles para lançar essa novidade".

Uma nova rede

É difícil dizer o quão profundo é esse momento.

Existe a possibilidade de que a bolha estoure e a Cloudflare tenha que conter quaisquer ambições mais amplas e redirecionar as GPUs para outros aplicativos, incluindo seus esforços contínuos para usar a IA para tornar sua rede mais inteligente.

Depois, há a possibilidade de que o conceito faça jus ao hype - que cada empresa execute seu próprio modelo (ou pelo menos a versão de um modelo), e cada pessoa converse regularmente com um assistente virtual instantâneo por voz ou até mesmo vídeo.

Isso pode exigir uma mudança de mudança na escala em que a Cloudflare terá que operar. Pode exigir mais capacidade do que pode ser fornecida nos Data Centers menores ou mais focados em telecomunicações que costuma frequentar, necessitando de mais implantações por atacado e implantações de borda maiores.

"Dentro da Cloudflare, existem diferentes camadas do que consideramos Edge. Há o Edge que está dentro de um gabinete no Data Center de outra pessoa, em comparação com uma infraestrutura maior em lugares como Nova York, que têm populações consideráveis", disse Engates.

"A rede da Cloudflare vai evoluir e mudar com o tempo - isso é uma coisa viva, que respira", disse ele. "Investimos em pessoas que realmente entendem muito bem o mercado de hiperescala, nossas equipes estão crescendo em termos de capacidade de inovar nesse contexto”.

"É tudo para que possamos nos tornar a base para todas essas coisas legais que achamos que estão por vir".