A IA generativa criou um aumento na demanda por clusters de GPUs em larga escala. Os modelos de IA precisam de treinamento, e isso é amplamente acelerado pelo uso de GPUs. Esses clusters processam paralelamente muitas funções matemáticas dentro das arquiteturas de software de rede neural que permitem que a IA generativa classifique e preveja.
No entanto, clusters desse tamanho são caros e exigem infraestrutura de data center personalizada e equipe altamente qualificada para instalação e gerenciamento. Eles não são facilmente adquiridos ou instalados hoje, com problemas na rede de suprimentos afetando ainda mais sua acessibilidade.
Uma das previsões do Uptime Institute para 2025 é que as empresas contarão com hiperescalas e fornecedores de nuvem para fazer a maior parte do treinamento de modelos de IA, que as empresas ajustarão e personalizarão.
A lei dos retornos decrescentes tem um impacto considerável no valor de treinar totalmente um modelo de IA usando infraestrutura dedicada. As empresas precisarão se comprometer entre custo e capacidade. O custo incremental de atualização de modelos de base compartilhados e infraestrutura em nuvem para modelos sob medida em infraestrutura dedicada pode não se converter em valor realizado.
Custo e benefício impulsionam as decisões de compra
A lei econômica dos retornos decrescentes descreve como uma melhoria adicional não oferece benefícios suficientes para justificar seu custo extra. Embora essa lei possa ser amplamente compreendida, raramente é considerada como parte do processo de tomada de decisão do dia a dia.
Por exemplo, o Uptime Institute frequentemente ouve de organizações que elas "não podem comprometer a segurança" ou "a resiliência não é negociável". No entanto, na prática, todas as empresas têm que se comprometer em algum momento - algumas adições simplesmente não oferecem benefícios suficientes para justificar a despesa.
Para acomodar a IA, esses compromissos também precisarão ser feitos, principalmente na soberania de dados e na precisão do modelo. Muitos líderes de TI dizem que não estão considerando a infraestrutura em nuvem ou modelos de terceiros para suas necessidades de IA, citando problemas de segurança ou preocupações com a precisão do modelo. Essas preocupações são válidas, considerando como uma violação de segurança ou má decisão pode afetar a sorte de uma organização - de multas e ações judiciais a danos à reputação.
Em última análise, no entanto, alguns riscos operacionais devem ser assumidos, mesmo que sejam minimizados. O desenvolvimento de um modelo personalizado em infraestrutura dedicada resolve essas preocupações o suficiente para justificar a despesa adicional em comparação com a nuvem?
Os clusters de IA são caros e complexos
Um cluster dedicado, uma coleção de servidores pertencentes e operados por uma empresa e hospedados em seu data center preferido, representa a base mais controlável e personalizável para o treinamento de modelos de IA. Como um cluster pertence e é gerenciado pela empresa, há uma percepção de segurança de dados aprimorada e conformidade regulatória.
As empresas podem restringir os dados usando controles internos e limitar a movimentação de dados a localizações geográficas escolhidas. O cluster pode ser personalizado e protegido para atender aos requisitos específicos da empresa sem as restrições de usar software ou hardware configurado e operado por terceiros. Dadas essas características, por conveniência, o Uptime Institute rotulou o método como "melhor" em termos de personalização e controle.
Infelizmente, o custo de tais clusters é proibitivo para muitas organizações. Esse investimento pode valer a pena se o retorno for garantido. No entanto, o retorno financeiro dos investimentos em IA ainda não foi determinado.
Alternativas à infraestrutura dedicada
Em vez de investir em infraestrutura e habilidades dedicadas, os fornecedores de nuvem pública e os fornecedores de modelos básicos oferecem recursos de IA sem custos de capital substanciais. No entanto, o uso dessas alternativas requer um compromisso no controle e na personalização. Como tal, eles podem fornecer modelos que são "bons" ou "melhores" em vez da "melhor" opção alcançada pela infraestrutura dedicada.
Nuvem pública
Hiperescalas como a Amazon, Google, Microsoft, Meta, Alibaba e Apple, bem como uma nova geração de fornecedores de nuvem como CoreWeave e Lambda Labs, oferecem infraestrutura de GPU e serviços de plataforma por meio da nuvem pública.
Ao usar a nuvem pública, os clientes podem acessar o recurso sob demanda, pagando apenas pelo que usam. Os clientes consomem apenas a capacidade de servidor necessária em vez de comprar e instalar um cluster grande. Eles podem usar um modelo de base como base para seu treinamento para simplificar e acelerar o desenvolvimento.
A infraestrutura como serviço (IaaS) permite que um cliente provisione máquinas virtuais contendo GPUs por meio de um portal ou API para desenvolver um modelo usando infraestrutura de nuvem. Em seguida, eles executam seu modelo de treinamento nessas máquinas virtuais e baixam o modelo concluído quando ele é concluído. Os fornecedores de nuvem também oferecem opções de plataforma como serviço (PaaS) que permitem que as empresas façam solicitações de IA - como traduções - diretamente para uma API, sem gerenciar nenhum aspecto do modelo ou infraestrutura subjacente.
O benefício da nuvem pública é que os clientes não precisam de capital ou habilidades para implementação e podem comprar capacidade quando necessário.
Modelos de fundação
Hiperescalas, startups e a comunidade de código aberto oferecem modelos básicos - software pré-treinado de terceiros. Muitas organizações já usam esses modelos para evitar custos e complexidade de treinamento.
Um modelo de base pode ser ajustado para atender a um caso de uso específico. Como a maior parte do treinamento do modelo já foi feita com antecedência, o ajuste fino geralmente não exigirá um cluster dedicado porque ele não seria suficientemente utilizado ao longo de sua vida útil para ser econômico em comparação com o IaaS. Outros recursos, como RG (Geração Aumentada de Recuperação), podem melhorar o modelo sem treinamento significativo (ou nenhum). O RAG permite que um modelo de linguagem grande recupere dados externos para resolver uma consulta sem treinar novamente o modelo.
Treinados de uma vez por todas
A Figura 1 mostra como a lei conceitual dos retornos decrescentes se aplica ao custo de personalização dos modelos de implementação de treinamento de IA à medida que o nível de personalização varia. Como mencionado, a "melhor" opção é treinar um modelo do zero usando infraestrutura dedicada.
Uma "boa" alternativa mais barata é usar uma plataforma como serviço ou um modelo de base pré-treinado.
Somente as empresas mais diligentes usarão a "melhor" infraestrutura dedicada o suficiente para torná-la mais econômica do que a "boa" alternativa de nuvem. Como tal, a maioria das empresas deve esperar pagar um prêmio por infraestrutura dedicada.
As implementações de nuvem econômicas usam modelos compartilhados de uso geral que não são projetados para casos de uso corporativos específicos. No entanto, esses recursos básicos podem ser personalizados de forma barata usando ferramentas para melhorar o modelo para requisitos corporativos específicos - tornando-os a opção "melhor".
Um modelo de base fornece um nível básico de capacidade de uso geral a um custo relativamente baixo. Recursos, como RAG e ajuste fino, podem melhorar substancialmente a relevância desses modelos a um custo relativamente baixo. Esses custos são baixos porque apenas um pequeno número de recursos adicionais é necessário para ajustar um modelo de uso geral para que ele possa ser mais objetivo.
O salto de custo de "bom" para "melhor" é pequeno; o custo incremental provavelmente é justificado se algum valor for realizado. No entanto, o salto de "melhor" para "o melhor" é substancial. O que ainda não está claro é se o custo adicional vale a pena.
Vale a pena pagar mais por dedicados?
Uma barreira significativa para a adoção da IA na nuvem é a soberania dos dados e a necessidade de proteger e proteger dados confidenciais de maneira compatível. Muitos argumentam que a soberania ou os regulamentos de dados impedem o uso da nuvem para determinadas cargas de trabalho. Um grande benefício da infraestrutura dedicada é a garantia de que os dados são mantidos no data center escolhido por uma empresa, que ela controla, possui e opera totalmente. Ter controle sobre onde e como os dados são gerenciados dá uma sensação de segurança e conformidade.
O desafio para as empresas é determinar se a garantia adicional da infraestrutura dedicada fornece um retorno real sobre seu prêmio substancial em relação à opção "melhor". Muitas grandes organizações - de serviços financeiros a saúde - já usam a nuvem pública para armazenar dados confidenciais. Para proteger os dados, uma organização pode criptografar dados em repouso e em trânsito, configurar controles de acesso apropriados, como grupos de segurança, e configurar alertas e monitoramento. Muitos fornecedores de nuvem têm data centers aprovados para uso governamental. Não é razoável ver a nuvem como inerentemente insegura ou não compatível, considerando seu amplo uso em muitos setores.
Embora a infraestrutura dedicada ofereça a garantia de que os dados estão sendo armazenados e processados em um local específico, ela não é necessariamente mais segura ou compatível do que a nuvem. Indiscutivelmente, uma aplicação executada em uma plataforma de nuvem devidamente protegida pode ser mais compatível com os regulamentos do que uma hospedada em equipamentos dedicados em um data center privado que não foi configurado corretamente.
Podem ser feitos compromissos para reduzir a confidencialidade dos dados, como redigir ou anonimizar informações de identificação do cliente antes do treinamento. No entanto, tais comprometimentos podem reduzir o valor e a precisão do modelo. Dito isso, eles podem valer a pena em comparação com o investimento considerável necessário para um cluster dedicado (ou as oportunidades perdidas por decidir não buscar o potencial). Sempre existe o risco de uma violação de segurança, independentemente de onde os dados estejam localizados. Um prêmio para usar infraestrutura dedicada não se traduz necessariamente em uma empresa mais segura.
Outra preocupação levantada pelas empresas envolve alucinações, em que um modelo de IA gera informações incorretas, enganosas ou fictícias. No entanto, não está claro se a atualização de "melhor" para "o melhor" corrigirá esses problemas. Uma atualização pode aliviar o problema porque uma empresa controla totalmente os dados de treinamento; no entanto, uma melhoria não é garantida. Os modelos de IA são complexos e respostas inesperadas ainda podem ocorrer.
Em última análise, é difícil evitar alucinações e informações incorretas inteiramente. As empresas precisarão reconhecer que mesmo o modelo de IA mais rigorosamente treinado cometerá erros, e sua produção deve ser tratada com um nível de cautela. O risco de um erro de IA ter impacto nos negócios nunca pode ser reduzido a zero.
O desafio para as empresas é quantificar como o investimento em infraestrutura dedicada melhora os resultados. O treinamento baseado em nuvem usando modelos básicos fornece fácil experimentação e personalização a um baixo custo. No entanto, isso vem com a desvantagem de confiar dados potencialmente confidenciais ou valiosos a terceiros.
Por outro lado, a infraestrutura dedicada implica em melhor controle de dados e pode ser mais econômica do que a nuvem em alguns casos. No entanto, requer um investimento significativo e um compromisso de longo prazo com a IA, sem garantir retornos em termos de precisão do modelo, desempenho ou segurança dos dados.
Hoje, uma empresa pode fazer um investimento substancial em infraestrutura de IA e desenvolvimento personalizado apenas para descobrir que o modelo entregue é apenas um pouco melhor do que um modelo de terceiros ajustado na nuvem. Infelizmente, isso só pode se tornar aparente após o investimento ter sido feito. O resultado é imprevisível.