Depois de anos de expectativa, a era da inteligência artificial de repente chegou. Muitas empresas estão se perguntando como a IA poderia ser aplicada em seus negócios e onde (e onde não) usá-la de forma segura e econômica. O setor de webscale, que fornece recursos essenciais de computação e armazenamento para aplicativos de IA, também tem muitas dúvidas sobre como incorporar a IA em seus Data Centers e como ela pode ser útil em suas operações.

Embora essa questão englobe várias dimensões, vejo três maneiras principais pelas quais a IA afetará as operações em escala web. A primeira é a mais direta: as cargas de trabalho de IA precisarão de diferentes tipos de redes para conectar clusters de treinamento e ambientes de computação de alto desempenho (HPC). A segunda diz respeito a modelos de linguagem grandes (LLMs) como o ChatGPT. Eles podem ser aproveitados para treinar e informar o pessoal de operações sobre as melhores práticas e para fornecer interfaces de linguagem natural que substituam e complementem o gerenciamento de rede baseado em interface de linha de comando (CLI,na sigla em inglês)? Em terceiro lugar, qual é o futuro da IA na automação de rede em termos de orquestração, garantia de loop fechado e resposta às mudanças na dinâmica de aplicativos e cargas de trabalho?

Ultra-Ethernet

Embora os supercomputadores recebam muita atenção da mídia no espaço de IA, a tendência é realmente construir clusters e malhas de computação para o que é genericamente chamado de computação de alto desempenho (HFC). A rede desempenha um papel importante na habilitação desses clusters, seja em um único Data Center ou em vários Data Centers.

Ethernet é o protocolo de camada de transporte para a maioria do setor de dados, mas tem alguns problemas de arquitetura quando se trata de clusters de computação, que gostam de usar várias pistas e pulverização de pacotes e não toleram latências na fila. Ethernet tem um sistema de classificação de pacotes muito rigoroso que não suporta sua transmissão massiva, criando latências indesejadas. Padrões proprietários foram desenvolvidos para resolver essas questões, como o Slingshot da Cray e o Infinband da Invidia, mas também há um amplo esforço da indústria em andamento para desenvolver uma alternativa mais aberta que também seja compatível com a Ethernet. Um consórcio de empresas está atualmente promovendo esse padrão, que eles apelidaram de Ultra Ethernet.

A Ultra Ethernet parece ser a melhor aposta de longo prazo para a construção de clusters de treinamento de inteligência artificial e aprendizado de máquina (IA/ML). A ampla adoção e compatibilidade da Ethernet a tornam altamente escalável e flexível. É amplamente utilizado e fácil de integrar em diversos ambientes de rede. Além disso, possui robustos protocolos de segurança e recursos de gerenciamento. Enquanto ainda está em desenvolvimento, o Ultra Ethernet Consortium (UEC) está trabalhando rapidamente para estabelecer o protocolo e construir um amplo ecossistema de parceiros de consórcio para garantir que o protocolo seja amplamente suportado. Eles precisam desenvolver uma arquitetura sem bloqueio com controles de buffer para reduzir o congestionamento e implementar alguma forma de controle de admissão de tráfego, tudo com o objetivo de atender aos requisitos de alto desempenho e baixa latência dos aplicativos de IA.

Interfaces de linguagem natural

À medida que a nuvem se torna mais amplamente distribuída, a interconexão do Data Center significa que as equipes de operação de rede precisam controlar os recursos de rede de longa distância (WAN). Este é um grande passo para muitas equipes que passaram décadas gerenciando a rede interna de Data Centers, muitas vezes usando sistemas operacionais de rede (NOS, na sigla em inglês) de um único fornecedor. A maneira comum de gerenciar elementos WAN é por meio de interfaces de linha de comando (CLIs), que tendem a impor uma curva de aprendizado íngreme aos novos engenheiros. Mesmo dentro dos Data Centers, há uma tendência de se afastar dos aplicativos de gerenciamento de fornecedores de equipamentos, o que faz com que eles fiquem “presos” com o fornecedor e prefiram software de código aberto. Os aplicativos de código aberto permitem que as equipes de operações inovem rapidamente com a máxima flexibilidade, mas introduzem ainda mais comandos que devem ser dominados pelos operadores.

É aqui que aplicações baseadas em IA, como o ChatGPT, podem usar modelos de linguagem grande (LLMs) para habilitar consultas e respostas em linguagem natural, o que pode ser muito útil. Por exemplo, ao serem treinados em documentação específica de software e logs de telemetria, essas IAs podem ajudar a tornar as operações de rede mais acessíveis a pessoal não técnico.

Na minha própria equipe, usamos o ChatGPT exatamente dessa maneira. Em um período surpreendentemente curto de tempo, pudemos usá-lo com a CLI para nosso sistema operacional de rede. A IA pode responder a tudo, desde como fazer operações específicas até consultas sobre nós congestionados ou o status de portas específicas. Mesmo não especialistas podem executar tarefas básicas de diagnóstico, solução de problemas e configuração, e o acesso à documentação é mais rápido para todos.

O quanto as IAs baseadas em LLM podem ser integradas aos processos operacionais é o que todos estão se perguntando agora. Em toda a indústria, programadores e desenvolvedores estão usando LLMs extensivamente, então não é absurdo imaginá-los se tornando cada vez mais integrados às operações de gerenciamento do dia a dia.

IA e Automação de Redes

Tem havido muito trabalho em orquestração centralizada e automação de rede para gerenciamento do ciclo de vida. Este parece ser um ponto óbvio em que a IA pode ajudar. Acho que estamos em um ponto em que, tecnologicamente falando, tanto a IA quanto o acesso em tempo real aos dados da rede poderiam alcançar isso.

Novamente, um dos objetivos é tornar mais fácil especificar o que eles querem sem precisar conhecer os profundos conceitos tecnológicos de controle da rede. É aqui que as configurações de serviço baseadas em intenção podem ser usadas para especificar o comportamento de rede desejado e os serviços necessários em linguagem normal. Isso deve criar automaticamente uma cadeia de configurações e tarefas operacionais com o uso de modelos que permitem que a rede opere sozinha durante todo o seu ciclo de vida, desde o projeto do dia 0, implantação do dia 1 e operações até o dia 2 em diante.

A ideia fundamental é que os insights em tempo real podem ser alimentados por meio de análises de IA/ML e usados para garantir níveis de serviço para cargas de trabalho e aplicativos. Isso não é algo que poderíamos fazer sem IA e automação. Empregar IA dessa forma não cria o problema de substituir engenheiros de rede, porque não seria possível fazer isso manualmente, pelo menos não de forma acessível. De qualquer forma, muitas empresas estão com falta de pessoal e essas tarefas são repetitivas e propensas a erros humanos. A economia operacional que esse nível de automação trará liberará tempo para engenheiros e outros funcionários desenvolverem novas ideias inovadoras sobre serviços e como otimizar processos, operar de forma mais sustentável e melhorar as experiências e vidas das pessoas.

Visite-nos para saber mais sobre o que a Nokia tem para oferecer.