A Cloudflare divulgou informações sobre como mantém seus servidores operacionais.

Em uma postagem publicada pela empresa nessa semana, a Cloudflare diz que aborda a manutenção de servidores por meio de um “orçamento de erros”, entre outras técnicas que incluem diagnósticos autônomos de hardware.

A Cloudflare, um fornecedor de redes de entrega de conteúdo (CDNs) de segurança e Edge Computing com servidores localizados em 310 cidades e 120 países, disse que desenvolveu uma infraestrutura tolerante a falhas que pode continuar a operar com “pouco ou nenhum impacto” como resultado das falhas.

Antes disso, a empresa teria que enviar um membro de sua equipe de operações de Data Center para solucionar e diagnosticar manualmente cada falha de servidor e colocá-los de volta em funcionamento, algo que poderia levar horas para um único servidor.

A nova solução é autônoma, o que significa que pode operar de forma independente, sem intervenção e supervisão humana, e foi chamada de “Phoenix”.

De acordo com a publicação, a Phoenix executa diagnósticos autônomos e automação de recuperação em intervalos regulares para detectar servidores que não funcionam. O sistema então descobre o que está errado com o servidor e recupera aqueles que passam no diagnóstico, "reabastecendo e, por fim, reativando aqueles que foram reabastecidos com sucesso da maneira mais segura e discreta possível”.

O sistema pode entender a causa da falha e reverter o estado do servidor de acordo.

A Phoenix funciona a cada 30 minutos em até dois Data Centers ao mesmo tempo, o que significa que toda a frota da Cloudflare é coberta em três dias. Em cada execução, ele também anota os servidores que já estão na fila para recuperação e garante que o problema seja resolvido imediatamente.

Caso os servidores não possam ser totalmente recuperados, a Phoenix irá avaliá-los e poderá retornar ao estado de reparo para nova avaliação. Se precisarem substituir um componente físico, a equipe de operações do Data Center será notificada.

A Cloudflare também ensinou à Phoenix que, se houver outras operações de automação executadas, como expansões, ela só realizará verificações quando for seguro fazê-lo para que a operação de recuperação não interfira em outras operações do Data Center.

A tolerância a falhas também é incorporada. “Isso significa que ele é capaz de lidar muito bem com servidores com funcionamento falho, permitindo que eles sejam rapidamente removidos da lista de candidatos à recuperação em caso de falha que impeça o bloqueio da operação”, diz a postagem.

A Cloudflare reconheceu ainda que “nem todos os servidores quebrados podem ser reativados com sucesso e colocados de volta em produção e, mais importante, não há 100% de garantia de que um servidor recuperado será tão estável quanto aqueles sem histórico de reparos”. A solução para isso é o que a empresa chama de “Orçamento de Erro”, em que o sistema Phoenix interrompe as recuperações sem qualquer intervenção humana se o servidor falhar um certo número de vezes em uma determinada janela.

No início do ano, a Cloudflare revelou que estendeu a vida útil de seu hardware de servidor para cinco anos, economizando cerca de US$ 20 milhões. Os hiperescalas, incluindo a Amazon, Google, Microsoft e Meta, tomaram medidas semelhantes.

Em 2023, a Cloudflare implementou com sucesso GPUs em 120 cidades para sua rede Edge. Até o final do ano, a empresa espera ter implementado os aceleradores em “praticamente todas as cidades” que compõem sua rede global.