Durante a segunda metade de 2023, observamos um número crescente de interrupções de Data Center causadas por falhas na estrutura. Esse aumento destacado é incomum, para dizer o mínimo.

O design do Data Center foi refinado e otimizado consideravelmente na última década. As instalações cresceram em tamanho para atender a hiperescalas, em complexidade para atuar como pontos de interconexão para uma ampla gama de serviços em nuvem e operadoras de fibra e em número para atender ao aumento da demanda por espaço técnico.

A estrutura usada para operar Data Centers geralmente é implementada com níveis de redundância 2N e maiores para garantir que as métricas de disponibilidade e tempo de atividade sejam atendidas. Embora tenha havido casos de grupos geradores que não iniciaram e assumiram a carga de produção em situações em que ela é acionada, esses casos têm diminuído, pois os operadores realizaram testes mais completos e regulares de seus sistemas redundantes.

Nesse contexto, pode ser uma surpresa ver as falhas nas estruturas sendo cada vez mais atribuídas como a causa das interrupções do Data Center que, por sua vez, causam a perda de serviços e aplicações em nuvem que utilizam servidores que funcionam nessas instalações.

Mas existem várias explicações plausíveis para o aumento da ocorrência das falhas nas estruturas.

Condições exteriores

O clima é uma explicação óbvia: as quedas de energia nas instalações durante o ano passado muitas vezes coincidiram com eventos climáticos extremos, como calor e tempestades.

Durante o calor extremo, há pressão nas redes elétricas em geral; para operadores de Data Center, isso pode se traduzir em flutuações na qualidade da energia, como picos e quedas de energia, e uma necessidade potencial de gerar parte de sua própria energia usando uma instalação no local para facilitar o fornecimento e continuar a manutenção de equipamentos de TI. A usina de resfriamento também precisa trabalhar mais para manter as temperaturas do piso de dados dentro de uma faixa segura especificada.

As tempestades, por outro lado, apresentam um conjunto diferente de problemas. Os raios podem derrubar uma subestação no local e uma ou mais alimentações de energia elétrica. Também houve casos em que granizo e chuvas fortes causaram entrada de água no espaço técnico, danificando equipamentos e causando curto-circuito na usina de distribuição de energia na área afetada.

Demandas de alta potência

Embora as condições climáticas expliquem algumas interrupções do Data Center, outras parecem ser o resultado de um fenômeno diferente: o aumento de cargas de trabalho baseadas em dados e com uso intensivo de computação sendo processadas nesses locais. Para locais mais antigos, essas cargas de trabalho estão empurrando as densidades de rack muito além das especificações existentes, levando a um aumento no número de tais instalações passando por chillers e outros projetos de atualização e substituição de instalações.

Alguns operadores estão respondendo separando cargas de trabalho intensivas para serem executadas em locais menores, criados especificamente e de alta densidade. Anteriormente, em instalações de colocation maiores, as cargas de trabalho intensivas eram executadas em salas designadas e salas de dados que atendiam a densidades de equipamentos de rack mais altas. As densidades típicas de rack tradicionalmente atingem o máximo de cerca de 7 kW, com zonas de alta densidade atendendo a racks de até 50 kW. Mas no atual ambiente orientado por dados, os racks não atingem mais densidades de 50 kW: alguns estão se movendo em direção a densidades extremas de mais de 200 kW por rack.

É claramente desaconselhável pedir a instalações de colocation mais antigas e mais gerais para dar suporte a esses tipos de cargas de trabalho de computação intensivas. Faz mais sentido hospedá-los em instalações construídas especificamente para fazer uma coisa bem: oferecer suporte a necessidades extremas de computação, tendo o espaço técnico e a estrutura correspondentes.

No entanto, concentrar cargas de trabalho intensivas em um espaço pequeno também não é garantia de tempo de atividade. Ter cargas de trabalho intensivas funcionando lado a lado coloca mais pressão sobre os operadores da instalação para garantir o tempo de atividade, mantendo a estrutura operando. Esses ambientes contêm uma densidade de equipamentos que será mais sensível a pequenas mudanças na disponibilidade de energia ou na capacidade de resfriamento, e qualquer falha pode degradar e danificar a capacidade de computação que alimenta decisões baseadas em dados para algumas das infraestruturas críticas do mundo.

Codificando com cuidado

Outra possível explicação para o aumento das falhas do Data Center é devido à infraestrutura ser abstraída de seus consumidores. As decisões de arquitetura de aplicações ocorrem isoladamente, sem necessariamente uma boa compreensão dos requisitos de infraestrutura subjacentes.

Isso ocorre porque a elevação da plataforma como serviço (PaaS) e da arquitetura sem servidor significa que os desenvolvedores podem se concentrar na criação de código; Eles não precisam necessariamente entender os meandros da infraestrutura subjacente, incluindo como limitar a intensidade do processamento que o código do aplicativo requer para funcionar.

Além disso, as aplicações geralmente utilizam terceiros para concluir funções por meio de APIs. Isso transfere mais demanda de processamento para outras partes e depende dessas partes usando eficientemente a infraestrutura subjacente também. Código ineficiente significa uso de infraestrutura abaixo do ideal. Multiplique isso pelo número de aplicações dentro de um determinado Data Center e fica claro que isso pode estar estressando indevidamente a estrutura do Data Center para atender às demandas de processamento elevadas.

Melhorando a linha de visão

No ambiente atual, para evitar ser pego de surpresa, é crucial ter a capacidade de detectar qualquer degradação que ocorra em locais de Data Center dos quais um serviço e aplicação em nuvem depende. Isso não é importante apenas para garantir o tempo de atividade imediato, mas também para melhorar o serviço de nuvem e o design do aplicativo, reduzindo a dependência de um único Data Center.

Para garantir uma experiência de usuário perfeita, os operadores de serviços em nuvem e aplicações baseados na web precisam ser capazes de entender tudo o que os sustenta. Isso provavelmente inclui consideração extra para a infraestrutura subjacente, incluindo sua localização física (Data Center) e os recursos desse Data Center em termos de design e estrutura redundante.