Com o aumento da automação do Data Center, é natural que os clientes queiram garantir que seus dados estarão disponíveis o mais próximo possível de 100% do tempo e perguntem se há pessoal de Data Center suficiente disponível para atingir um alto nível de tempo de atividade. Eles também querem saber se, quando ocorrer uma possível interrupção, há técnicos suficientes de plantão ou disponíveis para restaurar os serviços o mais rápido possível.
A Microsoft sofreu uma interrupção em 30 de agosto de 2023 em sua região Leste da Austrália em Sydney, com duração de 46 horas. A empresa diz que começou às 10h30 UTC daquele dia.
Os clientes tiveram problemas ao acessar ou usar os serviços do Azure, Microsoft 365 e Power Platform. Ele foi acionado por uma queda de energia da concessionária às 08h41 UTC e afetou uma das três zonas de disponibilidade da região.
A Microsoft explica: "Essa queda de energia desligou um subconjunto das unidades de resfriamento do sistema de resfriamento e, enquanto trabalhava para restaurar o resfriamento, as temperaturas no Data Center aumentaram para níveis acima dos limites operacionais. Desligamos um pequeno subconjunto de unidades de escala de computação e armazenamento selecionadas, tanto para reduzir as temperaturas quanto para evitar danos ao hardware".
Apesar disso, a grande maioria dos serviços foi recuperada até as 22h40 UTC, mas eles não conseguiram concluir uma mitigação completa até as 20h00 UTC de 3 de setembro de 2023. A Microsoft diz que isso ocorreu porque alguns serviços sofreram um impacto prolongado, "predominantemente como resultado de dependências na recuperação de subconjuntos de armazenamento, banco de dados SQL e/ou serviços do Cosmos DB".
Causa da queda de tensão
A queda de tensão da concessionária foi causada, de acordo com a empresa, por um raio na infraestrutura elétrica situada a 18 milhas da Zona de Disponibilidade impactada da região Leste da Austrália. Eles acrescentam: "A queda de tensão fez com que os resfriadores do sistema de resfriamento de vários Data Centers fossem desligados. Enquanto alguns chillers reiniciaram automaticamente, 13 não conseguiram reiniciar e exigiram intervenção manual. Para fazer isso, a equipe no local acessou as instalações do telhado do Data Center, onde os chillers estão localizados, e começou a reiniciar sequencialmente os chillers que se moviam de um Data Center para outro".
"No momento em que a equipe chegou aos cinco resfriadores finais que exigiam uma reinicialização manual, a água dentro do sistema de bombeamento para esses resfriadores (circuito de água gelada) havia atingido temperaturas muito altas para permitir que fossem reiniciados. Nesse cenário, a reinicialização é inibida por um mecanismo de autoproteção que atua para evitar danos ao chiller que ocorreriam ao processar água em temperaturas elevadas. Os cinco chillers que não puderam ser reiniciados suportaram o resfriamento para as duas salas de dados adjacentes que foram afetadas neste incidente".
Qual foi o impacto?
A Microsoft diz que os dois data halls afetados exigem pelo menos quatro chillers para estarem operacionais. A capacidade de resfriamento antes da queda de tensão consistia em sete chillers, com cinco deles em operação e dois em standby. A empresa diz que algumas infraestruturas de rede, computação e armazenamento começaram a ser desligadas automaticamente à medida que as temperaturas do data hall aumentavam. Esse aumento de temperatura afetou a disponibilidade do serviço. No entanto, a equipe do Data Center no local teve que iniciar um desligamento remoto de qualquer infraestrutura de rede, computação e armazenamento restante às 11h34 UTC para proteger a durabilidade dos dados, a integridade da infraestrutura e resolver o descontrole térmico.
Posteriormente, o circuito de água gelada foi autorizado a retornar a uma temperatura segura, permitindo que os resfriadores fossem reiniciados. No entanto, isso levou a um novo desligamento da infraestrutura e a uma redução adicional na disponibilidade do serviço para essa zona de disponibilidade. No entanto, os chillers foram finalmente e com sucesso colocados de volta on-line às 12h12 UTC, e as temperaturas da sala de dados retornaram aos limites operacionais às 13h30 UTC. Isso culminou na restauração da energia da infraestrutura afetada e um processo de fase para colocar a infraestrutura novamente on-line.
A Microsoft acrescenta que isso permitiu que sua equipe restaurasse toda a energia da infraestrutura às 15h10 UTC e, uma vez que a energia foi restaurada, todas as unidades de escala de computação voltaram à operação. Isso permitiu que os serviços do Azure se recuperassem. No entanto, alguns serviços ainda tiveram problemas para voltar a ficar online.
Na revisão pós-incidente, a equipe foi considerada um problema. Portanto, é natural perguntar por que esse foi o caso e considerar o que poderia ter sido feito melhor. Não se trata de criticar a empresa em si. Mesmo os planos mais bem elaborados para evitar interrupções podem dar errado e, em todo o setor, há uma escassez de talentos em Data Centers. Portanto, ao examinar estudos de caso como este, há uma oportunidade de estabelecer as melhores práticas.
Revisão de pessoal
Entre as muitas mitigações, a Microsoft diz que aumentou seus níveis de pessoal técnico no Data Center "para estar preparado para executar procedimentos de reinicialização manual de nossos chillers antes da mudança para o Sistema de Gerenciamento de Chiller para evitar falhas de reinicialização". A equipe noturna foi temporariamente aumentada de três para sete técnicos para permitir que eles entendam adequadamente os problemas subjacentes, para que as mitigações apropriadas possam ser implementadas. No entanto, acredita que os níveis de pessoal "na época teriam sido suficientes para evitar o impacto se uma sequência de reinicialização do chiller 'baseada em carga' tivesse sido seguida, o que implementamos desde então".
A empresa acrescenta: "Os níveis de pessoal do Data Center publicados no PIR preliminar representaram apenas a equipe do "ambiente crítico" no local. Isso não caracterizou nossos níveis totais de pessoal de Data Center com precisão. Para aliviar esse equívoco, fizemos uma alteração no PIR público preliminar postado na página Histórico de status”.
No entanto, em um mergulho profundo no 'Azure Incident Retrospective: VVTQ-J98', Michael Hughes – vice-presidente de operações de Data Center da APAC na Microsoft, respondeu a comentários sobre mais funcionários no local do que a empresa havia dito originalmente que estavam presentes. Também foi sugerido que a solução real não era necessariamente ter mais pessoas no local. Também foi sugerido que a correção real é uma sequência baseada em modo nos procedimentos operacionais de emergência (EOPs), que pode não alterar os níveis de pessoal.
Hughes explica: "Os três que saíram no relatório referem-se apenas a pessoas que estão disponíveis para reiniciar os resfriadores. Havia pessoas em sua equipe de operações no local e também havia pessoas no centro de operações. Então essa informação estava incorreta, mas você está certo". Ele nos pede para nos colocarmos no momento com 20 chillers postando 3 quedas e todos em um estado errôneo. Em seguida, 13 exigem uma reinicialização manual, exigindo a implantação de mão de obra em um local muito grande.
"Você tem que correr para o telhado do prédio para reiniciar manualmente o chiller, e você está no relógio", acrescenta. Com os resfriadores afetados e as temperaturas subindo, a equipe está tendo que percorrer o local para tentar reiniciar os resfriadores. Eles não chegam ao casulo a tempo, levando à fuga térmica. A resposta em termos de otimização é ir para os Data Centers de maior carga – aqueles que têm a maior carga térmica e o maior número de racks operando para recuperar o resfriamento lá.
Assim, o foco era recuperar os chillers com maior carga térmica. Isso equivale a um ajuste em como o EOP da Microsoft é implantado, e é sobre o que o sistema deve fazer, o que ele diz que deveria ter sido cuidado pelo software. A reinicialização automática deveria ter acontecido, e Hughes argumenta que não deveria ter havido nenhuma intervenção manual. Isso já foi corrigido. Ele acredita que "você nunca quer colocar humanos para corrigir problemas se conseguir um software para fazer isso por você". Isso levou a uma atualização do sistema de gerenciamento do chiller para impedir que o incidente ocorresse novamente.
Problema e risco do setor
Ron Davis, vice-presidente de operações de infraestrutura digital do Uptime Institute, acrescenta que é importante ressaltar que esses problemas e os riscos associados a eles existem além do evento da Microsoft. "Estive envolvido nesse tipo de incidente, quando ocorreu um evento de energia e o equipamento redundante não girou, e a temperatura da água gelada aumentou rapidamente para um nível que proibia a partida de qualquer chiller associado", comenta ele antes de acrescentar:
"Isso acontece. E isso pode acontecer com qualquer organização. As operações do Data Center são críticas. Do ponto de vista das instalações, o tempo de atividade e a disponibilidade são a principal missão dos Data Centers, para mantê-los em funcionamento". Depois, há a questão de por que a indústria está enfrentando uma escassez de pessoal. Ele diz que a indústria está amadurecendo do ponto de vista de equipamentos, sistemas e infraestrutura. Até mesmo o monitoramento remoto e a automação do Data Center estão melhorando. No entanto, ainda há uma forte dependência da presença e das atividades de técnicos operacionais críticos - especialmente durante uma resposta de emergência, conforme descrito no caso da Microsoft.
Davis acrescenta: "Na Uptime, fazemos avaliações operacionais há mais de uma década, incluindo aquelas relacionadas ao nosso selo de aprovação de Gerenciamento e Operações e nossa Certificação Tier de Sustentabilidade Operacional. Durante essas avaliações, pesamos muito bem a equipe e a organização".
Níveis ideais de pessoal
Quanto a saber se havia pessoal suficiente no local durante a interrupção da Microsoft e qual deve ser o número ideal de funcionários presentes, John Booth, diretor administrativo da Carbon3IT Ltd e presidente do Grupo de Eficiência Energética da Data Center Alliance, diz que depende muito do design e da escala do Data Center, bem como do nível de automação para monitoramento e manutenção. Os Data Centers também dependem frequentemente de pessoal terceirizado para tarefas específicas de manutenção e emergência e oferecem uma resposta de 4 horas. Além disso, ele sugere que há necessidade de mais informações para determinar se 7 funcionários foram suficientes, mas admite que 3 membros da equipe geralmente são a norma para um turno noturno, "com talvez mais durante o dia, dependendo da taxa de rotatividade de equipamentos".
Davis acrescenta que não existe uma regra prática confiável porque cada organização e site é diferente. No entanto, existem técnicas de cálculo de pessoal geralmente aceitas que podem determinar os níveis de pessoal corretos para um determinado local de Data Center. Quanto ao incidente da Microsoft, ele precisaria fazer formalmente os cálculos para decidir se 3 ou 7 técnicos eram suficientes. Caso contrário, é apenas um palpite.
Ele acrescenta: "Tenho certeza de que a Microsoft passou por isso; quaisquer programas operacionais bem desenvolvidos devem realizar esses cálculos. Isso é algo que procuramos durante nossas avaliações: eles fizeram os cálculos de pessoal necessários? Alguns dos fatores a serem incluídos nos cálculos são os requisitos de presença de turno – qual é o número de técnicos necessários para estar no local o tempo todo, a fim de fazer verificações do sistema e realizar respostas de emergência? Outra consideração importante são os equipamentos, sistemas e infraestrutura do local: quais horas de manutenção são necessárias para manutenção planejada, corretiva e outras manutenções associadas? Qualquer cálculo de pessoal considera todos esses fatores e muito mais, incluindo recursos internos e contratados também".
Microsoft: Defensora dos EOPs
"Pelo que sei da Microsoft, eles são grandes defensores dos procedimentos operacionais de emergência e dos exercícios operacionais correlacionados. O EOP devidamente roteirizado, usado durante a execução de um exercício operacional bem desenvolvido, pode ter apoiado a equipe nesse esforço e/ou talvez identificado a necessidade de mais pessoal no caso de tal incidente".
A Microsoft tinha procedimentos operacionais de emergência (EOPs) em vigor. Eles aprenderam com este incidente e alteraram seus EOPs. Eles são onde as organizações precisam começar e devem examinar cenários de teste e perfuração. A melhor proteção de um Data Center é, diz Davis, uma biblioteca EOP significativa, baseada em possíveis incidentes que podem ocorrer.
Ele acredita que a equipe da Microsoft fez o seu melhor e sugere que eles merecem todo o suporte disponível, pois essas situações são muito estressantes. Esse suporte deve vir na forma de todo o treinamento, ferramentas e documentação que uma organização pode fornecer. Ele está confiante de que a Microsoft está considerando todas as lições aprendidas e ajustando suas práticas de acordo.
Quanto a saber se os níveis de pessoal podem ser atribuídos a interrupções, é perfeitamente possível, mas essa pode não ter sido a única causa no caso da Microsoft, já que Booth acredita que houve uma falha básica de design. Ele acha que uma queda de energia elétrica deveria ter acionado geradores de backup para fornecer energia a todos os serviços para evitar que os sistemas de resfriamento falhassem. Portanto, deve haver um teste de sistemas integrados aprimorado, que é onde você testa todos os sistemas sob uma série de eventos de emergência externos. O programa de teste deve, portanto, incluir a falha dos chillers e quaisquer procedimentos de recuperação aplicáveis.