Trabalho desenvolvido em afiliação junto a Faculdade de Engenharia Elétrica e de Computação da Universidade Estadual de Campinas - Unicamp, este artigo tem como objetivo avaliar como uma abordagem híbrida pode alterar o design típico de um data center, quando o assunto é armazenamento de energia em instalações voltadas para Colocation.

Todos os dias têm-se observado novas tecnologias sendo criadas, e introduzidas ao mundo como a “solução para todos os problemas”, e que em muitas vezes não realiza nem o básico que se foi projetado a se fazer. Por este e alguns outros fatores que estas tecnologias têm conseguido pouca penetração no mercado de data centers; isto provavelmente devido ao fato de que quem é responsável pelo data center não quer perder seu emprego (por tentar fazer diferente), caso uma falha ocorra.

Sistemas de backup de energia de emergência em data centers foram projetados na maioria dos casos usando o mesmo padrão por várias décadas, usando sistemas UPS com baterias de chumbo-ácido (LA) alimentadas por geradores a diesel conforme exemplificado na Figura 1.

Figura 1: Design típico de uma infraestrutura de data center.

Figura 1: Design típico de uma infraestrutura de data center


A lacuna entre o projeto típico de data center e a adoção de novas tecnologias existe


Avanços na tecnologia e novos dispositivos de armazenamento de energia (ESD) que tornaram-se disponíveis comercialmente, tal como flywheel, ultra/supercapacitores (UC) e UPS com armazenamento de energia à ar comprimido (CAES), são abordagens que prometiam mudar radicalmente o setor de data center e missão crítica, porém algumas destas tecnologias conseguiram penetrar em apenas alguns locais (e algumas nem mais são comercializadas). A incerteza entre os projetistas e os principais tomadores de decisão sobre não saber como um sistema se comportaria implementando tal nova tecnologia e até mesmo o desconhecimento se uma nova tecnologia funcionará com o mesmo nível de redundância e segurança como o modelo convencional fizeram com que estas tecnologias fossem apenas discutidas como hipóteses interessantes porém foram pouco implementadas.


Segurança é o principal fator técnico exigido por acionistas em empresas de Colocation


Em empresas de colocation (sem abordar questões financeiras tal como capacidade do cliente honrar com as suas obrigações, risco setorial e do país, retorno sobre o investimento, etc.), o principal fator exigido por acionistas é a segurança; que o projeto cujo investimento foi empregado seja algo robusto e que tenha a maior disponibilidade (uptime) possível para seus clientes finais, e para suportar toda esta alta disponibilidade: que existam profissionais capacitados e fornecedores com disponibilidade de peças para eventuais manutenções.

Portanto, para analisar a implementação de um sistema de backup de missão crítica (tanto no modelo tradicional com UPS alimentadas com bateria de chumbo-ácido, ou utilizando tecnologias inovadoras), é proposto o processo metodológico-analítico a seguir, que garantirá que sejam atendidas as mesmas configurações de redundância, confiabilidade e disponibilidade esperados por clientes e acionistas.


Análise de Confiabilidade Técnica


A confiabilidade e a disponibilidade geral do sistema de armazenamento de energia são alguns dos itens mais importantes que devem ser avaliados.

Dois sistemas serão comparados: LA (modelo tradicional) e UC+CAES (exemplo de tecnologia inovadora) em diferentes esquemas de redundância.

As seguintes suposições foram consideradas com base nos dados disponíveis e arredondadas para fins de significância, e deve ser ajustado pelo MTBF (Tempo médio entre falhas, em inglês “Mean Time Between Failures”) fornecido pelos fabricantes e MTTR (Tempo médio para reparo, em inglês “Mean Time to Repair”) definido por contrato com os fornecedores de O&M (Operação e Manutenção):

MTBF para:

● LA UPS sem chave de bypass estático (SBS): 20.000 horas

● Concessionária de energia: 50 horas

● SBS: 500.000 horas

● Sistema UC: 122.640 horas

● Sistema CAES: 72.140 horas

● Barramento paralelo: 2.500.000 horas

MTTR para:

● Qualquer equipamento instalado: 6 horas

● Concessionária de energia: 0,1 hora

O tempo médio entre falhas é calculado por:

Imagem2.png

(1.1)

λsys = Taxa de falha do sistema que está sendo avaliado.

A taxa de falha de um sistema onde equipamentos estão instalados em série é simplesmente a soma da taxa de falha de cada componente individual. Por exemplo, a taxa de falha de um UPS com um diagrama de blocos elétrico como mostrado na Figura 2, onde o retificador, a bateria e o inversor são colocados em série, pode ser calculada por:


Imagem3.png

(1.2)

Imagem4.png

Figura 2: Diagrama de bloco elétrico de uma UPS com chave de bypass estático.

Como a concessionária (M) está em paralelo com o retificador, bateria e inversor, aplica-se a seguinte equação:

Imagem5.png

(1.3)

μ-ups = Tempo de reparo da UPS;

μm = Tempo de reparo da concessionária;

Como observado, a chave de bypass estática (SBS) está em série após a UPS e a concessionária, portanto, a taxa de falha de todo o sistema será:


Imagem6.png

(1.4)

Em configurações N sem chave de bypass estática (SBS), a confiabilidade do sistema LA ESD depende em grande parte de seu inversor interno, enquanto em um sistema UC+CAES ESD a confiabilidade depende principalmente do ultracapacitor (UC).

Com a inserção de uma SBS para permitir a mudança de ESD para a concessionária como demonstrado na Figura 2, pode-se observar um aumento de ~6 vezes no MTBF para o sistema LA, e um aumento de 3-4 vezes para o sistema UC+CAES. Portanto, o principal componente de impacto que afeta o MTBF para ambos os sistemas muda para o MTBF que a concessionária oferece, e a SBS (que é o ponto único de falha (SPOF) para esta configuração atual).

Em configurações de redundância N parece haver uma diferença significativa entre os sistemas LA e UC+CAES, no entanto na realidade praticamente nenhuma empresa utiliza uma configuração N, padronizando para uma confiabilidade mais robusta, como um sistema N+1 ou 2N.

Em uma configuração N+1, como demonstrado na Figura 3, a mudança das tecnologias ESD (LA vs. UC+CAES) não proporciona alteração significativa no MTBF, de forma que o MTBF do ESD, concessionária e SBS tem efeito próximo a zero sobre a confiabilidade geral. O principal componente que afeta o MTBF agora é o barramento paralelo compartilhado na saída de cada SBS de cada ESD.


Imagem7.png


Figura 3: Diagrama de bloco elétrico de um sistema UPS N+1 com uma chave de bypass estático.

Ao adotar a configuração 2N, a confiabilidade geral de ambos os sistemas aumenta de maneira semelhante, pois o barramento paralelo compartilhado continua sendo o ponto único de falha no sistema, afetando a significância geral dos resultados do MTBF.


A Tabela 1 analisa a taxa média de falhas que cada um desses cenários oferece.

Tempo médio entre falhas com diferentes configurações de confiabilidade

2.png

Obs: A configuração N+1 foi calculada a partir de uma configuração N=2.

Para determinar a taxa de falha de um sistema como por exemplo do sistema N+1 da Figura 3, utilize (1.4) para cada UPS com uma chave de bypass estático, inserindo-a em (1.3). A equação (1.3) deve ser executada entre 2 sistemas UPS e o resultado reaplicado em (1.3) para os outros sistemas UPS paralelos. O resultado é então somado às taxas de falha de cada ponto de conexão ao barramento paralelo, portanto, a taxa de falha de todo esse sistema será:

Imagem8.png

(1.5)

Para uma avaliação rápida de um sistema N+1 ou mais confiável, o leitor pode adicionar o MTBF da conexão de barramento paralelo de cada ESD para determinar rapidamente a confiabilidade do sistema geral.

Como o MTBF é um componente que pode ser facilmente mal interpretado, ele é inserido com MTTRs comuns de sistemas, para entender o efeito geral na disponibilidade da infraestrutura:


Tabela 2

Disponibilidade de configurações de redundância

3.png


O principal componente para melhorar a disponibilidade é o MTTR, que pode ser melhorado reduzindo-o. Maneiras comuns de reduzir o MTTR incluem entender a logística dos fornecedores (onde seus funcionários e depósitos estão localizados e rotas comuns de viagem, para garantir que fatores como tráfego sejam evitados), trabalhar com eles em estratégias para melhorar o MTTR e inserir os termos acordados através de Acordos de Nível de Serviço (SLAs) contratuais com penalidades. Outra maneira que pode ser combinada com SLAs de fornecedores ou não é garantir que a instalação tenha peças de reposição no local para reduzir o tempo de deslocamento de um funcionário do fornecedor para seu depósito ou até mesmo ter uma equipe de treinamento qualificada no local para realizar reparos conforme necessário. Alguns equipamentos também oferecem reparos hot swappable (que devem ser considerados durante a fase de projeto de uma nova construção ou retrofit), reduzindo ainda mais o tempo de reparo, aumentando a disponibilidade geral.


Tecnologias inovadoras como UC-CAES+LA podem oferecer níveis de confiabilidade semelhantes ao LA


Pode-se concluir que tecnologias mais recentes e não tão amadurecidas como um sistema UC-CAES+LA (em comparação com um LA) podem fornecer confiabilidade semelhante, uma vez que o MTBF não é afetado significativamente ao analisar níveis mais altos de redundância (>N), e uma abordagem favorável para introduzir novas tecnologias é considerar a implementação de uma solução híbrida, sem comprometer a maturidade encontrada no design típico de data center de LA.

Pontos únicos de falha e MTTRs de equipamentos são os principais fatores impactantes na disponibilidade de sistemas de missão crítica. Os principais fatores impactantes na disponibilidade foram pontos únicos de falha (SPOFs) e MTTRs de equipamentos, portanto, esses fatores são onde os esforços de mitigação devem ser focados, pois as estratégias de resiliência devem ser adotadas, independentemente da tecnologia ESD implantada.


*Gabriel José Storti, foi Head do primeiro data center de colocation hiperescala do Brasil. Atualmente, é Sr. Manager, Process Automation da Dish Network.

*Luiz Carlos Pereira da Silva, atualmente é professor associado no departamento de Engenharia Elétrica e da Computação da Unicamp.