Con la creciente automatización de los data centers, es natural que los clientes quieran tener la seguridad de que sus datos estarán disponibles lo más cerca posible del 100 por ciento del tiempo y preguntarse si hay suficiente personal del centro de datos disponible para lograr un alto nivel de tiempo de actividad. También quieren saber que cuando ocurre una posible interrupción, hay suficientes técnicos de servicio o disponibles para restaurar los servicios lo antes posible.

Microsoft sufrió una interrupción el 30 de agosto de 2023 en Sydney, que duró 46 horas. La compañía dice que comenzó a las 10.30 UTC de ese día.

Los clientes experimentaron problemas para acceder o utilizar los servicios de Azure, Microsoft 365 y Power Platform. Fue provocado por una caída de energía de los servicios públicos a las 08.41 UTC y afectó a una de las tres zonas de disponibilidad de la región.

Microsoft explicó que: “Esta caída de energía desconectó un subconjunto de las unidades de refrigeración del sistema de enfriamiento y, mientras se trabajaba para restaurar el enfriamiento, las temperaturas en el centro de datos aumentaron a niveles superiores a los umbrales operativos. Apagamos un pequeño subconjunto de unidades de escala de almacenamiento y computación seleccionadas, tanto para reducir las temperaturas como para evitar daños al hardware”.

A pesar de esto, la gran mayoría de los servicios se recuperaron a las 22.40 UTC, pero no pudieron completar una mitigación completa hasta las 20.00 UTC del 3 de septiembre de 2023. Microsoft dice que esto se debió a que algunos servicios experimentaron un impacto prolongado, “principalmente como resultado de dependencias en la recuperación de subconjuntos de servicios de almacenamiento, base de datos SQL y/o Cosmos DB”.

Causa de caída de voltaje

La caída del voltaje de la red pública fue causada, según la compañía, por un rayo en la infraestructura eléctrica situada a pocos kilómetros de la zona de disponibilidad afectada de la región este de Australia. “La caída de voltaje provocó que se apagaran los enfriadores del sistema de enfriamiento de múltiples centros de datos. Si bien algunos enfriadores se reiniciaron automáticamente, 13 no lograron reiniciarse y requirieron intervención manual. Para hacerlo, el equipo in situ accedió a las instalaciones de la azotea del centro de datos, donde se encuentran los sistemas de refrigeración, y procedieron a reiniciar secuencialmente los enfriadores que se trasladaban de un centro de datos al siguiente”.

“Cuando el equipo llegó a los últimos cinco enfriadores que requerían un reinicio manual, el agua dentro del sistema de bombeo de estos enfriadores (circuito de agua enfriada) había alcanzado temperaturas demasiado altas para permitir su reinicio. En este escenario, el reinicio se inhibe mediante un mecanismo de autoprotección que actúa para evitar daños al enfriador que se producirían al procesar agua a temperaturas elevadas. Los cinco enfriadores que no pudieron reiniciarse ayudaron a enfriar las dos salas de datos adyacentes que se vieron afectadas por este incidente”.

¿Cuál fue el impacto?

Microsoft dice que las dos salas de datos afectadas requieren al menos cuatro enfriadores para estar operativos. La capacidad de refrigeración antes de la caída de tensión constaba de siete enfriadoras, cinco de ellas en funcionamiento y dos en espera. La compañía dice que algunas infraestructuras de redes, computación y almacenamiento comenzaron a cerrarse automáticamente a medida que aumentaban las temperaturas de la sala de datos. Este aumento de temperatura afectó la disponibilidad del servicio. Sin embargo, el equipo del centro de datos en el sitio tuvo que iniciar un apagado remoto de cualquier infraestructura de red, computación y almacenamiento restante a las 11.34 UTC para proteger la durabilidad de los datos, el estado de la infraestructura y abordar el descontrol térmico.

Posteriormente, se permitió que el circuito de agua enfriada volviera a una temperatura segura, lo que permitió reiniciar los enfriadores. Sin embargo, provocó un nuevo cierre de la infraestructura y una mayor reducción de la disponibilidad del servicio para esta zona de disponibilidad. Sin embargo, los enfriadores finalmente volvieron a estar en funcionamiento con éxito a las 12.12 UTC, y las temperaturas de la sala de datos volvieron a los umbrales operativos a las 13.30 UTC. Esto culminó con el restablecimiento de la energía en la infraestructura afectada y se inició un proceso de fase para volver a poner la infraestructura en funcionamiento.

Microsoft dice que esto permitió a su equipo restaurar toda la energía a la infraestructura a las 15.10 UTC, y una vez que se restableció la energía, todas las unidades de escala informática volvieron a funcionar. Esto permitió que los servicios de Azure se recuperaran. Sin embargo, algunos servicios aún experimentaron problemas para volver a estar en línea.

En la revisión posterior al incidente, la dotación de personal se consideró un problema. Por lo tanto, es natural preguntarse por qué fue así y considerar qué se podría haber hecho mejor. No se trata de criticar a la propia empresa. Incluso los planes mejor diseñados para evitar interrupciones pueden salir mal, y en toda la industria hay escasez de talento en centros de datos. Por lo tanto, al examinar estudios de casos como este, existe la oportunidad de establecer mejores prácticas.

Revisión de la dotación de personal

Entre las muchas mitigaciones, Microsoft dice que aumentó sus niveles de personal técnico en el centro de datos "para estar preparados para ejecutar procedimientos de reinicio manual de nuestros enfriadores antes del cambio al sistema de gestión de enfriadores para evitar fallas de reinicio". El equipo nocturno se incrementó temporalmente de tres a siete técnicos para permitirles comprender adecuadamente los problemas subyacentes, de modo que se puedan implementar las mitigaciones adecuadas. Sin embargo, cree que los niveles de personal en ese momento "habrían sido suficientes para evitar el impacto si se hubiera seguido una secuencia de reinicio de las enfriadoras 'basada en la carga', que hemos implementado desde entonces".

“Los niveles de personal del centro de datos publicados en el PIR preliminar solo representan el personal del “entorno crítico” en el sitio. Esto no caracterizó con precisión los niveles totales de personal de nuestro centro de datos. Para aliviar esta idea errónea, hicimos un cambio en el PIR público preliminar publicado en la página Historial de estado”.

Sin embargo, en una inmersión profunda en 'Retrospectiva del incidente de Azure: VVTQ-J98' , Michael Hughes, vicepresidente de operaciones del centro de datos APAC de Microsoft, respondió a los comentarios sobre la presencia de más personal en el sitio del que la compañía había dicho originalmente. También se sugirió que la verdadera solución no era necesariamente tener más gente en el sitio. También se sugirió que la verdadera solución es una secuencia basada en modos en los procedimientos operativos de emergencia (EOP), que puede no cambiar los niveles de personal.

Hughes explica: “Los tres que aparecen en el informe simplemente se relacionan con personas que están disponibles para restablecer los enfriadores. Había gente de su personal de operaciones en el lugar y también había gente en el centro de operaciones. Entonces esa información era incorrecta, pero tienes razón”. Nos pide que nos pongamos en el momento con 20 enfriadoras presentando 3 hundimientos y todos en estado erróneo. Luego, 13 requieren un reinicio manual, lo que requiere el despliegue de mano de obra en un sitio muy grande.

"Tienes que correr al tejado del edificio para restablecer manualmente el enfriador", añade. Con los enfriadores afectados y las temperaturas aumentando, el personal tiene que desplazarse por el sitio para intentar restablecerlos. No llegan a tiempo a la cápsula, lo que provoca una fuga térmica. La respuesta en términos de optimización es ir a los centros de datos de mayor carga: aquellos que tienen la mayor carga térmica y la mayor cantidad de racks operativos para recuperar el enfriamiento allí.

Por lo tanto, el foco fue recuperar los enfriadores con mayor carga térmica. Esto equivale a un ajuste en cómo se implementa el EOP de Microsoft, y se trata de lo que se supone que debe hacer el sistema, algo que, según él, debería haber sido atendido por el software. El reinicio automático debería haber ocurrido y Hughes sostiene que no debería haber habido ninguna intervención manual. Esto ahora ha sido arreglado. Y cree que "no tendremos que utilizar humanos para solucionar problemas si consigues un software que lo haga por ti". Esto llevó a una actualización del sistema de gestión de enfriadoras para evitar que el incidente volviera a ocurrir.

Problema y riesgo de la industria

Ron Davis, vicepresidente de operaciones de infraestructura digital del Uptime Institute, añade que es importante señalar que estos problemas y los riesgos asociados a ellos existen más allá del evento de Microsoft. "He estado involucrado en este tipo de incidente, cuando ocurrió un problema de energía y el equipo redundante no pudo rotar, y la temperatura del agua enfriada aumentó rápidamente a un nivel que prohibió el arranque de cualquier enfriador asociado".

"Esto pasa. Y potencialmente le puede pasar a cualquier organización. Las operaciones del centro de datos son críticas. Desde el punto de vista de las instalaciones, el tiempo de actividad y la disponibilidad es una misión principal para los centros de datos, para mantenerlos en funcionamiento".

Luego está la cuestión de por qué la industria está experimentando una escasez de personal. Davis dice que la industria está madurando desde la perspectiva de equipos, sistemas e infraestructura. Incluso el monitoreo remoto y la automatización de centros de datos están mejorando. Sin embargo, todavía existe una gran dependencia de la presencia y las actividades de los técnicos operativos críticos, especialmente durante una respuesta de emergencia, como se describe en el caso de Microsoft.

“En Uptime, hemos estado realizando evaluaciones operativas durante más de una década, incluidas aquellas relacionadas con nuestro sello de aprobación de Gestión y Operaciones, y nuestra Certificación de Nivel de Sostenibilidad Operacional. Durante esas evaluaciones, valoramos bastante la dotación de personal y la organización”, agrega Davis.

Niveles óptimos de dotación de personal

En cuanto a si había suficiente personal en el lugar durante la interrupción de Microsoft y cuál debería ser la cantidad óptima de personal presente, John Booth, director general de Carbon3IT Ltd y presidente del grupo de eficiencia energética de Data Center Alliance, lo dice muy claramente. Depende del diseño y la escala del centro de datos, así como del nivel de automatización para el monitoreo y el mantenimiento. Los centros de datos también suelen depender de personal subcontratado para tareas específicas de mantenimiento y emergencia y ofrecen una respuesta en 4 horas. Más allá de esto, sugiere que se necesita más información para determinar si 7 miembros del personal eran suficientes, pero admite que 3 miembros del personal suelen ser la norma para un turno de noche, “y quizás más durante el día dependiendo del ritmo de rotación del equipo”.

Davis añade que no existe una regla general fiable porque todas y cada una de las organizaciones y sitios son diferentes. Sin embargo, existen técnicas de cálculo de personal generalmente aceptadas que pueden determinar los niveles de personal adecuados para un centro de datos en particular. En cuanto al incidente de Microsoft, tendría que hacer cálculos formales para decidir si 3 o 7 técnicos serían suficientes. Por lo demás, es sólo una suposición.

Y añade: “Estoy seguro de que Microsoft ha pasado por esto; cualquier programa operativo bien desarrollado debe realizar estos cálculos. Esto es algo que buscamos durante nuestras evaluaciones: ¿han hecho los cálculos de personal necesarios? Algunos de los factores a incluir en los cálculos son los requisitos de presencia en los turnos: ¿cuál es la cantidad de técnicos que deben estar en el sitio en todo momento para realizar verificaciones del sistema y responder a emergencias? Otra consideración clave son los equipos, los sistemas y la infraestructura del sitio: ¿qué horas de mantenimiento se requieren para el mantenimiento planificado, correctivo y de otro tipo asociado? Cualquier cálculo de personal considera todos estos factores y más, incluidos los recursos internos y los contratistas también”.

Grid Transmission
– Sebastian Moss

Microsoft: defensor de las EOP

“Por lo que sé de Microsoft, es un gran defensor de los procedimientos operativos de emergencia y los simulacros operativos correlacionados. El EOP debidamente escrito, utilizado durante la realización de un simulacro operativo bien desarrollado, puede haber apoyado al personal en este esfuerzo y/o tal vez identificado la necesidad de más personal en caso de tal incidente”.

Microsoft tenía implementados procedimientos operativos de emergencia (EOP). Aprendieron de este incidente y modificaron sus EOP. Es allí donde las organizaciones deben comenzar y deben examinar escenarios de pruebas y simulacros. La mejor protección de un centro de datos, afirma Davis, es una importante biblioteca de EOP, basada en posibles incidentes que puedan ocurrir.

Él cree que el equipo de Microsoft hizo lo mejor que pudo y sugiere que merecen todo el apoyo disponible ya que estas situaciones son muy estresantes. Este apoyo debe consistir en toda la capacitación, herramientas y documentación que una organización pueda brindarles. Confía en que Microsoft esté considerando todas las lecciones aprendidas y ajustando sus prácticas en consecuencia.

En cuanto a si los niveles de personal podrían atribuirse a interrupciones, es completamente posible, pero esa podría no haber sido la única causa en el caso de Microsoft, ya que Booth cree que hubo un defecto de diseño básico. Él cree que una caída de energía eléctrica debería haber activado generadores de respaldo para proporcionar energía a todos los servicios y evitar que fallaran los sistemas de enfriamiento. Por lo tanto, debería haber una prueba de sistemas integrados mejorada, que es donde se prueba cada sistema bajo una variedad de eventos de emergencia externos. Por lo tanto, el programa de pruebas debería incluir el fallo de los enfriadores y cualquier procedimiento de recuperación aplicable.