Últimos casos de downtime en data centers

Llevamos años analizando y clasificando las causas de caída en data centers, pero los tiempos que corren son de verdadera candencia en lo que al asunto se refiere.

El reciente caso de British Airways, con 75.000 pasajeros afectados y más de 100 millones en pérdidas directas, no hace sino unirse a un buen número de otros sucesos que han ido jalonando los últimos meses y que presentan un panorama, como mínimo, sorprendente, dentro de un sector de tecnología de vanguardia que, sin embargo, se encuentra sometido a unos riesgos evidentes por la parte más “tradicional” de las instalaciones, es decir, la componente electromecánica que soporta el funcionamiento de equipos y sistemas IT.

No hace ni 9 meses que otra compañía del sector aeronáutico (Delta Airlines) también sufrió una parada con cifras asociadas del mismo nivel que BA, lo cual, unido a los recientes y reiterados sucesos en United Airlines por razones no técnicas, ponen al sector en el foco de todas las miradas.

Pero los data centers del sector de la aviación no son una excepción, ya que los problemas se manifiestan, con una cierta asiduidad, en toda tierra de garbanzos. Sólo entre los grandes, en los últimos meses se ha producido la caída de varios centros. Así, en febrero, el de Amazon Web Services (AWS), Telstra (AUS) y Nielsen (Oldsmar FL), y en marzo Microsoft (US East) y Microsoft Azure (Osaka y Global).

Por su parte, el último informe publicado por Ponemon data de comienzos de 2016 y recoge hasta 63 casos de caída sólo en USA en un año.

Las causas de downtime son diversas y varían en función de la fuente que se consulte. Así, por parte del estudio Ponemon, una de cada cuatro caídas se atribuye a los UPSs (y sus baterías asociadas), un 22% a ciberataques, valor que va creciendo exponencialmente desde que Ponemon inició este tipo de análisis, un 22% a errores humanos, un 11% a asuntos mecánicos y un 6% relacionados con la planta de emergencia.

Dentro de la estadística propia de PQC, y si nos atenemos a los sucesos acaecidos en los últimos meses, existe una importante tendencia hacia la responsabilidad última de los grupos electrógenos. En coincidencia con esta apreciación, se encuentra la mayoría de los sucesos comentados anteriormente sobre las grandes compañías, es decir, casi indefectiblemente el grupo electrógeno en el final de la sucesión de errores y como responsable último de la pérdida de continuidad en el servicio.

Lo que sí resulta meridianamente claro es que, salvando el tema de los ciberataques, la proporción en la que las causas eléctricas se encuentran en el origen del problema se mantiene en el histórico entorno del 80%, si no se supera. Luego ya, en función del tipo de data center, se observan una serie de diferencias dignas de mención.

En el informe Ponemon, se atribuye un 25% a los UPS, lo que parece indicar que la muestra de la que se ha obtenido el dato dispone de una topología media de diseño algo escasa de redundancias. De hecho, en los data centers dotados de redundancia distribuida, por lo menos para la parte de los UPS, es francamente difícil (aunque no imposible) que estos sean quienes provoquen una caída total. Por tanto, entre los casos incluidos en ese análisis, es muy probable que encontremos una mayoría de topologías en redundancia paralela, diseño que correspondía al estado del arte de los 90 y que aún siguen soportando muchos data centers (en nuestra experiencia, los trabajos de reconfiguración de topologías paralelo redundante a redundante distribuido han sido una constante de bastantes años).

Pero al margen del análisis Ponemon, y sin quitarle el rigor y la precisión en su estudio, la realidad de los otros casos mencionados, y la propia de quien esto escribe, es bien distinta y quizá el comienzo de esta observación personal lo produjo un doble suceso que tuvo lugar hace 5 y 6 años respectivamente. Ambos se produjeron en Amazon, fueron distintos de los anteriormente relacionados, y los dos con el sistema de respaldo como causa de la caída.

Recuerdo que la explicación para el primero fue algo así como que

Y del segundo:

Pues bien, parece ser que, en ambos casos, aunque las primeras explicaciones fueran desviadas hacia sucesos poco menos que paranormales, la responsabilidad final cayó del lado del sistema de respaldo que, en una de las ocasiones, no arrancó, y en la otra abrió por sobrecarga sobre un interruptor mal ajustado. Es decir, algo así como más de lo mismo.

Pero es que el viejo dicho de “otra de gambas” ha venido acompañándonos desde entonces y no hay más que mirar los casos del último año, donde Delta, Microsoft, Nielsen y, muy probablemente, British Airways completan una larga lista de víctimas del condenado sistema de último recurso. Esa red de seguridad que debería proteger al acróbata y sobre la que hay que estar muy seguro de que no contiene agujeros.

En esa misma línea, la realización de ensayos no es una cultura muy extendida que digamos. Hemos conocido muchos casos donde incluso se prohibía su realización a la vista de los resultados habituales y donde, como mínimo, conseguir la autorización era poco menos que un logro inusitado. En tales casos, el momento en el que los sistemas de seguridad tienen que demostrar su valía coincide con cuando son realmente necesarios y un error en ese tiempo desencadena una caída completa.

La recomendación no puede ser otra que la de convencer a quienes tienen la llave a la hora de tomar estas decisiones de que no sólo autoricen, sino que impulsen la realización de pruebas en condiciones reales de funcionamiento y en momentos donde el sistema primario se encuentre perfectamente operativo. Sólo así tendremos unas ciertas garantías de que la enorme inversión en equipos y sistemas de respaldo y las redundancias asignadas a un diseño de, cada día, más alto nivel de exigencia, está plenamente justificada.

Las causas de caída en los centros de datos las hemos venido clasificando en cuatro grandes grupos. Las que tienen su origen en un diseño incorrecto, las relacionadas con la ejecución, las que tienen que ver con la operación y el mantenimiento de la instalación y las directamente asociadas a un fallo en el producto. Pues bien, independientemente del paso del tiempo, los porcentajes se mantienen, otorgándole la palma al capítulo de operación y mantenimiento, donde es más probable la incidencia del error humano.

En general, para que se den las circunstancias necesarias que conduzcan a una consecuencia como esta, la instalación tiene que, habitualmente, adolecer de dos cosas; la falta de una topología adecuada y una operación defectuosa. Y si tenemos que ser más precisos, es más predominante la segunda que la primera, el error humano en el fondo de ello, y la sucesión de errores, en forma de alineamiento de los planetas, algo posible. Incluso las topologías más sofisticadas se caen. De hecho, aunque el objetivo de un Tier IV apunta hacia una disponibilidad total, es frecuente asistir a pérdidas de servicio en entornos de ese o similar nivel y los resultados del análisis no suelen dejar espacio a muchas dudas.

Además, se da otra circunstancia que solemos plantear reiteradamente, pero que parece no estar calando demasiado en ciertas organizaciones. Se trata del ciclo del fallo, ese proceso por el cual, de forma indefectible, las condiciones propicias para que se produzca una caída vuelven a encontrarse encima de la mesa con una cierta periodicidad que podemos cifrar entre los 8 y los 13 años. Y sobre todas, esa sensación de tenerlo todo controlado, ese efecto Narciso que nos hace pensar sólo en lo bien que lo hacemos y desviarnos de la primera condición que debe presidir el día a día de cualquier responsable de data center. La de mantener la guardia siempre alta y tener siempre la razonable duda de si todo está en regla y, además, perfecta y regularmente probado.

Este artículo ha sido escrito por Garcerán Rojas, tutor de DCPro, Data Center Specialist Design y socio fundador en PQC Ingeniería de Servicios.

Aprenda más sobre los últimos casos de downtime en data centers con DCPro

DCProfessional, como líder de mercado en soluciones de formación para la industria Data Center, ofrece la oportunidad de entender la industria del data center, consiguiendo una cualificación internacional, proporciona a los profesionales un conocimiento imprescindible con el fin de conseguir la eficiencia operativa y la optimización de los recursos
para la reducción de costes, y la disminución de las caídas no programadas de los sistemas. Más de 8.000 profesionales se han formado con nosotros a nivel mundial. Nuestros trainings permiten a los profesionales sacar provecho y aprender de las tecnologías que influyen en las operaciones de data centers en todo el mundo, de la mano de los expertos más prestigiosos y con más experiencia de la industria con una gran visión de futuro.

Últimos casos de downtime en data centers

Etiquetas