Con la reciente pérdida total de dos centros de datos debido a un incendio en un proveedor de nube en Francia, surge la pregunta de qué tan frecuentes e impactantes son los incendios de los centros de datos.
Para responder a esta pregunta, comenzamos a navegar por Internet para ver cuántos incidentes publicados de incendios de centros de datos había y qué información podríamos extraer de esos informes.
Esta opinión aparece en el último número de la revista DCD. Léalo gratis hoy.
Compartir versus guardar el secreto
En total, desde junio de 2003 hasta marzo de 2021 (18 años) pudimos identificar 31 informes de incendios de centros de datos. El desafío fue que los detalles y los detalles sobre las causas, la duración y los impactos eran difíciles de conseguir. Parece que solo son noticia cuando hay un incendio o informes de un incendio. Si las causas no se conocen fácilmente, rara vez se realizan seguimientos con detalles más específicos o los detalles están enterrados detrás de acuerdos de no divulgación (NDA) que prohíben que todos se expresen.
También cabría esperar que, dado que el Riesgo de pérdida es tan grande, las compañías de seguros exigirían que los operadores de los centros de datos tomen mayores precauciones y compartan experiencias para enseñar una mejor mitigación de riesgos. Además, las operaciones del centro de datos se oponen intrínsecamente a compartir información incluso si eso significa prevenir incidentes futuros. Esta cultura de no compartir información sobre temas comunes hizo que nuestra investigación fuera un poco más difícil y limitada.
Aquí hay algunas estadísticas de lo que encontramos:
- El 65 por ciento o 20 de los 31 fueron confirmados como incendios reales
- El 23 por ciento o 7 de los 31 fueron reportados como incendios, sin embargo, no hubo datos que lo confirmen.
- 6 por ciento o 2 de los 31 informes estaban en nuevos centros de datos en construcción
- El 3 por ciento o 1 de los 31 fue polvo de construcción que desencadenó un sistema de extinción de incendios en un centro de datos en vivo.
- 3 por ciento o 1 de los 31 fue una interrupción debido a una prueba del sistema de extinción de incendios
Debido al secreto de la industria, no hay duda de que hubo muchos más incidentes de incendios en centros de datos que no fueron noticia, pero aun así, pudimos identificar un promedio de 1,5 incendios importantes por año. Aún más revelador de la gravedad de su incendio típico (excluyendo el incidente reciente en el que se perdieron dos centros de datos), el tiempo de inactividad promedió 17,5 horas debido a incidentes de incendio. Y ese fue el tiempo necesario para poner en funcionamiento la instalación, sin incluir los reinicios de TI que siguieron.
Entonces, 1,5 centros de datos de miles de centros de datos en todo el mundo no parece mucho, a menos que, por supuesto, sea suyo. Si es así, ¿está preparado para 17,5 horas de inactividad antes de poder reiniciar los servidores? No olvide que las 17,5 horas asume que los servidores no se dañan por el calor, el hollín, el agua o el fuego. Luego hay otros factores como la pérdida de datos debido a la fuerte caída cuando la energía desaparece repentinamente.
Curiosamente, de los incidentes en los que se informó el momento en que comenzó el incendio, solo el 27 por ciento fueron en las horas de la tarde. El otro 73 por ciento comenzó en las horas de la mañana, donde todos menos uno comenzaron entre las 9:00 a.m. y las 11:00 a.m., hora local. Esto nos parece interesante porque todo el mundo espera que ocurran incidentes en el turno de noche cuando no hay nadie alrededor. Quizás esta estadística refuerza la necesidad de mantener a las personas fuera de los centros de datos porque las cosas siempre suceden cuando hay personas cerca. Si bien no encontramos ningún factor contribuyente relacionado con las actividades humanas, la inferencia sigue siendo sólida. Quizás cuando se compartan más detalles en el futuro, seremos capaces de establecer una correlación estadística.
Otro factor que pudimos observar fue la frecuencia por año. Curiosamente, encontramos los años 2011, 2014, 2015 y 2018, todos empatados con cuatro incidentes de incendios cada uno. Más importante aún, desde 2011 nunca hemos pasado más de tres años con menos de cuatro incidentes de incendios. Si eso es cierto, entonces tendremos dos incendios más para cuando finalice el 2021.
Para ser real sobre todos estos hechos y cifras, los conjuntos de datos simplemente no son suficientes para ser estadísticamente confiables. Para eso, necesitamos muchos más datos para lograr el grado de confianza que requiere el análisis estadístico y garantizar que los datos no estén sesgados. Esto es lo que espera hacer la Red de informes de incidentes del centro de datos (DCIRN. Lanzado en 2017, DCIRN tiene como objetivo recopilar todos los incidentes que afectan la confiabilidad y disponibilidad de los centros de datos.
El logro de estos objetivos requerirá que la industria comience a abrirse y compartir datos operativos comunes no propietarios que brinden información sobre las mejoras operativas. A medida que los incidentes del centro de datos tienen cada vez más impacto en la vida diaria de las personas, la industria tendrá que ponerse de pie y contribuir a este proceso o riesgo de intervención de varios gobiernos con diferentes requisitos de informes.
El liderazgo con el ejemplo es una herramienta poderosa y necesitamos más líderes cotidianos como Octave Klaba, que pueda enfrentarse al desastre, reunir a su equipo para ofrecer esfuerzos hercúleos para restaurar los servicios a sus clientes y comprometerse con la total transparencia de las causas fácticas que provocan la pérdida total de dos centros de datos adyacentes en un incendio. Aprenderemos mucho de este incidente, pero este es solo un centro de datos. La industria puede aprender mucho más compartiendo datos comunes en todos los centros de datos.