El incendio que destruyó un centro de datos (y dañó otros) en las instalaciones de OVHcloud en Estrasburgo del 10 al 11 de marzo de 2021, ha planteado una multitud de preguntas de los operadores de centros de datos y clientes preocupados de todo el mundo. La principal de ellas es: "¿Cuál fue la causa principal y podría haberse evitado?"
Los incendios en los centros de datos son raros, pero ocurren: Uptime Institute Intelligence tiene algunos detalles de 25 incendios de centros de datos (14 registrados públicamente, 11 en su base de datos de incidentes de miembros). Estos fueron recolectados durante muchos años. Pero la mayoría de estos se aíslan y se extinguen rápidamente; Es extremadamente raro que un incendio se salga de control, especialmente en centros de datos más grandes, donde generalmente se siguen estrictos protocolos de prevención y contención de incendios. Desafortunadamente para OVHcloud, el incendio ocurrió solo dos días después de que los propietarios anunciaran planes para cotizar en la Bolsa de Valores de París en 2022.
Si bien esta Nota abordará algunos de los hechos conocidos y proporcionará algo de contexto, las respuestas más completas e informadas deberán esperar el análisis completo por parte de OVHcloud, los servicios de bomberos y otras partes. OVHcloud tiene acceso a una gran cantidad de circuito cerrado de televisión y algunas imágenes de cámaras térmicas que ayudarán en la investigación.
OVHcloud
OVHcloud es un operador europeo de centros de datos de alto perfil y una de las empresas de alojamiento más grandes del mundo. Fundada en 1999 por Octave Klaba, OVHcloud tiene su sede en Francia, pero se ha expandido rápidamente, con instalaciones en varios países que ofrecen una gama de servicios de alojamiento, colocación y nube. Se ha promovido como una alternativa europea a los gigantes operadores de nube de EE.UU. y es un participante clave en el proyecto de nube GaiaX de la Unión Europea. Tiene alianzas con grandes operadores de servicios de TI, como Deutsche Telekom, Atos y Capgemini.
Entre los clientes de OVHcloud hay decenas de miles de pequeñas empresas que gestionan millones de sitios web. Pero tiene muchos clientes empresariales, gubernamentales y comerciales importantes, incluidos varios departamentos del gobierno francés, la Agencia de Licencias de Vehículos del Reino Unido y la Agencia Espacial Europea. Muchos se han visto afectados por el incendio.
OVHcloud es aclamado como un innovador audaz, que ofrece una gama de servicios en la nube y utiliza diseños avanzados de refrigeración por aire libre y de bajo consumo energético y, inusualmente para los operadores comerciales, refrigeración líquida directa. Pero también ha sufrido algunas interrupciones importantes, sobre todo dos incidentes graves en 2017. Después de eso, el entonces consejero delegado y presidente Octave Klaba habló de la necesidad de que OVHcloud sea "incluso más paranoico de lo que ya es". Algunos críticos en ese momento creían que estas interrupciones se debían a un diseño y prácticas operativas deficientes, junto con un gran énfasis en la innovación. La necesidad de competir en función de los costos con competidores a gran escala —Amazon Web Services, Microsoft y otros— es un factor siempre presente.
El campus de Estrasburgo (SBG) se basa en un sitio adquirido a ArcelorMittal, una empresa siderúrgica y minera. Alberga cuatro centros de datos que atienden a clientes a nivel internacional. Los dos más antiguos y más pequeños, SBG1 y SBG4, se basaron originalmente en contenedores prefabricados. SBG2, destruida por el incendio, era una instalación de 2 MW capaz de albergar 30.000 servidores. Utilizaba un innovador sistema de refrigeración por aire libre. SBG3, una instalación más nueva de 4 MW que resultó parcialmente dañada, utiliza un diseño más nuevo que puede haber demostrado ser más resistente.
Cronología
El incendio en SBG2 comenzó después de la medianoche y fue detectado por sensores y alarmas. El humo impidió que el personal interviniera de manera efectiva. El incendio se propagó rápidamente en cuestión de minutos y destruyó todo el centro de datos. Usando cámaras térmicas, los bomberos identificaron que dos fuentes de alimentación ininterrumpida (UPS) estaban en el centro del incendio, en una de las cuales se había trabajado esa mañana.
Todos los centros de datos han estado fuera de servicio en los días inmediatamente posteriores al incendio, aunque SBG3 y SBG4 deben volver a estar en línea en breve. SBG1 sufrió daños importantes en algunas habitaciones y OVHcloud ha decidido que no se reiniciará y se trasladarán los servidores supervivientes a otras instalaciones. Se recomendó a muchos clientes que recurrieran a planes de recuperación ante desastres, pero OVHcloud tiene capacidad disponible en otros centros de datos y ha estado trabajando para poner a los clientes en funcionamiento.
Causas, diseño y funcionamiento
Solo un análisis exhaustivo de la causa raíz revelará exactamente lo que sucedió y si este incendio se pudo prevenir. Sin embargo, se han destacado algunas cuestiones de diseño y operativas entre los numerosos clientes y socios del ecosistema de OVHcloud:
- UPS e incendios eléctricos.
Los primeros indicadores apuntan a la falla de un UPS, lo que provocó que el incendio se propagase rápidamente. Sin embargo, puede haber otras razones por las que se inició un incendio en ese lugar o cerca de él. Al menos uno de los UPS se había trabajado mucho más temprano en el día, lo que sugiere que un problema de mantenimiento puede haber sido un contribuyente principal. Aunque no es una buena práctica, los gabinetes de baterías (cuando se usan baterías de plomo-ácido reguladas por ventilación o VRLA) a menudo se instalan junto a las unidades de UPS. Aunque este puede no haber sido el caso en SBG2, este tipo de configuración puede crear una situación en la que un incendio de UPS calienta las baterías hasta que comienzan a quemarse y puede causar que el fuego se propague rápidamente.
- Diseño de torre.
SBG2 se construyó en 2011 con un diseño de torre que tiene una "autoventilación" basada en refrigeración por convección. El aire frío entra, pasa a través de un intercambio de calor para el sistema de enfriamiento (líquido directo) y el aire caliente se eleva a través de la torre en el centro del edificio. OVHcloud tiene otros cuatro centros de datos que utilizan el mismo principio. OVHcloud dice que este es un diseño ecológico y energéticamente eficiente, pero desde el incendio, se ha planteado la preocupación de que pueda actuar como una chimenea. Los respiraderos que permiten la entrada de aire externo deberían cerrarse inmediatamente en caso de un posible incendio (el centro de datos SBG3 más nuevo y cercano, que utiliza un diseño actualizado, sufrió menos daños).
- VESDA y extinción de incendios.
Se informa que SBG2 no tenía ni un sistema VESDA (aparato de detección de humo muy temprano) ni un sistema de extinción de incendios con agua o gas. Más bien, el personal se basó en detectores de humo y extintores de incendios. No se sabe si estos informes son precisos. La mayoría de los centros de datos tienen sistemas de detección temprana y extinción de incendios, y OVHcloud los implementa en otros centros de datos.
- Servicios de respaldo y en la nube.
Las empresas de nube (y muchas de alojamiento) citan cifras de alta disponibilidad y cifras extremadamente bajas de pérdida de datos. Pero la gestión y recuperación completas del almacenamiento en varios sitios cuesta más, especialmente para los servicios alojados. Muchos clientes, especialmente los más pequeños, suelen pagar solo por la copia de seguridad básica. Las declaraciones de OVHcloud desde el incendio sugieren que algunos clientes habrían perdido datos. Algunas copias de seguridad estaban en el mismo centro de datos o en el mismo campus, y no todos los datos se replicaron en otro lugar.
Certificación de resistencia
La responsabilidad de la prevención de incendios - y las regulaciones de construcción - la asumen principalmente las autoridades locales de planificación (AHJ - autoridades que tienen jurisdicción). Estos varían ampliamente según las geografías.
¿Alguna certificación de centro de datos habría hecho surgir los riesgos, ayudando a prevenir el incendio? La respuesta es probablemente no. La certificación Uptime Institute Tier y otras tienden a evitar duplicar, y posiblemente contradecir, las regulaciones locales contra incendios. Sin embargo, las evaluaciones de riesgos específicas del centro de datos pueden haber identificado riesgos y anomalías obvias, o cualquier preocupación con la extinción de incendios.
En los últimos años, la descarga accidental de los sistemas de extinción de incendios, especialmente los sistemas de gas de agente limpio de alta presión, en realidad ha causado interrupciones más serias que los incendios (ver Figura) con algunos centros de datos de transacciones bancarias y financieras afectados por este problema. Los incendios cerca de un centro de datos, o las medidas preventivas tomadas para reducir la probabilidad de incendios forestales, también han provocado algunas interrupciones en el centro de datos (no incluidas en las cifras informadas anteriormente).