Han pasado 15 meses desde la mañana del 10 de marzo de 21, cuando se produjo un incendio en el centro de datos SBG2 de OVHcloud en Estrasburgo y lo destruyó por completo.

Todavía no sabemos la causa exacta del incendio, pero ahora tenemos informes de los bomberos de Bas-Rhin que atendieron el incendio y, esta semana, de los investigadores franceses de accidentes industriales, BEA-RI. Ambos ofrecerán una lectura incómoda para OVHcloud. Los bomberos dijeron que el edificio tenía suelos de madera y carecía de un sistema de extinción y un corte total de energía de emergencia, mientras que los investigadores del accidente revelaron que se había detectado agua en la sala de energía donde comenzó el incendio, minutos antes de que estallara el fuego.

OVHcloud_fire_CCTV_1_BEA_RI.png
– BEA-RI

Los informes han salido a la luz, mientras que un bufete de abogados, Ziegler & Associes, ha recopilado quejas de más de 140 clientes de OVHcloud agraviados en una demanda colectiva.

Silencio desde la nube

Inicialmente, OVHcloud fue muy comunicativo sobre el incendio , y el fundador de OVHcloud, Octave Klaba, describió los heroicos esfuerzos de la empresa para reemplazar los servidores y hacer que los clientes volvieran a estar en línea. Klaba incluso prometió establecer un laboratorio de investigación para ayudar a los centros de datos a evitar tal desastre. Más tarde, hace alrededor de un año, calló abruptamente sobre el tema y dijo que no podía hablar hasta que se emitieran los informes oficiales.

Desde entonces, fuentes de OVHcloud han dicho en ocasiones lo frustrados que se sienten por no poder hablar, y hemos estado dispuestos a creerlo. Pero con la publicación de estos informes, ahora creemos que es hora de que la empresa dé su versión de la historia.

La historia con la demanda colectiva es similar. Ziegler recopiló detalles de las quejas de los clientes de OVHcloud y dijo el año pasado que el proveedor francés de la nube les había fallado a esos clientes al administrar un centro de datos que estaba en riesgo de tal desastre, al darles a los clientes la falsa impresión de que sus datos estaban respaldados y al darles una compensación inadecuada por la pérdida de negocios que habían sufrido como resultado del incendio.

OVHcloud ha dicho constantemente que no comentará ni responderá a esos reclamos hasta que haya recibido cartas formales de los abogados. Ahora sabemos que los primeros lotes de cartas han llegado a OVHcloud, por lo que es hora de que la empresa responda a ellos.

Un análisis mesurado

El informe del accidente es mesurado y cuidadoso al no sacar conclusiones precipitadas. Es uno de los primeros informes de incidentes importantes del Bureau d'enquêtes et d'analyses sur les Risques Industriels (BEA-RI), una organización recién creada en abril de 2021 , y modelada en el BEA que informa sobre accidentes de aviación.

Los bomberos de Bas Rhin se concentraron en los problemas que obstaculizaban su operación: la dificultad para cortar la energía y la forma en que los suelos de madera y la circulación de aire hicieron que todo el edificio ardiera como una hoguera.

Por su parte, BEA-RI da crédito donde se debe: OVHcloud disponía de baterías de plomo-ácido seguras que no contribuyeron al incendio, y el sistema de detección de incendios del edificio funcionó a la perfección, lo que permitió evacuar a todo el personal de forma segura en minutos. Sin embargo, ese sistema de detección de incendios también reveló que el humo del fuego circulaba por el edificio a los pocos minutos de que comenzara el fuego en la planta baja.

BEA-RI observa más de cerca el momento en que se inició el incendio, simultáneamente en dos salas de máquinas. No saca conclusiones finales, pero señala algunos hechos que deben ser explicados más adelante.

En primer lugar, el equipo que falló había necesitado mantenimiento repetido por fallas inexplicables.

En segundo lugar, en la hora anterior al inicio del incendio, los sensores de uno de los inversores mostraron lecturas de humedad anómalas.

"La presencia de líquido o humedad en un dispositivo eléctrico puede causar la formación de un cortocircuito interno que podría causar el daño observado", dice BEA-RI, pero los investigadores dicen que está más allá de su competencia determinar una causa final. "Estos elementos por sí solos no... determinan la causa de la avería", dicen los investigadores, que señalan que no han podido "establecer si se trata de un error de medición o de un pico de humedad ligado, por ejemplo, a la presencia de líquido".

BEA-RI dice: "No es posible, en esta etapa, establecer la causa de la falla a nivel del SAI que podría explicarse por diferentes hipótesis (presencia de líquido o humedad vinculada a la presencia de la proximidad, mal funcionamiento vinculados a la operación de mantenimiento realizada en la misma mañana, funcionamiento del inversor fuera de los rangos normales de funcionamiento, etc.)"

Necesitamos una respuesta completa

Los investigadores tienen claro que no son expertos en centros de datos. El informe incluye extensas explicaciones de los problemas fundamentales de diseño del centro de datos, como los niveles de Uptime Institute y los sistemas de prevención de incendios.

Sin embargo, hay muchas otras personas que son expertos en centros de datos. Es hora de que tengan acceso completo a los detalles de lo que sucedió, y podamos llegar al fondo de esto.

Como otros han comentado después de otros incidentes, cualquier intento de retrasar u oscurecer la causa es sumamente contraproducente, ya que podría contribuir a que suceda lo mismo en otros lugares. Grupos que incluyen DCIRN han propuesto anteriormente una organización de informes de accidentes y emergencias de centros de datos. No estamos seguros de si la promesa de Klaba de un laboratorio de prevención de incendios fue alguna vez seria o simplemente un ejercicio de relaciones públicas, pero en realidad podría ser útil.

Por lo menos, será necesaria una divulgación final de la causa del incendio para cualquier acuerdo de la demanda colectiva, ya sea que vaya a la corte o no.


Por Peter Judge, editor global de DatacenterDynamics