Cuando el fuego envolvió el centro de datos SBG2 de OVHcloud en Estrasburgo a mediados de marzo, todo el sitio se cerró y el fundador del proveedor de servicios, Octave Klaba, tuiteó: "Recomendamos activar su plan de recuperación ante desastres".

Poco más de un día después, algunos clientes de OVHcloud habían perdido datos de forma permanente y algunos sitios web seguían sin conexión (incluido el prestigioso Centro Pompidou de París). La mayoría de la gente expresa simpatía por OVHcloud y se siente aliviada de que nadie haya resultado herido en una conflagración bastante apocalíptica. Pero otros han estado pidiendo una compensación, e irónicamente, estos incluyen a los jugadores que se divierten luchando por sobrevivir en el distópico mundo infernal del juego Rust.

Para activar un plan, debe tener uno

Las palabras de Klaba son la voz de la razón aquí y, de hecho, podrían ser un recordatorio oportuno de cosas que algunas personas podrían olvidar. Cuando haga algo, debe ser consciente de los riesgos.

Los centros de datos son tan confiables que los clientes esperan que siempre estén allí. Nuestro WiFi y banda ancha pueden tambalearse, y los sitios de comercio electrónico pueden no aceptar nuestros pedidos o perder entregas, pero la gente espera que Google siempre tenga su correo y Facebook tenga sus fotos listas con un solo clic.

Aquellos en la industria lo saben mejor, o al menos deberían hacerlo. La mera existencia de sistemas de alimentación ininterrumpida (UPS) y alimentaciones redundantes es una señal de que sabemos que las cosas pueden salir mal y que los sistemas de prevención de incendios están ahí porque pueden ocurrir incendios. En toda la industria, podemos estar muy cerca del 100 por ciento de confiabilidad, pero el 100 por ciento de confiabilidad es un ideal de perfección al que solo podemos acercarnos de manera asintótica.

Un desastre como este no debería ocurrir. Cuando los escombros estén completamente tamizados, descubriremos qué los causó y, lamentablemente, será algo que podría haberse evitado. Sin embargo, es un hecho científico que los sistemas técnicos humanos son complejos y tendrán una tasa de fallas. Cosas como esta sucederán inevitablemente de vez en cuando, o para decirlo simplemente: "Los accidentes ocurren".

Está claro que OVHcloud está haciendo todo lo posible para arreglar todo lo que se puede arreglar, eso es lo que esperaríamos de cualquier proveedor de servicios. Pero todo el mundo debería tener planes de recuperación ante desastres.

Cuando te registras con un proveedor de servicios, te dirán (o al menos deberían hacerlo) que brindan un servicio de máximo esfuerzo. Sus estadísticas son excelentes y pueden ofrecer servicios con confiabilidad adicional o soporte mejorado, pero no pueden garantizar que nada salga mal. Algún nivel de planes de respaldo y desastres será su responsabilidad.

El problema es que un plan de desastre debe considerar todos los riesgos y tomar las medidas adecuadas de acuerdo con su probabilidad, yo siempre está claro cuáles son esos riesgos.

Muchas de las personas más gravemente afectadas utilizaban sus propios servidores "bare metal" dedicados en el centro de datos de OVH, en lugar de servidores virtuales en la nube. Esa es una decisión que tomaron, que les dio acceso a más rendimiento en hardware dedicado y tal vez una mayor privacidad percibida. Sin embargo, aunque OVHcloud puede mantener copias de seguridad de las máquinas virtuales en su nube, los usuarios con servidores bare metal no obtienen ese servicio.

Entender los riesgos

"Lo que parece estar perdido son los clientes que tenían VPS [servidor privado virtual] o servidor dedicado sin copias de seguridad", tuiteó el empresario suizo Kalle Sintonen después del incendio. "Los datos de OVH también se guardan siempre en otra ubicación ..."

El hilo de Twitter es educativo. Kalle necesita dos pasos para explicarlo: "El VPS y los servidores dedicados los gestiona el cliente, no OVH. Así que es la gestión de fallos del cliente en su lugar".

Los clientes de instancias bare-metal no deberían guardar las joyas de la familia en esos servidores. Si tienen algo allí que necesita copia de seguridad, deben asegurarse de hacerlo. Y deben comprender los riesgos contra los que se protegen cuando deciden cómo realizar una copia de seguridad de los datos.

Algunos clientes de OVHcloud solo habrán considerado los fallos del disco duro o los fallos de la memoria, y habrán realizado una copia de seguridad de los datos en otro servidor ... en el mismo edificio.

Es fácil ser prudente después de los hechos, y algunas personas tendrán que aceptar el hecho de que tomaron decisiones, tal vez sin saberlo o inconscientemente, que sus datos y sus sitios solo merecían un cierto nivel de confiabilidad.


Por Peter Judge, editor global de DatacenterDynamics