En los últimos meses, hemos visto algunas interrupciones de TI importantes: una de Wells Fargo de un día de duración impidió que los clientes accedieran a sus cuentas, una de Amtrak que dejó a 60.000 pasajeros de Chicago atrapados, y una interrupción global de Gmail y Google Docs que impidieron que las personas pudieran usar esos productos.

VFEmail.net sufrió un hackeo en febrero, lo que significó la pérdida total de todos los datos de clientes, incluidas las copias de seguridad.

Estos y otros problemas de TI similares nos ofrecen dos puntos importantes:

  • Los cortes de TI pueden pasarles a cualquiera (y es probable que al final le pasea todo el mundo).
  • El alcance del daño que causará su próxima interrupción de TI depende de cómo de bien se preparen las empresas para ello ahora mismo.

También es importante tener en cuenta que más del 60 por ciento de las interrupciones de TI o "desastres" se deben a un error humano. Entonces, ¿Cómo se puede minimizar el daño que causará su próxima interrupción de TI a sus ingresos, reputación y clientes?

En primer lugar, hay que asegurarse de tener un plan de continuidad comercial (BCP) que incluya tanto un plan de recuperación en caso de desastre (que describa cómo manejará su TI) y un plan para mantener el resto de la empresa en marcha (por ejemplo asegurándose de que las personas clave sepan lo que está pasando, estableciendo un lugar de reunión, definiendo una cadena de mando, etc.).

Aquí, se describen cuatro pasos cruciales para ser efectivo en el lado de TI.

Defina posibles escenarios de desastre

Para la mayoría de las empresas, hay dos escenarios principales de desastre de TI:

  • Interrupción del sistema, en la cual una parte clave de su red o aplicación funciona mal y los servicios están "fuera de línea" por un período de tiempo. Este es, generalmente, un aspecto de recuperación relativamente fácil ya que se vuelve a estar de nuevo en línea con un mínimo de transacciones afectadas solamente por el tiempo de inactividad.
  • Pérdida de datos, en la que pierde información, contenido o datos (ya sean propios o de sus clientes). No siempre es posible recuperarse de una pérdida de datos, como en el hackeo de VFEmail.net, en el que se eliminaron todas copias de seguridad.

El primer paso para asegurarse de que se está listo para un desastre, es comprender su perfil de riesgo para estos tipos de interrupciones: ¿Qué capacidades se verán afectadas por una interrupción del sistema? ¿Cuán importantes son esas capacidades para dirigir su negocio? ¿Una interrupción causará la pérdida de datos? ¿Qué otros eventos podrían desencadenar la pérdida de datos? Etc.

Y no se puede olvidar que el error humano suele ser la causa más frecuente de ambos tipos de desastres.

Evalúe el daño potencial a su negocio

Este es un trabajo para hacer conjuntamente entre el TI y los líderes. El objetivo es comprender cómo se verá afectada su empresa en su conjunto, si sus partes individuales están caídas o si se pierden varios tipos de datos.

En estas conversaciones se debe aclarar el efecto en los usuarios que las interrupciones tendrán y evaluar el impacto financiero de cada minuto de inactividad para su negocio.

Algunos puntos de referencia útiles son:

  • RTO (objetivo de tiempo de recuperación), que define cuánto tiempo puede sobrevivir la empresa fuera de línea sin causar daños graves. El plan de DR debe delinear una estrategia para restaurar las operaciones comerciales.
  • RPO (objetivo de punto de recuperación), que define cuánto tiempo puede pasar entre las copias de seguridad de los datos sin dañar significativamente las operaciones de su negocio. El análisis de la interrupción de su negocio definirá su RPO. (Si el plan de recuperación ante desastres requiere la restauración de los datos de la última copia de seguridad conocida, el RPO define cuánto tiempo es aceptable para esa copia de seguridad).

Si desea dar un paso adicional, debe asegurarse de que la evaluación incluya una estimación del daño a su reputación que podría causar el tiempo de inactividad. Esto es mucho más difícil de calcular, pero puede ser un componente valioso en el proceso de toma de decisiones.

Revise su plan de recuperación de desastres actual

Una vez que sepa qué tipo de tiempo de inactividad puede costear razonablemente su negocio, eche un vistazo a su plan de DR actual. Si es como la mayoría de los negocios, tiene uno pero no ha sido diligente en actualizarlo, o no lo prueba regularmente, es el momento de hacerlo.

Mientras revisa su plan de DR, se debe considerar lo siguiente:

¿Refleja la realidad de su negocio actual, incluidos los planes para aplicaciones críticas para el negocio, como se ha explicado anteriormente? Si no es así tendrá que actualizarla.

¿Tiene el tamaño correcto? Los equipos de TI son excelentes para encontrar formas creativas de hacer DR. Esto se debe en parte a que estos sistemas son sus bebés y están muy en sintonía con todas las formas en que las cosas pueden salir mal. Pero el DR suele ser más de lo que necesita una empresa, y más caro de lo que puede permitirse. Si ha determinado que puede permitirse tres días de tiempo de inactividad y su plan de recuperación ante desastres actual lo tiene en línea en seis horas, es hora de hacer algunos cambios.

¿Se ha probado? Muchos planes de DR se desarrollan para marcar una casilla o cumplir con un requisito reglamentario. Pero si no se prueba el plan, no tiene ningún valor ante un verdadero desastre. No hay forma de saber si realmente evitará el tipo de pérdida de ingresos y daños a la reputación que pueden causar las interrupciones inesperadas y la pérdida de datos.

Actualiza y prueba tu plan de DR

La mayoría las empresas no actualizan y prueban regularmente sus planes de DR. Ese es un gran problema porque un plan de DR obsoleto es más o menos inútil en caso de un desastre real.

Siga estos pasos a medida que realiza cambios:

  • Asigne a alguien para que se haga cargo del DR y las pruebas. Esto significa que alguien será responsable si falla, lo que aumenta significativamente las posibilidades de que se realicen las pruebas.
  • Asegúrese de que el C-suite esté alineado con la importancia de tener un plan de DR y realice pruebas de estrés regulares. Esto es crucial para obtener la participación que necesitará de colegas que no son de TI.
  • Incluya una definición de "desastre". ¿Sabe cuándo y cómo lanzará su plan de DR, después de una hora de inactividad? ¿Un día? Defina, también, quién hace esta llamada y quién hace la llamada si esa persona está fuera.
  • Ponga las reglas de prevención de desastres en su lugar.
  • Incluir un plan de comunicación. Ser transparente con las partes interesadas durante un desastre ("aquí está lo que está pasando") y después ("esto es lo que sucedió y lo que estamos haciendo para mejorar el desempeño en el futuro") contribuirá en gran medida a mitigar cualquier daño a la reputación que pueda causar un desastre.

Un DR es eficaz sobre todo si se atiende a los detalles

Si bien es cierto que todas las empresas deben tener y probar un plan de DR, también es cierto que no hay dos empresas iguales en lo que necesitan o en cómo deben responder a los desastres. Para cualquier negocio, el DR debe basarse en dos cosas: su perfil de riesgo y su capacidad para recuperarse de un evento, grande o pequeño.

Para asegurarse de que su próxima interrupción de TI cause el menor daño posible a sus clientes, sus ingresos y su reputación, dedique tiempo a comprender las características específicas de lo que puede salir mal y cómo esos problemas afectarán a sus clientes, y cree un plan de DR para minimizar ese impacto.


  • Eric Dynowski es el CTO en ServerCentral Turing Group (SCTG).