Los cortes de energía siempre han sido una de las principales causas de cortes graves en el servicio de TI. La pérdida de energía en un centro de datos puede ser devastadora y sus consecuencias han justificado plenamente el enorme gasto y esfuerzo que implica la prevención de tales eventos.

Pero en los últimos años, otras causas se están poniendo al día, y los problemas de redes ahora emergen como una de las causas más comunes, si no la más común, de tiempo de inactividad. En nuestra encuesta más reciente de casi 300 operadores de centros de datos y servicios de TI, los problemas de red se citaron como la razón más común de cualquier interrupción del servicio de TI, más común incluso que los problemas de energía (consulte la Figura 1).

Las aplicaciones distribuidas dependen de las redes

fig1-q5.png
Figura 1. Entre los encuestados, los problemas de redes fueron la causa más común de interrupciones del servicio de TI en los últimos tres años. – Uptime Institute

Las razones son bastante claras: las aplicaciones y los datos modernos se distribuyen cada vez más en los centros de datos y entre ellos, y la red es cada vez más crítica. Para agregar a la combinación, las redes definidas por software han agregado una gran flexibilidad y capacidad de programación, pero también han introducido una complejidad propensa a fallas.

Profundizar un poco más confirma el diagnóstico de complejidad. Los errores de configuración, los errores de firmware y las tablas de enrutamiento dañadas juegan un papel importante, mientras que las preocupaciones más tradicionales sobre el clima y las roturas de cables son una preocupación relativamente menor. Los problemas de congestión y capacidad también causan fallas, pero estos a menudo son el resultado de problemas de programación / configuración.

Las redes son complejas no solo técnicamente, sino también operativamente. Si bien los centros de datos empresariales pueden ser atendidos por solo uno o dos proveedores, muchos proveedores de telecomunicaciones pueden atender los centros de colocación de múltiples operadores. Algunos de estos enlaces pueden, más adelante, compartir cables o instalaciones, agregando posibles puntos superpuestos de falla o puntos de apriete de capacidad. La propiedad, la visibilidad y la responsabilidad también pueden ser complicadas. Estos factores combinados ayudan a explicar el hecho de que el 39% de los encuestados dijeron que habían experimentado una interrupción causada por un problema de redes de terceros, algo sobre lo que tenían poco control (consulte la Figura 2).

Cómo evitar el tiempo de inactividad

fig2-q13.png
Figura 2. Las fallas de configuración / administración de cambios causaron casi la mitad de todas las interrupciones relacionadas con la red informadas por los encuestados. – Uptime Institute

Entre aquellos que evitaron cualquier tiempo de inactividad debido a cortes relacionados con la red, ¿cuál fue la razón más importante?

Algunas de esas organizaciones que evitaron cualquier tiempo de inactividad relacionado con la red lo atribuyeron a la suerte (!). (Sabemos de un operador que sufrió dos roturas de cable críticas separadas y no relacionadas al mismo tiempo). Pero la mayoría de los que evitaron el tiempo de inactividad atribuyeron un factor que es más controlable: la inversión en sistemas y capacitación (consulte la Figura 3). Al igual que con la prevención de problemas de energía, el dinero gastado en experiencia, redundancia, monitoreo, diagnóstico y recuperación, junto con la capacitación y los procesos del personal, se recuperará con más horas de actividad.

fig3-q14.png
Figura 3. Más de las tres cuartas partes de los encuestados que evitaron el tiempo de inactividad relacionado con la red lo atribuyeron a sus inversiones en resiliencia y capacitación. – Uptime Institute


Por Andy Lawrence, miembro fundador y director ejecutivo de investigación del Uptime Institute.