La frecuencia general y la gravedad de las interrupciones en los centros de datos están disminuyendo, según un nuevo informe del Uptime Institute.

Según Uptime, hay de media, entre 10 y 20 interrupciones de TI de alto perfil por año que causan graves pérdidas financieras, interrupciones en el negocio y en los clientes, pérdida de reputación o, en casos extremos, pérdida de vidas.

Capacidad de TI aumenta, tiempo de inactividad disminuye

Si bien hay más problemas de tiempo de inactividad que en años anteriores, la tasa de aumento es menor que el ritmo al que se expande la capacidad de TI, lo que lleva a una disminución porcentual de las interrupciones.

El 55 por ciento de los operadores que respondieron a la encuesta de centros de datos de Uptime Institute de 2023 informaron haber tenido una interrupción en los últimos tres años. Esta es una disminución del 60 por ciento en 2022 y del 69 por ciento en 2021.

De estas interrupciones, solo una de cada 10 se clasificó como severo o grave en 2023. Los operadores dijeron a Uptime que el 41 por ciento de las interrupciones en los últimos tres años fueron insignificantes. Se trata de una mejora de cuatro puntos porcentuales con respecto a 2022 y de 10 puntos porcentuales con respecto a 2021.

Más de la mitad (54 por ciento) de los encuestados en la encuesta dijeron que los cortes severos costaron más de 100.000 dólares, y el 16 por ciento afirmó que su corte más reciente costó más de 1 millón de dólares.

La nube, el Covid-19 y frenar la complacencia contribuyen a la disminución

El informe dice que la menor tolerancia a la complacencia en todos los sectores ha contribuido a la disminución general de la frecuencia de los cortes. Los altos costos de reputación resultantes de las interrupciones han alentado a las partes interesadas de la industria a priorizar la resiliencia.

Uptime dice además que las organizaciones están invirtiendo en redundancia de infraestructura, y los centros de datos empresariales, de colocación y de nube están avanzando hacia modelos de resiliencia basados ​​en software. Las expectativas anteriores sugerían que los enfoques de múltiples sitios socavarían las estrategias de redundancia de sitios físicos.

El paso a la nube pública no necesariamente ha resultado en menos interrupciones. En cambio, ha significado que se registre a proveedores externos como la causa de las interrupciones de TI, lo que reduce el número total de interrupciones en las instalaciones.

El impacto de la pandemia de Covid-19 ha provocado oscilaciones en la demanda, lo que a su vez ha tensado las cadenas de suministro y distorsionado las tasas de interrupción. El informe dice que las interrupciones en la cadena de suministro paralizan los proyectos de capital y provocan retrasos en las mejoras de la infraestructura. Esto ha reducido temporalmente la tasa de incidentes que a menudo provocan cortes.

El uso de resiliencia basada en software distribuido, que puede reducir las interrupciones con el tiempo, también tiene el potencial de agregar nuevos riesgos.

Cortes de energía

Según la encuesta de Uptime, el 52 por ciento de los encuestados mencionaron la energía como la causa principal de los recientes apagones impactantes.

Durante ocho años, los operadores externos, los proveedores de telecomunicaciones y de nube e Internet representan el 67 por ciento de las interrupciones en general. Estos operadores han experimentado un aumento marginal, pero constante, desde 2020, aumentando cinco puntos porcentuales hasta representar casi una de cada 10 interrupciones en 2023.

Esto refleja la creciente dependencia del alojamiento en la nube, SaaS y proveedores de colocación.

Las telecomunicaciones han experimentado un aumento de las interrupciones debido a la creciente demanda de conectividad y capacidad en todos los sectores. La criticidad de las redes móviles ha significado que las interrupciones pueden tener un impacto enorme.

Los cortes en el sector financiero disminuyeron considerablemente en 2022 y 2023, posiblemente debido a regulaciones y supervisión más estrictas luego de una serie de cortes grandes y de alto impacto antes de 2021.

Cuatro de cada cinco encuestados dicen que su interrupción grave más reciente podría haberse evitado con una mejor gestión, procesos y configuración.

El error humano contribuye a una mayoría significativa de todos los incidentes de tiempo de inactividad

A lo largo de 25 años, Uptime estima que el error humano, directa o indirectamente, representa entre dos tercios y cuatro quintos de todos los incidentes de tiempo de inactividad.

La causa más común de interrupciones importantes relacionadas con errores humanos es que el personal del centro de datos no sigue los procedimientos o procesos (48 por ciento). A esto le siguen procesos de personal incorrectos (45 por ciento) y problemas de instalación con un 23 por ciento.