Planifique con anticipación y diga adiós a las interrupciones del servicio para siempre

Por Song Pang, vicepresidente sénior de ingeniería en NetBrain

La ineficiencia de las operaciones de red en las grandes empresas se ha convertido en una de las principales causas del tiempo de inactividad no planificado y las interrupciones del servicio relacionadas. Mientras que en años anteriores el tiempo de inactividad no planificado era atribuible a los centros de datos operados por la empresa y su capacidad de recuperación de energía y enfriamiento, hoy en día más de la mitad de toda la computación está alojada en la nube pública, lo que crea una infraestructura virtualizada donde la red ahora juega el papel dominante en la prestación de servicios de TI.

Los tickets de problemas nunca vienen solos

Recientemente, un proveedor de software multinacional con sede en Alemania informó que su equipo de NetOps recibe un promedio de más de 10.000 tickets de problemas por mes. Después de examinar los datos de incidentes resultantes, se dieron cuenta de que más de la mitad de esos tickets podrían haberse evitado por completo si solo hubieran tenido una forma de comprender qué comportamiento se esperaba de la red para cada una de sus aplicaciones y servicios y luego lo compararon continuamente con el red en vivo. Al identificar proactivamente los cambios en el comportamiento deseado con la suficiente anticipación, podrían eliminar fácilmente la mayor parte de su tiempo de inactividad no planificado. Y el hecho es que evitar que ocurra cualquier problema de producción en primer lugar es mucho menos costoso que resolver ese mismo problema una vez que se ha manifestado en la producción.

En el mundo habilitado para la nube, todas las empresas deben comenzar a pensar en un enfoque más proactivo para las operaciones de red basado en la validación continua de la capacidad de la red para brindar los resultados de servicios de aplicaciones deseados que necesitan sus integrantes.

Saliendo del modo de reacción

Durante años, los líderes empresariales y los profesionales de TI han luchado con el enfoque caótico de NetOps, que se ejecuta continuamente en modo de reacción. En este modo, reparan los problemas después de que los usuarios de producción los notifiquen y los tiempos de resolución de problemas pueden ser de días o más para todos los problemas, excepto los más críticos. Esto es costoso tanto directa como indirectamente.

Para abordar de manera proactiva las interrupciones de la red, primero debemos analizar algunas de las causas fundamentales de las interrupciones. Éstas incluyen:

Fallas de hardware y equipos obsoletos: en algún momento u otro, con el tiempo suficiente, los dispositivos y el hardware fallarán. Cosas como errores de software, picos de energía y mantenimiento deficiente pueden provocar fallas en los dispositivos.
Problemas de resiliencia: cuando la red eléctrica de Texas se apagó en 2021 , la infraestructura de la red del estado falló y las redes celulares de respaldo se interrumpieron. Este no es el momento de probar la resiliencia y las arquitecturas de conmutación por error de la red de una organización.
Problemas de enrutamiento: si un ISP deja de funcionar o se cambian las configuraciones, el tráfico puede disminuir significativamente o detenerse por completo. Si bien se producirá un nuevo enrutamiento, el rendimiento de dichas rutas subóptimas puede ser prohibitivo para las empresas.
Error humano: muchas fallas de red son causadas por técnicos y operadores de TI que cometen errores o cambian una configuración sin darse cuenta de su efecto total en otras aplicaciones. La solución para un problema puede tener una consecuencia no deseada para otro.

Una encuesta de 2022 realizada por The Uptime Institute encontró que más del 75 por ciento de todas las interrupciones del servicio cuestan a las empresas más de 100.000 dólares, y muchos encuestados informaron que este tipo de interrupción puede costar más de 1 millón de dólares por incidente. El daño a la reputación y la retención de clientes es más difícil de cuantificar, pero también puede ser significativo. Las redes que se ejecutan con planes operativos reaccionarios dejan grandes brechas en el rendimiento y la seguridad de las aplicaciones, lo que daña los servicios comerciales en todos los ámbitos y abre la puerta a los actores de amenazas que luego pueden acceder a datos confidenciales de los clientes, implementar ransomware o más.

Cumplimiento automatizado

Entonces, ¿Qué pueden hacer las empresas? La respuesta es: evitar que se produzcan interrupciones en primer lugar mediante el uso de un enfoque sin código para automatizar la aplicación continua de todos los comportamientos de red deseados.

La prevención es la mejor línea de defensa, así que asegúrese de establecer una estrategia de verificación proactiva para identificar problemas potenciales y resolverlos antes de que provoquen interrupciones en la red. Comienza con el uso de un enfoque sin código para articular todos los comportamientos o "intenciones" de la red que deben estar vigentes para que el negocio funcione correctamente. Esto permite que los expertos en la materia compartan sus conocimientos de forma ejecutable, sin necesidad de involucrar a programadores o equipos de proyectos de desarrollo. Estos intentos pueden incluir ciertos tipos de rendimiento de aplicación a aplicación, una latencia máxima permitida para aplicaciones interactivas, acceso seguro a información o dispositivos, o una letanía de requisitos de calidad de servicio.

Dada esta extensa lista de intenciones requeridas, la automatización de red sin código se puede aprovechar para hacer cumplir todas estas intenciones, confirmando que están intactas y tomando medidas de manera proactiva si no lo están. Por ejemplo, si se espera que dos dispositivos de red sean un espejo uno del otro, el enfoque proactivo consiste en definir una intención que compare las dos configuraciones para garantizar que sean idénticas.

Este mismo enfoque basado en "intenciones" debe usarse para impulsar sus procesos de gestión de cambios, ya que las intenciones de red asociadas con cada dispositivo deben probarse antes y después de realizar cualquier cambio, para evitar consecuencias no deseadas y las interrupciones del servicio resultantes.

Al administrar las redes por intención, no por dispositivo, los equipos de NetOps pueden identificar fácilmente los problemas que se están gestando. La verificación continua de las intenciones de la red a través de la automatización detectará cuándo cae el rendimiento de la aplicación o cuándo se compromete el acceso a la seguridad. Al abordar los problemas antes de que afecten a los usuarios, las empresas reducen el tiempo de inactividad no planificado.

Hoy en día, prevenir cortes de red se reduce a QUERER hacerlo. La tecnología de automatización de red sin código está disponible y puede poner a trabajar toda la experiencia y los conocimientos que la mayoría de las organizaciones ya tienen. Al establecer una estrategia NetOps proactiva y hacer que la automatización de la red sin código sea fácilmente accesible para todos los equipos de TI, la mayoría de las fallas de la red serán cosa del pasado.