El trabajo de un equipo de operaciones nunca ha sido más importante, o más desafiante, de lo que es hoy.

En primer lugar, la configuración operativa se está volviendo más compleja, ya que las empresas buscan adoptar nuevas capacidades y, en muchos casos, trabajar hacia una estrategia de transformación digital. Los flujos de trabajo complejos para un número creciente de aplicaciones se extienden cada vez más en entornos dispares en la nube y locales.

Una nueva aplicación de consumo, por ejemplo, puede residir en la nube pública, pero los datos que necesita para funcionar podrían almacenarse en varios lugares en un entorno de nube mixta e híbrida. Estas configuraciones cada vez más expansivas también crean niveles sin precedentes de datos operativos, que a menudo conducen a tormentas de alerta opacas que pueden dificultar aún más identificar el origen de un problema si surge.

En segundo lugar, las presiones para resolver problemas operativos son mayores que nunca. Atrás quedaron los días de actualizaciones durante la noche y el tiempo de inactividad como estándar. La gente espera acceso las 24 horas a los servicios digitales, tanto en su vida laboral como en la vida del consumidor. Las empresas y sus clientes ahora dependen en gran medida de los servicios y aplicaciones digitales; Cualquier interrupción puede ser catastrófica. Por poner solo un ejemplo, durante el Black Friday en 2018, Amazon perdió 99 millones de dólares en ventas debido a un corte que duró solo una hora. Entonces, para las operaciones, las apuestas nunca han sido tan altas.

Y en tercer lugar, a pesar de la importancia de su trabajo, los equipos de operaciones pueden verse presionados por los recursos. Los presupuestos operativos, los recursos y el tamaño del equipo se reducen o no crecen lo suficientemente rápido como para igualar la creciente complejidad de los sistemas y los volúmenes de datos involucrados. Por ejemplo, a medida que el número de usuarios ha aumentado en la mayoría de las empresas, el departamento operativo promedio ahora enfrenta menos presupuesto por usuario que en 2018. En otras palabras, estos equipos deben administrar entornos más complejos, riesgos más altos, mayores volúmenes de datos y con menos recursos

AI Ops tiene la respuesta

Afortunadamente para los equipos de operaciones, hay una variedad de herramientas disponibles que aprovechan la inteligencia artificial (IA) para ayudar a dar sentido a esta situación, herramientas a menudo agrupadas bajo el lema de "Operaciones de IA". Si bien es fácil ser escéptico ante cualquier nueva jerga de TI, el término ha existido por un tiempo, y es mucho más que una simple palabra de moda.

Las herramientas de AI Ops usan IA para ayudar a los usuarios a consumir y analizar la infraestructura y los datos de las aplicaciones a escala. Esto permite que los equipos de Ops se beneficien de información clara y procesable sobre cómo y dónde se deben hacer los cambios cuando (o antes) surgen problemas de rendimiento.

Existe una amplia variedad de herramientas de IA Ops en el mercado, cada una de las cuales ayuda a los equipos a administrar sus entornos operativos de una manera diferente. Para la mayoría de las empresas, el desafío será garantizar que tengan las herramientas adecuadas para hacer el trabajo correcto, y usarlas en conjunto para lograr el mejor resultado.

Elaborando flujos de trabajo

Primero, quizás sea mejor ver cómo estas diferentes herramientas abordan un problema operativo. Application Performance Monitoring (APM) es una de esas herramientas que se centra en los complejos flujos de trabajo de los que dependen las aplicaciones: la red de almacenamiento y las aplicaciones interdependientes que deben ejecutarse sin problemas para mantener la aplicación en funcionamiento. Por ejemplo, la interrupción de una aplicación bancaria orientada al cliente puede surgir porque una base de datos con información crucial ha dejado de funcionar correctamente.

Sin una forma de mapear los flujos de datos de las aplicaciones, y qué elementos dentro de este flujo están funcionando correctamente, los equipos a menudo se ven obligados a adoptar un enfoque de prueba y error para identificar el problema. Pero las herramientas APM ofrecen una interfaz gráfica clara para que los equipos de operaciones vean exactamente cómo funciona todo y qué está causando el atraco.

Investigando la infraestructura

Las herramientas APM tradicionales brindan poca supervisión de los problemas en los recursos subyacentes que impulsan estos flujos de trabajo. Esa base de datos puede fallar repetidamente porque la máquina virtual en la que se basa no tiene suficiente potencia informática o almacenamiento suficiente para mantenerse al día con la demanda máxima. Una visión tradicional de APM del problema no habría revelado estas limitaciones de recursos y problemas de contención.

Sin embargo, los sistemas APM más avanzados funcionan en conjunto con las herramientas de gestión de recursos de aplicaciones (ARM). ARM se enfoca en la infraestructura debajo de los flujos de trabajo de la aplicación, examinando toda la pila de aplicaciones para detectar cuellos de botella en los recursos de la infraestructura para activos específicos. Algunas herramientas incluso aprovecharán la inteligencia artificial y el aprendizaje automático para realizar ajustes automáticos para evitar problemas de este tipo.

Por ejemplo, AppDynamics, parte de Cisco, trabaja junto con Cisco Intersight Workload Optimizer para intercambiar y correlacionar datos, proporcionando a los equipos de aplicaciones e infraestructura una visión compartida de las dependencias de la infraestructura que afectan el rendimiento de la aplicación, la experiencia del usuario y el impacto comercial.

Impulso de beneficios

Mediante el uso de herramientas avanzadas de IA Ops que combinan las capacidades APM y ARM, los equipos de Ops pueden obtener una vista completa de la compleja red de aplicaciones y recursos interdependientes y detectar y solucionar problemas automáticamente antes de que provoquen una interrupción.

Esta visibilidad y control superiores ofrecen innumerables beneficios para los equipos de operaciones. Al cortar esos montones de datos operativos y acceder directamente al flujo de trabajo y a los problemas de recursos que podrían estar ralentizando una aplicación, estas herramientas pueden identificar y ajustar rápidamente cualquier área defectuosa, lo que permite a los equipos garantizar operaciones más fluidas.

En otras palabras, al eliminar las conjeturas de la administración de aplicaciones, AI Ops reduce la necesidad de analizar y monitorear manualmente los entornos operativos, aliviando la presión sobre la reducción de los equipos de Ops.

También hay beneficios comerciales más amplios. El tiempo ahorrado en tareas manuales libera a los equipos de Ops para centrarse en más trabajo de valor agregado con la ayuda de los conocimientos generados por estas herramientas. Al utilizar correctamente AI Ops, los equipos pueden identificar puntos débiles recurrentes en la infraestructura y utilizar esta información para asesorar a la empresa sobre dónde invertir los presupuestos de mantenimiento para obtener el máximo efecto.

Con la cantidad de neologismos de IA que circulan en estos días, es fácil descartar las operaciones de IA como una palabra de moda más: una nueva moda que no necesariamente agrega valor. Pero al usar las herramientas correctas de AI Ops en combinación, las empresas pueden abordar problemas reales para el equipo de Ops, liberándolos de tareas cada vez más largas para extraer el mayor valor posible de los datos operativos.

De esta manera, AI Ops puede ayudar a resolver muchos de los dolores de cabeza del equipo de Ops, al tiempo que ofrece un valor estratégico para el negocio.


Por Jas Binning, consultor administrativo en World Wide Technology