Parece obvio que cuanto más sabemos, más informados estamos. Pero hay un punto de inflexión, especialmente en ciberseguridad, entre el volumen de información y lo que se debe marcar para la acción. A medida que las empresas se vuelven más automatizadas y basadas en datos, los sistemas de TI se han convertido en una bestia cada vez más difícil de controlar, administrar y definir. El "ruido" generado por la actividad cotidiana del usuario ha alcanzado niveles ensordecedores.

El análisis de big data se ha identificado con frecuencia como la bala de plata para abordar esto: cumplir con la gran escala del desafío con un sistema de monitoreo igualmente completo. Con las soluciones de Big Data, los registros de seguridad y los eventos de cada rincón de la red se introducen en una plataforma central. Esto a menudo conduce a un número alucinante de eventos que se procesan, hasta 4-5 mil millones de eventos por día.

Si bien este nivel de detalle es integral; no viene sin sus desafíos. Con más datos, viene más ruido y más falsos positivos. Mantener los registros de actividad necesarios precisos, gestionados y almacenados correctamente requiere muchas partes móviles y mantenimiento continuo, incluso si estamos utilizando análisis y aprendizaje automático para hacer la mayor parte del trabajo. El costo de la infraestructura requerida para hacer esto puede exceder rápidamente el valor de la red que está monitoreando en primer lugar.

ikryannikovgmailcom.original.jpg

Incluso si, en teoría, el análisis automático y el aprendizaje automático no supervisado pueden aliviar la carga, en la práctica, a menudo hay pistas importantes sobre la intención de un individuo que podrían ser enterrados y pasados ​​por alto por el aprendizaje automático no supervisado. Como resultado, el rendimiento de los resultados de interés aún puede ser muy bajo, con miles de millones de eventos analizados y alertas precisas entregadas en menos del uno por ciento. Además, cuando se agrega el costo y la complejidad de administrar la tecnología subyacente para mantener los algoritmos de aprendizaje automático funcionando correctamente, así como preparar los datos de la manera correcta, pasar por alto la intención puede convertirse en un problema importante.

Es el contexto real detrás de los datos lo que a menudo falta. Esto puede ser información sobre usuarios, dispositivos, redes o ubicaciones, pero cuando se recopila para un proceso de aprendizaje automático, este contexto a menudo carece o no está vinculado. Se puede resolver parcialmente mediante el uso de herramientas como la vinculación de registros, donde los registros individuales en un conjunto de datos se combinan y se agrupan mediante identificadores comunes. Sin embargo, aún quedan importantes falsos positivos y negativos.

Uno de los otros desafíos fundamentales son las fallas en el material fuente. Esto puede deberse a registros de origen, eventos y telemetría configurados incorrectamente. Si bien una vez más, aunque puede haber millones, o incluso miles de millones de registros que detallan la actividad del usuario, los vínculos para comprender el contexto a menudo están ausentes.

Podría decirse que el valor de cualquier herramienta de seguridad es su rendimiento. ¿Cuántas amenazas genuinas se identifican y señalan a la atención de los equipos de TI? Con las herramientas de seguridad habilitadas para grandes datos, la gran empresa típica puede administrar, en el mejor de los casos, un rendimiento de 5 por cada mil millones de líneas de registro. Entonces, mientras se genera el valor, tiene un costo muy alto en términos de infraestructura y administración del centro de datos.

Este es un tema recurrente en la ciberseguridad: se pronostica que el gasto global alcanzará los 103 mil millones de dólares en 2020, según IDC, pero no está claro que las empresas se sientan más seguras. Se toman demasiadas decisiones de seguridad por los motivos equivocados con la información incorrecta. A medida que los piratas informáticos se dirigen cada vez más a las personas, las empresas deben pensar en cómo se protegen de manera diferente. Si bien los datos sobre la red y la actividad del usuario pueden proporcionar información útil, en última instancia, el rendimiento de la información procesable es lo más importante.

Cambiando al Edge

Una forma de abordar los desafíos será a través de la descentralización. Acercando la analítica lo más atómicamente posible a los datos que necesita procesar, esto ayudará a aliviar la carga de mover continuamente grandes conjuntos de datos. Al hacerlo, los equipos de TI pueden comenzar a reducir la cantidad de datos que tienen que almacenar y priorizar específicamente para la seguridad, a menudo de forma redundante. A medida que se lleva a cabo más procesamiento en el borde, los nuevos enfoques analíticos y las actualizaciones se podrán impulsar rápidamente y difundir por toda la red una vez que estén optimizados por un motor de análisis central.

En nuestro panorama de amenazas ruidoso y dinámico, existe la necesidad de un enfoque de seguridad igualmente dinámico y automatizado. Al trabajar de una manera más distribuida, en lugar de lanzar la red lo más amplia posible, las organizaciones podrán concentrarse en detener el próximo ataque, en lugar de luchar para recuperarse del último.


Por Alan Ross, Arquitecto jefe en Forcepoint X-Labs