El lío de la privacidad de los datos

A principios de marzo, Oklahoma aprobó su propia ley de privacidad. Antes de eso, a mediados de febrero, el Senado del estado de Virginia votó un proyecto de ley de protección de la privacidad de los datos que fue tan poco controvertido que fue aprobado por unanimidad. Genial... excepto porque semanas antes de que los legisladores de Nueva York, el estado de Washington y Utah comenzaran a debatir proyectos de ley de privacidad, cada uno con sus propias ideas específicas sobre lo que significa la privacidad de los datos.

Todos estos están operando a la sombra de la influyente Ley de Privacidad del Consumidor de California (CCPA) que entró en vigencia el 1 de enero de 2020. La CCPA, a su vez, se creó con el amplio Reglamento General Europeo de Protección de Datos (GDPR) de 2018 en segundo plano. Y ahora se ha propuesto una ley federal de privacidad de datos de EE.UU que tendría efectos inciertos sobre todas esas leyes y las que vendrán.

De hecho, según la Conferencia de las Naciones Unidas sobre Comercio y Desarrollo, a partir de ahora 128 países tienen leyes de privacidad de datos.

Las regulaciones siguen a los clientes

Este problema se ve agravado por el hecho de que las empresas no tienen que tener oficinas en una región para estar sujetas a sus regulaciones de privacidad de datos, ya que la mayoría de estas regulaciones se aplican dondequiera que una empresa tenga clientes. Por ejemplo, la CCPA dice que una vez que una empresa supera un umbral de tamaño mínimo, tener un solo cliente en California hace que la CCPA se aplique.

Se complica aún más: las leyes federales, como la HIPAA para los datos de atención médica, la Ley de informes crediticios justos y la Ley de protección de la privacidad infantil en línea tienen sus propios requisitos de privacidad. Sin mencionar que cada estado en los EE.UU tiene su propia ley separada que cubre qué hacer cuando hay una violación de la privacidad.

Cumplir con estas regulaciones es obligatorio y costoso, lo que requiere la participación de muchos departamentos de una empresa, incluida ingeniería, legal, diseño de productos, el equipo de experiencia del usuario, evaluación de riesgos, soporte al cliente y, por supuesto, múltiples áreas del departamento de TI.

El desafío es alto, pero existen fuertes incentivos para que las empresas lo hagan bien: las empresas estadounidenses que violen el RGPD de Europa pueden recibir multas de hasta el 4% de sus ingresos globales anuales, hasta 20 millones de euros.

Los directores de tecnología como yo no podemos mover una varita mágica y alinear todas las leyes de privacidad de datos del mundo. En cambio, tenemos que empezar a pensar de manera diferente sobre los datos.

Los datos son cada vez más difíciles

A medida que el aspecto normativo de los datos se vuelve más complicado, los datos en sí se vuelven más difíciles de administrar.

Se ha estimado que la cantidad total de datos en el mundo fue de 2 zettabytes en 2010, 59 zettabytes en 2020 y 149 zettabytes en 2024; un zettabyte es un billón de gigabytes. Muchos de esos bytes los generan y almacenan las empresas.

Los datos comerciales se encuentran en sistemas que abarcan muchas generaciones, desde mainframes hasta los últimos clústeres que ejecutan NoSQL, y cada vez más en la nube.

O, mejor dicho, en las muchas nubes, cada una con sus propias reglas de acceso, protocolos, características, inconvenientes y peculiaridades.

La cantidad de datos aumenta con cada nuevo sistema instalado, cada aplicación desarrollada y cada nuevo proceso comercial que se traslada a las computadoras. Cada uno de estos amplía la superficie de la brecha, en lugares en los que podrían ocurrir brechas.

La sensibilidad de los datos aumenta a medida que las nuevas aplicaciones capturan nuevos tipos de datos y los adversarios no solo tienen más fragmentos de datos que pueden reunir para identificar a las personas, sino que también tienen herramientas cada vez más poderosas para realizar la tarea.

La privacidad de los datos se está convirtiendo en un término más inclusivo, ya que las legislaciones de todo el mundo en general han estado incorporando más tipos y categorías bajo su paraguas protector.

Nuestras preocupaciones globales sobre la privacidad han ido aumentando rápidamente a medida que aprendemos, a veces a través de experiencias dolorosas, las formas en que los datos confidenciales pueden fallar en ser contenidos y los efectos devastadores de las infracciones, ya sean intencionales o no.

Nuestras viejas canalizaciones y sistemas de gestión de datos no se diseñaron para el mundo en el que nos encontramos ahora. Como ejemplo simple, la mayoría de los sistemas se diseñaron antes de que fuera tan imperativo pensar qué campos contienen información de identificación personal (PII), qué campos podrían estar utilizando junto con otros campos u otros conjuntos de datos para derivar PII, o, por supuesto, cómo los poderosos motores estadísticos del aprendizaje automático pueden derivar PII basándose en patrones que descubre en lo que parecen datos perfectamente seguros. Es posible que los datos que alguna vez estuvieron seguros hoy se hayan vuelto de riesgo, y debemos estar preparados para descubrir que los datos seguros de hoy resultan ser claves para desbloquear la PII del mañana.

Lo peor de todo, quizás, es que cada empresa ha desarrollado sus propios estándares y procesos para mantener segura la PII, pero debido a que esos métodos a menudo se desarrollaron para datos más simples en tiempos más simples, todas las empresas ahora enfrentan el nuevo mundo de demandas de privacidad con viejos flujos de trabajo, oleoductos y estrategias de almacenamiento.

Dado que no podemos simplificar el Libro Grande de Regulaciones de Privacidad del mundo en el que cada país tiene su propio capítulo único escrito en letra muy pequeña, al menos podemos diseñar nuestros sistemas de administración de datos para que funcionen mejor en el entorno regulatorio global que es cada vez más complejo.

Diseño de datos para la privacidad

Este es un enfoque para administrar la zarza de las regulaciones de privacidad: realizar un seguimiento de cada tipo de datos protegidos por cualquier forma de regulación en cualquier país del mundo, una lista larga y en constante crecimiento. Luego, ocultar toda esa información sin importar en qué países o en qué países se hagan negocios.

Por ejemplo, si una persona de 20 años solicita un trasplante de hígado en California y una persona de 80 años solicita un reemplazo de cadera en Virginia, para cumplir con los requisitos de privacidad de datos de salud en HIPAA, la CCPA de California, las leyes de Virginia, y todas las demás restricciones solo dentro de los Estados Unidos, podría anonimizar el superconjunto de tipos de datos restringidos.

Eso reduciría su riesgo de incumplimiento, pero un enfoque de fuerza tan contundente también reduciría el valor de sus datos. Por ejemplo, si eliminó los códigos postales o las fechas de nacimiento como reveladores de PII, estará obstaculizando las herramientas analíticas que usted o un cliente podrían querer utilizar en los datos para descubrir correlaciones geográficas o basadas en la edad. Esto puede ser especialmente perjudicial para el uso de datos para entrenar modelos sofisticados de aprendizaje automático que pueden aportar un valor empresarial real y un beneficio social.

Por lo tanto, este enfoque de fuerza contundente debe ser parte de un enfoque de gestión de datos que sea más flexible, ágil y que responda a las necesidades del usuario, sin dejar de proteger completamente los datos privados. Hacer esto significa mantener una recopilación de datos maestros desenmascarados de valor total bajo llave, mientras genera rápida y fácilmente conjuntos de datos que han enmascarado de manera confiable todos y cada uno de los datos que podrían violar las regulaciones de privacidad del mundo.

Piense en ello como un modelo de biblioteca dinámica, con un toque de magia añadido. Esta biblioteca mantiene una copia maestra de todos sus libros en una instalación de alta seguridad. Nadie tiene acceso directo a ellos, excepto los administradores de confianza de la biblioteca. Pero esta biblioteca puede producir una copia de cualquier cosa en su biblioteca principal, exactamente de acuerdo con los deseos del usuario y los estrictos requisitos de privacidad de la biblioteca. Si se trata de una biblioteca de registros médicos mantenidos por un hospital, el personal médico puede ver instantáneamente el registro de un paciente completo con la PII necesaria. Pero los investigadores que analizan esos registros obtienen los datos que necesitan sin ningún PII. Un equipo de aprendizaje automático que analice la equidad de los tratamientos y los resultados obtendría los datos que necesita, que probablemente incluirán campos irrelevantes para quienes pronostican los requisitos de suministro hospitalario, mientras que la farmacia adjunta obtiene exactamente y solo los datos del paciente que necesita.

La pizca de magia proviene del dinamismo de esta arquitectura. Por ejemplo, la necesidad de apoyar el derecho al olvido se está generalizando cada vez más; ya es un requisito del RGPD y la CCPA. Si un paciente le pide al hospital que respete su derecho a eliminar lo que sabe sobre ella, la empresa puede gastar recursos para rastrear y eliminar cada uso si esos datos están en cincuenta lugares fuera del centro de datos maestro, puede ser aún más difícil para estar seguro de que los ha encontrado a todos. Pero si el conjunto de datos maestro está centralizado, y si la actualización de los conjuntos enmascarados es automatizada e inmediata, la organización puede estar segura de que la biblioteca de conjuntos de datos disponibles también cumplirá. Como por arte de magia.

Esta arquitectura reduce el precio operativo del cumplimiento, que puede resultar abrumadoramente elevado. En lugar de generar y actualizar conjuntos de datos que cumplan con la privacidad en días, semanas e incluso meses, puede suceder en una aproximación razonable del tiempo real.

Todo CTO sabe lo importante que es esto para las empresas. Pero los reguladores y las empresas generalmente no se encuentran en las mismas escalas de tiempo. Los reguladores se preocupan ante todo por el cumplimiento. Las empresas quieren cumplir, pero también van rápido. Eso es especialmente cierto para los desarrolladores de una empresa que desean aumentar la ventaja competitiva de la empresa innovando. Ninguna empresa quiere que sus mejores desarrolladores utilicen datos antiguos simplemente porque llevó demasiado tiempo obtener los últimos.

Ninguna empresa puede permitirse esperar hasta que el mundo llegue a un acuerdo completo sobre lo que significa la privacidad y las regulaciones que necesitamos para implementarla. Afortunadamente, las herramientas y los servicios de gestión de datos modernos pueden proporcionar exactamente este tipo de flujos de trabajo automatizados al tiempo que cumplen y adoptan los requisitos de privacidad de los datos.