La industria de recopilación de inteligencia web depende de la ética

Por Denas Grybauskas, director jurídico de Oxylabs

Millones de personas aprovechan los beneficios de la inteligencia de datos web todos los días.

Muchos de nosotros utilizamos felizmente sitios web de agregadores de tarifas de viajes, consultamos sitios de comparación de precios, esperamos que Amazon ofrezca las mejores ofertas y buscamos en Google cualquier información posible sin siquiera darnos cuenta de que todos estos servicios dependen de la tecnología de web scraping.

Y, sin embargo, la industria del scraping todavía está rodeada de conceptos erróneos sobre su ética y estatus legal.

Este desafío no es único: cualquier industria en evolución debe pasar por diferentes etapas, formando estándares comunes, acordando normas legales y éticas y generando conciencia pública sobre su funcionamiento.

Ganar confianza no ocurre de la noche a la mañana. Para los actores de la industria del scraping, la única manera de llevar el mercado a una etapa más madura es reconociendo lo bueno, lo malo y lo feo de las prácticas de agregación de datos y actuando tanto legal como éticamente.

Los principales elementos de la agregación ética de datos.

La forma más sencilla de definir la agregación ética de datos es partir del término más amplio de ética de datos.

La disciplina de la ética de los datos evalúa atributos como la equidad, la privacidad, la responsabilidad y la transparencia en todo el ciclo de los datos, desde la recopilación y el análisis hasta la construcción de sistemas individuales basados en datos, como los modelos de aprendizaje automático.

El objetivo es identificar si determinadas prácticas pueden tener efectos negativos (tanto aparentes como latentes) en los individuos, la sociedad o el medio ambiente. Como tal, la ética de los datos casi siempre tiene implicaciones más amplias que las normas legales que rodean las prácticas de datos.

La agregación ética de datos es un término más limitado que cubre sólo la primera etapa: la recopilación de datos.

La ética de las prácticas de agregación de datos (o web scraping, como a menudo se le llama) puede determinarse en función de si cumplen con los siguientes cuatro principios:

Respeto a la privacidad

Los proveedores de web scraping creíbles recopilan solo datos disponibles públicamente, lo que significa que cualquier información detrás de los inicios de sesión o muros de pago, en casi todos los casos, no debe eliminarse.

Incluso si los datos privados están disponibles públicamente, todavía están protegidos por las leyes de privacidad y las organizaciones deben evaluar minuciosamente si realmente existe la necesidad de recopilar dicha información.

Por muy complicado que pueda resultar a veces, cualquiera que realice un scraping a escala debe determinar minuciosamente la naturaleza de los datos que está obteniendo.

Una reciente demanda colectiva sobre la protección de datos de los niños muestra que todavía hay mucho espacio para un mejor juicio ético cuando se trata de una agregación masiva de información disponible públicamente.

Respeto por el sitio web de destino.

Las prácticas de scraping ético tratan los sitios web de destino de una manera que no obstaculice su velocidad y funcionalidad o, en otras palabras, provoque una sobrecarga del servidor. Antes de realizar el scraping, es esencial estudiar los Términos de servicio y los archivos robot.txt del sitio de destino, para asegurarse de que sus actividades no los violen.

Utilizar representantes éticos

El web scraping se basa en una sólida infraestructura de proxy para superar los bloqueos del servidor y las restricciones geográficas. Los proxies de origen poco ético fueron una de las razones por las que el web scraping ganó una reputación cuestionable desde el principio.

Para superarlo fue necesario que los líderes de la industria establecieran el listón y los principios fundamentales de la adquisición de poderes éticos. Actualmente, incluyen un compromiso con la equidad, la transparencia y la compensación. Un elemento central del modelo de adquisiciones de Nivel A+ es obtener el consentimiento explícito y ofrecer recompensas a los usuarios que participan voluntariamente en la red de proxy.

Políticas sólidas de KYC

Las empresas que se comprometen con prácticas éticas en materia de datos también deben garantizar que estos estándares sean bien conocidos y respetados entre sus clientes, brindando servicios de proxy y scraping de infraestructura solo para casos de uso comercial aprobados.

"Legal" puede no ser igual a ético

Desafortunadamente, la tecnología es sólo un medio para lograr un fin y no hay forma de garantizar que nunca caiga en las manos equivocadas.

Las actividades de scraping poco éticas no necesariamente coinciden con prácticas ilegales o malos actores de Internet. Las empresas normales podrían cometer acciones poco éticas simplemente tratando de tomar atajos para acelerar el crecimiento empresarial.

Las recientes controversias en torno a los desarrollos de la IA generativa son un ejemplo perfecto de una situación éticamente ambigua.

Hipotéticamente, incluso si asumimos que las empresas de IA generativa agregaron datos para las necesidades de capacitación en IA dentro de los límites legales, lo que significa que los datos estaban disponibles públicamente, no pusieron en peligro la regulación de la privacidad ni violaron la ley de derechos de autor, todavía existe la cuestión de si, ética y moralmente tenía derecho a utilizar contenido generado por millones de personas con fines comerciales y sin obtener consentimiento.

Este ejemplo también muestra por qué la perspectiva ética es más amplia que la jurídica.

Una parte importante de los debates sobre la agregación ética de datos es cómo podemos llevar la tranquilidad digital a la comunidad de Internet en general, trasladando los beneficios de los datos web públicos hacia una situación en la que todos ganen.

Hacer de Internet un lugar mejor para todos

La mayoría de los argumentos a favor de la agregación ética de datos expuestos en este artículo pueden parecer autoexplicativos.

Sin embargo, al igual que las personas, no todas las empresas están igualmente orientadas a la ética ni tienen la misma comprensión de la conducta ética. Aquí es donde entran en juego las campañas de concientización, como la Coalición de Infraestructura de Internet y la Iniciativa de Recopilación Ética de Datos Web (EWDCI).

Para llegar a un acuerdo sobre cuáles son o no actividades de scraping adecuadas, es esencial tener una representación del ecosistema lo más amplia posible, desviando el enfoque de la batalla en curso entre los gigantes tecnológicos y dando voz a las PYME que a menudo crean la mayoría de las actividades de valor e innovación en el mercado.

EWDCI actúa como tal marco, brindando a los diferentes actores de la industria del web scraping la posibilidad de plantear inquietudes y discutir estándares y normas comunes de una manera que refleje su situación y desafíos comerciales.

Recientemente, EWDCI lanzó un programa de certificación, invitando a las empresas de web scraping a obtener acreditación y demostrar su compromiso con los más altos estándares éticos.

Demostrar que, como segmento de la infraestructura de Internet, estas empresas pueden proporcionar valor a los consumidores y las empresas de forma ética es la forma de hacer de Internet un lugar más seguro y, con ello, superar la reputación unilateral que se ha ganado el web scraping.