Milhões de pessoas colhem os benefícios da inteligência de dados da web todos os dias.

Muitos de nós felizmente usam sites agregadores de tarifas de viagens, consultam sites de comparação de preços, esperam que a Amazon ofereça as melhores ofertas e vasculham o Google em busca de qualquer informação possível sem nem mesmo perceber que todos esses serviços dependem da tecnologia de web scraping.

E, no entanto, a indústria de scraping ainda está cercada de equívocos sobre sua ética e status legal.

Esse desafio não é único – qualquer indústria em evolução deve passar por diferentes estágios, formando padrões comuns, concordando com normas legais e éticas e aumentando a conscientização pública sobre a maneira como funciona.

Ganhar confiança não acontece da noite para o dia. Para os players do setor de scraping, a única maneira de levar o mercado a um estágio mais maduro é reconhecendo o bom, o mau e o vilão das práticas de agregação de dados e agindo legal e eticamente.

Os principais elementos da agregação ética de dados

A maneira mais fácil de definir a agregação ética de dados é partir do termo mais amplo de ética de dados.

A disciplina de ética de dados avalia atributos como justiça, privacidade, responsabilidade e transparência em todo o ciclo de dados, desde a coleta e análise até a construção de sistemas individuais orientados por dados, como modelos de ML.

O objetivo é identificar se certas práticas podem ter efeitos negativos (aparentes e latentes) sobre os indivíduos, a sociedade ou o meio ambiente. Como tal, a ética dos dados quase sempre tem implicações mais amplas do que as normas legais em torno das práticas de dados.

Agregação ética de dados é um termo mais restrito que abrange apenas a primeira etapa — coleta de dados.

GettyImages-1449569562.width-358
– Getty Images

A ética das práticas de agregação de dados (ou web scraping, como é frequentemente chamada) pode ser determinada pela adesão ou não aos quatro princípios a seguir:

Respeito à privacidade

Fornecedores confiáveis de web scraping coletam apenas dados disponíveis publicamente, o que significa que qualquer informação por trás de logins e paywalls, em quase todos os casos, não deve ser coletada.

Mesmo que os dados privados estejam disponíveis publicamente, eles ainda são protegidos por leis de privacidade e as organizações devem avaliar minuciosamente se realmente há necessidade de coletar essas informações.

Por mais complicado que possa ser às vezes, qualquer pessoa fazendo scraping em escala deve determinar minuciosamente a natureza dos dados que está buscando.

Uma ação coletiva recente em torno da proteção de dados de crianças mostra que ainda há muito espaço para um melhor julgamento ético quando se trata de uma agregação maciça de informações disponíveis publicamente.

Respeito pelo site alvo

As práticas éticas de scraping tratam os sites-alvo de uma forma que não prejudica sua velocidade e funcionalidade ou, em outras palavras, causa sobrecarga do servidor. Antes de realizar o scraping, é essencial estudar os Termos de Serviço do site alvo e os arquivos .txt robô, garantindo que suas atividades não os violem.

Utilizando proxies éticos

A Web scraping depende de uma infraestrutura de proxy robusta para superar bloqueios de servidor e restrições geográficas. Proxies de origem não ética foram uma das razões pelas quais o web scraping ganhou uma reputação questionável logo no início.

Superar essa reputação exigiu que os líderes do setor estabelecessem o padrão e os princípios principais da aquisição ética de procuração. Atualmente, eles incluem um compromisso com a justiça, transparência e compensação. O ponto central do modelo de aquisição Tier A+ é obter consentimento explícito e oferecer recompensas para os usuários que estão participando voluntariamente da rede proxy.

Políticas robustas de KYC

As empresas que se comprometem com práticas éticas de dados também devem garantir que esses padrões sejam bem conhecidos e respeitados entre seus clientes, servindo infraestrutura de proxy e scraping apenas para casos de uso de negócios aprovados.

“Legal” pode não ser igual a ético

Infelizmente, a tecnologia é apenas um meio para atingir um fim, e não há como garantir que ela nunca vá parar nas mãos erradas.

Atividades de scraping antiéticas não coincidem necessariamente com práticas ilegais e pessoas com segundas intenções da Internet. Ações antiéticas podem ser feitas por empresas normais simplesmente tentando cortar barreiras para um crescimento mais rápido dos negócios.

Controvérsias recentes em torno de desenvolvimentos generativos de IA são uma ilustração perfeita de uma situação eticamente ambígua.

Hipoteticamente, mesmo se assumirmos que as empresas de IA generativa agregaram dados para necessidades de treinamento de IA dentro dos limites legais, o que significa que os dados estavam disponíveis publicamente, não comprometeram a regulamentação de privacidade e violaram a lei de direitos autorais, ainda há uma questão de se, ética e moralmente, elas tinham o direito de usar o conteúdo gerado por milhões de pessoas para fins comerciais e sem obter consentimentos.

Esse exemplo também mostra por que a perspectiva ética é mais ampla do que a jurídica.

Uma parte importante das discussões em torno da agregação ética de dados é como poderíamos trazer tranquilidade digitalpara a comunidade mais ampla da Internet, transferindo os benefícios dos dados públicos da Web para uma situação em que todos ganham, não um jogo de soma zero.

Tornando a Internet um lugar melhor para todos

A maioria dos argumentos a favor da agregação ética de dados estabelecidos neste artigo pode soar autoexplicativa.

No entanto, assim como as pessoas, nem todas as empresas são igualmente orientadas para a ética e têm o mesmo entendimento de conduta ética. É aqui que entram em jogo campanhas de conscientização, como a Internet Infrastructure Coalition e a Ethical Web Data Collection Initiative (EWDCI).

Para chegar a um acordo sobre o que é ou não atividades de scraping adequadas, é essencial ter uma representação do ecossistema o mais ampla possível, mudando o foco da batalha em curso entre as gigantes da tecnologia e realmente dando voz às PMEs que muitas vezes criam a maioria de valor e inovação no mercado.

O EWDCI atua como uma estrutura desse tipo, dando a diferentes participantes da indústria de web scraping a possibilidade de levantar preocupações e discutir padrões e normas comuns de uma forma que reflita sua situação de negócios e desafios.

Recentemente, a EWDCI lançou um programa de certificação, convidando as empresas de web scraping a se credenciarem e sinalizarem seu compromisso com os mais altos padrões éticos.

Mostrar que, como um segmento da infraestrutura da Internet, essas empresas podem fornecer valor para consumidores e empresas eticamente é o caminho para tornar a Internet um lugar mais seguro e, com isso, superar a reputação unilateral que a web scraping ganhou.