“Dark data (Dados obscuros)”, um termo cunhado pela Gartner, é definido como “os ativos de informação que as organizações coletam, processam e armazenam durante atividades comerciais regulares, mas geralmente não são usados para outros fins”.

Como a matéria escura, os dados obscuros ocupam enormes quantidades de espaço nos Data Centers e são praticamente invisíveis. Isso não significa que podemos ignorá-los. Acho que vale a pena tirar um momento para pensar sobre a natureza dos dados obscuros, seu impacto e o que podemos fazer para melhorar as coisas.

Pegada pessoal

Dados obscuros são mais fáceis de entender e lidar em um nível pessoal. Para a maioria de nós, consiste em fotos e vídeos não utilizados. Antigamente, o filme era valioso e o desenvolvimento caro, mas agora podemos tirar 20 fotos para obter o que queremos, e podemos editar facilmente, criando mais arquivos de backup no processo.

Em 2020, o Google disse que armazenou quatro trilhões de fotos, com 28 bilhões de novas fotos e vídeos enviados a cada semana. O Google Fotos é apenas um serviço de fotos, e essas taxas de upload sem dúvida cresceram nos últimos anos.

Esses dados pessoais obscuros também criam um problema de privacidade. Por mais seguro que seja o nosso serviço de nuvem, há sempre a possibilidade de que fotos de identificação, capturas de tela de bate-papo pessoais e arquivos privados possam ser usados por cibercriminosos. A resposta? Pense antes de fotografar, arrume caches e arquivos regularmente e tenha cuidado especial para não deixar arquivos confidenciais por aí.

Perdas ocultas

Para as empresas, o desafio é em maior escala e afeta os resultados. Os dados obscuros consistem em coisas como imagens e documentos quase idênticos, conjuntos de dados IoT, arquivos de log e aplicativos.

Esses dados ocupam espaço no servidor, e alimentar esses servidores consome energia e equipamentos, o que não só custa dinheiro, mas também pode significar emissões significativas se a energia de baixo carbono ou renovável não estiver sendo usada. Dados obscuros também são pouco estruturados e inexplorados, o que traz consigo riscos de privacidade e conformidade.

Nenhuma organização deixa de ser afetada. Os níveis estimados de dados obscuros comerciais variam de 40% a 90% por setor e, portanto, é extremamente provável que a maioria dos dados da sua empresa seja obscura.

Segundo o Fórum Econômico Mundial, as empresas geram 1,3 trilhão de gigabytes de dados obscuros todos os dias. Armazenar esses dados por um ano usando fontes não renováveis gera tanto CO2 quanto três milhões de voos de Londres a Nova York. Então, se estamos interessados em descarbonizar a indústria de Data Centers – e deveríamos estar – devemos enfrentar essa questão.

Defasagem tecnológica

Para muitas empresas, o nível de dados obscuros é um reflexo da falta de processos de estruturação de dados. A capacidade de uma organização de coletar dados pode exceder a taxa de transferência na qual ela pode analisar os dados. Em alguns casos, a organização pode nem estar ciente de que eles estão sendo coletados.

As organizações retêm dados obscuros por uma infinidade de razões. Muitas vezes, são armazenados para conformidade normativa e manutenção de registros, mas também frequentemente a complexidade da conformidade, privacidade e descoberta de dados é a razão pela qual esses dados podem ser acumulados.

Algumas organizações acreditam que dados obscuros podem ser úteis para elas no futuro, uma vez que tenham adquirido uma melhor tecnologia analítica e de business intelligence para processar as informações.

Novas ferramentas e padrões

Há boas notícias aqui. A escala da tarefa pode parecer assustadora para CIO e CDOs, mas a IA e o learning machine avançaram a ponto de ajudar a automatizar o processo de estruturação de dados.

Apenas uma pequena porcentagem de dados obscuros precisa ser revisada no início por humanos para iniciar o processo. Isso pode ser seguido com um modelo de aprendizado por reforço para avaliar a relevância dos dados remanescentes e priorizá-los. A partir daí, um ciclo virtuoso de marcação e análise torna o processo mais fácil de gerenciar.

A medição também ajudaria a aferir os progressos; levando em consideração a dimensão do problema, é possível justificar a definição de normas para uma utilização eficaz dos dados. Talvez haja um caso para uma métrica de Eficácia de Uso de Dados (DUE) ficar ao lado de CUE (Carbono) WUE (Água) E PUE (Energia), onde 1 = 100% de eliminação de dados não essenciais de uso único.

Isso, e alguma métrica semelhante, valeria a pena trabalhar e também poderia ter valor como um indicador de desempenho digital. No entanto, pode ser muito cedo para medir, enquanto tantos dados obscuros permanecem invisíveis.

A função do Data Center

Embora quaisquer padrões de uso de dados precisem ser introduzidos por empresas individuais, acredito que, como um agregador de ecossistema com responsabilidade para os clientes, há um papel aqui para o fornecedor de Data Center.

Descobrimos que a chave para um armazenamento bem-sucedido é reter e melhorar ou elevar o valor. Em meados do século XX, a Iron Mountain armazenava ativos físicos de forma segura, mas acessível, e assim que a tecnologia estava disponível, criamos arquivos digitais. Agora, usando o Data Center global e as plataformas de nuvem onde está a maior parte dos dados, não só podemos digitalizar qualquer coisa, como podemos distribuí-la em qualquer lugar, a qualquer hora.

Vamos conversar

Quaisquer que sejam os dados obscuros para você e sua empresa, eles são um “elefante na sala” para os Data Centers, e quanto mais falamos sobre isso, mais provável é que tenhamos melhorias incrementais.

Para usuários de dados individuais, há coisas que podemos fazer para reduzir os dados de uso único. Para as organizações é um pouco mais complicado, mas abordagens e ferramentas estão surgindo. Estes devem ser discutidos e partilhados.

Tal como acontece com a eficiência energética, identificar e eliminar o desperdício na fonte é a oportunidade mais óbvia. De acordo com a IBM, 60% dos dados perdem seu valor em milissegundos após serem adquiridos, e qualquer esquema para usar dados de forma mais eficaz deve primeiro resolver a questão da coleta de dados inúteis. Uma abordagem robusta para a coleta de dados é a chave aqui; avaliar como os dados podem ser usados e se são utilizáveis.

O próximo passo é estruturar os dados que mantemos. Os dados estruturados não são apenas mais valiosos, mas mais fáceis de rastrear e, se necessário, excluir. Ao tornar os dados mais visíveis, deve ser possível reduzir a carga ambiental e financeira do armazenamento ao mesmo tempo em que usamos nossos dados valiosos para capacitar nossas organizações e atender melhor nossos clientes.