A Lei Geral de Proteção de Dados (LGPD), a exemplo de outras legislações similares no mundo, estabelece uma diferença entre dados “identificados” (aqueles capazes de levar à identificação de um indivíduo, por meio de uma chave, como um CPF ou um e-mail) e dados “anônimos” (que não permitem identificar pessoas de forma individual). Enquanto os dados identificados são protegidos por diversas normas de respeito à privacidade, os dados anônimos – uma vez que não se referem diretamente a um cidadão em particular – não estão respaldados pelas mesmas salvaguardas. Ou seja, as legislações não preveem restrições sobre o que pode ser feito, nem sobre como podem ser comercializados dados tidos como anônimos.

Esse raciocínio levou à criação de um gigantesco mercado de informações supostamente anônimas, como dados de telemetria de direção para apoiar a análise de seguros de motoristas, ou de geolocalização de empresas de telefonia para ações de marketing. São conteúdos obtidos de bases reais, que constam em cadastros de usuários verdadeiros, mas submetidos a um processo de “anonimização” que “esconde” sua origem. Assim, portanto, podem circular despreocupadamente.

Nem tanto. Estudos recentes mostram um risco de reversão é concreto, sem necessidade de recursos muito sofisticados para “desanonimizar” dados. O que nos faz refletir que é tão importante discutir questões de privacidade e transparência relacionadas com esses dados como as relacionadas com os dados identificados.

Em 2019, no Reino Unido, um experimento com técnicas de machine learning identificou, sem erro, 99,98% dos indivíduos de qualquer conjunto de dados anônimos, usando apenas 15 características. Nos Estados Unidos, um estudo do MIT sobre dados anônimos de cartão de crédito mostrou ser possível identificar 90% de indivíduos únicos dentro de um conjunto, por meio de apenas quatro pontos de informação relativamente vagos. Na Alemanha, uma análise de dados anonimizados referentes a utilização de veículos apontou que, com uma taxa de acerto de 90%, informações obtidas após 15 minutos de uso do pedal do freio, podi-ase encontrar qual era o motorista em questão, dentre as 15 opções existentes.

Um pesquisador do Imperial College London, Yves-Alexandre de Montjoye, disse à revista “Newscientist” que “a incompletude do conjunto de dados não é suficiente para preservar a privacidade das pessoas”. Ele exemplificou: “Observando um conjunto de dados, encontramos muitas pessoas com 30 anos, do sexo masculino e morando na cidade de Nova York. Mas se eu também souber que aquele que estou procurando nasceu em 5 de janeiro, dirige um Mazda vermelho, tem dois filhos, um cachorro, mora em um bairro específico, existe uma boa chance de identificar a pessoa certa”.

Em outras palavras, quando submetidos a estratégias como consultas com cruzamento de informações ou rastreamento de padrões – entre outras ferramentas sofisticadas que surgem, a cada dia, na esteira veloz do Big Data – os processos de anonimização podem ser altamente vulneráveis. Para as empresas, esse é um alerta importante. Porque vão responder não apenas por vazamentos, uso não autorizado, mas também por eventuais reversões de dados anonimizados, mesmo aqueles não considerados como pessoais.

BigDataCorp