Os cientistas de dados não cansam de repetir a frase “os dados não mentem”, como um mantra que valida os resultados do seu trabalho. Embora a afirmação seja verdadeira, antes de tirar qualquer conclusão, é fundamental entender o contexto em que as informações foram captadas e os diferentes ângulos a partir dos quais elas podem ser analisadas.

Grandes conjuntos de dados contêm distorções, como as decorrentes de características sociodemográficas de diferentes populações ou da própria metodologia de coleta. Essas alterações são conhecidas pela expressão “data bias“, sugerindo o enviesamento dos dados. Os vieses correm, por exemplo, quando os conjuntos de dados não são representativos da população ou do fenômeno que pretendem estudar, ou quando os dados disponíveis não incluem variáveis adequadamente representativas do fenômeno que pretendem prever ou estimar, ou, ainda, quando incluem informações produzidas por pessoas com visão deformada de determinados grupos sociais.

Muitos casos mostram como, por conta disso, os dados podem gerar conclusões erradas. Por exemplo, a maior parte das pesquisas falhou em prever a vitória de Donald Trump na eleição de 2016, nos Estados Unidos. De acordo com a agência de notícias Reuters – que, em parceria com a Ipsos Public Affairs, previu a vitória de Hillary Clinton – os modelos utilizados em pesquisas nacionais deram muito peso ao voto popular nacional mas desconsideraram diferenças do peso específico do voto de cada estado no colégio eleitoral. Além disso, as pesquisas não detectaram que uma mudança no padrão dos votos em determinados estados poderia se refletir em outros semelhantes, levando Trump à vitória.

Também há estudos apontando taxas de erro em algoritmos de reconhecimento facial, especialmente quando se trata de identificar pessoas negras, minorias étnicas, mulheres. Em 2018, a cientista Joy Buolamwini, do MIT Media Lab, mostrou que três tecnologias de reconhecimento facial que ofereciam classificação por gênero acertavam em 99% das tentativas de identificação de homens, mas cometiam um percentual maior de erros quanto mais escura era pele das imagens analisadas. A identificação de mulheres de pele escura chegou a 35% de erro.

Dados não são expressões puramente formais da razão. São tanto resultado de certezas matemáticas e da objetividade da tecnologia quanto dos sistemas de pensamento, financeiros, políticos, legais, de instituições, relações interpessoais que moldam a sua produção. São usados para pesquisar, cotejar, ordenar, categorizar, agrupar, combinar, analisar, perfilar, modelar e simular – e essas não são ações neutras.

Um dos fatores que reduz o peso dos vieses no trabalho com dados é a diversidade das equipes e sua adequação aos temas tratados. Cientistas de dados são, em sua maioria, homens, brancos, altamente qualificados, para quem é difícil entender – e às vezes enxergar – abordagens racistas ou machistas. Além disso, designers e programadores constroem sistemas que impactam a vida de grupos da sociedade que na maioria das vezes eles não conhecem. A perspectiva das pessoas a serem influenciadas e atingidas por suas escolhas também deveria ser incorporada a esses sistemas.

Outra forma de mitigar os vieses é a transparência nas metodologias – como indica um estudo da Open Knowledge Foundation Brasil que avalia a transparência a respeito dos dados da pandemia do novo coronavírus e, ao mesmo tempo, explica qual foi a metodologia empregada. O documento mostra que 15 estados e o governo federal passaram a publicar mais dados; no entanto, 78% ainda não publicam informações suficientes para monitorar a Covid-19; e apenas o Estado do Amazonas publica a quantidade de testes disponíveis.

BigDataCorp