falamos diversas vezes nesse blog sobre os perigos de dados enviesados, que acabam se propagando para modelos – sejam eles de inteligência artificial ou de qualquer outra natureza. Pode parecer muito repetitivo, mas falamos sobre isso porque é um tema extremamente relevante, e que vem ganhando cada vez mais força em discussões regulatórias e de legislação.

Nos Estados Unidos, por exemplo, dezenas de cidades já proibiram o uso de tecnologia de reconhecimento facial, notória por discriminar contra pessoas que não sejam de etnia caucasiana de forma grosseira. As restrições ao uso desse tipo de tecnologia vem sendo inclusive discutidas em âmbito federal. No Brasil, por mais incrível que pareça, não estamos muito atrás. A LGPD proíbe a coleta de informações biométricas – uma parte essencial do processo de reconhecimento facial – salvo para algumas finalidades bastante específicas.

Porém, a discriminação enviesada nos algoritmos vai muito além do contexto da biometria. Qualquer modelo, independente de sua finalidade, tem o potencial de amplificar os vieses escondidos dentro das informações utilizadas em seu treinamento. E, infelizmente, os dados que representam a história da nossa sociedade carregam dentro de si todos os preconceitos e vieses sistêmicos que já existiram durante essa história.

 

Do simples ao complexo

Vamos usar um exemplo simples. Imagine que você quer desenvolver um modelo de machine learning que seja capaz de prever quanto tempo uma empresa vai sobreviver no mercado a partir de dados relacionados com o time de fundadores da empresa. Se você não tratar corretamente os dados, a conclusão que o seu modelo vai chegar é de que o fator mais importante para a sobrevivência das empresas é o gênero dos fundadores. Se forem homens, a empresa vai durar muito; se forem mulheres, não.

Essa conclusão está correta? Obviamente não! Historicamente, no entanto, a vasta maioria das empresas foi fundada por homens, gerando um desequilíbrio na população de “empresas longínquas” que leva um algoritmo a concluir que apenas empresas fundadas por homens sobrevivem. É necessário um tratamento especial nos dados de entrada, ou um ajuste nas classes de saída do modelo, para que esse viés seja desconsiderado.

E esse é um erro de certa forma óbvio. Qualquer pessoa com uma mente um pouco mais aberta que olhar para a conclusão vai perceber que a mesma está errada. Existem outros exemplos muito mais complexos. Pense no caso da ferramenta da Amazon para seleção automática de currículos para recrutamento, que discriminava contra mulheres, ou os softwares de hospitais americanos que discriminam pacientes negros de brancos. São vieses cuja identificação é muito mais complexa, e que exigem uma análise mais cuidadosa do trabalho sendo desenvolvido.

 

Preconceito escondido

Mais difíceis de tratar ainda são os preconceitos embutidos que os dados carregam. Pense, por exemplo, na informação de endereço. O seu endereço é um forte preditor de uma série de características sobre você: sua renda, sua estrutura familiar, seu grau de educação, suas preferências, e muito mais. Ao mesmo tempo, a informação de endereço é altamente preconceituosa. Existe uma segregação muito clara de classes sociais e até mesmo de etnias codificada nos endereços. Alguns países chegam inclusive a proibir o uso de informações de endereço em qualquer tipo de análise de crédito ou risco.

Se não forem treinados com cuidado, algoritmos podem amplificar vieses que estão embutidos no histórico das informações utilizadas para treiná-los, como mostram os exemplos acima. Para que um modelo de IA não discrimine pessoas por gênero, idade, raça, ou dezenas de outros elementos, é preciso que a área de programação tenha uma equipe mais inclusiva, que valorize a diversidade e simule cenários do mundo real.

No fim das contas, diz Joanna Bryson, da Universidade de Bath (Inglaterra), uma das vozes mais importantes sobre o tema da ética na IA, os humanos são os responsáveis pelas falhas do software. E a melhor maneira de evitar esses erros é ter um olhar holístico – que leve em consideração o impacto individual e social do software – antes que seja escrita a primeira linha de código.

BigDataCorp