Não é mais surpresa para ninguém que a quantidade de dados sendo gerados pela sociedade vem crescendo de forma exponencial. De acordo com o Social Good Brasil (SGB), o volume de dados criado nos últimos anos é maior do que a quantidade produzida em toda a história da humanidade. A produção de dados dobra a cada dois anos e a previsão é de que em todo o ano de 2021 sejam gerados 350 zettabytes de dados, o que corresponde a 35 trilhões de gigabytes.

Mais do que o crescimento da quantidade de dados, no entanto, temos observado nos últimos anos um aumento significativo no volume de informações rotuladas, ou seja, anotadas de uma forma que outras pessoas – ou sistemas – possam entender e reconhecer o seu conteúdo de forma mais fácil. Vídeos são salvos no Youtube com legendas; fotos são salvas com anotações que indicam o lugar, dia e hora que foram tiradas, e são organizadas de maneira que indica o seu conteúdo; sites são publicados traduzidos para múltiplos idiomas; mapas on-line são anotados com indicações de lugares, reviews e outras informações por milhões de usuários; e assim por diante.

A explosão recente na disponibilidade e na utilização de inteligência artificial, nas mais diferentes aplicações, está diretamente relacionada com o surgimento dessas milhares de fontes de informação estruturadas de uma forma utilizável por algoritmos e sistemas. Sem dados devidamente rotulados, a construção de modelos para tomada de decisões e extração de valor das informações é praticamente impossível. Sem dados, e, principalmente, sem rótulos, não existe I.A.

 

Dados como base para IA

A grande maioria dos sistemas que chamamos hoje de “inteligência artificial” não são nada mais do que modelos matemáticos que procuram identificar padrões em situações novas a partir de um histórico conhecido. De uma forma bem simplificada, uma inteligência artificial que reconhece cachorros dentro de fotos, por exemplo, está simplesmente avaliando o quão parecida uma nova foto é com todas as outras fotos que ela já viu, e “identificando” os cachorros com base nessa similaridade. Se ela já viu milhões (ou bilhões) de fotos com e sem cachorros, com certeza vai saber identificar os cachorros com mais sucesso do que se nunca tivesse visto nenhuma foto.

O mesmo conceito se aplica para praticamente todos os modelos. A tradução automática entre idiomas depende de uma vasta coleção de textos traduzidos. O “autocomplete” que existe em editores de texto depende de milhões de textos escritos para fazer sugestões. A conversão de voz para texto (e de texto para voz) depende de áudios com legenda. A construção de “deep fakes” depende de milhares de fotos e vídeos da pessoa sendo simulada. Sem os rótulos, sem a classificação do que é uma decisão certa ou errada, é impossível treinar os modelos de inteligência artificial para chegar em resultados assertivos.

 

Garbage-in, Garbage-out (GIGO)

Uma frase famosa na área da computação, atribuída ao técnico da IBM George Fuechsel, é “garbage in, garbage out”, ou seja, “lixo entra, lixo sai”. Em outras palavras, quando as entradas de um processo de tomada de decisão são incorretas (lixo na entrada), é impossível se confiar em qualquer decisão que seja tomada (lixo na saída). Garantir a qualidade das informações na entrada, portanto, é fundamental para podermos assegurar que as decisões que estamos tomando com base nessas informações são boas.

Com o advento dos processos automáticos de tomada de decisão e, especialmente, com a adoção de modelos cada vez mais complexos de inteligência artificial para apoiar esses processos, os riscos da falta de qualidade dos dados são cada vez maiores. Modelos e processos mais complexos geram opacidade sobre como as decisões são tomadas, de forma que uma pessoa não consegue, de maneira simples, identificar se uma determinada decisão realmente está certa ou errada, e muito menos porque a decisão foi tomada de maneira incorreta.

Existem dezenas de exemplos de problemas em modelos de IA ocasionados por falhas nos dados de entrada. Conforme o uso dessas tecnologias se expande, a gestão dos dados e da sua qualidade passa a ser um trabalho cada vez mais importante para a própria operação das empresas. Além do risco econômico das decisões incorretas, existe também um real risco reputacional, da empresa ser rotulada como preconceituosa ou discriminatória, devido a vieses escondidos na informação utilizada como base para as tomadas de decisão.

Investimentos na área de engenharia de dados podem ajudar a identificar qualquer viés existente nos dados, para evitar que os modelos reforcem esses erros ou se tornem preconceituosos.

 

Conclusão

É fato que a maior parte dos sistemas de inteligência artificial existentes hoje só são possíveis por causa do volume massivo de dados que temos disponíveis, sejam esses dados públicos tradicionais ou alternativos.

Assim como o cérebro humano, que para formular pensamentos lógicos precisa de um acervo de dados e informações corretas, da mesma forma funciona a inteligência artificial. Quanto mais dados estiverem disponíveis e quanto maior for a precisão de cada informação, mais precisos serão os testes e cruzamentos, melhor será a interpretação e, consequentemente, melhor será a entrega. Se sem dados não existe IA, sem dados de qualidade, não existe IA de qualidade.

 

BigDataCorp