Em 2020, a BigDataCorp lançou o seu programa de parceria de dados, construindo o primeiro marketplace de dados do mercado brasileiro. O objetivo central desse programa é criar um ecossistema saudável de empresas de dados, e trazer as inovações e conhecimentos desenvolvidos por outras empresas do mercado para a plataforma da BigDataCorp, para que os mesmos possam ser aplicados na prática pelos nossos clientes.

A Murabei, uma empresa especializada na ciência de dados e no desenvolvimento de projetos e produtos baseados em dados, foi uma das nossas primeiras parceiras. E o primeiro desafio que sugerimos que fosse abordado por eles foi o desenvolvimento de um score de crédito que tivesse um desempenho comparável com os modelos de crédito mais conhecidos do mercado, mas que fosse inteiramente baseado em dados alternativos.

O resultado foi o Score Murabei de Risco de Crédito PJ, sobre o qual inclusive já fizemos um webinar. Dado o amplo interesse sobre o tema, trouxemos hoje para o Blog a equipe da Murabei, para contar um pouco mais de como foi realizada a construção desse score, de como ele funciona, e de como ele pode ser utilizado no mercado. Vem com a gente!

 

Objetivos e insights

O primeiro desafio na construção de qualquer score é, obviamente, a seleção dos atributos, especialmente da variável-resposta, ou seja, do atributo que representa o comportamento que queremos identificar. Por se tratar de um score de crédito, optamos por utilizar como variável-resposta eventos de inadimplência, como o não-pagamento de uma dívida, o protesto de um título em cartório, ou uma execução judicial de dívida (todos esses atributos podem ser encontrados nos diferentes datasets de empresas da BigDataCorp), em um horizonte de tempo de 6 meses. De uma forma simples, o nosso modelo tenta olhar para os dados da empresa hoje, e prever a probabilidade de um evento desse tipo ocorrer em até 6 meses (a funcionalidade de consulta com data de referência da BigDataCorp facilita esse tipo de teste).

O segundo desafio foi definir um segmento de trabalho no qual iríamos focar. O mercado de empresas do Brasil é muito amplo, e empresas com tamanhos diferentes – especialmente as maiores – apresentam características completamente diferentes do padrão. Assim, optamos por focar em empresas de pequeno e médio porte com faturamento até R$ 50 MM. Este nicho de empresa, além de representar a maior fatia do mercado, é muito relevante considerando dois efeitos marcantes nos últimos tempos. O primeiro é a mudança das relações trabalhistas e o chamado efeito da “pejotização” com o surgimento de novas pequenas empresas e empresas individuais.  O segundo, é o impacto negativo da pandemia principalmente nessas empresas.

Um insight importante que tivemos durante a construção do modelo foi nos basearmos na hipótese comportamental que, para esses pequenos CNPJs, a saúde financeira do dono e da empresa não só andam lado a lado, mas muitas vezes se confundem. Assim, optamos por incorporar não apenas dados relevantes das empresas, mas também informações sobre os sócios (usando os datasets de pessoas da BigDataCorp).

Partindo dessa hipótese, focamos os esforços de modelagem em três principais conjuntos de atributos:

  • Indicadores de atividade e dados firmográficos das empresas. Aqui, incluímos informações como o faturamento estimado da empresa, a quantidade de funcionários, o número de filiais, o regime tributário, a quantidade de sócios, e outras características fundamentais dos negócios em si.
  • Informações sócio-demográficas dos sócios. Nesse bloco, olhamos para as características pessoais dos indivíduos responsáveis pelas empresas. Entram aqui dados como a renda e classe social dos sócios, o nível de escolaridade dos mesmos, e outros dados relevantes.
  • Processos Judiciais. Na parte de processos judiciais, procuramos juntar tanto as informações de processos das empresas quanto as informações de processos dos sócios delas. Além de trabalhar os dados específicos de quantidade de processos, incluímos também atributos relacionados com os valores totais das causas, as naturezas dos processos, e atributos que construímos internamente que mostram a tendência de evolução dos processos ao longo do tempo.

Para trabalhar as milhares de variáveis entregues pela BigDataCorp, chegar nos conjuntos de atributos descritos acima, e gerar os resultados finais, utilizamos a nossa plataforma Pumpwood, que simplifica e agiliza o trabalho de modelagem, e nos permitiu realizar centenas de experimentos em um curto espaço de tempo.

 

Análise e resultados

Ao longo do desenvolvimento, procuramos desenvolver um modelo com um resultado alinhado com as boas práticas do mercado. Assim, o score foi alinhado para variar entre 0 a 1000 seguindo o padrão do mercado financeiro. Uma pontuação média (500 pontos) significa que o CNPJ tem 50% de probabilidade de ser “bom” e 50% de probabilidade de ser “ruim”, ou seja, em nossos testes e validações, 50% dos CNPJs nessa faixa de pontuação apresentaram um evento de inadimplência nos 6 meses após o cálculo do mesmo.

Um outro ponto importante é que cada aumento de 100 pontos no score do CNPJ, a proporção entre CNPJs bons e ruins na faixa de score dobra. Se no nível de 500 pontos temos uma proporção 1:1 de CNPJs bons e ruins (o que equivale a uma probabilidade de 50% do CNPJ ser bom), no nível de 600 pontos vamos ter uma proporção 2:1 (o que equivale a uma probabilidade de 66,67% do CNPJ ser bom), e assim por diante. A figura abaixo traz mais detalhes sobre diferentes “pontos de corte” para o score, e como esses pontos podem ser interpretados.

 

Escala Score PJ Murabei

 

O score retornado é, na verdade, um resultado obtido de um ensemble de modelos, cada um desenvolvido com o foco em um tipo específico de empresa. Com isso, conseguimos obter bons resultados para empresas com características diferentes a partir do mesmo conjunto de dados iniciais. Nos testes e validações que realizamos internamente, o modelo apresentou um KS de 0,23 e um AUC de 0,65, medidas muito boas para scores de mercado genéricos.

 

Evolução

Como todo bom produto, a nossa ideia é continuar evoluindo o score de crédito, aumentando a sua cobertura e levando em consideração ainda mais dados e características das empresas e das pessoas. Nesse momento, estamos trabalhando em duas linhas principais, focadas em permitir uma melhor diferenciação das empresas. Primeiro, estamos trabalhando para agregar métricas de tendência e evolução do score ao longo do tempo na resposta do modelo, permitindo assim uma diferenciação entre empresas que tem o mesmo score, mas cujo score está subindo (ou seja, está melhorando seu desempenho) e outra cujo score está descendo (o desempenho está piorando). A segunda linha de melhora é trazer informações mais detalhadas sobre quais foram os atributos que levaram a empresa a ter um score alto ou baixo. Com isso, quem está usando o score pode diferenciar, por exemplo, empresas que tem um score ruim por existirem a pouco tempo de empresas que tem um score ruim porque tem muitos processos.

Vale comentar também que se você precisa de algum modelo mais refinado do que o score genérico que desenvolvemos, é possível construirmos um modelo customizado, juntando os dados da BigDataCorp e as suas informações internas para se obter resultados ainda melhores. Se quiser saber mais, marque uma conversa com a Murabei ou com a BigDataCorp.

 


 

A Murabei Data Science é uma startup especializada no desenvolvimento de produtos e soluções analíticas, utilizando de forma conjunta a Estatística Avançada o Machine Learning e a Inteligência Artificial.

 

BigDataCorp