Credit scoring using machine learning - causal inference and forecasting

Gaspar, Mafalda Gomes

http://hdl.handle.net/10400.5/100074

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
DM-60527-2025.pdf		1.26 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Gaspar, Mafalda Gomes

Orientador(es)

Cornea-Madeira¸ Adriana

Resumo(s)

Nowadays, the world is in constant changes and improvements, particularly in fields such as technology, with data and its applications becoming increasingly important, making it a fundamental aspect of the modern world. In this context, the present study integrates machine learning techniques with econometrics to analyze credit risk, focusing on both predicting defaults and understanding the key personal characteristics that drive default risk. To achieve this, machine learning and econometric models were applied - Decision Tree, Generalized Additive Model with Least Absolute Shrinkage and Selection Operator, Gradient Boosting, K-Nearest Neighbors, Logistic Regression, Naïve Bayes and Random Forest - allowing for a comparative performance analysis. Additionally, the study discusses some advantages and limitations associated with the use of machine learning in credit scoring. The results indicate that Gradient Boosting outperformed other methods, aligning with findings in the literature that highlight its effectiveness in handling imbalanced datasets and providing high accuracy in credit scoring assessment. Beyond performance comparison, the study also explores the key factors influencing default risk, particularly through the application of the Generalized Additive Model with Least Absolute Shrinkage and Selection Operator. The three most relevant variables identified are late payments, frequent missed payments, and high credit utilization. This study underscores the benefits of adopting new technologies in credit risk management and, consequently, in daily life. Furthermore, it highlights areas for future research, such as integrating alternative data sources to enhance predictive power, improving explainability in model decisions, and developing techniques to strengthen data privacy, ensuring that sensitive information is protected during model training and application.

Atualmente, vivemos num mundo em constante mudança, onde a tecnologia desempenha um papel cada vez mais importante, e os dados e as suas aplicações têm vindo a tornar-se fundamentais no nosso dia a dia. Neste contexto, o presente estudo integra técnicas de Machine Learning com econometria, com o objetivo de analisar o risco de crédito, focando tanto na previsão de inadimplência quanto na identificação das principais características pessoais que influenciam esse risco. Para tal, modelos de Machine learning e econométricos foram testados - Decision Tree, Generalized additive Model with Least Absolute Shrinkage and Selection Operator, Gradient Boosting, K-Nearest Neighbors, Logistic Regression, Naïve Bayes and Random Forest - permitindo uma análise mais detalhada do desempenho de cada modelo. Adicionalmente, o estudo aborda algumas vantagens e limitações do uso de Machine Learning na avaliação de crédito. Os resultados obtidos indicam que o modelo Gradient Boosting foi o método com melhor desempenho, o que se alinha com as conclusões da literatura, que destaca esta técnica pela sua eficácia em lidar com dados com distribuição desproporcional e pela sua alta precisão na avaliação de crédito. Além da comparação de desempenho, o estudo também explora os principais fatores que influenciam o risco de inadimplência, particularmente por meio da aplicação do GAMLA. As três variáveis mais relevantes identificadas são os pagamentos em atraso, a frequência de faltas nos pagamentos e a alta utilização de crédito. Este estudo menciona benefícios do uso de novas tecnologias na gestão de risco de crédito e, consequentemente, na vida quotidiana. Adicionalmente, destaca áreas para investigação futura, como a integração de fontes de dados alternativas, a melhoria da explicação das decisões dos modelos e o desenvolvimento de técnicas que reforcem a privacidade dos dados, assegurando que as informações sensíveis sejam protegidas durante o processo de treino e aplicação dos modelos.

Palavras-chave

Credit Score Default Machine Learning Models Performance Risco de Crédito Inadimplência Machine Learning Modelos Desempenho

URI

http://hdl.handle.net/10400.5/100074

Citação

Gaspar, Mafalda Gomes .(2025). “Credit scoring using machine learning - causal inference and forecasting”. Dissertação de Mestrado. Universidade de Lisboa. Instituto Superior de Economia e Gestão

Editora

Instituto Superior de Economia e Gestão

Coleções

BISEG - Dissertações de Mestrado / Master Thesis

Ver registo completo