Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10400.5/100234
Título: | Predicting credit insurance subscription: a comparative analysis of machine learning models for client ranking |
Autor: | Gutierrez, Sara Isabel Rita |
Orientador: | Bastos, João Afonso |
Palavras-chave: | CatBoost LightGBM Modelação Preditiva Random Forest Regressão Logística Subscrição de Seguro de Proteção ao Crédito. CatBoost Credit Insurance Subscription LightGBM Logistic Regression Predictive Modelling Random Forest |
Data de Defesa: | Fev-2025 |
Editora: | Instituto Superior de Economia e Gestão |
Citação: | Gutierrez, Sara Isabel Rita .(2025). “Predicting credit insurance subscription: a comparative analysis of machine learning models for client ranking”. Dissertação de Mestrado. Universidade de Lisboa. Instituto Superior de Economia e Gestão |
Resumo: | Esta dissertação investiga o desenvolvimento de um modelo preditivo de ordenação com o objetivo de aumentar a eficiência da equipa de Inside Sales de uma instituição financeira, através da previsão da subscrição de seguros de proteção ao crédito. Recorrendo a registos de crédito ao consumo de 2024, o estudo passa por uma preparação de dados abrangente, análise exploratória e feature engineering para tratar um conjunto de dados de elevada dimensionalidade e com uma representação desigual entre classes. Foram implementados e comparados vários modelos preditivos, nomeadamente Regressão Logística, Random Forest, LightGBM e CatBoost, com afinação de hiperparâmetros orientada por validação cruzada e avaliação baseada em múltiplas métricas e análise por decis. Os resultados revelam que, embora a Regressão Logística seja valorizada pela sua interpretabilidade, o seu desempenho preditivo é inferior ao de métodos mais avançados baseados em ensemble e boosting. O modelo Random Forest demonstra forte capacidade discriminativa global, evidenciada pelos seus valores superiores de AUC e coeficiente de Gini no conjunto de teste, mas apresenta sinais de sobreajuste na análise por decis. O LightGBM revela um desempenho competitivo, destacando-se especialmente pelo valor do F1 score na classe positiva. Contudo, é o CatBoost que se destaca como o modelo mais equilibrado, com desempenho consistente nas métricas validadas por validação cruzada, nas avaliações no conjunto de teste e na análise por decis. Adicionalmente, os valores SHAP oferecem uma análise pormenorizada da importância das variáveis, identificando vários atributos-chave como determinantes na previsão da subscrição. Este estudo representa um contributo relevante para a literatura emergente sobre a subscrição de seguros de proteção ao crédito, um tema ainda pouco explorado tanto em contextos académicos como empresariais. O modelo de ordenação desenvolvido constitui um avanço significativo face à abordagem tradicional baseada em Regressão Logística, oferecendo ganhos em precisão preditiva e interpretabilidade, permitindo decisões mais informadas e maior eficiência operacional. Investigações futuras deverão incidir sobre o aperfeiçoamento dos parâmetros do modelo, a exploração de técnicas nativas de trata mento de variáveis categóricas e a implementação de estratégias de agregação de modelos para otimizar o desempenho e a transparência na previsão da subscrição. Adicionalmente, recomenda-se a inclusão de uma dimensão económica relacionada com o potencial de comissão dos clientes, com vista a aumentar a relevância prática do modelo. This thesis investigates the development of a predictive ranking model to enhance the efficiency of an inside sales team at a financial institution by accurately forecasting credit insurance subscription. Using consumer credit records collected in 2024, the study em ploys comprehensive data preprocessing, exploratory data analysis, and feature engineer ing to prepare high dimensional, imbalanced data for modelling. Predictive models such as Logistic Regression, Random Forest, LightGBM, and CatBoost were implemented and compared, with hyperparameter tuning guided by cross-validation and evaluation via multiple metrics and decile analysis. The findings reveal that while Logistic Regression is considered within the field to have superior interpretability, its overall predictive performance is inferior to that of more advanced ensemble and boosting methods. Random Forest shows high global discrimination, as evidenced by its superior test set AUC and Gini coefficients, yet it exhibits signs of overfitting in the decile analysis. LightGBM achieves competitive performance, particularly in its F1 score for the positive class, but CatBoost emerges as the most balanced model, with consistent performance across cross-validated metrics, test set evaluations, and decile analysis. Additionally, SHAP values provide granular insights into feature importance, identifying several key variables as decisive drivers of subscription predictions. This research contributes significantly to the emerging literature on credit insurance subscription, a topic that remains underexplored in both academic and business contexts. The developed ranking model represents a substantial advancement beyond the traditional baseline of Logistic Regression, offering enhanced predictive accuracy and interpretability that enable more informed decision-making and improved operational efficiency. Future research should focus on further refining model parameters, exploring native categorical processing, and investigating ensemble strategies to optimise performance and transparency in predicting subscription. Additionally, incorporating an economic dimension to capture clients’ commission potential is recommended to enhance the model’s practical relevance. |
URI: | http://hdl.handle.net/10400.5/100234 |
Aparece nas colecções: | BISEG - Dissertações de Mestrado / Master Thesis |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DM-58836-2025.pdf | 4,23 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.