Auto insurance : modelling the non-payment of the policy’s first instalmen

Alves, Afonso dos Santos

http://hdl.handle.net/10451/62559

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Afonso_Alves.pdf		10.98 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Alves, Afonso dos Santos

Orientador(es)

Gomes, João José Ferreira

Resumo(s)

Este trabalho procurou explicar o a ausência de pagamento da primeira prestação associada a um contrato de seguro (apólice). Várias partes poderão estar relacionadas na causa do não pagamento, nomeadamente a companhia (ex: dificuldades no processamento de pagamentos; baixo nível de serviço ao cliente), competidores (ex: possibilidade de adquirir produtos diferentes e potencialmente a melhores preços noutras companhias), mediadores de seguros (ex: serviço prestado ao cliente, experiência profissional do mediador, dimensão do mediador) e o próprio cliente (ex: alineação do veículo, falta de recursos financeiros, esquecimento, insatisfação com o produto ou serviço, comportamento fraudulento). A falta de pagamento da apólice leva ao seu cancelamento, impactando negativamente o portfólio da seguradora. Adicionalmente, é prática comum providenciar ao cliente na altura da subscrição da apólice um certificado temporário de cobertura de risco, independentemente da realização de pagamento. Como tal, existe a possibilidade da companhia de seguros ter de suportar custos de acidentes (sinistros) para os quais não foi recolhida nenhuma contrapartida (a alternativa, um conflito legal, tende a ser demasiado custosa). Apresenta-se também uma discussão de fraude, onde se conclui que, embora prejudicial para a empresa, apenas se pode designar como fraude formal os casos em que o cliente reclama um sinistro sem ter efetuado o pagamento da apólice. De forma a estudar e prever este fenómeno no ramo automóvel, preparou-se dados de diversas fontes e construiram-se modelos preditivos. Estas fontes incluem bases de dados da companhia dos clientes, mediadores de seguro, apólices e outras fontes externas como o INE e eurotax. Utilizou-se informação relativa ao período entre início de 2019 e final de março de 2020. Para este efeito, utilizou-se a plataforma SAS Enterprise Guide e código SAS. Depois da agregação inicial de dados de várias bases de dados, construiu-se a variável resposta a ser modelada. De forma a ter em conta situações "perdoáveis", como erros de informação na subscrição de seguro, corrigidos através da emissão de uma nova apólice de substituição (levando ao não pagamento da original), introduziu-se o conceito de cadeias de apólices: sequências de contratos com a mesma combinação NIF / matrícula do carro. Agregando-se a informação por cadeia, a variável resposta foi definida de acordo com o pagamento ou não pagamento da última apólice da cadeia. Neste contexto, os valores das variáveis explicativas são os associados à primeira apólice da cadeia. Assim, a aplicação de modelos preditivos a esta estrutura de dados permitirá modelar a probabilidade da última apólice da cadeia ser paga tendo em conta a informação disponível na génese da cadeia. Uma das particularidades do software de modelação Emblem (software de desenvolvimento de GLMs) é de apenas aceitar variáveis discretizadas (com agrupamentos / bins). Assim, discutiu-se duas formas de gerar estes bins: i) regra de Sturges, com intervalos iguais no eixo de valores da variável; ii) forçar que os bins tenham uma dada exposição (número de observações associados), em particular exposição seguindo uma distribuição normal. Estes bins foram aplicados às variáveis através de formatos SAS. Anteriormente à construção de modelos, efetuou-se algumas análises aos dados já preparados: 6,4% das cadeias de apólices foram associadas a não-pagamento; 5,3% das cadeias têm mais do que uma apólice; 26% das apólices inicialmente não pagas culminam em apólices pagas (forgiveness ratio); não foi detetada uma tendência temporal do valor médio da variável resposta; estudou-se a taxa de não-pagamento por motivo de anulação da apólice. A análise de "valores extremos", como por exemplo NIFs com muitas apólices, matrículas com muitas apólices, cadeias muito longas, permitiram identificar "comportamentos fraudulentos". Devido ao elevado número de variáveis, aplicou-se uma metodologia de seleção de variáveis com base em vários testes de significância. De seguida, criou-se três partições de dados para as diversas fases de modelação: treino, para se construir o modelo base; validação, para se efetuar tuning do modelo base; teste, para se construir métricas de avaliação. As partições foram geradas através de código SAS: gerando mil divisões aleatórias treino/validação/teste, escolheu-se o trio com menos diferença de valor médio da variável resposta. O primeiro e principal modelo a ser implementado foi o da regressão logística, utilizando o software de seguros Emblem. Devido ao ainda elevado número de variáveis, aplicaram-se métodos como forward, backwards e stepwise, cada um aplicado separadamente aos vários grupos de variáveis (Apólice, Cliente e Segurnet, Veículo, Agente, Geodemográficas, Zona). Estes métodos foram aplicados em R Studio e culminaram em oitenta e seis variáveis. Adicionalmente, recolheu-se todas as variáveis selecionadas de cada grupo e aplicou-se conjuntamente um método forward, reduzindo-se ainda mais o número de variáveis para sessenta e cinco. De seguida, utilizou-se o Emblem para construir o modelo com a partição de treino. As múltiplas ações efetuadas incluem agrupamentos de bins ("bin groupings") das várias variáveis para aumentar a significância de coeficientes; utilização de Wald p-values e de limites mínimos de melhoria do AIC do modelo para descartar variáveis; aplicação de splines a variáveis; introdução de interações. Após esta fase, utilizou-se a partição de validação para verificar efeitos de "overfitting". Com efeito, descartou-se algumas variáveis e efetuou-se tuning dos agrupamentos de bins de outras. Tendo construído um modelo de regressão logística, procurou-se construir outros modelos alternativos de machine learning de forma a ter uma base de comparação de performance. Inicialmente, construiu-se um modelo de árvore de decisão utilizando python e o famoso package scikit-learn. De forma a controlar overfitting, elaborou-se uma metodologia de treino consistente em fazer fit de um modelo com um conjunto de hiperparametros na partição de treino, e avaliá-lo na partição de validação. O segundo modelo de ML experimentado foi o lightgbm, um implementação otimizada para velocidade de treino do algoritmo gradient boosting decision tree (gbdt). Resumidamente, gbdt é um método de ensemble no qual vários "weak learners" (neste caso árvores de decisão) são agregados sequencialmente num só modelo, de forma que cada nova árvore de decisão tenta corrigir o erro residual do modelo corrente. Utilizou-se uma metodologia semelhante à utilizada no modelo de árvore de decisão, com uma diferença principal: em vez de percorrer todas as combinações predefinidas dos vários hiperparametros, recorreu-se a bayesian optimization (metodologia de procura de hiperparametros informada). Para se avaliar os modelos, aplicou-se à partição de teste diversas metodologias e métricas, como o testes goodness-of-fit Hosmer-Lemeshow (modelo regressão Logística), importância de variável, ponto de corte de probabilidade ótimo, matriz de confusão, sensibilidade, especificidade, accuracy, intervalos de confiança (modelo RL), coeficientes do modelo de regressão logística e sua interpretação, tempo de execução e gráficos de otimização (modelos ML). Por fim, os três modelos foram comparados através da métrica ROC AUC na partição de teste: árvore de decisão (0,6947), regressão logística com Emblem (0,7513) e lightgbm (0,7909). Estes resultados devem, no entanto, ser comparados de forma cuidada: o modelo de árvore de decisão foi construído com no máximo seis níveis (max_depth = 6); o modelo de regressão logística, devido à utilização de Emblem, foi construído discretizando todas as variáveis numéricas; o modelo lightgbm e árvore de decisão foram construído utilizando todas as variáveis disponíveis (enquanto que o modelo RL foi construído com apenas vinte e duas variáveis). O modelo de regressão logística foi aplicado a dados mais recentes de Janeiro 2021, tendo-se obtido um AUC de 0,6649, indicando um decréscimo de performance. Com estes dados obteve-se um valor médio da variável resposta de 6,3% e um forgiveness ratio de 21,8%, indicando que o problema do não pagamento continua relevante. O presente trabalho é o resultado de um estágio no Departamento de Pricing da companhia de seguros Allianz Portugal. Como tal, alguns valores de análises foram transformados (mas mantendo a mesma interpretação); algumas informações foram omitidas na versão pública do relatório.

The main phenomenon in study is the non-payment of the policy’s first instalment shortly after the policy emission. The non-payment leads the policy’s cancellation, a consequence that in aggregate negatively impacts the insurer’s portfolio. Focused on the Auto business, the work firstly involved preparation of data using SAS code, where information from multiple data sources was compiled and structured to the problem in question. To this effect, client, insurance agent, policy and external data from 2019 to March 2020 was used. The target variable was design to acknowledge some forgivable situations, like policy emission errors followed by a substitution policy. Secondly, having a prepared dataset with explanatory variables, multiple analyses of various nature were conducted, namely target (average 6.4% of non-payment), policy chains, cost and fraud analysis. Due to the need for categorizing continuous variables, two methodologies were developed to create value bins by making use of SAS formats. Additionally, given the high number of variables, a preliminary variable selection methodology using multiple statistical tests was experimented. Thirdly, the target was modelled in a standard and more developed approach using a logistic regression (via the insurance software Emblem), and using alternative machine learning models like Decision Tree and lightgbm - an implementation of the gradient boosting decision tree algorithm optimized for training speed. Fourthly, multiple evaluation metrics and methods were applied the output of the three models, namely Hosmer-Lemeshow goodness-of-fit tests, feature importance, optimal cut-off probability, confusion matrix and performance metrics like Sensitivity and Specificity. This work is concluded by presenting and discussing the ROC AUC metric (test data) for the three models: decision tree (0.6947), logistic regression (0.7513) and ligthgbm (0.7909). Additionally, the logistic regression model was applied to more recent January 2021 data. The present work is the result of an internship in the Pricing Department of the insurance company Allianz Portugal. As such, some analyses values have been transformed (but keeping the same interpretation); some information has been omitted in the public version of the report.

Descrição

Trabalho de Projeto de Mestrado, Matemática Aplicada à Economia e Gestão, 2022, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Seguros Dados Incumprimento Modelação Aprendizagem automática Teses de mestrado - 2023

URI

http://hdl.handle.net/10451/62559

Coleções

FC - Dissertações de Mestrado

Ver registo completo