| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 10.98 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Este trabalho procurou explicar o a ausência de pagamento da primeira prestação associada a
um contrato de seguro (apólice). Várias partes poderão estar relacionadas na causa do não pagamento, nomeadamente a companhia (ex: dificuldades no processamento de pagamentos; baixo
nível de serviço ao cliente), competidores (ex: possibilidade de adquirir produtos diferentes e
potencialmente a melhores preços noutras companhias), mediadores de seguros (ex: serviço
prestado ao cliente, experiência profissional do mediador, dimensão do mediador) e o próprio
cliente (ex: alineação do veículo, falta de recursos financeiros, esquecimento, insatisfação com
o produto ou serviço, comportamento fraudulento). A falta de pagamento da apólice leva ao seu
cancelamento, impactando negativamente o portfólio da seguradora. Adicionalmente, é prática
comum providenciar ao cliente na altura da subscrição da apólice um certificado temporário de
cobertura de risco, independentemente da realização de pagamento. Como tal, existe a possibilidade da companhia de seguros ter de suportar custos de acidentes (sinistros) para os quais não
foi recolhida nenhuma contrapartida (a alternativa, um conflito legal, tende a ser demasiado custosa). Apresenta-se também uma discussão de fraude, onde se conclui que, embora prejudicial
para a empresa, apenas se pode designar como fraude formal os casos em que o cliente reclama
um sinistro sem ter efetuado o pagamento da apólice.
De forma a estudar e prever este fenómeno no ramo automóvel, preparou-se dados de diversas fontes e construiram-se modelos preditivos. Estas fontes incluem bases de dados da companhia dos clientes, mediadores de seguro, apólices e outras fontes externas como o INE e eurotax.
Utilizou-se informação relativa ao período entre início de 2019 e final de março de 2020. Para
este efeito, utilizou-se a plataforma SAS Enterprise Guide e código SAS.
Depois da agregação inicial de dados de várias bases de dados, construiu-se a variável resposta a ser modelada. De forma a ter em conta situações "perdoáveis", como erros de informação na subscrição de seguro, corrigidos através da emissão de uma nova apólice de substituição (levando ao não pagamento da original), introduziu-se o conceito de cadeias de apólices:
sequências de contratos com a mesma combinação NIF / matrícula do carro. Agregando-se a
informação por cadeia, a variável resposta foi definida de acordo com o pagamento ou não pagamento da última apólice da cadeia. Neste contexto, os valores das variáveis explicativas são os
associados à primeira apólice da cadeia. Assim, a aplicação de modelos preditivos a esta estrutura de dados permitirá modelar a probabilidade da última apólice da cadeia ser paga tendo em
conta a informação disponível na génese da cadeia.
Uma das particularidades do software de modelação Emblem (software de desenvolvimento
de GLMs) é de apenas aceitar variáveis discretizadas (com agrupamentos / bins). Assim,
discutiu-se duas formas de gerar estes bins: i) regra de Sturges, com intervalos iguais no eixo de
valores da variável; ii) forçar que os bins tenham uma dada exposição (número de observações
associados), em particular exposição seguindo uma distribuição normal. Estes bins foram aplicados às variáveis através de formatos SAS.
Anteriormente à construção de modelos, efetuou-se algumas análises aos dados já preparados: 6,4% das cadeias de apólices foram associadas a não-pagamento; 5,3% das cadeias têm
mais do que uma apólice; 26% das apólices inicialmente não pagas culminam em apólices pagas (forgiveness ratio); não foi detetada uma tendência temporal do valor médio da variável
resposta; estudou-se a taxa de não-pagamento por motivo de anulação da apólice. A análise
de "valores extremos", como por exemplo NIFs com muitas apólices, matrículas com muitas
apólices, cadeias muito longas, permitiram identificar "comportamentos fraudulentos".
Devido ao elevado número de variáveis, aplicou-se uma metodologia de seleção de variáveis
com base em vários testes de significância. De seguida, criou-se três partições de dados para as
diversas fases de modelação: treino, para se construir o modelo base; validação, para se efetuar
tuning do modelo base; teste, para se construir métricas de avaliação. As partições foram geradas
através de código SAS: gerando mil divisões aleatórias treino/validação/teste, escolheu-se o trio
com menos diferença de valor médio da variável resposta.
O primeiro e principal modelo a ser implementado foi o da regressão logística, utilizando
o software de seguros Emblem. Devido ao ainda elevado número de variáveis, aplicaram-se
métodos como forward, backwards e stepwise, cada um aplicado separadamente aos vários grupos de variáveis (Apólice, Cliente e Segurnet, Veículo, Agente, Geodemográficas, Zona). Estes
métodos foram aplicados em R Studio e culminaram em oitenta e seis variáveis. Adicionalmente, recolheu-se todas as variáveis selecionadas de cada grupo e aplicou-se conjuntamente
um método forward, reduzindo-se ainda mais o número de variáveis para sessenta e cinco. De
seguida, utilizou-se o Emblem para construir o modelo com a partição de treino. As múltiplas ações efetuadas incluem agrupamentos de bins ("bin groupings") das várias variáveis para
aumentar a significância de coeficientes; utilização de Wald p-values e de limites mínimos de
melhoria do AIC do modelo para descartar variáveis; aplicação de splines a variáveis; introdução
de interações. Após esta fase, utilizou-se a partição de validação para verificar efeitos de "overfitting". Com efeito, descartou-se algumas variáveis e efetuou-se tuning dos agrupamentos de
bins de outras.
Tendo construído um modelo de regressão logística, procurou-se construir outros modelos
alternativos de machine learning de forma a ter uma base de comparação de performance. Inicialmente, construiu-se um modelo de árvore de decisão utilizando python e o famoso package
scikit-learn. De forma a controlar overfitting, elaborou-se uma metodologia de treino consistente em fazer fit de um modelo com um conjunto de hiperparametros na partição de treino, e
avaliá-lo na partição de validação. O segundo modelo de ML experimentado foi o lightgbm, um
implementação otimizada para velocidade de treino do algoritmo gradient boosting decision tree
(gbdt). Resumidamente, gbdt é um método de ensemble no qual vários "weak learners" (neste
caso árvores de decisão) são agregados sequencialmente num só modelo, de forma que cada nova
árvore de decisão tenta corrigir o erro residual do modelo corrente. Utilizou-se uma metodologia
semelhante à utilizada no modelo de árvore de decisão, com uma diferença principal: em vez de percorrer todas as combinações predefinidas dos vários hiperparametros, recorreu-se a bayesian
optimization (metodologia de procura de hiperparametros informada).
Para se avaliar os modelos, aplicou-se à partição de teste diversas metodologias e métricas,
como o testes goodness-of-fit Hosmer-Lemeshow (modelo regressão Logística), importância de
variável, ponto de corte de probabilidade ótimo, matriz de confusão, sensibilidade, especificidade, accuracy, intervalos de confiança (modelo RL), coeficientes do modelo de regressão
logística e sua interpretação, tempo de execução e gráficos de otimização (modelos ML). Por
fim, os três modelos foram comparados através da métrica ROC AUC na partição de teste: árvore de decisão (0,6947), regressão logística com Emblem (0,7513) e lightgbm (0,7909). Estes
resultados devem, no entanto, ser comparados de forma cuidada: o modelo de árvore de decisão
foi construído com no máximo seis níveis (max_depth = 6); o modelo de regressão logística,
devido à utilização de Emblem, foi construído discretizando todas as variáveis numéricas; o
modelo lightgbm e árvore de decisão foram construído utilizando todas as variáveis disponíveis
(enquanto que o modelo RL foi construído com apenas vinte e duas variáveis).
O modelo de regressão logística foi aplicado a dados mais recentes de Janeiro 2021, tendo-se
obtido um AUC de 0,6649, indicando um decréscimo de performance. Com estes dados obteve-se um valor médio da variável resposta de 6,3% e um forgiveness ratio de 21,8%, indicando
que o problema do não pagamento continua relevante.
O presente trabalho é o resultado de um estágio no Departamento de Pricing da companhia
de seguros Allianz Portugal. Como tal, alguns valores de análises foram transformados (mas
mantendo a mesma interpretação); algumas informações foram omitidas na versão pública do
relatório.
The main phenomenon in study is the non-payment of the policy’s first instalment shortly after the policy emission. The non-payment leads the policy’s cancellation, a consequence that in aggregate negatively impacts the insurer’s portfolio. Focused on the Auto business, the work firstly involved preparation of data using SAS code, where information from multiple data sources was compiled and structured to the problem in question. To this effect, client, insurance agent, policy and external data from 2019 to March 2020 was used. The target variable was design to acknowledge some forgivable situations, like policy emission errors followed by a substitution policy. Secondly, having a prepared dataset with explanatory variables, multiple analyses of various nature were conducted, namely target (average 6.4% of non-payment), policy chains, cost and fraud analysis. Due to the need for categorizing continuous variables, two methodologies were developed to create value bins by making use of SAS formats. Additionally, given the high number of variables, a preliminary variable selection methodology using multiple statistical tests was experimented. Thirdly, the target was modelled in a standard and more developed approach using a logistic regression (via the insurance software Emblem), and using alternative machine learning models like Decision Tree and lightgbm - an implementation of the gradient boosting decision tree algorithm optimized for training speed. Fourthly, multiple evaluation metrics and methods were applied the output of the three models, namely Hosmer-Lemeshow goodness-of-fit tests, feature importance, optimal cut-off probability, confusion matrix and performance metrics like Sensitivity and Specificity. This work is concluded by presenting and discussing the ROC AUC metric (test data) for the three models: decision tree (0.6947), logistic regression (0.7513) and ligthgbm (0.7909). Additionally, the logistic regression model was applied to more recent January 2021 data. The present work is the result of an internship in the Pricing Department of the insurance company Allianz Portugal. As such, some analyses values have been transformed (but keeping the same interpretation); some information has been omitted in the public version of the report.
The main phenomenon in study is the non-payment of the policy’s first instalment shortly after the policy emission. The non-payment leads the policy’s cancellation, a consequence that in aggregate negatively impacts the insurer’s portfolio. Focused on the Auto business, the work firstly involved preparation of data using SAS code, where information from multiple data sources was compiled and structured to the problem in question. To this effect, client, insurance agent, policy and external data from 2019 to March 2020 was used. The target variable was design to acknowledge some forgivable situations, like policy emission errors followed by a substitution policy. Secondly, having a prepared dataset with explanatory variables, multiple analyses of various nature were conducted, namely target (average 6.4% of non-payment), policy chains, cost and fraud analysis. Due to the need for categorizing continuous variables, two methodologies were developed to create value bins by making use of SAS formats. Additionally, given the high number of variables, a preliminary variable selection methodology using multiple statistical tests was experimented. Thirdly, the target was modelled in a standard and more developed approach using a logistic regression (via the insurance software Emblem), and using alternative machine learning models like Decision Tree and lightgbm - an implementation of the gradient boosting decision tree algorithm optimized for training speed. Fourthly, multiple evaluation metrics and methods were applied the output of the three models, namely Hosmer-Lemeshow goodness-of-fit tests, feature importance, optimal cut-off probability, confusion matrix and performance metrics like Sensitivity and Specificity. This work is concluded by presenting and discussing the ROC AUC metric (test data) for the three models: decision tree (0.6947), logistic regression (0.7513) and ligthgbm (0.7909). Additionally, the logistic regression model was applied to more recent January 2021 data. The present work is the result of an internship in the Pricing Department of the insurance company Allianz Portugal. As such, some analyses values have been transformed (but keeping the same interpretation); some information has been omitted in the public version of the report.
Descrição
Trabalho de Projeto de Mestrado, Matemática Aplicada à Economia e Gestão, 2022, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
Seguros Dados Incumprimento Modelação Aprendizagem automática Teses de mestrado - 2023
