Publication
Advanced Blacklisting: Aperfeiçoamento de Algoritmos para Deteção de Correspondências em Listas de Pessoas Politicamente Expostas (PEP)
datacite.subject.fos | Departamento de Informática | pt_PT |
dc.contributor.advisor | Antunes, Luís Alberto dos Santos, 1967- | |
dc.contributor.author | Ferreira, Bárbara Filipa Felizardo | |
dc.date.accessioned | 2025-02-13T15:34:20Z | |
dc.date.available | 2025-02-13T15:34:20Z | |
dc.date.issued | 2025 | |
dc.date.submitted | 2024 | |
dc.description | Trabalho de projeto de mestrado, Ciências de Dados, 2025, Universidade de Lisboa, Faculdade de Ciências | pt_PT |
dc.description.abstract | O objetivo deste trabalho consiste em aprimorar o algoritmo de correspondência de nomes para superar as atuais limitações, utilizando a Distância de Levenshtein como base. Ao utilizar este algoritmo isoladamente verificou-se uma grande ineficácia, resultando numa taxa de falsos positivos de 99 %. Para solucionar este desafio, a Distância de Levenshtein foi combinada com três métricas: Jaro-Winkler, N-Gram e Similaridade de Cosseno. Um experimento adicional com a técnica Soft TF-IDF foi efetuada para comparar com os métodos anteriores. A melhor combinação foi a Distância de Levenshtein com N-Gram, apresentando-se mais eficaz na deteção de correspondências, considerando os parâmetros utilizados. A combinação com Jaro-Winkler obteve uma taxa de falsos positivos de 14 %, mas teve dificuldade com nomes em ordens diferentes. A Similaridade de Cosseno apresentou uma taxa semelhante à do N-Gram (25 %), mas ocorreu uma alteração no valor dos pesos das funções. O Soft TF-IDF, teve eficácia na identificação de similaridade, mas obteve uma taxa de falsos positivos de 45 %, tornando-o o menos eficiente. O conjunto de dados inicial era pequeno, pelo que foi necessário realizar um teste com um conjunto maior onde o algoritmo eleito obteve uma taxa de falsos positivos de 13 % e um tempo de processamento de 49 minutos, confirmando a sua robustez e escalabilidade. Deste modo, ocorreu uma melhoria uma melhoria mínima de 75 % em relação à taxa inicial de falsos positivos, beneficiando o vendedor e o cliente, ao garantir um programa eficiente. | pt_PT |
dc.description.abstract | The objective of this work is to improve the name-matching algorithm to overcome its current limitations by using the Levenshtein Distance as a foundation. When using this algorithm in isolation, it proved to be highly ineffective, resulting in a false positive rate of 99 %. To address this challenge, the Levenshtein Distance was combined with three metrics: Jaro-Winkler, N-Gram, and Cosine Similarity. An additional experiment with the Soft TF-IDF technique was conducted to compare it with the previous methods. The best combination was the Levenshtein Distance with N-Gram, proving to be the most effective in detecting matches based on the parameters used. The combination with Jaro-Winkler resulted in a false positive rate of 14 % but struggled with names in different orders. Cosine Similarity had a rate similar to that of N-Gram (25 %), but there was a change in the weight values of the functions. Soft TF-IDF was effective in identifying similarity but had a false positive rate of 45 %, making it the least efficient. The initial dataset was small, so it was necessary to conduct a test with a larger dataset, where the chosen algorithm achieved a false positive rate of 13 % and a processing time of 49 minutes, confirming its robustness and scalability. Thus, there was a minimum improvement of 75 % compared to the initial false positive rate, benefiting both the seller and the customer by ensuring an efficient program. | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.5/98419 | |
dc.language.iso | por | pt_PT |
dc.subject | Correspondência de Nomes | pt_PT |
dc.subject | Distância de Levenshtein | pt_PT |
dc.subject | N-Gram | pt_PT |
dc.subject | Falsos positivos | pt_PT |
dc.subject | Trabalhos de projeto de mestrado - 2025 | pt_PT |
dc.title | Advanced Blacklisting: Aperfeiçoamento de Algoritmos para Deteção de Correspondências em Listas de Pessoas Politicamente Expostas (PEP) | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |
thesis.degree.name | Trabalho de projeto de mestrado em Ciências de Dados | pt_PT |