Anonimização automática

Santos, Luís Bernardo Crisóstomo e Silva Rodrigues Esteves dos

Publication

Anonimização automática

2025Master thesis

datacite.subject.fos	Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática	pt_PT
dc.contributor.advisor	Mendonça, Vânia Patrícia Padrão
dc.contributor.author	Santos, Luís Bernardo Crisóstomo e Silva Rodrigues Esteves dos
dc.date.accessioned	2025-05-05T16:20:26Z
dc.date.available	2025-05-05T16:20:26Z
dc.date.issued	2025
dc.date.submitted	2024
dc.description	Trabalho de Projeto de Mestrado, Segurança Informática, 2025, Universidade de Lisboa, Faculdade de Ciências	pt_PT
dc.description.abstract	A partilha de informação é uma realidade que traz novos riscos associados como o acesso não autorizado a informação sensível. Como proposta para responder a estes riscos e continuando a permitir a partilha de informação estudamos neste projeto a elaboração de um sistema de anonimização automático de dados não estruturados que deteta e anonimiza informação sensível com recurso a abordagens de Aprendizagem Automática para a tarefa Reconhecimento de Entidades Mencionadas. O sistema a desenvolver deve poder ser executado localmente e assegurar confidencialidade dos dados. Um grande desafio na criação de um sistema de deteção é a necessidade de dados úteis ao treino, que variam consoante o contexto a que o sistema se destina, podendo existir escassez de dados para determinado contexto. O caso de estudo determinado para este projeto é o domínio legal em português europeu, para o qual existe efetivamente escassez de dados anotados. Analisámos e comparámos neste projeto vários modelos de Aprendizagem Automática, sujeitos a diferentes condições de fine-tuning, para a deteção e anonimização da informação sensível em texto livre, e também quais os erros mais comuns e possíveis causas. Para que a comparação seja justa e porque atualmente existe escassez de dados úteis para o treino e avaliação deste tipo de sistemas criámos um pequeno corpus de documentos anotados manualmente no domínio legal em português europeu. Criámos também um corpus de documentos gerados e anotados pela ferramenta ChatGPT. O resultado final do projeto é um sistema de anonimização automática que será posteriormente integrado numa ferramenta da TrustSystems, empresa em que o projeto foi realizado. Os dois modelos com melhores resultados apresentam valores de recall que se aproximam dos 70%.	pt_PT
dc.description.abstract	Information sharing is reality which brings new risks such as unauthorized access to sensitive information. As a proposal to respond to these risks while enabling data sharing we study in this project the development of a non structured data automatic anonymization system which detects and anonymize sensitive information using Machine Learning (ML) approaches for Named Entity Recognition (NER) tasks. This system must be able to run locally and ensure data confidentiality. A major challenge in creating a detection system is the need of useful data for the trainning, which varies according the context to which the system is intended, potentially leading to a shortage of data for that spefific context. The case study determined for this project is the legal domain in european portuguese, for which there is indeed a scarcity of annotated data. We analysed and compared various Machine Learning (ML) models in this project, subject to different fine-tuning conditions, for the sensitive information detection and anonymization in free text, as well as the most common errors and possible causes. To ensure a fair comparison and because currently there is a scarcity of useful data for training and evaluating this type of system we created a small corpus of manually anotated documents in the legal domain in european portuguese. We also created a corpus of documents generated and annotated by the ChatGPT tool. The final outcome of this project is an automatic anonymization system that will later be integrated into a tool developed by TrustSystem, the company in which this project is made. The two models with the most promising results exhibit recall values approaching 70%.	pt_PT
dc.identifier.uri	http://hdl.handle.net/10400.5/100414
dc.language.iso	por	pt_PT
dc.subject	Anonimização automática	pt_PT
dc.subject	Privacidade	pt_PT
dc.subject	Confidencialidade	pt_PT
dc.subject	Machine Learning	pt_PT
dc.subject	Named Entity Recognition	pt_PT
dc.subject	Teses de mestrado - 2025	pt_PT
dc.title	Anonimização automática	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	pt_PT
rcaap.type	masterThesis	pt_PT
thesis.degree.name	Mestrado em Segurança Informática	pt_PT

Files

Original bundle

Now showing 1 - 1 of 1

Name:: TM_Luís_Santos.pdf
Size:: 1.8 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.2 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

FC-DI - Master Thesis (projects)