Publication
Anonimização automática
datacite.subject.fos | Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática | pt_PT |
dc.contributor.advisor | Mendonça, Vânia Patrícia Padrão | |
dc.contributor.author | Santos, Luís Bernardo Crisóstomo e Silva Rodrigues Esteves dos | |
dc.date.accessioned | 2025-05-05T16:20:26Z | |
dc.date.available | 2025-05-05T16:20:26Z | |
dc.date.issued | 2025 | |
dc.date.submitted | 2024 | |
dc.description | Trabalho de Projeto de Mestrado, Segurança Informática, 2025, Universidade de Lisboa, Faculdade de Ciências | pt_PT |
dc.description.abstract | A partilha de informação é uma realidade que traz novos riscos associados como o acesso não autorizado a informação sensível. Como proposta para responder a estes riscos e continuando a permitir a partilha de informação estudamos neste projeto a elaboração de um sistema de anonimização automático de dados não estruturados que deteta e anonimiza informação sensível com recurso a abordagens de Aprendizagem Automática para a tarefa Reconhecimento de Entidades Mencionadas. O sistema a desenvolver deve poder ser executado localmente e assegurar confidencialidade dos dados. Um grande desafio na criação de um sistema de deteção é a necessidade de dados úteis ao treino, que variam consoante o contexto a que o sistema se destina, podendo existir escassez de dados para determinado contexto. O caso de estudo determinado para este projeto é o domínio legal em português europeu, para o qual existe efetivamente escassez de dados anotados. Analisámos e comparámos neste projeto vários modelos de Aprendizagem Automática, sujeitos a diferentes condições de fine-tuning, para a deteção e anonimização da informação sensível em texto livre, e também quais os erros mais comuns e possíveis causas. Para que a comparação seja justa e porque atualmente existe escassez de dados úteis para o treino e avaliação deste tipo de sistemas criámos um pequeno corpus de documentos anotados manualmente no domínio legal em português europeu. Criámos também um corpus de documentos gerados e anotados pela ferramenta ChatGPT. O resultado final do projeto é um sistema de anonimização automática que será posteriormente integrado numa ferramenta da TrustSystems, empresa em que o projeto foi realizado. Os dois modelos com melhores resultados apresentam valores de recall que se aproximam dos 70%. | pt_PT |
dc.description.abstract | Information sharing is reality which brings new risks such as unauthorized access to sensitive information. As a proposal to respond to these risks while enabling data sharing we study in this project the development of a non structured data automatic anonymization system which detects and anonymize sensitive information using Machine Learning (ML) approaches for Named Entity Recognition (NER) tasks. This system must be able to run locally and ensure data confidentiality. A major challenge in creating a detection system is the need of useful data for the trainning, which varies according the context to which the system is intended, potentially leading to a shortage of data for that spefific context. The case study determined for this project is the legal domain in european portuguese, for which there is indeed a scarcity of annotated data. We analysed and compared various Machine Learning (ML) models in this project, subject to different fine-tuning conditions, for the sensitive information detection and anonymization in free text, as well as the most common errors and possible causes. To ensure a fair comparison and because currently there is a scarcity of useful data for training and evaluating this type of system we created a small corpus of manually anotated documents in the legal domain in european portuguese. We also created a corpus of documents generated and annotated by the ChatGPT tool. The final outcome of this project is an automatic anonymization system that will later be integrated into a tool developed by TrustSystem, the company in which this project is made. The two models with the most promising results exhibit recall values approaching 70%. | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.5/100414 | |
dc.language.iso | por | pt_PT |
dc.subject | Anonimização automática | pt_PT |
dc.subject | Privacidade | pt_PT |
dc.subject | Confidencialidade | pt_PT |
dc.subject | Machine Learning | pt_PT |
dc.subject | Named Entity Recognition | pt_PT |
dc.subject | Teses de mestrado - 2025 | pt_PT |
dc.title | Anonimização automática | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |
thesis.degree.name | Mestrado em Segurança Informática | pt_PT |