Repository logo
 
Publication

Anonimização automática

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapt_PT
dc.contributor.advisorMendonça, Vânia Patrícia Padrão
dc.contributor.authorSantos, Luís Bernardo Crisóstomo e Silva Rodrigues Esteves dos
dc.date.accessioned2025-05-05T16:20:26Z
dc.date.available2025-05-05T16:20:26Z
dc.date.issued2025
dc.date.submitted2024
dc.descriptionTrabalho de Projeto de Mestrado, Segurança Informática, 2025, Universidade de Lisboa, Faculdade de Ciênciaspt_PT
dc.description.abstractA partilha de informação é uma realidade que traz novos riscos associados como o acesso não autorizado a informação sensível. Como proposta para responder a estes riscos e continuando a permitir a partilha de informação estudamos neste projeto a elaboração de um sistema de anonimização automático de dados não estruturados que deteta e anonimiza informação sensível com recurso a abordagens de Aprendizagem Automática para a tarefa Reconhecimento de Entidades Mencionadas. O sistema a desenvolver deve poder ser executado localmente e assegurar confidencialidade dos dados. Um grande desafio na criação de um sistema de deteção é a necessidade de dados úteis ao treino, que variam consoante o contexto a que o sistema se destina, podendo existir escassez de dados para determinado contexto. O caso de estudo determinado para este projeto é o domínio legal em português europeu, para o qual existe efetivamente escassez de dados anotados. Analisámos e comparámos neste projeto vários modelos de Aprendizagem Automática, sujeitos a diferentes condições de fine-tuning, para a deteção e anonimização da informação sensível em texto livre, e também quais os erros mais comuns e possíveis causas. Para que a comparação seja justa e porque atualmente existe escassez de dados úteis para o treino e avaliação deste tipo de sistemas criámos um pequeno corpus de documentos anotados manualmente no domínio legal em português europeu. Criámos também um corpus de documentos gerados e anotados pela ferramenta ChatGPT. O resultado final do projeto é um sistema de anonimização automática que será posteriormente integrado numa ferramenta da TrustSystems, empresa em que o projeto foi realizado. Os dois modelos com melhores resultados apresentam valores de recall que se aproximam dos 70%.pt_PT
dc.description.abstractInformation sharing is reality which brings new risks such as unauthorized access to sensitive information. As a proposal to respond to these risks while enabling data sharing we study in this project the development of a non structured data automatic anonymization system which detects and anonymize sensitive information using Machine Learning (ML) approaches for Named Entity Recognition (NER) tasks. This system must be able to run locally and ensure data confidentiality. A major challenge in creating a detection system is the need of useful data for the trainning, which varies according the context to which the system is intended, potentially leading to a shortage of data for that spefific context. The case study determined for this project is the legal domain in european portuguese, for which there is indeed a scarcity of annotated data. We analysed and compared various Machine Learning (ML) models in this project, subject to different fine-tuning conditions, for the sensitive information detection and anonymization in free text, as well as the most common errors and possible causes. To ensure a fair comparison and because currently there is a scarcity of useful data for training and evaluating this type of system we created a small corpus of manually anotated documents in the legal domain in european portuguese. We also created a corpus of documents generated and annotated by the ChatGPT tool. The final outcome of this project is an automatic anonymization system that will later be integrated into a tool developed by TrustSystem, the company in which this project is made. The two models with the most promising results exhibit recall values approaching 70%.pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.5/100414
dc.language.isoporpt_PT
dc.subjectAnonimização automáticapt_PT
dc.subjectPrivacidadept_PT
dc.subjectConfidencialidadept_PT
dc.subjectMachine Learningpt_PT
dc.subjectNamed Entity Recognitionpt_PT
dc.subjectTeses de mestrado - 2025pt_PT
dc.titleAnonimização automáticapt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameMestrado em Segurança Informáticapt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
TM_Luís_Santos.pdf
Size:
1.8 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.2 KB
Format:
Item-specific license agreed upon to submission
Description: