Repository logo
 
Publication

Deep semantic entity linking

datacite.subject.fosCiências Naturais::Ciências da Computação e da Informaçãopt_PT
dc.contributor.advisorCouto, Francisco José Moreira
dc.contributor.authorRUAS, PEDRO
dc.date.accessioned2025-05-14T15:41:03Z
dc.date.available2025-05-14T15:41:03Z
dc.date.issued2025-02-20
dc.date.submitted2024-10-03
dc.description.abstractKnowledge organization systems, such as ontologies and knowledge graphs, are essential for organizing biomedical and clinical information and data. However, the growing volume of available scientific literature raises challenges in their maintenance. Entity linking approaches assist humans in curation by mapping entities described in text to entries of the knowledge organization systems, but their lack of coverage originates unlinkable or NIL entities. Besides, the state-of-the-art depends on deep learning models trained on large amounts of human-annotated data, which is hard to acquire. The present research work focuses on tackling these limitations of human-annotated data in the biomedical entity linking task. First, it addresses the lack of coverage of biomedical knowledge organization systems by using relation extraction to find missing relations and focusing on the problem of the NIL entities. Relation extraction increases the semantic information available for graph-based entity linking approaches (REEL), and focusing on the partial mapping of NIL entities (i.e. NIL entity linking) also improves the performance of such approaches (NILINKER). Second, the research work proposes a new deep learning model trained on a large-scale training dataset generated through automatic methods. The model is part of the pipeline X-Linker integrating different entity linking models, providing more flexibility and performance. The pipeline achieved state-of-the-art performance in the biomedical entity linking task in several datasets (BC5CDR-Disease, BioRED-Chemical, NCBI Disease). The described approaches and several others focusing on related tasks, such as named entity recognition, text classification, and recommendation of biomedical entities, were applied to several case studies, including competitions, workshops and challenges.pt_PT
dc.description.abstractSistemas de organização do conhecimento, incluindo ontologias e grafos de conhecimento, são essenciais na organização de dados e informação biomédicos e clínicos. No entanto, a crescente quantidade de literatura científica disponível levanta desafios à manutenção destes sistemas. As abordagens automáticas de mapeamento de entidades ajudam os especialistas humanos no processo de curadoria através da associação de entidades descritas em texto com registos presentes em sistemas de organização de conhecimento, mas as limitações destes em relação à sua abrangência originam entidades não mapeáveis ou NIL e deficiências ao nível da informação contextual. Para além disso, o estado da arte depende de modelos de aprendizagem profunda treinados em grandes quantidades de dados anotados por humanos, que são difíceis de gerar. O trabalho de investigação aqui descrito foca-se em resolver estas limitações. Em primeiro lugar, aborda a abrangência limitada de sistemas biomédicos de organização do conhecimento através do recurso a abordagens automáticas para extração de relações para encontrar relações ausentes e através do foco no problema das entidades NIL. A extração de relações aumenta a informação semântica disponível em abordagens de mapeamento de entidades baseadas em grafos (REEL). O foco no mapeamento parcial de entidades NIL também aumenta o desempenho de abordagens de mapeamento de entidades (NILINKER). Em segundo lugar, o trabalho propõe uma nova abordagem para mapeamento de entidades baseada num modelo de aprendizagem profunda treinado num conjunto de dados de larga escala gerado automaticamente. O modelo é integrado no pipeline X-Linker que integra diferentes abordagens, o que leva a um aumento da flexibilidade e da performance. Este pipeline alcançou um desempenho estado da arte na tarefa de mapeamento de entidades biomédicas em vários conjuntos de dados (BC5CDR-Disease, BioRED-Chemical, NCBI Disease). As abordagens descritas e outras relacionadas, como reconhecimento de entidades, classificação de texto e recomendação de entidades biomédicas foram aplicadas em diferentes casos de estudo, incluindo competições e workshops e no desenvolvimento de uma ferramenta de anotação de texto biomédico com foco na usabilidade (BENT).pt_PT
dc.identifier.tid101708360pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.5/100696
dc.language.isoengpt_PT
dc.relationDeep Semantic Tagger
dc.relationLASIGE - Extreme Computing
dc.relationLASIGE - Extreme Computing
dc.relationDeep Semantic Entity Linking
dc.subjectBiomedical Entity Linkingpt_PT
dc.subjectText Miningpt_PT
dc.subjectNatural Language Processingpt_PT
dc.subjectKnowledge Organization Systemspt_PT
dc.subjectDeep Learningpt_PT
dc.subjectMapeamento de entidades biomédicaspt_PT
dc.subjectProspecção de textopt_PT
dc.subjectProcessamento de linguagem naturalpt_PT
dc.subjectSistemas de organização do conhecimentopt_PT
dc.subjectAprendizagem profundapt_PT
dc.titleDeep semantic entity linkingpt_PT
dc.typedoctoral thesis
dspace.entity.typePublication
oaire.awardTitleDeep Semantic Tagger
oaire.awardTitleLASIGE - Extreme Computing
oaire.awardTitleLASIGE - Extreme Computing
oaire.awardTitleDeep Semantic Entity Linking
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/Concurso para Financiamento de Projetos de Investigação Científica e Desenvolvimento Tecnológico em Todos os Domínios Científicos - 2017/PTDC%2FCCI-BIO%2F28685%2F2017/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F00408%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDP%2F00408%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/OE/2020.05393.BD/PT
oaire.fundingStreamConcurso para Financiamento de Projetos de Investigação Científica e Desenvolvimento Tecnológico em Todos os Domínios Científicos - 2017
oaire.fundingStream6817 - DCRRNI ID
oaire.fundingStream6817 - DCRRNI ID
oaire.fundingStreamOE
person.familyNameSIMÕES RUAS
person.givenNamePEDRO
person.identifier.ciencia-id5A15-C96E-F9E1
person.identifier.orcid0000-0002-1293-4199
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
rcaap.rightsopenAccesspt_PT
rcaap.typedoctoralThesispt_PT
relation.isAuthorOfPublication9fc4d761-2809-4087-8a92-9d4f26c0b71e
relation.isAuthorOfPublication.latestForDiscovery9fc4d761-2809-4087-8a92-9d4f26c0b71e
relation.isProjectOfPublication768e5806-497f-49c3-af5c-d7023e2a67dd
relation.isProjectOfPublicationb429b8f0-500f-4a0b-8e91-33e0a200ad1c
relation.isProjectOfPublication1047b7c0-692c-4e8a-9fb0-ef819e9248a3
relation.isProjectOfPublication9a2034fe-9858-4e78-866b-89078e208196
relation.isProjectOfPublication.latestForDiscovery768e5806-497f-49c3-af5c-d7023e2a67dd
thesis.degree.nameTese de doutoramento, Informática, Universidade de Lisboa, Faculdade de Ciências, 2025pt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
scnd990026354742546_td_Pedro_Ruas.pdf
Size:
5.44 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.2 KB
Format:
Item-specific license agreed upon to submission
Description: