Repository logo
 
No Thumbnail Available
Publication

Deep semantic entity linking

Use this identifier to reference this record.
Name:Description:Size:Format: 
scnd990026354742546_td_Pedro_Ruas.pdf5.44 MBAdobe PDF Download

Abstract(s)

Knowledge organization systems, such as ontologies and knowledge graphs, are essential for organizing biomedical and clinical information and data. However, the growing volume of available scientific literature raises challenges in their maintenance. Entity linking approaches assist humans in curation by mapping entities described in text to entries of the knowledge organization systems, but their lack of coverage originates unlinkable or NIL entities. Besides, the state-of-the-art depends on deep learning models trained on large amounts of human-annotated data, which is hard to acquire. The present research work focuses on tackling these limitations of human-annotated data in the biomedical entity linking task. First, it addresses the lack of coverage of biomedical knowledge organization systems by using relation extraction to find missing relations and focusing on the problem of the NIL entities. Relation extraction increases the semantic information available for graph-based entity linking approaches (REEL), and focusing on the partial mapping of NIL entities (i.e. NIL entity linking) also improves the performance of such approaches (NILINKER). Second, the research work proposes a new deep learning model trained on a large-scale training dataset generated through automatic methods. The model is part of the pipeline X-Linker integrating different entity linking models, providing more flexibility and performance. The pipeline achieved state-of-the-art performance in the biomedical entity linking task in several datasets (BC5CDR-Disease, BioRED-Chemical, NCBI Disease). The described approaches and several others focusing on related tasks, such as named entity recognition, text classification, and recommendation of biomedical entities, were applied to several case studies, including competitions, workshops and challenges.
Sistemas de organização do conhecimento, incluindo ontologias e grafos de conhecimento, são essenciais na organização de dados e informação biomédicos e clínicos. No entanto, a crescente quantidade de literatura científica disponível levanta desafios à manutenção destes sistemas. As abordagens automáticas de mapeamento de entidades ajudam os especialistas humanos no processo de curadoria através da associação de entidades descritas em texto com registos presentes em sistemas de organização de conhecimento, mas as limitações destes em relação à sua abrangência originam entidades não mapeáveis ou NIL e deficiências ao nível da informação contextual. Para além disso, o estado da arte depende de modelos de aprendizagem profunda treinados em grandes quantidades de dados anotados por humanos, que são difíceis de gerar. O trabalho de investigação aqui descrito foca-se em resolver estas limitações. Em primeiro lugar, aborda a abrangência limitada de sistemas biomédicos de organização do conhecimento através do recurso a abordagens automáticas para extração de relações para encontrar relações ausentes e através do foco no problema das entidades NIL. A extração de relações aumenta a informação semântica disponível em abordagens de mapeamento de entidades baseadas em grafos (REEL). O foco no mapeamento parcial de entidades NIL também aumenta o desempenho de abordagens de mapeamento de entidades (NILINKER). Em segundo lugar, o trabalho propõe uma nova abordagem para mapeamento de entidades baseada num modelo de aprendizagem profunda treinado num conjunto de dados de larga escala gerado automaticamente. O modelo é integrado no pipeline X-Linker que integra diferentes abordagens, o que leva a um aumento da flexibilidade e da performance. Este pipeline alcançou um desempenho estado da arte na tarefa de mapeamento de entidades biomédicas em vários conjuntos de dados (BC5CDR-Disease, BioRED-Chemical, NCBI Disease). As abordagens descritas e outras relacionadas, como reconhecimento de entidades, classificação de texto e recomendação de entidades biomédicas foram aplicadas em diferentes casos de estudo, incluindo competições e workshops e no desenvolvimento de uma ferramenta de anotação de texto biomédico com foco na usabilidade (BENT).

Description

Keywords

Biomedical Entity Linking Text Mining Natural Language Processing Knowledge Organization Systems Deep Learning Mapeamento de entidades biomédicas Prospecção de texto Processamento de linguagem natural Sistemas de organização do conhecimento Aprendizagem profunda

Pedagogical Context

Citation

Organizational Units

Journal Issue

Publisher

CC License