Repository logo
 
Loading...
Thumbnail Image
Publication

Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task

Use this identifier to reference this record.
Name:Description:Size:Format: 
ulfc125026_tm_Pedro_Ruas.pdf1.07 MBAdobe PDF Download

Abstract(s)

A literatura científica está maioritariamente disponível na forma de artigos publicados, que são essenciais para a partilha de conhecimento científico. Contudo, o ritmo de publicação de novos artigos tem aumentado constantemente, excedendo a capacidade humana de gerir e aceder a esta grande quantidade de texto não estruturado: os investigadores despendem mais esforço e tempo a recuperar informação científica e o trabalho dos biocuradores torna-se mais complicado, pois a maior parte do texto não é estruturada, o que complica a aplicação de ferramentas automáticas. Os métodos de Prospeção de Texto podem ajudar a gerir a situação, mais concretamente, através da extracção automática de informação a partir do texto presente na literatura científica. A tarefa de Mapeamento de Entidades, responsável por fazer corresponder entidades identificadas no texto a um conceito de uma Base do Conhecimento, é um passo essencial de muitos sistemas de Prospeção de Texto. Mas, comparando com outros domínios, como por exemplo o texto proveniente de redes sociais, a disponibilidade de ferramentas capazes de efectuar Mapeamento de Entidades é ainda escassa. Esta dissertação propõe um módulo capaz de efectuar Mapeamento de Entidades em documentos anotados com entidades pertences a duas ontologias biomédicas: Gene Ontology (GO) e Uber-Anatomy Ontology (Uberon). O sistema utiliza o algoritmo PageRank personalizado e medidas de semelhança semântica para escolher o melhor candidato para cada entidade do texto. O desempenho do sistema foi avaliado no corpus CRAFT, alcançando uma eficácia de 0.8244 em entidades pertencentes à subontologia GO Biological Process, de 0.7258 em entidades da subontologia GO Cellular Component e de 0.7918 em entidades da ontologia Uberon. Adicionalmente, o sistema foi avaliado no corpus MSNBC que contém entidades da ontologia DBpedia e alcançou uma eficácia de 0.8814, o que é comparável com resultados alcançados por sistemas estado da arte. O código do módulo pode ser consultado na página GitHub do grupo LaSIGE Biomedical Text Mining Team: https://github.com/lasigeBioTM/PPRSSM. Os resultados do presente trabalho demonstram que é possível aplicar com sucesso medidas de semelhança semântica a sistemas baseados no algoritmo PageRank personalizado e explorar ontologias biomédicas para melhorar a tarefa de Mapeamento de Entidades.
Scientific literature is mainly available in the form of published articles, which are essential to the sharing of scientific knowledge between researchers. However, the rate of publication of new articles have been steadily rising, exceeding the human capacity to effectively manage and assess this large amount of unstructured text: researchers spend more time and effort to retrieve scientific information and the task of biocurators also gets more difficult, due to the unstructured nature of the text that hinders the application of automatic tools. Text Mining methods can help to manage this situation, more concretely by automatically extracting information from the text in scientific literature. Entity Linking, the task of automatically mapping entities recognized in text to a knowledge base concept, is an essential step in Text Mining workflows. But, comparing to other domains like social media text, the availability of EL tools capable of performing well in biomedical text is still scarce. This dissertation proposes a module that performs Entity Linking in documents annotated with entities from two biomedical ontologies: Gene Ontology (GO) and Uber-Anatomy Ontology (Uberon). The system applies the Personalized PageRank (PPR) algorithm and semantic similarity measures to choose the best candidate for each entity in text. The performance of the system was evaluated on CRAFT corpus (gold standard), achieving an accuracy of 0.8244 in GO Biological Process entities, 0.7258 in GO Cellular Component entities and 0.7918 in Uberon entities. Additionally, the system was evaluated on the MSNBC gold standard containing DBpedia entities and achieved an accuracy of 0.8814, which compares well with other state-of-the-art systems. The code behind the module can be accessed in the LaSIGE Biomedical Text Mining Team GitHub page: https://github.com/lasigeBioTM/PPRSSM. The results of the present work prove that it is possible to successfully apply semantic similarity measures in PPR-based systems and explore biomedical ontologies for the improvement of the EL task.

Description

Tese de mestrado, Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2019

Keywords

Prospecção de Texto Mapeamento de Entidades Semelhança Semântica PageRank Personalizado Ontologias Biomédicas Teses de mestrado - 2019

Pedagogical Context

Citation

Research Projects

Research ProjectShow more

Organizational Units

Journal Issue

Publisher

CC License