Deep learning system for biomedical relation extraction combining external sources of knowledge

Sousa, Diana

http://hdl.handle.net/10451/64187

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
scnd990026354741386_td_Diana_Sousa.pdf		9.47 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Sousa, Diana

Orientador(es)

Couto, Francisco José Moreira

Resumo(s)

A Extração de Relações (ER) biomédicas bem-sucedida pode fornecer evidências aos investigadores sobre possíveis associações desconhecidas entre entidades, avançando o nosso conhecimento atual sobre essas entidades e os seus processos inerentes. As soluções atuais estado-da-arte para realizar ER biomédicas são baseadas em abordagens de aprendizagem profunda com arquiteturas compostas de múltiplas representações de dados, como derivados do BERT (p.e., BioBERT, PubMedBERT e SciBERT). No entanto, estes falham em recorrer a conhecimento externo para aumentarem o seu desempenho e tendem a utilizar apenas os dados de treino. O objetivo final deste projeto foi desenvolver um sistema de ER de alto desempenho que combine as representações de linguagem anteriores com conhecimento obtido de fontes externas, como ontologias específicas de domínio. O corpo principal deste trabalho apresenta três sistemas de aprendizagem profunda baseados em arquiteturas distintas e com diferentes abordagens à injeção de conhecimento, a saber, BiLSTMs, modelos de recomendação e representações de linguagem baseadas em BERT, todos integrados com informação proveniente de ontologias biomédicas (p.e., Gene Ontology e Human Phenotype Ontology). Esses sistemas superam o estado da arte anterior em ER biomédicas em conjuntos de dados amplamente utilizados como o DDI Corpus (interações medicamentosas) e o BC5CDR Corpus (interações entre compostos químicos e doenças). Esta tese também apresenta uma nova abordagem para a produção de conjuntos de dados de ER, utilizando técnicas de supervisão distante aliadas a plataformas de crowdsourcing para validação, resultando no PGR-crowd Corpus que descreve relações fenótipo humano-gene. Os sistemas e abordagens criados nesta tese foram aplicados e avaliados com sucesso em vários estudos (p.e., workshops, desafios e outras aplicações relevantes), por exemplo, ao serem premiados com a 7a posição no NASA LitCoin NLP Challenge de cerca de 200 equipas participantes e contribuindo para o esforço de investigação relativo ao COVID-19.

Successful biomedical Relation Extraction (RE) can provide evidence to researchers about possible unknown associations between entities, advancing our current knowledge about those entities and their inherent processes. Current state-of-the-art solutions to perform biomedical RE are based on deep learning approaches with architectures composed of multiple data representations, such as BERT-derivatives (e.g., BioBERT, PubMedBERT, and SciBERT). However, these fail to leverage external knowledge to boost their performance and tend to rely solely on the training data. The ultimate goal of this project was to develop a top-performance RE system that combines the previous language representations with knowledge retrieved from external sources, such as domain-specific ontologies. The main body of this work showcases three deep learning systems based on distinct architectures and with different approaches to knowledge injection, namely, BiLSTMs, recommendation models, and BERT-based language representations, all integrated with knowledge from biomedical ontologies (e.g., Gene Ontology and Human Phenotype Ontology). These systems overcome the previous state-of-the-art in widely used biomedical RE datasets such as the DDI Corpus (drug-drug interactions) and the BC5CDR Corpus (chemical-induced disease interactions). This thesis also presents a new approach to producing RE datasets, using distant supervised techniques allied with crowdsourcing platforms for validation, resulting in the PGR-crowd Corpus that describes human phenotype-gene relations. The systems and approaches created in this thesis were successfully applied and assessed in several case studies (e.g., workshops, challenges, and other relevant applications), for instance, by being awarded the 7th position in the NASA LitCoin NLP Challenge out of approximately 200 participating teams and contributing to the research effort regarding COVID-19.

Palavras-chave

Aprendizagem Profunda Extração de Relações Biomédicas Prospeção de Texto Bases de Conhecimento Ontologias Deep Learning Biomedical Relation Extraction Text Mining Knowledge Bases Ontologies