Logo do repositório
 
A carregar...
Logótipo do projeto
Projeto de investigação

Deep Learning System for Biomedical Relation Extraction Combining External Sources of Knowledge

Autores

Publicações

Deep learning system for biomedical relation extraction combining external sources of knowledge
Publication . Sousa, Diana; Couto, Francisco José Moreira
A Extração de Relações (ER) biomédicas bem-sucedida pode fornecer evidências aos investigadores sobre possíveis associações desconhecidas entre entidades, avançando o nosso conhecimento atual sobre essas entidades e os seus processos inerentes. As soluções atuais estado-da-arte para realizar ER biomédicas são baseadas em abordagens de aprendizagem profunda com arquiteturas compostas de múltiplas representações de dados, como derivados do BERT (p.e., BioBERT, PubMedBERT e SciBERT). No entanto, estes falham em recorrer a conhecimento externo para aumentarem o seu desempenho e tendem a utilizar apenas os dados de treino. O objetivo final deste projeto foi desenvolver um sistema de ER de alto desempenho que combine as representações de linguagem anteriores com conhecimento obtido de fontes externas, como ontologias específicas de domínio. O corpo principal deste trabalho apresenta três sistemas de aprendizagem profunda baseados em arquiteturas distintas e com diferentes abordagens à injeção de conhecimento, a saber, BiLSTMs, modelos de recomendação e representações de linguagem baseadas em BERT, todos integrados com informação proveniente de ontologias biomédicas (p.e., Gene Ontology e Human Phenotype Ontology). Esses sistemas superam o estado da arte anterior em ER biomédicas em conjuntos de dados amplamente utilizados como o DDI Corpus (interações medicamentosas) e o BC5CDR Corpus (interações entre compostos químicos e doenças). Esta tese também apresenta uma nova abordagem para a produção de conjuntos de dados de ER, utilizando técnicas de supervisão distante aliadas a plataformas de crowdsourcing para validação, resultando no PGR-crowd Corpus que descreve relações fenótipo humano-gene. Os sistemas e abordagens criados nesta tese foram aplicados e avaliados com sucesso em vários estudos (p.e., workshops, desafios e outras aplicações relevantes), por exemplo, ao serem premiados com a 7a posição no NASA LitCoin NLP Challenge de cerca de 200 equipas participantes e contribuindo para o esforço de investigação relativo ao COVID-19.

Unidades organizacionais

Descrição

Palavras-chave

Contribuidores

Financiadores

Entidade financiadora

Fundação para a Ciência e a Tecnologia

Programa de financiamento

Número da atribuição

SFRH/BD/145221/2019

ID