Loading...
Research Project
Untitled
Funder
Authors
Publications
Deep learning system for biomedical relation extraction combining external sources of knowledge
Publication . Sousa, Diana; Couto, Francisco José Moreira
A Extração de Relações (ER) biomédicas bem-sucedida pode fornecer evidências aos investigadores sobre possíveis associações desconhecidas entre entidades, avançando o nosso conhecimento atual sobre essas entidades e os seus processos inerentes. As soluções atuais estado-da-arte para realizar ER biomédicas são baseadas em abordagens de aprendizagem profunda com arquiteturas compostas de múltiplas representações de dados, como derivados do BERT (p.e., BioBERT, PubMedBERT e SciBERT). No entanto, estes falham em recorrer a conhecimento externo para aumentarem o seu desempenho e tendem a utilizar apenas os dados de treino. O objetivo final deste projeto foi desenvolver um sistema de ER de alto desempenho que combine as representações de linguagem anteriores com conhecimento obtido de fontes externas, como ontologias específicas de domínio. O corpo principal deste trabalho apresenta três sistemas de aprendizagem profunda baseados em arquiteturas distintas e com diferentes abordagens à injeção de conhecimento, a saber, BiLSTMs, modelos de recomendação e representações de linguagem baseadas em BERT, todos integrados com informação proveniente de ontologias biomédicas (p.e., Gene Ontology e Human Phenotype Ontology). Esses sistemas superam o estado da arte anterior em ER biomédicas em conjuntos de dados amplamente utilizados como o DDI Corpus (interações medicamentosas) e o BC5CDR Corpus (interações entre compostos químicos e doenças). Esta tese também apresenta uma nova abordagem para a produção de conjuntos de dados de ER, utilizando técnicas de supervisão distante aliadas a plataformas de crowdsourcing para validação, resultando no PGR-crowd Corpus que descreve relações fenótipo humano-gene. Os sistemas e abordagens criados nesta tese foram aplicados e avaliados com sucesso em vários estudos (p.e., workshops, desafios e outras aplicações relevantes), por exemplo, ao serem premiados com a 7a posição no NASA LitCoin NLP Challenge de cerca de 200 equipas participantes e contribuindo para o esforço de investigação relativo ao COVID-19.
Recommender system to support comprehensive exploration of large scale scientific datasets
Publication . Barros, Márcia; Couto, Francisco José Moreira; Almeida, André Moitinho de
Bases de dados de entidades científicas, como compostos químicos, doenças e objetos astronómicos, têm crescido em tamanho e complexidade, chegando a milhares de milhões de itens por base de dados. Os investigadores precisam de ferramentas novas e inovadoras para auxiliar na escolha desses itens. Este trabalho propõe o uso de Sistemas de Recomendação para auxiliar os investigadores a encontrar itens de interesse. Identificamos como um dos maiores desafios para a aplicação de sistemas de recomendação em áreas científicas a falta de conjuntos de dados padronizados e de acesso aberto com informações sobre as preferências dos utilizadores. Para superar esse desafio, desenvolvemos uma metodologia denominada LIBRETTI - Recomendação Baseada em Literatura de Itens Científicos, cujo objetivo é a criação de conjuntos de dados , relacionados com campos científicos. Estes conjuntos de dados são criados com base no principal recurso de conhecimento que a Ciência possui: a literatura científica. A metodologia LIBRETTI permitiu o desenvolvimento de novos algoritmos de recomendação específicos para vários campos científicos. Além do LIBRETTI, as principais contribuições desta tese são conjuntos de dados de recomendação padronizados nas áreas de Astronomia, Química e Saúde (relacionado com a doença COVID-19), um sistema de recomendação semântica híbrido para compostos químicos em conjuntos de dados de grande escala, uma abordagem híbrida baseada no enriquecimento sequencial (SeEn) para recomendações sequenciais, um pipeline baseado em semântica de vários campos para recomendar entidades biomédicas relacionadas com a doença COVID-19.
Development of a recommender system based on life and health sciences literature
Publication . Cunha, Maria Teresa Hipólito da; Barros, Márcia Cristina Afonso
Os sistemas de recomendação têm evoluído rapidamente e transformado o nosso diaa-dia ao usar grandes quantidades de informação para obter recomendações personalizadas em áreas como música, filmes ou vendas online. No entanto, nas ciências
da vida e da saúde, apesar da necessidade de novas formas de explorar a crescente
quantidade de informação digital, há um obstáculo que tem impedido esta evolução:
a privacidade dos dados. É preciso ter acesso às preferências dos utilizadores para
testar e evoluir os sistemas de recomendação em saúde.
O objetivo deste trabalho é criar um conjunto de dados de acesso aberto com preferências de utilizadores obtidas implicitamente a partir de literatura das ciências da vida
e da saúde, e testá-lo utilizando sistemas de recomendação de filtragem colaborativa.
Utilizando a metodologia LIBRETTI, criámos um conjunto de dados (DisRM) a
partir de artigos científicos do PubMed. O DisRM está no formato onde os utilizadores são autores de artigos e os itens são doenças,
tendo um total de 2 309 190 classificações. Foram criados dois conjuntos de dados
adicionais, DisRM10 e DisRM20, que incluem apenas os utilizadores que têm um
número de classificações igual ou superior a 10 e 20, respetivamente. Ao aplicar um
algoritmo de filtragem colaborativa k-vizinhos mais próximos baseado em memória
aos conjuntos de dados DisRM10 e DisRM20, o objetivo era otimizar o recall e o
ganho cumulativo com desconto normalizado (nDCG) para garantir que a maioria dos
itens relevantes eram recomendados e apareciam primeiro na lista de recomendações.
Os melhores resultados de recomendações foram alcançados utilizando a medida de
similaridade PIP, obtendo um recall de 0.81 e um nDCG de 0.87 para o DisRM10.
Comparando o DisRM com outros conjuntos de dados padronizados, este obteve
resultados semelhantes ou melhores o que valida a qualidade do nosso conjunto de
dados.
Exploring biomedical ontologies, personalized pagerank and semantic similarity in the entity linking task
Publication . Ruas, Pedro Simões; Couto, Francisco José Moreira
A literatura científica está maioritariamente disponível na forma de artigos publicados, que são essenciais para a partilha de conhecimento científico. Contudo, o ritmo de publicação de novos artigos tem aumentado constantemente, excedendo a capacidade humana de gerir e aceder a esta grande quantidade de texto não estruturado: os investigadores despendem mais esforço e tempo a recuperar informação científica e o trabalho dos biocuradores torna-se mais complicado, pois a maior parte do texto não é estruturada, o que complica a aplicação de ferramentas automáticas. Os métodos de Prospeção de Texto podem ajudar a gerir a situação, mais concretamente, através da extracção automática de informação a partir do texto presente na literatura científica. A tarefa de Mapeamento de Entidades, responsável por fazer corresponder entidades identificadas no texto a um conceito de uma Base do Conhecimento, é um passo essencial de muitos sistemas de Prospeção de Texto. Mas, comparando com outros domínios, como por exemplo o texto proveniente de redes sociais, a disponibilidade de ferramentas capazes de efectuar Mapeamento de Entidades é ainda escassa. Esta dissertação propõe um módulo capaz de efectuar Mapeamento de Entidades em documentos anotados com entidades pertences a duas ontologias biomédicas: Gene Ontology (GO) e Uber-Anatomy
Ontology (Uberon). O sistema utiliza o algoritmo PageRank personalizado e medidas de semelhança semântica para escolher o melhor candidato para cada entidade do texto. O desempenho do sistema foi avaliado no corpus CRAFT, alcançando uma eficácia de 0.8244 em entidades pertencentes à subontologia GO Biological Process, de 0.7258 em entidades da subontologia GO Cellular Component e de 0.7918 em entidades da ontologia Uberon. Adicionalmente, o sistema foi avaliado no corpus MSNBC que contém entidades da ontologia DBpedia e alcançou uma eficácia de 0.8814, o que é comparável com resultados alcançados por sistemas estado da arte. O código do módulo pode ser consultado na página GitHub do grupo LaSIGE Biomedical Text Mining Team: https://github.com/lasigeBioTM/PPRSSM. Os resultados do presente trabalho demonstram que é possível aplicar com sucesso medidas de semelhança semântica a sistemas baseados no algoritmo PageRank personalizado e explorar ontologias biomédicas para melhorar a tarefa de Mapeamento de Entidades.
Organizational Units
Description
Keywords
Contributors
Funders
Funding agency
Fundação para a Ciência e a Tecnologia
Funding programme
3599-PPCDT
Funding Award Number
PTDC/CCI-BIO/28685/2017