Repository logo
 
Publication

Deep learning system for biomedical relation extraction combining external sources of knowledge

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapt_PT
dc.contributor.advisorCouto, Francisco José Moreira
dc.contributor.authorSousa, Diana
dc.date.accessioned2024-04-12T11:33:54Z
dc.date.available2024-04-12T11:33:54Z
dc.date.issued2023-11
dc.date.submitted2023-07
dc.description.abstractA Extração de Relações (ER) biomédicas bem-sucedida pode fornecer evidências aos investigadores sobre possíveis associações desconhecidas entre entidades, avançando o nosso conhecimento atual sobre essas entidades e os seus processos inerentes. As soluções atuais estado-da-arte para realizar ER biomédicas são baseadas em abordagens de aprendizagem profunda com arquiteturas compostas de múltiplas representações de dados, como derivados do BERT (p.e., BioBERT, PubMedBERT e SciBERT). No entanto, estes falham em recorrer a conhecimento externo para aumentarem o seu desempenho e tendem a utilizar apenas os dados de treino. O objetivo final deste projeto foi desenvolver um sistema de ER de alto desempenho que combine as representações de linguagem anteriores com conhecimento obtido de fontes externas, como ontologias específicas de domínio. O corpo principal deste trabalho apresenta três sistemas de aprendizagem profunda baseados em arquiteturas distintas e com diferentes abordagens à injeção de conhecimento, a saber, BiLSTMs, modelos de recomendação e representações de linguagem baseadas em BERT, todos integrados com informação proveniente de ontologias biomédicas (p.e., Gene Ontology e Human Phenotype Ontology). Esses sistemas superam o estado da arte anterior em ER biomédicas em conjuntos de dados amplamente utilizados como o DDI Corpus (interações medicamentosas) e o BC5CDR Corpus (interações entre compostos químicos e doenças). Esta tese também apresenta uma nova abordagem para a produção de conjuntos de dados de ER, utilizando técnicas de supervisão distante aliadas a plataformas de crowdsourcing para validação, resultando no PGR-crowd Corpus que descreve relações fenótipo humano-gene. Os sistemas e abordagens criados nesta tese foram aplicados e avaliados com sucesso em vários estudos (p.e., workshops, desafios e outras aplicações relevantes), por exemplo, ao serem premiados com a 7a posição no NASA LitCoin NLP Challenge de cerca de 200 equipas participantes e contribuindo para o esforço de investigação relativo ao COVID-19.pt_PT
dc.description.abstractSuccessful biomedical Relation Extraction (RE) can provide evidence to researchers about possible unknown associations between entities, advancing our current knowledge about those entities and their inherent processes. Current state-of-the-art solutions to perform biomedical RE are based on deep learning approaches with architectures composed of multiple data representations, such as BERT-derivatives (e.g., BioBERT, PubMedBERT, and SciBERT). However, these fail to leverage external knowledge to boost their performance and tend to rely solely on the training data. The ultimate goal of this project was to develop a top-performance RE system that combines the previous language representations with knowledge retrieved from external sources, such as domain-specific ontologies. The main body of this work showcases three deep learning systems based on distinct architectures and with different approaches to knowledge injection, namely, BiLSTMs, recommendation models, and BERT-based language representations, all integrated with knowledge from biomedical ontologies (e.g., Gene Ontology and Human Phenotype Ontology). These systems overcome the previous state-of-the-art in widely used biomedical RE datasets such as the DDI Corpus (drug-drug interactions) and the BC5CDR Corpus (chemical-induced disease interactions). This thesis also presents a new approach to producing RE datasets, using distant supervised techniques allied with crowdsourcing platforms for validation, resulting in the PGR-crowd Corpus that describes human phenotype-gene relations. The systems and approaches created in this thesis were successfully applied and assessed in several case studies (e.g., workshops, challenges, and other relevant applications), for instance, by being awarded the 7th position in the NASA LitCoin NLP Challenge out of approximately 200 participating teams and contributing to the research effort regarding COVID-19.pt_PT
dc.identifier.tid101664400pt_PT
dc.identifier.urihttp://hdl.handle.net/10451/64187
dc.language.isoengpt_PT
dc.relationLASIGE - Extreme Computing
dc.relationLASIGE - Extreme Computing
dc.relationDeep Learning System for Biomedical Relation Extraction Combining External Sources of Knowledge
dc.subjectAprendizagem Profundapt_PT
dc.subjectExtração de Relações Biomédicaspt_PT
dc.subjectProspeção de Textopt_PT
dc.subjectBases de Conhecimentopt_PT
dc.subjectOntologiaspt_PT
dc.subjectDeep Learningpt_PT
dc.subjectBiomedical Relation Extractionpt_PT
dc.subjectText Miningpt_PT
dc.subjectKnowledge Basespt_PT
dc.subjectOntologiespt_PT
dc.titleDeep learning system for biomedical relation extraction combining external sources of knowledgept_PT
dc.typedoctoral thesis
dspace.entity.typePublication
oaire.awardTitleLASIGE - Extreme Computing
oaire.awardTitleLASIGE - Extreme Computing
oaire.awardTitleDeep Learning System for Biomedical Relation Extraction Combining External Sources of Knowledge
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/3599-PPCDT/PTDC%2FCCI-BIO%2F28685%2F2017/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F00408%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDP%2F00408%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT//SFRH%2FBD%2F145221%2F2019/PT
oaire.fundingStream3599-PPCDT
oaire.fundingStream6817 - DCRRNI ID
oaire.fundingStream6817 - DCRRNI ID
person.familyNameFrancisco de Sousa
person.givenNameDiana
person.identifier.ciencia-id2C19-D535-2BD5
person.identifier.orcid0000-0003-0597-9273
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
rcaap.rightsopenAccesspt_PT
rcaap.typedoctoralThesispt_PT
relation.isAuthorOfPublication81251e8a-2e08-4609-a78a-37fac4db0554
relation.isAuthorOfPublication.latestForDiscovery81251e8a-2e08-4609-a78a-37fac4db0554
relation.isProjectOfPublication3c793792-dc99-4cf3-9669-e2d92c6d03bc
relation.isProjectOfPublicationb429b8f0-500f-4a0b-8e91-33e0a200ad1c
relation.isProjectOfPublication1047b7c0-692c-4e8a-9fb0-ef819e9248a3
relation.isProjectOfPublication899232f8-cc2f-4b36-9fdc-6d9a186bd4cc
relation.isProjectOfPublication.latestForDiscovery899232f8-cc2f-4b36-9fdc-6d9a186bd4cc
thesis.degree.nameTese de doutoramento, Informática, Universidade de Lisboa, Faculdade de Ciências, 2023pt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
scnd990026354741386_td_Diana_Sousa.pdf
Size:
9.47 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.2 KB
Format:
Item-specific license agreed upon to submission
Description: