Identifying negative results using biomedical relation extraction systems

Silvestre, Pedro Moisés Marques

http://hdl.handle.net/10451/63672

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Pedro_Silvestre.pdf		533.74 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Silvestre, Pedro Moisés Marques

Orientador(es)

Couto, Francisco José Moreira

Resumo(s)

O crescimento exponencial das publicações científicas em diversos campos, incluindo a área biomédica, tem vindo a ser impulsionado pelo aumento da população e pelo maior acesso à educação. Em 2022, a PubMed, uma fonte de recursos para investigadores biomédicos, registou a adição de mais de 1,7 milhões de novos artigos, o que dificulta a seleção de artigos relevantes por investigadores. Para lidar com o grande volume de texto não estruturado na área biomédica, técnicas de prospeção de texto baseadas em processamento de linguagem natural (PLN) têm ganho destaque. A prospeção de texto envolve a aplicação de técnicas de PLN para transformar texto não estruturado em dados estruturados, tornando assim possível a sua análise. Este processo inclui tarefas como Named-Entity Recognition (NER), NamedEntity Linking (NEL) e Extração de Relações (ER). NER identifica entidades relevantes no texto, NEL associa as entidades identificadas por NER a entradas em bases de conhecimento (p.ex. ontologias), e ER determina as relações entre as entidades identificadas por NER. ER é particularmente desafiadora no campo de PLN, pois envolve a identificação e extração de relações entre entidades mencionadas no texto. Esta tarefa é fundamental em processos como extração de informação e construção de gráficos de conhecimento, entre outros. No domínio biomédico, ER desempenha um papel crucial na descoberta de associações vitais, como relações gene-doença, interações entre drogas e interações proteína-proteína. Surgiram, assim, várias metodologias para enfrentar os desafios de ER na área biomédica, geralmente categorizadas em abordagens baseadas em regras, Supervised Machine Learning, e os mais recentes avanços em Deep Learning. Supervised Machine Learning utiliza conjuntos de dados classificados para ensinar algoritmos a identificar relações no texto, analisando diferentes aspetos, como palavras e estrutura de frases. Alguns algoritmos, como Support Vector Machines, têm-se mostrado eficazes na identificação de relações complexas, sendo úteis em ER. Técnicas de Deep Learning envolvem modelos como Recurrent Neural Network (RNNs), Convolutional Neural Network (CNNs) e Transformers, conhecidos pela sua capacidade de aprender características de texto não estruturado. CNNs são úteis para capturar informações locais, enquanto RNNs são particularmente eficientes em casos de dependências sequenciais. Modelos híbridos RNN-CNN têm sido aplicados em ER no contexto biomédico e demonstraram bons resultados. Por sua vez, mecanismos de auto-atenção levaram a que Transformers revolucionassem o processo de ER, na medida em que estes são capazes de capturar dependências globais e informações contextuais. O BERT (Bidirectional Encoder Representations from Transformers), desenvolvido pela Google, é um exemplo importante, sendo pré-treinado em grandes volumes de texto e ajustado para tarefas específicas. A aplicação do BERT na área biomédica levou ao desenvolvimento de novas ferramentas que alcançaram resultados de state-of-art em ER, como o SciBERT, um modelo de linguagem pré-treinado para texto científico. Em termos de dados, a incorporação de bases de conhecimento, como corpora e ontologias, desempenha um papel fundamental na melhoria da ER. Corpora são coleções de textos anotados que servem como recursos para treinar e avaliar modelos de ER. Conjuntos de dados como o DrugProt e ChemProt fornecem dados valiosos para extrair relações entre entidades biomédicas. Por outro lado, ontologias oferecem representações estruturadas de conceitos específicos de um domínio, enriquecendo a compreensão e facilitando a disseminação de conhecimento. Ontologias biomédicas codificam informações relacionadas com diversos tipos de entidades (compostos químicos, fenótipos, doenças, etc), sendo que a sua integração em modelos de ER melhora significativamente o desempenho dos algoritmos na identificação de relações. O K-RET é um sistema stateof-art de ER biomédica que se destaca neste campo, pois permite a utilização de modelos baseados em BERT pré-treinados para incorporar conhecimento sob a forma de gráficos de conhecimento, de uma ou várias fontes ao mesmo tempo. O uso desta ferramenta na tarefa de ER é, portanto, bem fundamentado, devido à sua eficiência na identificação de uma grande variedade de relações. Apesar dos avanços notáveis na extração de relações biomédicas, a verdade é que a grande maioria dos estudos foca-se em relações positivas entre entidades. No entanto, as relações negativas são igualmente importantes, uma vez que permitem explorar as complexidades das interações antagónicas nos mecanismos biomédicos. No contexto deste trabalho, uma relação negativa de interesse entre duas entidades ocorre quando uma delas exerce um efeito inibitório sobre a outra, como a supressão ou redução da atividade de uma enzima, proteína ou gene devido à presença de uma dada substância ou sinal. O estudo destas relações permite enriquecer o nosso conhecimento científico e abre caminho para avanços potenciais em tratamentos clínicos. Contudo, a escassez de conjuntos de dados anotados com relações negativas representa um desafio significativo à construção de modelos robustos para identificação destas relações. O objetivo deste projeto é, assim, melhorar a precisão e a eficiência na identificação de relações negativas em textos biomédicos, através da utilização de dois conjuntos de dados pré-existentes que contêm relações inibidoras e ativadoras. Um sistema de ER será desenvolvido usando o K-RET, que incorpora conhecimento de ontologias biomédicas. Este sistema será então adaptado para identificar padrões comuns associados a relações negativas de inibidores. Com este projeto, será testada a possibilidade de desenvolver um modelo viável para a identificação de relações negativas entre entidades a partir de literatura biomédica. Caso seja bem-sucedido, o modelo desenvolvido tem o potencial de contribuir significativamente para o avanço de processos de ER no campo biomédico, o que poderá ter uma grande importância ao nível do desenvolvimento de medicamentos, compreensão de doenças e segurança de pacientes. A realização deste projeto contou com várias etapas, com o fim de identificar interações inibitórias entre entidades em textos biológicos com precisão. O estudo do problema destaca a importância de conjuntos de dados abrangentes em ER e aborda a limitação de dados anotados, sendo essa compreensão essencial à aplicação da metodologia. Esta envolve a colheita de dados e a construção de conjuntos, bem como o treino de modelos e o seu ajuste e avaliação. Na primeira etapa, são extraídas relações positivas (interações ativadoras) e negativas (interações inibitórias) dos conjuntos de dados BioCreative DrugProt e ChemProt, com posterior remoção de frases duplicadas para obtenção de um corpus limpo e não redundante. O conjunto de dados é dividido em subconjuntos de treino, teste e desenvolvimento, de modo a facilitar a avaliação sistemática do modelo. O K-RET é, portanto, treinado em diferentes subconjuntos. Em particular, o K-RET utiliza conhecimento biomédico, envolvendo extração de conhecimento, codificação de conhecimento e classificação de relações, melhorando a previsão de relações por meio de ontologias biomédicas. O desempenho do modelo é avaliado por meio de métricas como accuracy, precision, recall e F1 score. O Sistema de Extração de Relações Negativas desenvolvido, K-RET-NEG, demonstra resultados promissores na identificação de relações negativas. Através da configuração cuidadosa dos pesos de cada classificação possível, o desempenho do modelo foi otimizado, alcançando maior precisão e evitando potenciais problemas de overfitting. O modelo revelou-se eficaz na identificação de relações inibidoras e ativadoras, sendo que uma análise dos padrões linguísticos que levam a previsões incorretas remete para a importância de incorporar informações contextuais mais ricas. Ao comparar o desempenho do K-RET-NEG para identificação de relações de inibição com trabalhos relacionados, é possível verificar que o modelo superou determinados resultados de referência, tendo alcançado pontuações notáveis de precision, recall e F1 score (0.948, 0.951 e 0.949, respetivamente). Em conclusão, foi possível adaptar a tecnologia K-RET para considerar padrões de relações negativas através do treino com este tipo de relações identificadas em DrugProt e ChemProt, o que resultou num sistema altamente preciso de identificação destas relações, K-RET-NEG.

The exponential growth of scientific publications in various fields, including biomedicine, poses a challenge for researchers to efficiently access and extract valuable knowledge from this vast corpus of literature. Text mining techniques, particularly natural language processing, have emerged as essential tools for converting unstructured text into structured data suitable for analysis. This project focuses on the specific task of biomedical relation extraction, which involves identifying and classifying relationships between entities in biomedical texts. Biomedical relation extraction is crucial for understanding complex interactions between entities like drugs, diseases, genes, and proteins. This task is particularly challenging due to the technical and domainspecific nature of biomedical texts. Despite these challenges, recent advancements in deep learning techniques have shown promise in improving the accuracy of biomedical relation extraction. The key objective of this study is to create a model that improves the precision and efficiency of detecting negative relationships, with a focus on inhibitor correlations observed in biomedical texts. Most current studies focus on whether or not a relationship exists and make no distinction between positive and negative relations. Negative interactions, such as inhibitor relations, include one entity having a negative effect on another and they contain important information that could lead to the development of new medicines. To achieve this goal, K-RET, a deep learning-based Relation Extraction System that combines biomedical ontologies is explored. The development of this K-RET-NEG model involves a multi-step methodology that includes data collecting, dataset building, model training, fine-tuning, and evaluation. The findings of this dissertation emphasize the efficacy of the model identifying inhibitor relations, as it demonstrates exceptional precision, recall, and F1 scores, specifically 0.948, 0.951, and 0.949, respectively. It highlights the significance of configuring weights appropriately to enhance K-RET-NEG performance while mitigating the risk of overfitting. A comparative analysis with prior research demonstrates that our model outperforms certain benchmark results in identifying inhibitor relationships. This study represents a significant step toward improving text mining capabilities in the biomedical domain, particularly in the identification of inhibitor relations, which can reveal critical insights for biomedical research and treatment strategies.

Descrição

Tese de Mestrado, Bioinformática e Biologia Computacional, 2024, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Extração de Relações Literatura biomédica Ontologias Biomédicas Relações Inibitórias Relações negativas Teses de mestrado - 2024

URI

http://hdl.handle.net/10451/63672

Coleções

FC-DI - Master Thesis (dissertation)

Ver registo completo