Relation extraction for gene and chemical compounds

Cassanheira, Rodrigo de Castro Sampaio

http://hdl.handle.net/10451/62715

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
TM_Rodrigo_Cassanheira.pdf		2.72 MB	Adobe PDF	Download

Send Feedback

Authors

Cassanheira, Rodrigo de Castro Sampaio

Advisor(s)

Couto, Francisco José Moreira

Abstract(s)

A literatura biomédica é o meio mais usado para os investigadores partilharem as suas descobertas, tanto em artigos científicos como em outros tipos de relatórios escritos. Os artigos científicos são a principal fonte de informação de entidades biomédicas e das suas relações. Nestas entidades integram-se, genes, proteínas, químicos, doenças, entre outras entidades inseridas em domínios específicos. Conhecer as relações entre entidades biomédicas é essencial, por exemplo, para descobrir uma possível relação de tratamento entre um químico e uma doença. Um investigador que trabalhe num certo tópico necessita de estar atualizado com os avanços relativos ao trabalho já realizado. No entanto, devido à crescente produção de informação na literatura biomédica, só é exequível processá-la por sistemas de prospeção de texto que extraem automaticamente informação relevante do texto. Além de que ao extrair informação em grandes conjuntos de artigos científicos é possível encontrar, embora não explicitamente, interações entre entidades biomédicas. Ou seja, se forem encontradas interações em comum entre cada uma de duas entidades distintas com uma terceira entidade, é provável que as primeiras estabeleçam também uma relação. Daí que, o uso de sistemas de prospeção de texto facilita a deteção deste tipo de interações relativamente à abordagem manual. Os métodos automáticos de extração de informação são usados pelos sistemas de prospeção de texto para processar grandes conjuntos de dados, com a finalidade de obter conhecimento. Geralmente estes sistemas incluem Named-Entity Recognition (NER), Named-Entity Linking (NEL) e Extração de Relações (ER), como as suas principais tarefas. O NER visa reconhecer entidades mencionadas no texto. O NEL consiste em mapear as entidades reconhecidas a entradas numa determinada base de dados. A ER pretende a identificação de relações entre entidades mencionadas num determinado texto. Existem múltiplas abordagens para a ER, tais como algoritmos de co-ocorrência, baseados em padrões, baseados em regras e de aprendizagem automática. A última adapta-se melhor a novos domínios, uma vez que a aprendizagem automática visa treinar classificadores, usando algoritmos que aprendem a partir de dados anotados para classificar novos dados. A aprendizagem profunda, um ramo da aprendizagem automática, combina unidades de processamento que adquirem conhecimento através de um processo de aprendizagem que armazena conexões entre redes de neurónios artificiais. Recentemente, as técnicas de aprendizagem profunda têm sido utilizadas em diversas tarefas de processamento de linguagem natural, entre elas a ER, por serem consideradas técnicas do estado-da-arte devido aos excelentes resultados. O sucesso da aprendizagem profunda deve-se ao desenvolvimento de modelos de vetores de palavras, e.g., Word2Vec. Estes modelos aprendem representações (vetoriais) contínuas de palavras, denominadas por embeddings de palavras, que capturam as relações sintáticas e semânticas de palavras. Atualmente existem diversas implementações de arquiteturas de redes neuronais artificiais. Destacam-se as Recurrent Neural Networks (RNN), as Long Short-Term Memory (LSTM) e as Bidirectional LSTM. RNN é um tipo de rede neuronal em que os neurónios conseguem seguir uma sequência temporal, ou seja, uma memória que processa os dados de input, neste caso, texto. LSTM são uma variante das RNN que conseguem lidar com maiores dependências, indicadas para domínio biomédico, onde o texto é mais complexo. Por fim, as Bidirectional LSTM usam duas camadas de LSTM, onde uma ”lê” da esquerda para a direita, e a outra da direita para a esquerda, capturando mais contexto nos dados. As ontologias são uma representação de um conjunto de conceitos, dados e entidades num domínio e ainda das relações entre estes. Estão organizadas em formatos legíveis por máquinas, facilitando a sua integração em modelos de ER. O conhecimento codificado nestas ontologias é valioso para a deteção e classificação de relações entre diferentes entidades biomédicas, uma vez que fornecem a informação semântica subjacente entre entidades. Esta informação adicional é essencial para aprovar ou descartar possíveis relações identificadas, visto que nem sempre existe a informação das entidades ancestrais no texto. As entidades ancestrais estabelecem um tipo de relação direta com as entidades descendentes, e.g., a relação entidade A is_a entidade B implica que a entidade A é um subtipo (membro) da entidade B. Usar conhecimento externo, como as ontologias biomédicas, reforça a procura de novas relações entre entidades biomédicas, contribuindo para a validação de resultados em estudos, e ainda propor novas hipóteses experimentais. Recorrentemente, realizam-se competições, que comparam o desempenho de diversos sistemas numa tarefa e contexto comum a todos. BioCreative VII Track 1, foi um desafio cujo objetivo principal era a extração e classificação de relações entre compostos químicos e genes (ou proteínas). Assim, promoveu o desenvolvimento de sistemas capazes de extrair relações que possam ser relevantes para a descoberta de medicamentos e para a investigação biomédica. A equipa LasigeBioTM usou o sistema de aprendizagem profunda BiOnt, que emprega ontologias biomédicas como conhecimento externo. As ontologias usadas foram a Chemical Entities of Biological Interest (ChEBI) e a Gene Ontology (GO). Contudo, devido a limitações de tempo, não foram realizadas todas as melhorias planeadas inicialmente e os resultados ficaram abaixo da média de desempenho das equipas participantes. Os obstáculos encontrados consistem num pré-processamento demorado, por ser exaustivo para todas as entidades do texto; DrugProt corpus, o conjunto de dados fornecido, apresentar erros e discrepâncias, apesar de ter sido anotado por peritos no domínio biomédico (padrão-ouro); e o sistema não conseguir lidar com as entidades sobrepostas na frase. Devido aos problemas mencionados anteriormente, houve a necessidade de reprogramar o sistema para melhor extrair e classificar relações. O objetivo principal desta dissertação foi desenvolver uma camada no pré-processamento do sistema BiOnt, capaz de identificar as entidades sobrepostas no texto, e explorar as relações entre elas para obter os melhores resultados possíveis. Também foram realizadas melhorias no tempo de processamento da correspondência das entidades nas ontologias e na vinculação destas com as entidades ancestrais. O novo sistema, denominado BOE, encontra-se disponível em https://github.com/lasigeBioTM/BOE. O conjunto de dados fornecido pelo desafio BioCreative VII Track 1, nomeado DrugProt corpus, está dividido em três conjuntos de dados: desenvolvimento, treino e teste. Contudo, destes apenas foram usados os conjutos de desenvolvimento e treino, visto que são padrão-ouro, ou seja, as relações reais estão anotadas e servem de comparação com as relações classificadas pelo BOE. Cada conjunto de dados está dividido em três ficheiros: PubMed abstracts, anotações das entidades no texto, anotações das relações entre entidades. As entidades podem ser de dois tipos, CHEMICAL ou GENE, e o objetivo é relacionar entidades com tipos diferentes, a uma única de catorze classes de relação. No entanto, ocasionalmente, encontram-se sobrepostas, e.g., a entidade de tipo GENE Val to Leu, é composta por duas entidades de tipo CHEMICAL Val e Leu. De forma a usar o conhecimento presente nas entidades sobrepostas foram usadas duas abordagens diferentes no sistema, a primeira foi usar o maior termo das entidades sobrepostas identificadas, enquanto os restantes são descartados; a segunda foi criar frases que incorporam um termo CHEMICAL e um termo GENE mencionados na frase original. A interligação de cada entidade no texto com um conceito na ontologia e a obtenção dos seus ancestrais, eram efetuadas durante a execução do sistema. Mas por serem processos demorados, foi feito um multiprocessamento para estas tarefas. Além de se usar os ficheiros das ontologias para popular as entidades ancestrais, também foi usada a API da GO e da ChEBI. Relativamente ao desempenho, o sistema BOE foi avaliado no conjunto de dados de desenvolvimento, usando a biblioteca de avaliação disponibilizada pelos organizadores do desafio. Houve uma melhoria de 9.6% na medida micro-averaged F-score e 19.6% no micro-averaged Recall, na primeira abordagem, e uma melhoria de 2.2% na medida micro-averaged F-score e 16.5% no micro-averaged Recall, na segunda abordagem. Quanto ao tempo no pré-processamento, inicialmente no conjunto de dados de treino era aproximadamente 24 horas e através de otimizações no código passou a ser cerca de 1 hora; no conjunto de dados de desenvolvimento era aproximadamente 4 horas e passou a ser em apenas 10 minutos. Sistemas como o BOE são essenciais para a medicina de precisão, a descoberta de medicamentos e para a investigação biomédica. Existe um interesse crescente nas relações entre entidades biomédicas, e em armazenar estas informações em bases de dados com anotações estruturadas. Estas bases de dados são de grande importância para investigação biológica, farmacológica e clínica.

Biomedical literature is the most extensively utilized medium for researchers to convey their discoveries through scientific publications and other written reports. These are the primary source of information on biomedical entities and their interactions. Knowledge about the relationships between biomedical entities is critical for discovering, for instance, a prospective treatment association between a chemical and an illness. A researcher working on this treatment has to be knowledgeable about previous work. However, due to the rapid accumulation of biomedical literature, manually exploiting interacting entity pairs is demanding. Currently, Text Mining methods assist researchers by automatically extracting information from the text. Recurrently, Biomedical Relation Extraction challenges compare the performance of systems using different methods and approaches on a dataset common to all participants. In 2021, the BioCreative VII Track 1 challenge provided the dataset, named DrugProt corpus, for the task of extracting chemical and gene relations. Our team, LasigeBioTM, participated with a modern relation extraction system, denominated BiOnt. The mentioned employs deep learning methods and biomedical ontologies, which have recently proved effective in biomedical relation extraction. However, the performance of the BiOnt system was below the average performance of the participating teams. Its main problem was in the preprocessing phase, which discarded a lot of candidate relations between chemicals and genes. This dissertation presents an adaptation of the BiOnt system, denominated BOE, which improves the extraction of relations between chemical compounds and genes in the DrugProt corpus. BOE evaluation was performed on the development set of the provided dataset, increasing the results by 9.6% points in the micro-averaged F-measure and 19.6% in the micro-averaged Recall on the best model. Furthermore, this implementation significantly reduces the runtime of the preprocessing phase. The code supporting this system is available at https://github.com/lasigeBioTM/BOE.