| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 2.72 MB | Adobe PDF |
Advisor(s)
Abstract(s)
A literatura biomédica é o meio mais usado para os investigadores partilharem as suas descobertas, tanto
em artigos científicos como em outros tipos de relatórios escritos. Os artigos científicos são a principal
fonte de informação de entidades biomédicas e das suas relações. Nestas entidades integram-se, genes,
proteínas, químicos, doenças, entre outras entidades inseridas em domínios específicos. Conhecer as
relações entre entidades biomédicas é essencial, por exemplo, para descobrir uma possível relação de
tratamento entre um químico e uma doença.
Um investigador que trabalhe num certo tópico necessita de estar atualizado com os avanços relativos
ao trabalho já realizado. No entanto, devido à crescente produção de informação na literatura biomédica,
só é exequível processá-la por sistemas de prospeção de texto que extraem automaticamente informação
relevante do texto. Além de que ao extrair informação em grandes conjuntos de artigos científicos é
possível encontrar, embora não explicitamente, interações entre entidades biomédicas. Ou seja, se forem
encontradas interações em comum entre cada uma de duas entidades distintas com uma terceira entidade,
é provável que as primeiras estabeleçam também uma relação. Daí que, o uso de sistemas de prospeção
de texto facilita a deteção deste tipo de interações relativamente à abordagem manual.
Os métodos automáticos de extração de informação são usados pelos sistemas de prospeção de texto
para processar grandes conjuntos de dados, com a finalidade de obter conhecimento. Geralmente estes
sistemas incluem Named-Entity Recognition (NER), Named-Entity Linking (NEL) e Extração de Relações
(ER), como as suas principais tarefas. O NER visa reconhecer entidades mencionadas no texto. O NEL
consiste em mapear as entidades reconhecidas a entradas numa determinada base de dados. A ER pretende
a identificação de relações entre entidades mencionadas num determinado texto.
Existem múltiplas abordagens para a ER, tais como algoritmos de co-ocorrência, baseados em padrões,
baseados em regras e de aprendizagem automática. A última adapta-se melhor a novos domínios, uma
vez que a aprendizagem automática visa treinar classificadores, usando algoritmos que aprendem a partir
de dados anotados para classificar novos dados. A aprendizagem profunda, um ramo da aprendizagem
automática, combina unidades de processamento que adquirem conhecimento através de um processo de
aprendizagem que armazena conexões entre redes de neurónios artificiais. Recentemente, as técnicas de
aprendizagem profunda têm sido utilizadas em diversas tarefas de processamento de linguagem natural,
entre elas a ER, por serem consideradas técnicas do estado-da-arte devido aos excelentes resultados.
O sucesso da aprendizagem profunda deve-se ao desenvolvimento de modelos de vetores de palavras,
e.g., Word2Vec. Estes modelos aprendem representações (vetoriais) contínuas de palavras, denominadas
por embeddings de palavras, que capturam as relações sintáticas e semânticas de palavras. Atualmente
existem diversas implementações de arquiteturas de redes neuronais artificiais. Destacam-se as Recurrent
Neural Networks (RNN), as Long Short-Term Memory (LSTM) e as Bidirectional LSTM. RNN é um tipo
de rede neuronal em que os neurónios conseguem seguir uma sequência temporal, ou seja, uma memória
que processa os dados de input, neste caso, texto. LSTM são uma variante das RNN que conseguem lidar
com maiores dependências, indicadas para domínio biomédico, onde o texto é mais complexo. Por fim,
as Bidirectional LSTM usam duas camadas de LSTM, onde uma ”lê” da esquerda para a direita, e a outra
da direita para a esquerda, capturando mais contexto nos dados.
As ontologias são uma representação de um conjunto de conceitos, dados e entidades num domínio
e ainda das relações entre estes. Estão organizadas em formatos legíveis por máquinas, facilitando a sua
integração em modelos de ER. O conhecimento codificado nestas ontologias é valioso para a deteção
e classificação de relações entre diferentes entidades biomédicas, uma vez que fornecem a informação
semântica subjacente entre entidades. Esta informação adicional é essencial para aprovar ou descartar
possíveis relações identificadas, visto que nem sempre existe a informação das entidades ancestrais no
texto. As entidades ancestrais estabelecem um tipo de relação direta com as entidades descendentes, e.g.,
a relação entidade A is_a entidade B implica que a entidade A é um subtipo (membro) da entidade B.
Usar conhecimento externo, como as ontologias biomédicas, reforça a procura de novas relações entre
entidades biomédicas, contribuindo para a validação de resultados em estudos, e ainda propor novas
hipóteses experimentais.
Recorrentemente, realizam-se competições, que comparam o desempenho de diversos sistemas numa
tarefa e contexto comum a todos. BioCreative VII Track 1, foi um desafio cujo objetivo principal era a
extração e classificação de relações entre compostos químicos e genes (ou proteínas). Assim, promoveu
o desenvolvimento de sistemas capazes de extrair relações que possam ser relevantes para a descoberta de
medicamentos e para a investigação biomédica. A equipa LasigeBioTM usou o sistema de aprendizagem
profunda BiOnt, que emprega ontologias biomédicas como conhecimento externo. As ontologias usadas
foram a Chemical Entities of Biological Interest (ChEBI) e a Gene Ontology (GO). Contudo, devido
a limitações de tempo, não foram realizadas todas as melhorias planeadas inicialmente e os resultados
ficaram abaixo da média de desempenho das equipas participantes. Os obstáculos encontrados consistem
num pré-processamento demorado, por ser exaustivo para todas as entidades do texto; DrugProt corpus,
o conjunto de dados fornecido, apresentar erros e discrepâncias, apesar de ter sido anotado por peritos
no domínio biomédico (padrão-ouro); e o sistema não conseguir lidar com as entidades sobrepostas na
frase. Devido aos problemas mencionados anteriormente, houve a necessidade de reprogramar o sistema
para melhor extrair e classificar relações.
O objetivo principal desta dissertação foi desenvolver uma camada no pré-processamento do sistema
BiOnt, capaz de identificar as entidades sobrepostas no texto, e explorar as relações entre elas para obter
os melhores resultados possíveis. Também foram realizadas melhorias no tempo de processamento da
correspondência das entidades nas ontologias e na vinculação destas com as entidades ancestrais. O novo
sistema, denominado BOE, encontra-se disponível em https://github.com/lasigeBioTM/BOE.
O conjunto de dados fornecido pelo desafio BioCreative VII Track 1, nomeado DrugProt corpus,
está dividido em três conjuntos de dados: desenvolvimento, treino e teste. Contudo, destes apenas foram usados os conjutos de desenvolvimento e treino, visto que são padrão-ouro, ou seja, as relações reais estão
anotadas e servem de comparação com as relações classificadas pelo BOE. Cada conjunto de dados está
dividido em três ficheiros: PubMed abstracts, anotações das entidades no texto, anotações das relações
entre entidades. As entidades podem ser de dois tipos, CHEMICAL ou GENE, e o objetivo é relacionar
entidades com tipos diferentes, a uma única de catorze classes de relação. No entanto, ocasionalmente,
encontram-se sobrepostas, e.g., a entidade de tipo GENE Val to Leu, é composta por duas entidades de
tipo CHEMICAL Val e Leu.
De forma a usar o conhecimento presente nas entidades sobrepostas foram usadas duas abordagens
diferentes no sistema, a primeira foi usar o maior termo das entidades sobrepostas identificadas, enquanto
os restantes são descartados; a segunda foi criar frases que incorporam um termo CHEMICAL e um termo
GENE mencionados na frase original. A interligação de cada entidade no texto com um conceito na
ontologia e a obtenção dos seus ancestrais, eram efetuadas durante a execução do sistema. Mas por serem
processos demorados, foi feito um multiprocessamento para estas tarefas. Além de se usar os ficheiros
das ontologias para popular as entidades ancestrais, também foi usada a API da GO e da ChEBI.
Relativamente ao desempenho, o sistema BOE foi avaliado no conjunto de dados de desenvolvimento,
usando a biblioteca de avaliação disponibilizada pelos organizadores do desafio. Houve uma melhoria de
9.6% na medida micro-averaged F-score e 19.6% no micro-averaged Recall, na primeira abordagem, e
uma melhoria de 2.2% na medida micro-averaged F-score e 16.5% no micro-averaged Recall, na segunda
abordagem. Quanto ao tempo no pré-processamento, inicialmente no conjunto de dados de treino era
aproximadamente 24 horas e através de otimizações no código passou a ser cerca de 1 hora; no conjunto
de dados de desenvolvimento era aproximadamente 4 horas e passou a ser em apenas 10 minutos.
Sistemas como o BOE são essenciais para a medicina de precisão, a descoberta de medicamentos e
para a investigação biomédica. Existe um interesse crescente nas relações entre entidades biomédicas, e
em armazenar estas informações em bases de dados com anotações estruturadas. Estas bases de dados
são de grande importância para investigação biológica, farmacológica e clínica.
Biomedical literature is the most extensively utilized medium for researchers to convey their discoveries through scientific publications and other written reports. These are the primary source of information on biomedical entities and their interactions. Knowledge about the relationships between biomedical entities is critical for discovering, for instance, a prospective treatment association between a chemical and an illness. A researcher working on this treatment has to be knowledgeable about previous work. However, due to the rapid accumulation of biomedical literature, manually exploiting interacting entity pairs is demanding. Currently, Text Mining methods assist researchers by automatically extracting information from the text. Recurrently, Biomedical Relation Extraction challenges compare the performance of systems using different methods and approaches on a dataset common to all participants. In 2021, the BioCreative VII Track 1 challenge provided the dataset, named DrugProt corpus, for the task of extracting chemical and gene relations. Our team, LasigeBioTM, participated with a modern relation extraction system, denominated BiOnt. The mentioned employs deep learning methods and biomedical ontologies, which have recently proved effective in biomedical relation extraction. However, the performance of the BiOnt system was below the average performance of the participating teams. Its main problem was in the preprocessing phase, which discarded a lot of candidate relations between chemicals and genes. This dissertation presents an adaptation of the BiOnt system, denominated BOE, which improves the extraction of relations between chemical compounds and genes in the DrugProt corpus. BOE evaluation was performed on the development set of the provided dataset, increasing the results by 9.6% points in the micro-averaged F-measure and 19.6% in the micro-averaged Recall on the best model. Furthermore, this implementation significantly reduces the runtime of the preprocessing phase. The code supporting this system is available at https://github.com/lasigeBioTM/BOE.
Biomedical literature is the most extensively utilized medium for researchers to convey their discoveries through scientific publications and other written reports. These are the primary source of information on biomedical entities and their interactions. Knowledge about the relationships between biomedical entities is critical for discovering, for instance, a prospective treatment association between a chemical and an illness. A researcher working on this treatment has to be knowledgeable about previous work. However, due to the rapid accumulation of biomedical literature, manually exploiting interacting entity pairs is demanding. Currently, Text Mining methods assist researchers by automatically extracting information from the text. Recurrently, Biomedical Relation Extraction challenges compare the performance of systems using different methods and approaches on a dataset common to all participants. In 2021, the BioCreative VII Track 1 challenge provided the dataset, named DrugProt corpus, for the task of extracting chemical and gene relations. Our team, LasigeBioTM, participated with a modern relation extraction system, denominated BiOnt. The mentioned employs deep learning methods and biomedical ontologies, which have recently proved effective in biomedical relation extraction. However, the performance of the BiOnt system was below the average performance of the participating teams. Its main problem was in the preprocessing phase, which discarded a lot of candidate relations between chemicals and genes. This dissertation presents an adaptation of the BiOnt system, denominated BOE, which improves the extraction of relations between chemical compounds and genes in the DrugProt corpus. BOE evaluation was performed on the development set of the provided dataset, increasing the results by 9.6% points in the micro-averaged F-measure and 19.6% in the micro-averaged Recall on the best model. Furthermore, this implementation significantly reduces the runtime of the preprocessing phase. The code supporting this system is available at https://github.com/lasigeBioTM/BOE.
Description
Tese de Mestrado, Bioinformática e Biologia Computacional, 2024, Universidade de Lisboa, Faculdade de Ciências
Keywords
Prospeção de Texto DrugProt Aprendizagem Profunda Ontologias Biomédicas Extração de Relações Teses de mestrado - 2024
