Name: | Description: | Size: | Format: | |
---|---|---|---|---|
1.7 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
The discovery of gene-disease links is an important challenge in biological and biomedical domains,
as it presents opportunities in tasks such as disease detection and drug repurposing. Machine Learning approaches that predict gene-disease associations significantly accelerate this process by leveraging
biological knowledge represented in ontologies and the structure of knowledge graphs to organize data.
State-of-the-art approaches for gene-disease association typically use Knowledge Graph Embeddings
and other Machine Learning algorithms, modeling the problem as a pair binary classification task. Although this is generally the logic behind a Machine Learning approach, the effectiveness of link classification approaches is limited by the need to generate negative examples, the absence of relationships
between genes and diseases, and because only some Knowledge Graph Embeddings are able to directly
predict gene-disease associations.
This dissertation explores the differences between addressing the gene-disease association problem
as a link classification task and a link prediction task. We compare means of combining vectors and classification algorithms for the link classification approach. We also analyzed the influence of considering
several knowledge graph embeddings in both the link classification and link prediction approaches. The
methods were evaluated using biomedical data sources such as DisGeNET and popular ontologies.
Our results show that enriching the semantic representation of disease does not support better performance of link classification methods and the performance of link prediction methods in predicting
disease-linked genes. However, it does support better performance of link prediction methods in predicting gene-linked diseases. The results also suggest that link prediction methods better explore the semantic
richness encoded in knowledge graphs through various ontologies and additional links between ontology
classes.
Employing link prediction over link classification provides advantages across design aspects and
techniques. For instance, link prediction leverages relationships between target entities within knowledge graphs and does not require the synthetic generation of negative examples. While link prediction
methods offer an end-to-end approach that directly generates predictions from the learned embeddings,
link classification methods require integrating various Machine Learning methods with strategies to combine the embeddings, leading to increased complexity and potential loss of information.
A descoberta de ligações gene-doença é um desafio importante nos domínios biológico e biomédico, pois apresenta oportunidades em tarefas como a prevenção de doenças, a sua rápida deteção, diagnóstico e reorientação de medicamentos. Recentemente, têm sido propostos vários métodos de aprendizagem automática para prever associações entre genes e doenças apoiados na teoria de redes, construindo redes biológicas. Estes métodos, são geralmente limitados a vizualizações agnósticas dos dados, não tendo acesso ao seu contexto e significado, mas é reconhecido que o desempenho dos métodos de aprendizagem automática pode melhorar significativamente quando o contexto e as relações entre os dados são tidos em conta. Na última década, a explosão na complexidade, no tamanho e heterogeneidade dos dados biológicos motivou um novo panorama de dados semânticos, onde milhões de entidades biológicas descritas semanticamente (isto quer dizer, com significado) estão disponíveis em grafos de conhecimento. Os grafos de conhecimento são estruturas de dados que representam entidades do mundo real e as suas relações por meio de nós e ligações (arestas) entre esses, de uma forma que incorpore o contexto e significado proveniente das ontologias. Uma ontologia é uma especificação formal e explícita sobre um domínio em específico, na qual cada classe (ou conceito) está precisamente definida e as relações entre classes estão parametrizadas ou restringidas. Apesar dos avanços facilitados pelas ontologias na investigação biológica e biomédica, a maioria dos trabalhos apresenta uma lacuna significativa na forma como as doenças são representadas. Normalmente, as doenças são representadas pelos seus fenótipos, as características ou traços observáveis, sem uma descrição detalhada da doença em si. Esta abordagem ignora a complexidade e o contexto completo das doenças, incluindo conceitos de doenças relacionadas no vocabulário médico. Para além disso, a integração de ontologias em fluxos de trabalhos biológicos e biomédicos é acompanhada pelo desafio de integrar as várias descrições para uma mesma classe quando são combinadas múltiplas ontolodias. A falha na integração destas descrições pode resultar em inconsistências e redundância na análise dos dados, dificultando a capacidade de capturar todo o espetro do conhecimento biológico. A crescente integração de ontologias biomédicas na forma de grafos de conhecimento tem impulsionado o desenvolvimento de métodos combinados de aprendizagem automática. Um desafio significativo é transformar os dados provenientes dos grafos numa representação que possa ser processada pelos algoritmos populares de aprendizagem automática. Atualmente, os métodos de aprendizagem automática dependem de heurísticas definidas pelo utilizador para extrair recursos que codificam informações estruturais do grafo, como as degree statistics e as kernel functions. No entanto, estas abordagens podem não capturar toda a semântica subjacente aos grafos uma vez que se baseiam em contagens. Uma alternativa consiste em transformar as entidades e as relações dos grafos em vetores que capturam a semântica e a informação estrutural do grafo original utilizando Knowledge Graph Embeddings. Deste modo, as abordagens mais recentes para prever associações entre genes e doenças baseiam-se neste modelos para gerar representações e em algoritmos populares de aprendizagem automática para prever associações. O problema da associação gene-doença é tipicamente modelado como uma tarefa de classificação binária de pares. Embora esta seja a lógica subjacente a uma abordagem de aprendizagem automática, a eficácia das abordagens de classificação de ligações é limitada pela necessidade de gerar exemplos negativos, pela ausência de relações entre genes e doenças, e porque não é possível prever diretamente associações entre genes e doenças a partir de alguns Knowledge Graph Embeddings. Nesta dissertação, investigamos as diferenças entre abordar um problema como uma tarefa de classificação de ligações e uma tarefa de previsão de ligações. A classificação de ligações identifica e classifica relações inicialmente não representadas entre pares de nós no grafo, enquanto a previsão de ligações concentra-se na deteção de relações em falta ou não observadas entre entidades num grafo. Foi aplicada uma metodologia de classificação de ligações e desenvolvida uma abordagem de previsão de ligações. A metodologia de classificação de ligações e a estratégia de previsão de ligações possuem as duas primeiras e a última etapa em comum: a criação de vários grafos de conhecimento, a aplicação de Knowledge Graph Embeddings e a avaliação do desempenho dos modelos, respetivamente. A formulação de grafos de conhecimento diferentes permitiu analisar a riqueza semântica de várias perspetivas, como ter as entidades descritas com mais ontologias e ter mais ligações entre classes das ontologias. Os grafos de conhecimento desenhados para as experiências integraram: as ontologias Gene Ontology, Human Phenotype Ontology e Human Disease Ontology, bem como os anotações dessas; definições lógicas e mapeamentos entre a Gene Ontology e a Human Phenotype Ontology; os genes, as doenças e suas associações da DisGeNET (nos grafos de conhecimento da previsão de ligações). Na metodologia de classificação de ligações, depois de transformadas as entidades e relações dos grafos de conhecimento em vetores utilizando Knowledge Graph Embeddings, os vetores dos genes e das doenças são combinados em pares gene-doença. Os vetores foram combinados de cinco maneiras diferentes: somando, calculando a média e o produto Hadamard (nestes casos obtem-se um vetor); e calculando as distâncias Weighted_L1 and Weighted_L2 (nestes casos obtem-se um escalar). Os pares genedoença foram divididos em dez partes iguais, onde os algoritmos populares de aprendizagem automática ficam com nove partes para treino e uma parte para teste. Os algoritmos populares de aprendizagem automática utilizados foram o Naive Bayes, Multi-Layer Perceptron, Random Forest e o Extreme Gradient Boosting. No fim, são calculadas a mediana e a distância interquartil da precisão, recall e Weighted Average of F-measures dos classificadores. Na abordagem de previsão de ligações, depois de transformar os grafos de conhecimento em vetores, estes são passados na scoring function de cada Knowledge Graph Embeddings. Se o objetivo for prever as doenças associadas a um gene, a scoring function recebe o vetor do gene, o vetor correspondente à relação ”associação” e o vetor de uma entidade candidata a complementar aquela ligação. O resultado final é um valor que reflete a probabilidade da entidade candidata estar associada ao gene. Valores mais altos indicam que o modelo prevê com maior confiança uma determinada ligação real no grafo. Após várias entidades, obtem-se uma lista de entidades candidatas a complementar uma determinada ligação real no grafo. Esta lista é depois filtrada para conter só doenças (seguindo o exemplo), são selecionados os primeiros 100 resultados, guardadas as classificações das doenças que estão efetivamente ligadas ao gene, e são calculados o Hits@10, 30 e 100. Os resultados demonstraram que grafos de conhecimento com definições lógicas ou mapeamentos suportam melhor desempenho dos modelos do que grafos simples apenas com as ontologias na classificação de ligações e na previsão de ligações. As anotações da Human Phenotype Ontology para os genes suportam melhor desempenho dos métodos de previsão de ligações. Enriquecer a representação semântica das doenças com uma ontologia que descreve as doenças humanas não suporta melhor desempenho dos métodos de classificação de ligações, e dos métodos de previsão de ligações na previsão dos genes associados a uma doença. No entanto, suporta melhor desempenho dos métodos de previsão de ligações na previsão das doenças associadas a um gene. A distinção nos resultados sugere que os métodos de previsão de ligações são melhores a explorar a riqueza semântica incorporada nos grafos de conhecimento através de várias ontologias e de ligações adicionais entre classes das ontologias. Abordar um problema como uma tarefa de previsão de ligações em vez de abordar um problema como uma tarefa de classificação de ligações oferece diversas vantagens em vários aspetos de desenho e técnicas. Enquanto na classificação de ligações só os algoritmos populares de aprendizagem automática conhecem as ligações entre genes e doenças, os métodos de previsão de ligações aproveitam essas ligações nos grafos, o que permite explorar outro aspeto da riqueza semântica. Para além disso, na previsão de ligações não é necessário gerar exemplos negativos. Na metodologia de classificação de ligações é necessário integrar vários métodos. Ao contrário, na previsão de ligações os algoritmos permitem gerar as previsões finais. As vantagens de abordar um problema como uma tarefa de previsão de ligações reside na sua capacidade de explorar a riqueza semântica incorporada nos grafos de conhecimento, descobrir ligações ocultas entre entidades e facilitar uma modelagem preditiva mais precisa e abrangente no campo da biologia computacional.
A descoberta de ligações gene-doença é um desafio importante nos domínios biológico e biomédico, pois apresenta oportunidades em tarefas como a prevenção de doenças, a sua rápida deteção, diagnóstico e reorientação de medicamentos. Recentemente, têm sido propostos vários métodos de aprendizagem automática para prever associações entre genes e doenças apoiados na teoria de redes, construindo redes biológicas. Estes métodos, são geralmente limitados a vizualizações agnósticas dos dados, não tendo acesso ao seu contexto e significado, mas é reconhecido que o desempenho dos métodos de aprendizagem automática pode melhorar significativamente quando o contexto e as relações entre os dados são tidos em conta. Na última década, a explosão na complexidade, no tamanho e heterogeneidade dos dados biológicos motivou um novo panorama de dados semânticos, onde milhões de entidades biológicas descritas semanticamente (isto quer dizer, com significado) estão disponíveis em grafos de conhecimento. Os grafos de conhecimento são estruturas de dados que representam entidades do mundo real e as suas relações por meio de nós e ligações (arestas) entre esses, de uma forma que incorpore o contexto e significado proveniente das ontologias. Uma ontologia é uma especificação formal e explícita sobre um domínio em específico, na qual cada classe (ou conceito) está precisamente definida e as relações entre classes estão parametrizadas ou restringidas. Apesar dos avanços facilitados pelas ontologias na investigação biológica e biomédica, a maioria dos trabalhos apresenta uma lacuna significativa na forma como as doenças são representadas. Normalmente, as doenças são representadas pelos seus fenótipos, as características ou traços observáveis, sem uma descrição detalhada da doença em si. Esta abordagem ignora a complexidade e o contexto completo das doenças, incluindo conceitos de doenças relacionadas no vocabulário médico. Para além disso, a integração de ontologias em fluxos de trabalhos biológicos e biomédicos é acompanhada pelo desafio de integrar as várias descrições para uma mesma classe quando são combinadas múltiplas ontolodias. A falha na integração destas descrições pode resultar em inconsistências e redundância na análise dos dados, dificultando a capacidade de capturar todo o espetro do conhecimento biológico. A crescente integração de ontologias biomédicas na forma de grafos de conhecimento tem impulsionado o desenvolvimento de métodos combinados de aprendizagem automática. Um desafio significativo é transformar os dados provenientes dos grafos numa representação que possa ser processada pelos algoritmos populares de aprendizagem automática. Atualmente, os métodos de aprendizagem automática dependem de heurísticas definidas pelo utilizador para extrair recursos que codificam informações estruturais do grafo, como as degree statistics e as kernel functions. No entanto, estas abordagens podem não capturar toda a semântica subjacente aos grafos uma vez que se baseiam em contagens. Uma alternativa consiste em transformar as entidades e as relações dos grafos em vetores que capturam a semântica e a informação estrutural do grafo original utilizando Knowledge Graph Embeddings. Deste modo, as abordagens mais recentes para prever associações entre genes e doenças baseiam-se neste modelos para gerar representações e em algoritmos populares de aprendizagem automática para prever associações. O problema da associação gene-doença é tipicamente modelado como uma tarefa de classificação binária de pares. Embora esta seja a lógica subjacente a uma abordagem de aprendizagem automática, a eficácia das abordagens de classificação de ligações é limitada pela necessidade de gerar exemplos negativos, pela ausência de relações entre genes e doenças, e porque não é possível prever diretamente associações entre genes e doenças a partir de alguns Knowledge Graph Embeddings. Nesta dissertação, investigamos as diferenças entre abordar um problema como uma tarefa de classificação de ligações e uma tarefa de previsão de ligações. A classificação de ligações identifica e classifica relações inicialmente não representadas entre pares de nós no grafo, enquanto a previsão de ligações concentra-se na deteção de relações em falta ou não observadas entre entidades num grafo. Foi aplicada uma metodologia de classificação de ligações e desenvolvida uma abordagem de previsão de ligações. A metodologia de classificação de ligações e a estratégia de previsão de ligações possuem as duas primeiras e a última etapa em comum: a criação de vários grafos de conhecimento, a aplicação de Knowledge Graph Embeddings e a avaliação do desempenho dos modelos, respetivamente. A formulação de grafos de conhecimento diferentes permitiu analisar a riqueza semântica de várias perspetivas, como ter as entidades descritas com mais ontologias e ter mais ligações entre classes das ontologias. Os grafos de conhecimento desenhados para as experiências integraram: as ontologias Gene Ontology, Human Phenotype Ontology e Human Disease Ontology, bem como os anotações dessas; definições lógicas e mapeamentos entre a Gene Ontology e a Human Phenotype Ontology; os genes, as doenças e suas associações da DisGeNET (nos grafos de conhecimento da previsão de ligações). Na metodologia de classificação de ligações, depois de transformadas as entidades e relações dos grafos de conhecimento em vetores utilizando Knowledge Graph Embeddings, os vetores dos genes e das doenças são combinados em pares gene-doença. Os vetores foram combinados de cinco maneiras diferentes: somando, calculando a média e o produto Hadamard (nestes casos obtem-se um vetor); e calculando as distâncias Weighted_L1 and Weighted_L2 (nestes casos obtem-se um escalar). Os pares genedoença foram divididos em dez partes iguais, onde os algoritmos populares de aprendizagem automática ficam com nove partes para treino e uma parte para teste. Os algoritmos populares de aprendizagem automática utilizados foram o Naive Bayes, Multi-Layer Perceptron, Random Forest e o Extreme Gradient Boosting. No fim, são calculadas a mediana e a distância interquartil da precisão, recall e Weighted Average of F-measures dos classificadores. Na abordagem de previsão de ligações, depois de transformar os grafos de conhecimento em vetores, estes são passados na scoring function de cada Knowledge Graph Embeddings. Se o objetivo for prever as doenças associadas a um gene, a scoring function recebe o vetor do gene, o vetor correspondente à relação ”associação” e o vetor de uma entidade candidata a complementar aquela ligação. O resultado final é um valor que reflete a probabilidade da entidade candidata estar associada ao gene. Valores mais altos indicam que o modelo prevê com maior confiança uma determinada ligação real no grafo. Após várias entidades, obtem-se uma lista de entidades candidatas a complementar uma determinada ligação real no grafo. Esta lista é depois filtrada para conter só doenças (seguindo o exemplo), são selecionados os primeiros 100 resultados, guardadas as classificações das doenças que estão efetivamente ligadas ao gene, e são calculados o Hits@10, 30 e 100. Os resultados demonstraram que grafos de conhecimento com definições lógicas ou mapeamentos suportam melhor desempenho dos modelos do que grafos simples apenas com as ontologias na classificação de ligações e na previsão de ligações. As anotações da Human Phenotype Ontology para os genes suportam melhor desempenho dos métodos de previsão de ligações. Enriquecer a representação semântica das doenças com uma ontologia que descreve as doenças humanas não suporta melhor desempenho dos métodos de classificação de ligações, e dos métodos de previsão de ligações na previsão dos genes associados a uma doença. No entanto, suporta melhor desempenho dos métodos de previsão de ligações na previsão das doenças associadas a um gene. A distinção nos resultados sugere que os métodos de previsão de ligações são melhores a explorar a riqueza semântica incorporada nos grafos de conhecimento através de várias ontologias e de ligações adicionais entre classes das ontologias. Abordar um problema como uma tarefa de previsão de ligações em vez de abordar um problema como uma tarefa de classificação de ligações oferece diversas vantagens em vários aspetos de desenho e técnicas. Enquanto na classificação de ligações só os algoritmos populares de aprendizagem automática conhecem as ligações entre genes e doenças, os métodos de previsão de ligações aproveitam essas ligações nos grafos, o que permite explorar outro aspeto da riqueza semântica. Para além disso, na previsão de ligações não é necessário gerar exemplos negativos. Na metodologia de classificação de ligações é necessário integrar vários métodos. Ao contrário, na previsão de ligações os algoritmos permitem gerar as previsões finais. As vantagens de abordar um problema como uma tarefa de previsão de ligações reside na sua capacidade de explorar a riqueza semântica incorporada nos grafos de conhecimento, descobrir ligações ocultas entre entidades e facilitar uma modelagem preditiva mais precisa e abrangente no campo da biologia computacional.
Description
Tese de Mestrado, Ciência de Dados, 2024, Universidade de Lisboa, Faculdade de Ciências
Keywords
Ontologias Grafos de Conhecimento Aprendizagem Automática Classificação de Ligações Previsão de Ligações Teses de mestrado - 2024