Identification of tissue specific dependencies between cancer driver gene mutations and their interactors abundances

Pinto, Francisco RodriguesVital, Márcia Filipa dos Santos2025-01-212025-01-2120252024http://hdl.handle.net/10400.5/97446Tese de Mestrado, Bioinformática e Biologia Computacional, 2025, Universidade de Lisboa, Faculdade de CiênciasO cancro continua a ser uma das principais causas de mortalidade a nível mundial, sendo responsável por milhões de óbitos anualmente. Esta doença resulta de alterações genéticas complexas que provocam o crescimento descontrolado das células e falhas nos mecanismos normais de regulação celular. As mutações em genes específicos, conhecidos como genes driver (cancer driver genes), desempenham um papel crucial no desenvolvimento e progressão dos tumores. Muitas destas mutações apresentam especificidade para determinados tecidos, o que adiciona complexidade ao estudo dos mecanismos moleculares envolvidos no cancro. Nas últimas décadas, os avanços em tecnologias de sequenciação genética e análise computacional permitiram a identificação de diversos genes driver e o mapeamento das suas interações com outras proteínas no interior das células, designadas por interações proteína-proteína (PPIs). Estas interações são fundamentais, pois os genes driver não atuam isoladamente; eles interagem com proteínas vizinhas, que podem influenciar ou amplificar os efeitos tumorigénicos das mutações. Assim, o impacto de uma mutação não resulta apenas da alteração genética em si, mas também das interações estabelecidas entre as proteínas codificadas pelos genes driver e as proteínas vizinhas, através das redes de PPIs. As PPIs desempenham um papel essencial na regulação de funções celulares críticas, e a sua composição e abundância podem variar significativamente entre diferentes tipos de tecidos, o que pode modificar diretamente os efeitos das mutações nos genes driver, influenciando o comportamento tumoral. Portanto, compreender como os genes vizinhos modulam as consequências das mutações dos drivers é crucial para desvendar os mecanismos moleculares que promovem o desenvolvimento do cancro. Estudos recentes têm-se focado na análise de mutações em genes driver e na sua relação com a expressão dos genes vizinhos. Estas investigações têm sido fundamentais para entender como as mutações tumorais alteram o comportamento celular, abrindo portas para a descoberta de novos alvos terapêuticos. A integração de dados do The Cancer Genome Atlas (TCGA), um repositório de dados genéticos de pacientes com vários tipos de cancro, fornece uma base valiosa para estudar mutações e expressão génica em tecidos tumorais e normais. Quando combinados com redes de PPIs, esses dados ajudam a mapear as interações biológicas envolvidas na progressão do cancro. Contudo, apesar dos avanços alcançados, ainda há desafios significativos. Um dos maiores desafios prende-se com a elevada variabilidade na expressão dos genes vizinhos. As interações entre genes driver e vizinhos não são uniformes e podem variar conforme o tipo de cancro e com o tecido. Além disso, é difícil distinguir se a expressão de um gene vizinho está a condicionar o efeito de uma mutação ou se é a própria mutação a influenciar a expressão desse gene. Este tipo de causalidade inversa dificulta a interpretação dos dados e representa um obstáculo na identificação de interações relevantes para o desenvolvimento de novas terapias. Outro desafio está relacionado com a especificidade tecidual dos cancros. Alguns genes driver podem ser altamente mutados num tipo de cancro, mas não em outro, o que sugere que os efeitos dessas mutações dependem das interações específicas que ocorrem em diferentes tipos de tecidos. Compreender essas interações específicas de tecido é essencial para o desenvolvimento de terapias direcionadas e mais eficazes. Nos últimos anos, surgiram novos métodos para abordar estes desafios, nomeadamente através da integração de dados multi-ómicos e da aplicação de técnicas estatísticas e computacionais avançadas. Estas abordagens ajudam a clarificar a relação entre a expressão dos genes vizinhos e as mutações dos drivers. Além disso, os métodos de aprendizagem automática, como o XGBoost e Florestas Aleatórias, têm-se mostrado promissores, apesar de haver limitações na sua capacidade de prever mutações raras, como o caso de alguns genes driver menos prevalentes. Este projeto visa investigar de que forma as interações proteína-proteína, específicas de tecido, modulam os efeitos das mutações nos genes driver do cancro. A hipótese principal desta investigação é que as mutações nos genes driver interagem de forma diferencial com as proteínas vizinhas em diferentes tecidos, e essas interações específicas de tecido influenciam a progressão tumoral de maneiras distintas. Especificamente, propomos que, em determinados tecidos, a presença ou ausência de proteínas vizinhas pode amplificar, ou mitigar os efeitos das mutações driver, afetando diretamente o desenvolvimento do cancro. Esta investigação tem como objetivo identificar e caracterizar essas interações de maneira sistemática, utilizando uma abordagem baseada na integração de grandes conjuntos de dados genómicos e interatómicos, para assim contribuir para a compreensão dos mecanismos moleculares que regulam a especificidade tecidular no desenvolvimento do cancro. Para alcançar este objetivo, foram utilizados dados de várias fontes, incluindo o TCGA, e cinco bases de dados de PPIs (Human Reference Interactome (HuRI), Agile Protein Interactomes DataServer (APID), Biological General Repository for Interaction Datasets (BioGRID), Search Tool for the Retrieval of Interacting Genes/Proteins (STRING) e OmniPath), que fornecem informações sobre as interações físicas conhecidas entre proteínas. Estes dados foram harmonizados recorrendo a identificadores HUGO Gene Nomenclature Committee (HGNC), para garantir a consistência na integração de múltiplas fontes de dados. O resultado foi a construção de uma rede global de PPIs, composta por mais de 383000 interações envolvendo 2570 genes driver e 15206 proteínas vizinhas, que serviu de base para as análises subsequentes. O estudo analisou um total de 9080 indivíduos com mutações em 3199 genes driver, identificados na base de dados Network of Cancer Genes & Healthy Drivers (NCGHD). A expressão desses genes e dos seus vizinhos foi comparada entre tecidos tumorais e normais. Realizámos uma análise estatística aprofundada para identificar interações significativas entre drivers e vizinhos, designadas de DINTs (Driver-neighbour INTeractions). Foram seguidos três passos principais: (1) análise por tipo de cancro, onde correlacionámos a expressão média dos vizinhos com a fração de indivíduos com mutações no gene driver, utilizando a correlação de Spearman; (2) análise entre indivíduos do mesmo tipo de cancro, utilizando modelos de regressão linear (Ordinary least squares (OLS)) para quantificar a associação entre a expressão do gene vizinho e o estado de mutação do driver; e (3) análise de amostras emparelhadas de tecidos normais e tumorais, para excluir a possibilidade de causalidade inversa. A partir destas análises, identificámos 14197 interações significativas entre genes driver e vizinhos, que foram objeto de estudo detalhado. Estas interações mostraram que a expressão dos genes vizinhos pode tanto potenciar como inibir o efeito tumorigénico das mutações dos drivers, dependendo do tipo de interação. Por exemplo, verificou-se que vizinhos com correlações positivas tendem a estar mais envolvidos em processos oncogénicos, como a proliferação celular, enquanto os vizinhos com correlações negativas apresentam maior variabilidade na expressão e estão mais associados a processos regulatórios. A análise de enriquecimento funcional revelou que os vizinhos significativos estão mais envolvidos em processos relacionados ao cancro (60.41%) do que os não significativos (39.14%), enquanto os vizinhos com correlações positivas e negativas mostraram níveis semelhantes de participação nestes processos (50.38% e 53.56%, respetivamente), sugerindo papéis distintos, mas igualmente importantes na progressão tumoral. O estudo também incluiu uma análise de sobrevivência de Kaplan-Meier, que demonstrou a relevância clínica de 15 genes vizinhos, como CDK1 e KIF23, cuja sobreexpressão foi associada a piores desfechos de sobrevivência em múltiplos tipos de cancro. Estes resultados sugerem que certos vizinhos podem ser importantes biomarcadores para o prognóstico do cancro e potenciais alvos terapêuticos. Outro ponto importante desta investigação foi a análise da especificidade tecidual dos genes vizinhos. Utilizando o índice Tau, que mede a especificidade da expressão génica entre diferentes tecidos, observou-se que os vizinhos negativamente correlacionados tendem a ter papéis especializados em processos biológicos específicos de tecidos, enquanto os vizinhos positivos têm funções mais genéricas. Esta descoberta reforça a ideia de que os genes vizinhos desempenham papéis diferentes dependendo do contexto tecidual, e que essas interações específicas de tecido são fundamentais para compreender como as mutações nos genes driver afetam a progressão do cancro de maneira diferencial entre os tecidos. Para prever a ocorrência de mutações em genes driver com base nos perfis de expressão dos genes vizinhos, aplicámos modelos de aprendizagem automática. Foram testados três modelos: Regressão Logística, Florestas Aleatórias e XGBoost. O XGBoost mostrou-se mais eficaz na previsão de mutações em genes como PIK3CA e GATA3, enquanto as Florestas Aleatórias obtiveram melhores resultados para os genes TP53 e CDH1. Apesar do sucesso destes modelos, a precisão permanece um desafio, especialmente na previsão de mutações raras, com taxas elevadas de falsos positivos. Estes resultados sublinham a necessidade de refinar os modelos preditivos e incorporar mais dados para aumentar a sua precisão. Em conclusão, este estudo oferece uma contribuição importante para a compreensão dos mecanismos moleculares que impulsionam a progressão do cancro. A identificação de 14197 interações significativas entre genes driver e vizinhos fornece novas perspetivas sobre a influência da expressão génica no efeito das mutações tumorais. Estes achados não só reforçam a importância das PPIs em contextos tumorais, como também apontam para novos alvos terapêuticos que poderão ser explorados em investigações futuras. Além disso, os modelos preditivos desenvolvidos têm o potencial de melhorar a precisão na identificação de mutações em genes driver, um passo crucial para o desenvolvimento de tratamentos personalizados no combate ao cancro.Cancer is a leading cause of mortality worldwide, driven by complex genetic mutations that vary across tissues. Recent advances in cancer genomics have revealed the crucial role of protein-protein interactions (PPIs) in modulating the effects of cancer driver mutations. In this context, the interaction between cancer drivers and their neighbouring genes can potentiate our understanding of tumour progression. Therefore, this project focused on investigating how gene expression of neighbouring proteins influences the tumourigenic potential of driver mutations. However, there are significant challenges, particularly in the variability of expression and tissue specificity of these interactions. The main objectives of this research were to construct a comprehensive interactome of cancer drivers and their neighbours and to identify significant driver-neighbour interactions (DINTs) that condition cancer progression. While many recent studies focus on individual cancer types, this study takes a broader approach by integrating data from the TCGA Pan-Cancer cohort, which spans multiple cancer types. We performed rigorous statistical analyses, including Spearman correlation and Ordinary Least Squares (OLS) regression, as well as machine learning models to predict driver mutations. Through this approach, we identified and analysed 14197 significant DINTs, focusing on the biological and statistical significance of these interactions. These findings demonstrate that neighbouring gene expression can both promote and inhibit the tumourigenic effects of driver mutations, depending on the interaction. Our analysis revealed that positive neighbours are more involved in oncogenic processes, while negative neighbours show higher variability and are more associated with regulatory pathways. This study is relevant as it provides a deeper understanding of the tissue-specific mechanisms driving cancer progression and highlights potential therapeutic targets. The contributions of this work include the identification of key driver-neighbour interactions, the development of predictive models for driver mutations, and the provision of new insights into the role of neighbouring proteins in tumour development.engGenes condutores de cancroInterações proteína-proteínaEspecificidade tecidularAnálise de sobrevivênciaMedicina de precisãoTeses de mestrado - 2025Identification of tissue specific dependencies between cancer driver gene mutations and their interactors abundancesmaster thesis203945999