Dimensionality reduction methods : an application to gene expression data in cancer diseases

Bulha, David Antunes Correia

http://hdl.handle.net/10451/64710

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_David_Bulha.pdf		469.75 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Bulha, David Antunes Correia

Orientador(es)

Trigueirão, Eunice Isabel Ganhão Carrasquinha

Resumo(s)

A variação da expressão de genes ao longo do tempo pode ser considerada ao examinar como o organismo responde a doenças. O cancro é uma das doenças mais mortais e muitas pessoas morrem por todo mundo por causa desta doença. É do conhecimento comum que o cancro ocorre devido a um distúrbio genético, sendo o estudo da expressão dos genes de grande importância. A expressão genética nada mais é do que o nível de produção de moléculas de proteínas definidas por um gene. Assim, os dados de expressão genética têm se revelado de grande importância na investigação e diagnóstico de doenças oncológicas. No entanto, a recolha de dados através de perfis de expressão genética leva investigadores a considerar dezenas de milhares de genes. A elevada quantidade de características a considerar para cada medição complica a análise deste tipo de dados por uma abordagem estatística (em modelos de regressão). Neste caso, os dados tornam-se menos relevantes para explicar como a expressão varia entre genes. Caso o número de genes exceda a amostra de indivíduos, surge o problema da elevada dimensionalidade. Em um conjunto de dados de elevada dimensionalidade, as observações com respeito a cada indivíduo são obsoletas em uma análise estatística desses dados. Isto torna-se um desafio na utilização de dados de expressão genética na investigação de doenças, assim como a sua utilidade para fins terapêuticos. No sentido de aperfeiçoar a tomada de decisões de tratamento, é necessário aplicar técnicas que lidem com a elevada dimensionalidade destes dados. Na literatura existem várias metodologias de redução de dimensionalidade que abordam este problema. No entanto, o mesmo não acontece quando consideramos dados longitudinais de expressão genética, em que pode existir uma grande diferença entre a ordem de grandeza do número de variáveis e de indivíduos. Técnicas de regularização são uma solução que consiste na introdução de restrições ao problema de optimização. Isto leva à exclusão de parâmetros de regressão associados a genes e consequentemente à esparsidade do modelo. Os métodos a utilizar na análise destes dados terão ainda de cumprir pressupostos relativamente à interpretação dos parâmetros do modelo. Será por isso necessário abordar métodos aplicáveis à construção dos tipos de modelo mais úteis na análise de dados longitudinais (modelos marginais e modelos de efeitos mistos). Com este trabalho pretende-se aplicar metodologias existentes com base em regularizadores a dados longitudinais de elevada dimensão, em particular a dados de expressão genética. Para tal são utilizados microarrays provenientes de dados públicos e de simulação. Os dados públicos a que se teve acesso são aqui designados por dados CDC15 e dados Glue Grant. O conjunto de dados CDC15 (Spellman et al., 1998) visa criar uma lista abrangente de genes de levedura Saccharomyces cerevisiae cujos níveis de transcrição variam periodicamente dentro do ciclo celular, usando microarrays de ácido desoxirribonucleico (ADN) e amostras de culturas de levedura. Nestes dados constam métricas correspondentes aos níveis de ácido ribonucleico mensageiro (mARN) em todo o genoma de 6178 quadros de leitura abertos de levedura (segmentos de genes) em um período de dois ciclos celulares. As medições foram realizadas em 18 instantes, abrangendo as 5 etapas do processo do ciclo celular. Este é um processo de vida regulado onde a célula cresce, replica o seu ADN e se prepara para a divisão celular. As fases que geralmente dividem o ciclo celular são M/G1, G1, S, G2, e M. Aqui M significa mitose, G1 para GAP 1 (quando a célula aumenta de tamanho), S refere-se a síntese de ADN, e G2 significa GAP 2 (quando a célula se prepara para se dividir). Foram identificados 800 genes que atendem a um critério mínimo para regulação do ciclo celular. Porém, para entender melhor o fenómeno subjacente ao processo do ciclo celular, é importante identificar fatores de transcrição (FT) que regulam os níveis de expressão genética de genes regulados no ciclo celular. Esses FT são essencialmente proteínas que controlam a regulação de genes, determinando a taxa de transcrição da informação genética do ADN para o mARN. Os dados incluídos no pacote PGEE para o software R caracterizam 283 genes regulados no ciclo celular (unidades de estudo) através das probabilidades de ligação estandardizadas de 96 FT, medidas em 4 instantes durante a fase G1. Além das variáveis explicativas e de resposta, os conjuntos de dados longitudinais no formato longo também incluem colunas que especificam a unidade de estudo e o instante de tempo. O programa de investigação colaborativa Glue Grant é um estudo sobre inflamação e resposta à lesão (Natasa Rajicic et al., 2006) que investiga as razões biológicas pelas quais os pacientes podem apresentar resultados dramaticamente diferentes após sofrer uma lesão traumática. Este estudo faz uso de dados de expressão genética para prever o tempo de recuperação dos pacientes. Assim, o objetivo é identificar os genes que mostram maior atividade ao longo do período de recuperação. Estes dados foram recolhidos durante um período de acompanhamento de 28 dias (a partir do momento em que cada paciente relata lesão traumática e é admitido no ventilador). Os pacientes são medidos em 7 instantes de tempo correspondentes aos dias 0, 1, 4, 7, 14, 21 e 28. A amostra contém a expressão de 54.675 genes medidos no máximo em 7 instantes de tempo dos 168 pacientes com lesão traumática que participaram no estudo. Também consta o número de dias passados no ventilador e na unidade de terapia intensiva. São ainda fornecidos detalhes complementares sobre os pacientes, como idade e sexo. A estrutura de ambos os conjuntos de dados longitudinais públicos usados neste trabalho consiste na medição da expressão de milhares de genes com uma variável que a ordena cronologicamente (em formato long). É ainda importante que conste o estado clínico (evento de interesse) nos mesmos instantes que as medições, pois isto também varia no decorrer do estudo. Outras características que não variam com o tempo também poderão estar incluídas, como biometria e identificação dos indivíduos disponível no conjunto de dados Glue Grant. Para além do carácter dos dados também é importante conhecer a razão pela qual os indivíduos não foram observados o mesmo número de vezes caso tal aconteça (mecanismo de omissão de dados). Os métodos utilizados na análise de dados longitudinais que toleram valores omissos poderão lidar com estes assumindo um certo mecanismo de omissão de dados. O processamento, análise e simulação de dados será realizada através do software R. Nomeadamente será usada a implementação de equações de estimação generalizadas penalizadas (PGEE) com o pacote PGEE, e os pacotes glmmixedlasso e glmmlasso que implementam métodos de regularização de tipo lasso baseados na verosimilhança. Com estes métodos poderão ser ajustados modelos marginais, através do PGEE, e modelos de efeitos mistos através de regularizadores de tipo lasso. O PGEE consiste na reformulação das equações de estimação generalizadas, com a introdução de um termo de penalização (smoothly clipped absolute deviation). Quanto aos métodos baseados na verosimilhança, o problema de otimização consiste em um termo proporcional à função de verosimilhança e na norma L1 do vetor de parâmetros de regressão. Para todos os métodos utilizados neste trabalho o termo de penalização é ajustado por um parâmetro λ, pelo que é necessário considerar apenas o valor de λ correspondente ao modelo que revela melhores resultados. Neste trabalho, este valor foi determinado através de validação cruzada em 3 e 5 etapas, utilizando o conjunto de treino. Os modelos obtidos na análise para cada metodologia serão ainda utilizados para comparar o seu desempenho quanto à esparsidade e qualidade de ajustamento. As métricas usadas na comparação do seu desempenho quanto à qualidade de ajustamento são a área de curvas ROC (AUC), para respostas binárias. Para respostas contínuas os modelos serão avaliados pela raíz do erro quadrático médio (RMSE) e erro absoluto médio (MAE). A comparação de modelos com base nestas métricas será importante para identificar as vantagens de aplicar um método em relação a outros, e estimular o desenvolvimento de novas metodologias com base na crítica. Com este tipo de abordagem pretende-se contribuir para o desenvolvimento de ferramentas médicas para prestar tratamento personalizado a pacientes oncológicos.

Gene expression data has proven to be of great importance in the research and diagnosis of cancer diseases. In order to improve treatment decision making, it is necessary to apply techniques that handle the high dimensionality of the data. In the literature there are several dimensionality reduction methodologies that address this problem. However, this is not the case when we consider highdimensional longitudinal data. This work aims to apply existing methodologies based on regularizers for high-dimensional longitudinal data, particularly to gene expression data. For this we use microarrays from public and simulated data. Data processing, analysis and simulations will be performed using the R software. The models built in the analysis corresponding to each methodology will also be used to compare their performance in terms of sparsity and goodness of fit. Considering marginal models we use penalized generalized estimating equations (PGEE), whereas linear mixed models are built with the methods GLMMLasso and glmmlasso. With this type of approach, we aim to contribute to the development of medical tools to provide personalized treatment to cancer patients.

Descrição

Trabalho de Projeto de Mestrado, Bioestatística, 2024, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Redução de dimensionalidade Dados longitudinais Regularizadores Teses de mestrado - 2024

URI

http://hdl.handle.net/10451/64710

Coleções

FC - Dissertações de Mestrado

Ver registo completo