| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 469.75 KB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
A variação da expressão de genes ao longo do tempo pode ser considerada ao examinar como o organismo responde a doenças. O cancro é uma das doenças mais mortais e muitas pessoas morrem por
todo mundo por causa desta doença. É do conhecimento comum que o cancro ocorre devido a um distúrbio genético, sendo o estudo da expressão dos genes de grande importância. A expressão genética nada
mais é do que o nível de produção de moléculas de proteínas definidas por um gene. Assim, os dados
de expressão genética têm se revelado de grande importância na investigação e diagnóstico de doenças
oncológicas. No entanto, a recolha de dados através de perfis de expressão genética leva investigadores
a considerar dezenas de milhares de genes. A elevada quantidade de características a considerar para
cada medição complica a análise deste tipo de dados por uma abordagem estatística (em modelos de
regressão). Neste caso, os dados tornam-se menos relevantes para explicar como a expressão varia entre
genes. Caso o número de genes exceda a amostra de indivíduos, surge o problema da elevada dimensionalidade. Em um conjunto de dados de elevada dimensionalidade, as observações com respeito a cada
indivíduo são obsoletas em uma análise estatística desses dados. Isto torna-se um desafio na utilização
de dados de expressão genética na investigação de doenças, assim como a sua utilidade para fins terapêuticos. No sentido de aperfeiçoar a tomada de decisões de tratamento, é necessário aplicar técnicas
que lidem com a elevada dimensionalidade destes dados. Na literatura existem várias metodologias de
redução de dimensionalidade que abordam este problema. No entanto, o mesmo não acontece quando
consideramos dados longitudinais de expressão genética, em que pode existir uma grande diferença entre a ordem de grandeza do número de variáveis e de indivíduos. Técnicas de regularização são uma
solução que consiste na introdução de restrições ao problema de optimização. Isto leva à exclusão de
parâmetros de regressão associados a genes e consequentemente à esparsidade do modelo. Os métodos
a utilizar na análise destes dados terão ainda de cumprir pressupostos relativamente à interpretação dos
parâmetros do modelo. Será por isso necessário abordar métodos aplicáveis à construção dos tipos de
modelo mais úteis na análise de dados longitudinais (modelos marginais e modelos de efeitos mistos).
Com este trabalho pretende-se aplicar metodologias existentes com base em regularizadores a dados
longitudinais de elevada dimensão, em particular a dados de expressão genética. Para tal são utilizados
microarrays provenientes de dados públicos e de simulação. Os dados públicos a que se teve acesso são
aqui designados por dados CDC15 e dados Glue Grant.
O conjunto de dados CDC15 (Spellman et al., 1998) visa criar uma lista abrangente de genes de
levedura Saccharomyces cerevisiae cujos níveis de transcrição variam periodicamente dentro do ciclo
celular, usando microarrays de ácido desoxirribonucleico (ADN) e amostras de culturas de levedura.
Nestes dados constam métricas correspondentes aos níveis de ácido ribonucleico mensageiro (mARN)
em todo o genoma de 6178 quadros de leitura abertos de levedura (segmentos de genes) em um período
de dois ciclos celulares. As medições foram realizadas em 18 instantes, abrangendo as 5 etapas do
processo do ciclo celular. Este é um processo de vida regulado onde a célula cresce, replica o seu ADN e
se prepara para a divisão celular. As fases que geralmente dividem o ciclo celular são M/G1, G1, S, G2, e M. Aqui M significa mitose, G1 para GAP 1 (quando a célula aumenta de tamanho), S refere-se a síntese
de ADN, e G2 significa GAP 2 (quando a célula se prepara para se dividir). Foram identificados 800
genes que atendem a um critério mínimo para regulação do ciclo celular. Porém, para entender melhor o
fenómeno subjacente ao processo do ciclo celular, é importante identificar fatores de transcrição (FT) que
regulam os níveis de expressão genética de genes regulados no ciclo celular. Esses FT são essencialmente
proteínas que controlam a regulação de genes, determinando a taxa de transcrição da informação genética
do ADN para o mARN. Os dados incluídos no pacote PGEE para o software R caracterizam 283 genes
regulados no ciclo celular (unidades de estudo) através das probabilidades de ligação estandardizadas
de 96 FT, medidas em 4 instantes durante a fase G1. Além das variáveis explicativas e de resposta, os
conjuntos de dados longitudinais no formato longo também incluem colunas que especificam a unidade
de estudo e o instante de tempo.
O programa de investigação colaborativa Glue Grant é um estudo sobre inflamação e resposta à
lesão (Natasa Rajicic et al., 2006) que investiga as razões biológicas pelas quais os pacientes podem
apresentar resultados dramaticamente diferentes após sofrer uma lesão traumática. Este estudo faz uso
de dados de expressão genética para prever o tempo de recuperação dos pacientes. Assim, o objetivo
é identificar os genes que mostram maior atividade ao longo do período de recuperação. Estes dados
foram recolhidos durante um período de acompanhamento de 28 dias (a partir do momento em que cada
paciente relata lesão traumática e é admitido no ventilador). Os pacientes são medidos em 7 instantes de
tempo correspondentes aos dias 0, 1, 4, 7, 14, 21 e 28. A amostra contém a expressão de 54.675 genes
medidos no máximo em 7 instantes de tempo dos 168 pacientes com lesão traumática que participaram
no estudo. Também consta o número de dias passados no ventilador e na unidade de terapia intensiva.
São ainda fornecidos detalhes complementares sobre os pacientes, como idade e sexo.
A estrutura de ambos os conjuntos de dados longitudinais públicos usados neste trabalho consiste
na medição da expressão de milhares de genes com uma variável que a ordena cronologicamente (em
formato long). É ainda importante que conste o estado clínico (evento de interesse) nos mesmos instantes
que as medições, pois isto também varia no decorrer do estudo. Outras características que não variam
com o tempo também poderão estar incluídas, como biometria e identificação dos indivíduos disponível
no conjunto de dados Glue Grant. Para além do carácter dos dados também é importante conhecer a razão
pela qual os indivíduos não foram observados o mesmo número de vezes caso tal aconteça (mecanismo
de omissão de dados). Os métodos utilizados na análise de dados longitudinais que toleram valores
omissos poderão lidar com estes assumindo um certo mecanismo de omissão de dados.
O processamento, análise e simulação de dados será realizada através do software R. Nomeadamente
será usada a implementação de equações de estimação generalizadas penalizadas (PGEE) com o pacote
PGEE, e os pacotes glmmixedlasso e glmmlasso que implementam métodos de regularização de tipo
lasso baseados na verosimilhança. Com estes métodos poderão ser ajustados modelos marginais, através
do PGEE, e modelos de efeitos mistos através de regularizadores de tipo lasso. O PGEE consiste na
reformulação das equações de estimação generalizadas, com a introdução de um termo de penalização
(smoothly clipped absolute deviation). Quanto aos métodos baseados na verosimilhança, o problema
de otimização consiste em um termo proporcional à função de verosimilhança e na norma L1 do vetor
de parâmetros de regressão. Para todos os métodos utilizados neste trabalho o termo de penalização é
ajustado por um parâmetro λ, pelo que é necessário considerar apenas o valor de λ correspondente ao
modelo que revela melhores resultados. Neste trabalho, este valor foi determinado através de validação
cruzada em 3 e 5 etapas, utilizando o conjunto de treino.
Os modelos obtidos na análise para cada metodologia serão ainda utilizados para comparar o seu
desempenho quanto à esparsidade e qualidade de ajustamento. As métricas usadas na comparação do seu desempenho quanto à qualidade de ajustamento são a área de curvas ROC (AUC), para respostas
binárias. Para respostas contínuas os modelos serão avaliados pela raíz do erro quadrático médio (RMSE)
e erro absoluto médio (MAE). A comparação de modelos com base nestas métricas será importante
para identificar as vantagens de aplicar um método em relação a outros, e estimular o desenvolvimento
de novas metodologias com base na crítica. Com este tipo de abordagem pretende-se contribuir para o
desenvolvimento de ferramentas médicas para prestar tratamento personalizado a pacientes oncológicos.
Gene expression data has proven to be of great importance in the research and diagnosis of cancer diseases. In order to improve treatment decision making, it is necessary to apply techniques that handle the high dimensionality of the data. In the literature there are several dimensionality reduction methodologies that address this problem. However, this is not the case when we consider highdimensional longitudinal data. This work aims to apply existing methodologies based on regularizers for high-dimensional longitudinal data, particularly to gene expression data. For this we use microarrays from public and simulated data. Data processing, analysis and simulations will be performed using the R software. The models built in the analysis corresponding to each methodology will also be used to compare their performance in terms of sparsity and goodness of fit. Considering marginal models we use penalized generalized estimating equations (PGEE), whereas linear mixed models are built with the methods GLMMLasso and glmmlasso. With this type of approach, we aim to contribute to the development of medical tools to provide personalized treatment to cancer patients.
Gene expression data has proven to be of great importance in the research and diagnosis of cancer diseases. In order to improve treatment decision making, it is necessary to apply techniques that handle the high dimensionality of the data. In the literature there are several dimensionality reduction methodologies that address this problem. However, this is not the case when we consider highdimensional longitudinal data. This work aims to apply existing methodologies based on regularizers for high-dimensional longitudinal data, particularly to gene expression data. For this we use microarrays from public and simulated data. Data processing, analysis and simulations will be performed using the R software. The models built in the analysis corresponding to each methodology will also be used to compare their performance in terms of sparsity and goodness of fit. Considering marginal models we use penalized generalized estimating equations (PGEE), whereas linear mixed models are built with the methods GLMMLasso and glmmlasso. With this type of approach, we aim to contribute to the development of medical tools to provide personalized treatment to cancer patients.
Descrição
Trabalho de Projeto de Mestrado, Bioestatística, 2024, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
Redução de dimensionalidade Dados longitudinais Regularizadores Teses de mestrado - 2024
