Publication
Triclustering-based patient stratification : a case study in Multiple and Amyotrophic Lateral Sclerosis
| datacite.subject.fos | Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática | pt_PT |
| dc.contributor.advisor | Tomás, Helena Isabel Aidos Lopes | |
| dc.contributor.advisor | Madeira, Sara Alexandra Cordeiro | |
| dc.contributor.author | Dias, André Teixeira | |
| dc.date.accessioned | 2025-03-19T15:37:05Z | |
| dc.date.embargo | 2027-03-30 | |
| dc.date.issued | 2025 | |
| dc.date.submitted | 2024 | |
| dc.description | Tese de Mestrado, Ciência de Dados, 2025, Universidade de Lisboa, Faculdade de Ciências | pt_PT |
| dc.description.abstract | A Esclerose Múltipla é uma doença inflamatória autoimune que afeta o Sistema Nervoso Central, levando à perda de mielina por parte dos neurónios, que, por sua vez, resulta em neurodegeneração. Esta doença pode ser dividida em vários tipos, sendo o mais comum denominado de Recidivante Remitente. Este tende a manifestar-se de duas maneiras distintas: ataques agudos, denominados de recaídas, onde nova atividade da doença é detetada, e dos quais o paciente pode recuperar totalmente ou parcialmente, e progressão silenciosa, caracterizada pela ausência dos ataques previamente mencionados, mas onde deterioração irreversível dos sintomas ocorre. A Esclerose Amiotrófica Lateral é uma condição que também leva a neurodegeneração, resultando em perda progressiva das capacidades motoras. Apesar disto, esta é mais agressiva no seu ataque, tendo uma progressão mais rápida que culmina na morte do paciente entre três a cinco anos depois do diagnóstico. Atualmente, o diagnóstico de ambas é limitado pela ausência de um teste definitivo. Para Esclerose Múltipla, a combinação de Ressonância Magnética de Imagem com outros exames e a ocorrência de ataques agudos com danos cerebrais são necessários para confirmar a presença da doença. Para Esclerose Amiotrófica Lateral, vários testes têm de ser feitos, de modo a confirmar que os sintomas sentidos não podem ser atribuídos a outras doenças. Adicionalmente, para haver confirmação da mesma, a sua progressão tem de ser confirmada através do agravamento dos sintomas ou disseminação dos mesmos para zonas previamente não afetadas. Dependendo do tipo de Esclerose Múltipla e da gravidade do diagnóstico, a doença pode culminar na morte do paciente, mas os sintomas mais comuns prendem-se na perda de mobilidade e funções cognitivas. Apesar de perda de mobilidade também ser um dos sintomas de Esclerose Amiotrófica Lateral, um dos sintomas mais graves que acaba por ocorrer e levar à morte do paciente é insuficiência respiratória. Em relação ao tratamento de qualquer uma das doenças, devido à inexistência de uma cura definitiva, estes estão limitados à diminuição da taxa de progressão da doença e dos sintomas das mesmas, de forma a melhorar a qualidade de vida dos doentes. Para avaliar a progressão das mesmas, várias métricas de progressão são recolhidas ao longo de exames que o paciente vai fazendo com frequência. Uma das escalas mais usadas para a Esclerose Múltipla é a Escala Expandida do Estado de Incapacidade e os seus derivados intitulados de Sistemas Funcionais. No caso da Esclerose Lateral Amiotrófica, análogos destas escalas, intitulados de Escala Funcional de Avaliação de Esclerose Lateral Múltipla e os seus derivados são usados. Estas escalas providenciam informação relativa à gravidade dos sintomas ao longo do tempo e permitem avaliar o seu estado de progressão. Dado que estas doenças possuem uma progressão heterogénea que varia de paciente para paciente, a sua compreensão é difícil e a administração de cuidados adequados e avaliação do seu impacto demonstram ser tarefas árduas. A estratificação de pacientes pode ser vantajosa neste problema, visto que pode inserir um paciente num grupo com progressão já mapeada, providenciando uma ideia de como a doença vai evoluir ao longo do tempo. Adicionalmente, através da descoberta de grupos de progressão da doença, ensaios clínicos podem ser melhorados e as características mais importantes destas doenças identificadas. Ainda assim, a natureza sensível ao tempo dos dados aumenta a complexidade desta tarefa, sendo que a maioria dos métodos de estratificação comumente aplicados são incapazes de capturar padrões temporais. Com isto em mente, e com o objetivo de identificar grupos de progressão das doenças mencionadas, dois métodos descritos na literatura foram aplicados a um conjunto de dados de cada doença: ClusTric e agrupamento baseado em Dynamic Time Warping. O primeiro é uma técnica de Triclustering que permite descobrir padrões de pacientes que ocorrem apenas em algumas variáveis e instantes temporais, denominados triclusters. O segundo é um método que compara séries temporais que descrevem as variáveis de cada paciente, estando limitado à utilização de todas as variáveis para obter uma solução. Adicionalmente, um novo método, denominado Metatriclustering, foi desenvolvido durante esta tese e aplicado ao mesmo conjunto de dados, de modo a tentar melhorar a explicabilidade e a atribuição de grupos aos pacientes. Este último é também uma técnica de Triclustering que visa agrupar os padrões mais semelhantes, de modo a reduzir a quantidade de grupos de pacientes. Para aplicar estes métodos, um conjunto de dados para cada doença foi utilizado. Para Esclerose Múltipla, o conjunto de dados foi cedido pela Fondazione Istituto Neurologico Nazionale Casimiro Mondino, sob o projeto Europeu BRAINTEASER. Por outro lado, o conjunto de Dados Clínicos de Esclerose Lateral Amiotrófica de Lisboa, obtido no âmbito do projeto AIpALS, foi utilizado para a outra doença. Ambos estes conjuntos de dados necessitaram de metodologias de pré processamento antes de serem utilizados nos métodos de agrupamento previamente mencionados. A partir destes foi possível criar snapshots de pacientes (instância temporal onde vários exames, realizados ao longo de uma curta janela temporal, foram agrupados), lidar com valores em falta, etc. Durante este processo, as variáveis temporais que viriam a ser utilizadas foram escolhidas. Para avaliar os agrupamentos obtidos, uma estrutura de validação foi utilizada, que visava a obtenção de métricas internas, externas e de classificação. Adicionalmente, dendrogramas, boxplots, gráficos de evolução e de pertença (membership) foram utilizados para comparar resultados. Dada a forma com que o método de Metatriclustering foi implementado, a validação dos seus resultados foi mais limitada, ausente de métricas de avaliação. Para o método ClusTric e Metatriclustering, vários parâmetros foram testados, enquanto que para o agrupamento baseado em Dynamic Time Warping, apenas os parâmetros padrão foram avaliados. A utilização de diferentes números de snapshots foi analizado para cada um destes métodos. Adicionalmente, para cada conjunto de parâmetros e número de snapshots, os resultados obtidos quando dois a seis grupos de pacientes eram selecionados foram investigados. Para o primeiro e último método, a remoção de determinadas variáveis dos conjuntos de dados foi testada, assim como o impacto que o escalonamento dos dados tem nos seus resultados. Para Esclerose Múltipla, todos os métodos produziram grupos de pacientes com boa separabilidade, sendo que ClusTric obteve melhores resultados quando cinco grupos de pacientes foram descobertos, enquanto que Metatriclustering sugeriu a existência de quatro e o agrupamento baseado em Dynamic Time Warping três. Devido à ausência de métricas de avaliação para o método Metatriclustering, não foi possível fazer uma comparação mais profunda com os outros métodos. Relativamente aos outros dois métodos, os grupos com melhores métricas foram os obtidos através do método ClusTric. Adicionalmente, através deste foi possível identificar que apenas quatro das nove variáveis inicialmente consideradas eram relevantes. Por último, o efeito de escalonamento dos dados foi mínimo para este método, enquanto que o seu impacto foi mais significativo para o agrupamento baseado em Dynamic Time Warping. Para Esclerose Amiotrófica Lateral, a separabilidade dos grupos foi aceitável para ClusTric, que identificou a existência de quatro grupos, e Metatriclustering, que sugeriu a existência de três, mas melhor para o agrupamento baseado em Dynamic Time Warping, que detetou três grupos. Este último método foi também o que produziu as melhores métricas de avaliação. Através dos resultados de ClusTric, uma das variáveis foi identificada como não importante no agrupamento dos pacientes. Adicionalmente, a remoção de uma outra variável levou a um melhoramento dos resultados obtidos tanto para ClusTric como para agrupamento baseado em Dynamic Time Warping. Semelhantemente ao que havia sido verificado para Esclerose Múltipla, foi possível concluir que o escalonamento dos dados teve um impacto mais significativo para agrupamento baseado em Dynamic Time Warping. Com escalonamento, este método passou a sugerir a existência de quatro grupos de pacientes e os seus resultados eram comparáveis aos obtidos por ClusTric. Dado que escalonamento das variáveis é um passo que deve ser efetuado na aplicação deste método (uma vez que Dynamic Time Warping é baseado em distância euclidiana), estes resultados foram considerados os mais relevantes. Através destes resultados, foi possível identificar várias vantagens de cada um dos métodos em estudo: (ClusTric) – pouco afetado pelo escalonamento dos dados e capaz de identificar variáveis mais importantes; agrupamento baseado em Dynamic Time Warping – método mais simples, com menos parâmetros para otimizar e capaz de produzir bons resultados quando todas as variáveis são significativas; Metatriclustering – explicabilidade melhorada dos grupos e facilidade de atribuir um grupo a um novo paciente. Uma vez que Metatriclustering foi capaz de produzir bons agrupamentos, mais investigação do mesmo é justificado, de modo a obter métricas de avaliação e comparar os seus resultados com os dos outros métodos de forma mais aprofundada. | pt_PT |
| dc.description.abstract | Multiple and Amyotrophic Lateral Sclerosis are neurodegenerative diseases that affect millions of people in the world. The first is characterized by acute outbursts that typically leave the patient with decreased mobility and lessened cognitive function, while the latter is more severe in the attack of motor neurons resulting in patient death by respiratory failure after a few years. Currently, there is no available cure for either condition and the few available treatments focus on slowing disease progression and improving patient quality of life. Despite this, a highly heterogenous progression characterizes these illnesses, making it harder to understand them and provide adequate care. Patient stratification could be advantageous in this problem as it may help improve clinical trials and identify relevant traits of these diseases. However, the time-sensitive nature of the data makes it a complex task, as most of the currently used stratification methods are incapable of capturing temporal patterns. In this work, two state-of-the art temporal approaches were evaluated: ClusTric and Dynamic Time Warping based clustering. Additionally, a new method entitled Metatriclustering is proposed with the intent of improving cluster explainability and patient cluster attribution. The results obtained showed that all methods could remain competitive in cluster separability but, due to the absence of a robust validation framework for Metatriclustering, an in depth comparison between the latter and the other methods was not possible. Among the remaining approaches, ClusTric produced the best results for Multiple Sclerosis, identifying the existence of five disease progression groups, while both ClusTric and Dynamic Time Warping based clustering produced good results for Amyotrophic Lateral Sclerosis, identifying the existence of four disease progression groups. Overall, the findings in this thesis showcase the advantages of Triclustering based approaches for problems with a temporal nature and justify the ongoing development of Metatriclustering. | pt_PT |
| dc.identifier.uri | http://hdl.handle.net/10400.5/99490 | |
| dc.language.iso | eng | pt_PT |
| dc.relation | GA101017598 | pt_PT |
| dc.relation | PTDC/CCICIF/4613/2020 | pt_PT |
| dc.subject | Triclustering | pt_PT |
| dc.subject | Aprendizagem Não Supervisionada | pt_PT |
| dc.subject | Esclerose Múltipla | pt_PT |
| dc.subject | Esclerose Lateral Amiotrófica | pt_PT |
| dc.subject | Estratificação de Pacientes | pt_PT |
| dc.subject | Teses de mestrado - 2025 | pt_PT |
| dc.title | Triclustering-based patient stratification : a case study in Multiple and Amyotrophic Lateral Sclerosis | pt_PT |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| rcaap.rights | embargoedAccess | pt_PT |
| rcaap.type | masterThesis | pt_PT |
| thesis.degree.name | Mestrado em Ciência de Dados | pt_PT |
