Exploring the intersection of artificial intelligence in understanding Alzheimer's Disease: the role of the circadian clock and orexin receptors

Gonçalves, Ana Maria Nicola

http://hdl.handle.net/10400.5/101539

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
MICF_Ana_Goncalves.pdf		890.1 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Gonçalves, Ana Maria Nicola

Orientador(es)

Guedes, Rita Alexandra Do Nascimento Cardoso

Resumo(s)

As orexinas estão relacionadas com uma série de funções fisiológicas, desde a regulação do metabolismo, ao stress, ao sistema cardiovascular e ao sono. Muitas vias fisiopatológicas já estão descritas na literatura, como a insónia, a depressão crónica e a ansiedade. Recentemente, estes neurotransmissores têm despertado interesse, uma vez que a sua desregulação tem sido relacionada com a Doença de Alzheimer (DA), sem mecanismo conhecido até à data. Uma vez que a DA não tem cura conhecida, sendo a terapêutica de manutenção o tratamento padrão atual, encontrar a relação entre o sistema de orexinas e a DA poderá ser frutífero para a indústria farmacêutica e, subsequentemente, melhorar futuramente os resultados terapêuticos em doentes. Neste estudo de 296 compostos, foram utilizados vários modelos de Machine Learning, sob a forma de classificadores binários, para aprender com os dados existentes, relativos a compostos que têm atividade com o Recetor da Orexina-1 e, posteriormente, testar o seu desempenho em dados “não vistos”. O principal objetivo é encontrar um modelo viável e fiável que consiga reconhecer moléculas ativas para este recetor, sendo essa atividade definida em função das suas bioatividades. Este método é utilizado para reduzir o tempo e custo pré-clínico, acelerando e possivelmente melhorando o desenvolvimento de medicamentos. Foram utilizados quatro estimadores - Random Forest (RF), Gradient Boosting Classifier (GBC), C-Support Vector Classification (SVC) e Stochastic Gradient Descent (SGD) - combinados com seleção de variáveis através de Recursive Feature Elimination e otimização por grid search dos parâmetros-chave do modelo. Estes modelos foram depois aplicados num loop cinco vezes para avaliar a variação do seu desempenho e o efeito da divisão dos dados no treino e teste. As pontuações de desempenho dos modelos foram baixas, com valores médios de F1-score entre 0,53 e 0,65, sendo que o SGD teve o pior desempenho e o SVC foi o melhor. As principais razões do baixo desempenho global do modelo parecem ter sido o tamanho reduzido do conjunto de dados e o desequilíbrio entre classes na variável alvo. O loop demonstrou inconsistência nas pontuações do modelo devido à variância subjacente das divisões do treino e teste. A necessidade de recolher mais dados e partir de um conjunto de dados maior e mais robusto foi identificada como fundamental para a utilização destas metodologias em trabalhos futuros.

Orexins have been linked to various physiological functions, including metabolic, stress, cardiovascular, and sleep regulation. Many pathophysiological pathways, such as those related to insomnia, chronic depression, and anxiety, are well documented in the literature. As of late, these neurotransmitters have garnered interest due to their dysregulation being associated with Alzheimer’s Disease (AD), although the specific pathway remains unknown. As AD currently has no known cure and maintenance therapy is the standard treatment, exploring the relationship between the orexin system and AD could prove valuable for the pharmaceutical industry, potentially leading to improved patient outcomes. This study investigated 296 compounds using several Machine Learning models as binary classifiers to predict activity with the Orexin receptor-1. The main goal was to develop a reliable model that can recognise active molecules based on their bioactivities, thereby reducing pre-clinical time and cost, and accelerating drug design. Four estimators were used: Random Forest (RF), Gradient Boosting Classifier (GBC), C-Support Vector Classification (SVC), and Stochastic Gradient Descent (SGD). These were - combined with feature selection through Recursive Feature Elimination and grid search optimization of key model parameters. The models were evaluated over a five-epoch loop to assess performance variance and the impact of train-test splitting of the data. The models’ performance scores were modest, with average F1-scores ranging from 0.53 to 0.65, where SGD was the worst performer and SVC the best. The main culprits for the low model performance were identified as the small dataset size and class imbalance in the target variable. The epoch loop demonstrated inconsistency in model scores due to the variance in train-test splits. Therefore, collecting more data and starting with a larger and more robust dataset is paramount for the effective application of these methodologies in future work.

Descrição

Trabalho Final de Mestrado Integrado, Ciências Farmacêuticas, 2024, Universidade de Lisboa, Faculdade de Farmácia

Palavras-chave

Orexins Insomnia Alzheimer’s Disease Receptors Drug discovery Machine learning Binary classification Recursive feature elimination

URI

http://hdl.handle.net/10400.5/101539

Coleções

FF - Trabalhos Finais de Mestrado Integrado

Ver registo completo