Machine learning-based viral design for bioengineering

Rodrigues, Ana Filipa de Albuquerque Ferreira

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10400.5/102057

Título:	Machine learning-based viral design for bioengineering
Autor:	Rodrigues, Ana Filipa de Albuquerque Ferreira
Orientador:	Pesquita, Cátia
Palavras-chave:	Aprendizagem Automática Modelos de Linguagem de Proteínas Classificação Vectores Virais Terapia Génica Teses de mestrado - 2025
Data de Defesa:	2025
Resumo:	O design de proteínas tem sido, desde há muito tempo, uma área de grande interesse e investigação ativa no campo das ciências biológicas e da bioengenharia. O desenvolvimento de métodos computacionais para orientar o design e a bioengenharia de proteínas, em particular os baseados em aprendizagem automática (machine learning), constituiu uma das alavancas mais significativas nesta área. Estes métodos ajudam a reduzir o vasto espaço de procura, permitindo identificar sequências com maior probabilidade de cumprir funções desejadas ou de possuir propriedades específicas. Com os avanços mais recentes neste campo, deram-se também os primeiros passos para aplicar o design de proteínas orientado por máquinas na bioengenharia de partículas virais terapêuticas, nomeadamente, vectores virais para terapia génica. O design e a bioengenharia de partículas virais têm um enorme potencial no desenvolvimento de terapias baseadas em vírus, além de impulsionarem novas descobertas nas áreas da virologia e da vectorologia, sendo por isso uma área de elevado interesse. O presente trabalho explorou métodos de ponta no design de proteínas orientado por máquinas, com uma atenção particular nas técnicas de aprendizagem automática, contribuindo para a evolução da bioengenharia de vectores virais. Como estudo de caso, o foco recaiu sobre os vectores baseados em vírus adeno-associados (adeno-associated virus, AAV), que são atualmente um dos veículos mais utilizadas para a transferência de material genético em terapias génica. Especificamente, propôs-se o desenvolvimento de classificadores binários capazes de distinguir sequências viáveis de não viáveis para auxiliar no design de novos AAVs altamente diversos, ou seja, substancialmente diferentes dos atualmente em uso. Esta diversidade é relevante para aspectos como redução da imunogenecidade do tratamento em terapias que requeiram administrações múltiplas. Embora o design de proteínas baseado em aprendizagem automática tenha vindo a ser utilizado com sucesso na bioengenharia de novos vectores para terapia génica, em especial os AAVs, existem ainda algumas limitações nas abordagens que foram executadas, e que este trabalho se propôs explorar. Essas limitações estão principalmente relacionadas com os formatos usados para a representação de sequências de proteínas, que até agora têm recorrido predominantemente a métodos de codificação posicional simples, como a codificação one-hot, e que são pobres em informação biológica. Outra limitação reside na escolha de modelos para a aprendizagem, que tem sido predominantemente baseada em modelos individuais, sem explorar a complementaridade de diferentes abordagens. O trabalho iniciou-se com a aplicação de métodos de análise exploratória de dados, como a construção do landscape de mutações de conjuntos de sequências de interesse (por exemplo, treino-validação, teste, viáveis, não-viáveis, etc.), e a avaliação das suas estatísticas de mutação. Esse processo permitiu a identificação de assinaturas e padrões característicos para cada grupo de sequências, que foram posteriormente utilizados para interpretar e compreender os resultados ao longo do estudo. Como parte da análise exploratória inicial, foram também aplicados métodos de aprendizagem não supervisionada, como o agrupamento K-means e t-SNE (t-Distributed Stochastic Neighbor Embedding), que ajudaram a confirmar a necessidade de métodos mais sofisticados para distinguir sequências viáveis de não-viáveis. Estas análises forneceram, adicionalmente, informações importantes sobre as diferenças nos formatos de representação e ajudaram a perceber melhor o desempenho subsequente dos modelos de classificação. No que diz respeito à representação das proteínas, foram explorados formatos mais sofisticados do que os baseados em codificação posicional simples dos aminoácidos, com o intuito de capturar informações biológicas mais complexas, tais como dependências posicionais e relações entre aminoácidos nas sequências de proteínas. Para isso, foram usados modelos de linguagem de proteínas para gerar representações vectoriais significativas (embeddings), capazes de capturar informações biológicas detalhadas, como o contexto dos aminoácidos, interações de curta e longa distância, padrões e motivos nas sequências, capturando eficazmente as dependências e relações dos aminoácidos dentro das sequências. A hipótese subjacente era que os embeddings de modelos de linguagem de proteínas, sendo ricos em informação biológica, poderiam fornecer um suporte mais eficaz para a aprendizagem e melhorar o desempenho na previsão de funções das proteínas. Os resultados demonstraram que a riqueza de informações biológicas capturada por este formato oferece vantagem sobre os métodos tradicionais de codificação posicional, com melhorias substanciais no desempenho durante a fase de teste e uma maior capacidade de generalização para novas sequências ainda não vistas. Dentro dos modelos de linguagem de proteínas, selecionou-se o ProtBERT, um dos codificadores mais avançados na área, para uma avaliação aprofundada das suas variantes de embedding. Esta análise forneceu insights valiosos, orientando a escolha das variantes mais adequadas para aplicações futuras. No que diz respeito à seleção de modelos, após a análise do desempenho de três modelos distintos (florestas aleatórias, XGBoost e regressão logística), cada um treinado e validado com cinco tipos diferentes de representações, foi explorado o uso de conjuntos heterogéneos (ensemble) compostos por várias combinações de pares modelo-representação. A hipótese subjacente era que, dado que diferentes modelos capturam diferentes limites de decisão e padrões, e diferentes representações capturam diferentes estruturas e propriedades dos dados, um modelo que integrasse várias combinações bem-sucedidas poderia superar o desempenho dos melhores pares individuais. O ensemble contou ainda com diferentes estratégias de votação majoritária, incluindo a atribuição de pesos diferenciados (linear ou exponencial) aos pares modelorepresentação que mostraram um desempenho particularmente bom, além de incorporar a possibilidade de remoção de pares que apresentaram um desempenho significativamente inferior. Os resultados mostraram que esta abordagem proporcionou um bom desempenho na classificação e pode ser útil para priorizar sequências para validação experimental, especialmente ao permitir o cálculo de scores adicionais de confiança, como o score de concordância entre votos. No entanto, não conseguiu superar o desempenho do melhor par individual modelo-representação. Vários factores podem ter contribuído para este resultado, incluindo o sobreajuste (overfitting) e a falta de sequências desafiadoras nas fases de treino e validação, a existência de limitações inerentes aos métodos de votação baseados em maioria, e alguma falta de diversidade dos modelos na composição do ensemble. Além da construção do ensemble, a análise comparativa do desempenho dos diferentes pares modelorepresentação permitiu identificar padrões interessantes nos dados. Em particular, foi possível distinguir um conjunto de sequências, denominadas fáceis, que foram corretamente classificadas por todos os pares, incluindo os de baixo desempenho, e um segundo conjunto, as difíceis, que foram consistentemente mal classificadas, mesmo pelos pares de melhor desempenho. A análise destas sequências revelou que todas as sequências fáceis eram negativas, e a sua facilidade de classificação parece estar relacionada com a violação óbvia de uma assinatura de viabilidade. Esta assinatura indica que sequências viáveis tendem a evitar mutações na região dos aminoácidos 567-576, sendo que, quando ocorrem mutações nesta área, estas são em número moderado e são principalmente substituições. Por outro lado, as sequências difíceis eram todas positivas, e a dificuldade em classificá-las parece residir na complexidade de reconhecer a viabilidade de todas as possíveis substituições. Embora estas sequências respeitassem a assinatura de viabilidade de evitar inseções e delecções na região dos aminoácidos 567-576 e apresentar apenas algumas substituições, o desafio parece estar nas substituições específicas realizadas, já que as diferenças nas propriedades físicoquímicas dos aminoácidos significam que nem todas as substituições têm o mesmo impacto. Em resumo, este trabalho explorou métodos de ponta no design de proteínas orientado por máquinas, com foco nas técnicas de aprendizagem automática, com o objectivo de contribuir para desenvolvimento e bioengenharia de vectores virais. Além de avançar o potencial dos AAVs como plataforma para terapia génica, abre também o caminho para a aplicação mais ampla das tecnologias de aprendizagem automática na bioengenharia de outras partículas virais quer seja para génica quer para vacinação. This work explores advanced machine learning methods for protein design, specifically aimed at enhancing the bioengineering of viral vectors for human gene therapy, with a focus on adeno-associated viruses (AAVs). Despite the success of ML-based protein design in developing new AAV vectors, some challenges remain that were tackled herein, namely in the representation of protein sequences and the selection of optimal models for sequence-to-function prediction. For protein representation, embeddings generated by protein language models (PLMs) were investigated as a representation format potentially superior to traditional methods like one-hot encoding, since they capture richer biological insights such as amino acid context, patterns, short- and long-distance interactions, and sequence motifs. ProtBERT, a state-of-the art PLM encoder, was selected for an in-depth evaluation of its embedding variants. The results showed ProtBERT embeddings improved performance and generalization on unseen sequences. Furthermore, embeddings capturing individual amino acid information were found to deliver the best results, showcasing the value of biological information for model performance. For model selection, an ensemble approach combining multiple models trained on different sequence representations was investigated. While the ensemble approach demonstrated strong classification performance, it did not outperform the best individual model. This limitation was attributed to overfitting, as the training data lacked sufficiently challenging sequences, and potentially to the lack of models’diversity in the ensemble composition. Finally, newly designed sequences were evaluated using the models developed in this study, simulating future steps of this project where generative PLMs will be employed to design new sequences for laboratory production and testing. This work not only advances AAVs as a platform for gene therapy but also contributes to the broader application of machine learning technologies in bioengineering other viral particles for gene delivery and vaccination.
Descrição:	Tese de Mestrado, Ciência de Dados, 2025, Universidade de Lisboa, Faculdade de Ciências
URI:	http://hdl.handle.net/10400.5/102057
Designação:	Mestrado em Ciência de Dados
Aparece nas colecções:	FC - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
TM_Ana_Filipa_Rodrigues.pdf		2,25 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Dê a sua opinião sobre este registo.