Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10400.5/102057
Título: | Machine learning-based viral design for bioengineering |
Autor: | Rodrigues, Ana Filipa de Albuquerque Ferreira |
Orientador: | Pesquita, Cátia |
Palavras-chave: | Aprendizagem Automática Modelos de Linguagem de Proteínas Classificação Vectores Virais Terapia Génica Teses de mestrado - 2025 |
Data de Defesa: | 2025 |
Resumo: | O design de proteínas tem sido, desde há muito tempo, uma área de grande interesse e investigação
ativa no campo das ciências biológicas e da bioengenharia. O desenvolvimento de métodos computacionais
para orientar o design e a bioengenharia de proteínas, em particular os baseados em aprendizagem
automática (machine learning), constituiu uma das alavancas mais significativas nesta área. Estes métodos
ajudam a reduzir o vasto espaço de procura, permitindo identificar sequências com maior probabilidade de
cumprir funções desejadas ou de possuir propriedades específicas. Com os avanços mais recentes neste
campo, deram-se também os primeiros passos para aplicar o design de proteínas orientado por máquinas na
bioengenharia de partículas virais terapêuticas, nomeadamente, vectores virais para terapia génica. O design
e a bioengenharia de partículas virais têm um enorme potencial no desenvolvimento de terapias baseadas
em vírus, além de impulsionarem novas descobertas nas áreas da virologia e da vectorologia, sendo por isso
uma área de elevado interesse.
O presente trabalho explorou métodos de ponta no design de proteínas orientado por máquinas, com
uma atenção particular nas técnicas de aprendizagem automática, contribuindo para a evolução da
bioengenharia de vectores virais. Como estudo de caso, o foco recaiu sobre os vectores baseados em vírus
adeno-associados (adeno-associated virus, AAV), que são atualmente um dos veículos mais utilizadas para
a transferência de material genético em terapias génica. Especificamente, propôs-se o desenvolvimento de
classificadores binários capazes de distinguir sequências viáveis de não viáveis para auxiliar no design de
novos AAVs altamente diversos, ou seja, substancialmente diferentes dos atualmente em uso. Esta
diversidade é relevante para aspectos como redução da imunogenecidade do tratamento em terapias que
requeiram administrações múltiplas.
Embora o design de proteínas baseado em aprendizagem automática tenha vindo a ser utilizado com
sucesso na bioengenharia de novos vectores para terapia génica, em especial os AAVs, existem ainda
algumas limitações nas abordagens que foram executadas, e que este trabalho se propôs explorar. Essas
limitações estão principalmente relacionadas com os formatos usados para a representação de sequências
de proteínas, que até agora têm recorrido predominantemente a métodos de codificação posicional simples,
como a codificação one-hot, e que são pobres em informação biológica. Outra limitação reside na escolha
de modelos para a aprendizagem, que tem sido predominantemente baseada em modelos individuais, sem
explorar a complementaridade de diferentes abordagens.
O trabalho iniciou-se com a aplicação de métodos de análise exploratória de dados, como a construção
do landscape de mutações de conjuntos de sequências de interesse (por exemplo, treino-validação, teste,
viáveis, não-viáveis, etc.), e a avaliação das suas estatísticas de mutação. Esse processo permitiu a
identificação de assinaturas e padrões característicos para cada grupo de sequências, que foram
posteriormente utilizados para interpretar e compreender os resultados ao longo do estudo. Como parte da
análise exploratória inicial, foram também aplicados métodos de aprendizagem não supervisionada, como
o agrupamento K-means e t-SNE (t-Distributed Stochastic Neighbor Embedding), que ajudaram a confirmar
a necessidade de métodos mais sofisticados para distinguir sequências viáveis de não-viáveis. Estas análises
forneceram, adicionalmente, informações importantes sobre as diferenças nos formatos de representação e
ajudaram a perceber melhor o desempenho subsequente dos modelos de classificação.
No que diz respeito à representação das proteínas, foram explorados formatos mais sofisticados do que
os baseados em codificação posicional simples dos aminoácidos, com o intuito de capturar informações
biológicas mais complexas, tais como dependências posicionais e relações entre aminoácidos nas sequências
de proteínas. Para isso, foram usados modelos de linguagem de proteínas para gerar representações vectoriais significativas (embeddings), capazes de capturar informações biológicas detalhadas, como o
contexto dos aminoácidos, interações de curta e longa distância, padrões e motivos nas sequências,
capturando eficazmente as dependências e relações dos aminoácidos dentro das sequências. A hipótese
subjacente era que os embeddings de modelos de linguagem de proteínas, sendo ricos em informação
biológica, poderiam fornecer um suporte mais eficaz para a aprendizagem e melhorar o desempenho na
previsão de funções das proteínas. Os resultados demonstraram que a riqueza de informações biológicas
capturada por este formato oferece vantagem sobre os métodos tradicionais de codificação posicional, com
melhorias substanciais no desempenho durante a fase de teste e uma maior capacidade de generalização
para novas sequências ainda não vistas. Dentro dos modelos de linguagem de proteínas, selecionou-se o
ProtBERT, um dos codificadores mais avançados na área, para uma avaliação aprofundada das suas
variantes de embedding. Esta análise forneceu insights valiosos, orientando a escolha das variantes mais
adequadas para aplicações futuras.
No que diz respeito à seleção de modelos, após a análise do desempenho de três modelos distintos
(florestas aleatórias, XGBoost e regressão logística), cada um treinado e validado com cinco tipos diferentes
de representações, foi explorado o uso de conjuntos heterogéneos (ensemble) compostos por várias
combinações de pares modelo-representação. A hipótese subjacente era que, dado que diferentes modelos
capturam diferentes limites de decisão e padrões, e diferentes representações capturam diferentes estruturas
e propriedades dos dados, um modelo que integrasse várias combinações bem-sucedidas poderia superar o
desempenho dos melhores pares individuais. O ensemble contou ainda com diferentes estratégias de votação
majoritária, incluindo a atribuição de pesos diferenciados (linear ou exponencial) aos pares modelorepresentação que mostraram um desempenho particularmente bom, além de incorporar a possibilidade de
remoção de pares que apresentaram um desempenho significativamente inferior. Os resultados mostraram
que esta abordagem proporcionou um bom desempenho na classificação e pode ser útil para priorizar
sequências para validação experimental, especialmente ao permitir o cálculo de scores adicionais de
confiança, como o score de concordância entre votos. No entanto, não conseguiu superar o desempenho do
melhor par individual modelo-representação. Vários factores podem ter contribuído para este resultado,
incluindo o sobreajuste (overfitting) e a falta de sequências desafiadoras nas fases de treino e validação, a
existência de limitações inerentes aos métodos de votação baseados em maioria, e alguma falta de
diversidade dos modelos na composição do ensemble.
Além da construção do ensemble, a análise comparativa do desempenho dos diferentes pares modelorepresentação permitiu identificar padrões interessantes nos dados. Em particular, foi possível distinguir um
conjunto de sequências, denominadas fáceis, que foram corretamente classificadas por todos os pares,
incluindo os de baixo desempenho, e um segundo conjunto, as difíceis, que foram consistentemente mal
classificadas, mesmo pelos pares de melhor desempenho. A análise destas sequências revelou que todas as
sequências fáceis eram negativas, e a sua facilidade de classificação parece estar relacionada com a violação
óbvia de uma assinatura de viabilidade. Esta assinatura indica que sequências viáveis tendem a evitar
mutações na região dos aminoácidos 567-576, sendo que, quando ocorrem mutações nesta área, estas são
em número moderado e são principalmente substituições. Por outro lado, as sequências difíceis eram todas
positivas, e a dificuldade em classificá-las parece residir na complexidade de reconhecer a viabilidade de
todas as possíveis substituições. Embora estas sequências respeitassem a assinatura de viabilidade de evitar
inseções e delecções na região dos aminoácidos 567-576 e apresentar apenas algumas substituições, o
desafio parece estar nas substituições específicas realizadas, já que as diferenças nas propriedades físicoquímicas dos aminoácidos significam que nem todas as substituições têm o mesmo impacto. Em resumo, este trabalho explorou métodos de ponta no design de proteínas orientado por máquinas,
com foco nas técnicas de aprendizagem automática, com o objectivo de contribuir para desenvolvimento e
bioengenharia de vectores virais. Além de avançar o potencial dos AAVs como plataforma para terapia
génica, abre também o caminho para a aplicação mais ampla das tecnologias de aprendizagem automática
na bioengenharia de outras partículas virais quer seja para génica quer para vacinação. This work explores advanced machine learning methods for protein design, specifically aimed at enhancing the bioengineering of viral vectors for human gene therapy, with a focus on adeno-associated viruses (AAVs). Despite the success of ML-based protein design in developing new AAV vectors, some challenges remain that were tackled herein, namely in the representation of protein sequences and the selection of optimal models for sequence-to-function prediction. For protein representation, embeddings generated by protein language models (PLMs) were investigated as a representation format potentially superior to traditional methods like one-hot encoding, since they capture richer biological insights such as amino acid context, patterns, short- and long-distance interactions, and sequence motifs. ProtBERT, a state-of-the art PLM encoder, was selected for an in-depth evaluation of its embedding variants. The results showed ProtBERT embeddings improved performance and generalization on unseen sequences. Furthermore, embeddings capturing individual amino acid information were found to deliver the best results, showcasing the value of biological information for model performance. For model selection, an ensemble approach combining multiple models trained on different sequence representations was investigated. While the ensemble approach demonstrated strong classification performance, it did not outperform the best individual model. This limitation was attributed to overfitting, as the training data lacked sufficiently challenging sequences, and potentially to the lack of models’diversity in the ensemble composition. Finally, newly designed sequences were evaluated using the models developed in this study, simulating future steps of this project where generative PLMs will be employed to design new sequences for laboratory production and testing. This work not only advances AAVs as a platform for gene therapy but also contributes to the broader application of machine learning technologies in bioengineering other viral particles for gene delivery and vaccination. |
Descrição: | Tese de Mestrado, Ciência de Dados, 2025, Universidade de Lisboa, Faculdade de Ciências |
URI: | http://hdl.handle.net/10400.5/102057 |
Designação: | Mestrado em Ciência de Dados |
Aparece nas colecções: | FC - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TM_Ana_Filipa_Rodrigues.pdf | 2,25 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.