Publicação
Machine learning-based viral design for bioengineering
| datacite.subject.fos | Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformÔtica | pt_PT |
| dc.contributor.advisor | Pesquita, CƔtia | |
| dc.contributor.author | Rodrigues, Ana Filipa de Albuquerque Ferreira | |
| dc.date.accessioned | 2025-07-07T14:12:23Z | |
| dc.date.available | 2025-07-07T14:12:23Z | |
| dc.date.issued | 2025 | |
| dc.date.submitted | 2025 | |
| dc.description | Tese de Mestrado, CiĆŖncia de Dados, 2025, Universidade de Lisboa, Faculdade de CiĆŖncias | pt_PT |
| dc.description.abstract | O design de proteĆnas tem sido, desde hĆ” muito tempo, uma Ć”rea de grande interesse e investigação ativa no campo das ciĆŖncias biológicas e da bioengenharia. O desenvolvimento de mĆ©todos computacionais para orientar o design e a bioengenharia de proteĆnas, em particular os baseados em aprendizagem automĆ”tica (machine learning), constituiu uma das alavancas mais significativas nesta Ć”rea. Estes mĆ©todos ajudam a reduzir o vasto espaƧo de procura, permitindo identificar sequĆŖncias com maior probabilidade de cumprir funƧƵes desejadas ou de possuir propriedades especĆficas. Com os avanƧos mais recentes neste campo, deram-se tambĆ©m os primeiros passos para aplicar o design de proteĆnas orientado por mĆ”quinas na bioengenharia de partĆculas virais terapĆŖuticas, nomeadamente, vectores virais para terapia gĆ©nica. O design e a bioengenharia de partĆculas virais tĆŖm um enorme potencial no desenvolvimento de terapias baseadas em vĆrus, alĆ©m de impulsionarem novas descobertas nas Ć”reas da virologia e da vectorologia, sendo por isso uma Ć”rea de elevado interesse. O presente trabalho explorou mĆ©todos de ponta no design de proteĆnas orientado por mĆ”quinas, com uma atenção particular nas tĆ©cnicas de aprendizagem automĆ”tica, contribuindo para a evolução da bioengenharia de vectores virais. Como estudo de caso, o foco recaiu sobre os vectores baseados em vĆrus adeno-associados (adeno-associated virus, AAV), que sĆ£o atualmente um dos veĆculos mais utilizadas para a transferĆŖncia de material genĆ©tico em terapias gĆ©nica. Especificamente, propĆ“s-se o desenvolvimento de classificadores binĆ”rios capazes de distinguir sequĆŖncias viĆ”veis de nĆ£o viĆ”veis para auxiliar no design de novos AAVs altamente diversos, ou seja, substancialmente diferentes dos atualmente em uso. Esta diversidade Ć© relevante para aspectos como redução da imunogenecidade do tratamento em terapias que requeiram administraƧƵes mĆŗltiplas. Embora o design de proteĆnas baseado em aprendizagem automĆ”tica tenha vindo a ser utilizado com sucesso na bioengenharia de novos vectores para terapia gĆ©nica, em especial os AAVs, existem ainda algumas limitaƧƵes nas abordagens que foram executadas, e que este trabalho se propĆ“s explorar. Essas limitaƧƵes estĆ£o principalmente relacionadas com os formatos usados para a representação de sequĆŖncias de proteĆnas, que atĆ© agora tĆŖm recorrido predominantemente a mĆ©todos de codificação posicional simples, como a codificação one-hot, e que sĆ£o pobres em informação biológica. Outra limitação reside na escolha de modelos para a aprendizagem, que tem sido predominantemente baseada em modelos individuais, sem explorar a complementaridade de diferentes abordagens. O trabalho iniciou-se com a aplicação de mĆ©todos de anĆ”lise exploratória de dados, como a construção do landscape de mutaƧƵes de conjuntos de sequĆŖncias de interesse (por exemplo, treino-validação, teste, viĆ”veis, nĆ£o-viĆ”veis, etc.), e a avaliação das suas estatĆsticas de mutação. Esse processo permitiu a identificação de assinaturas e padrƵes caracterĆsticos para cada grupo de sequĆŖncias, que foram posteriormente utilizados para interpretar e compreender os resultados ao longo do estudo. Como parte da anĆ”lise exploratória inicial, foram tambĆ©m aplicados mĆ©todos de aprendizagem nĆ£o supervisionada, como o agrupamento K-means e t-SNE (t-Distributed Stochastic Neighbor Embedding), que ajudaram a confirmar a necessidade de mĆ©todos mais sofisticados para distinguir sequĆŖncias viĆ”veis de nĆ£o-viĆ”veis. Estas anĆ”lises forneceram, adicionalmente, informaƧƵes importantes sobre as diferenƧas nos formatos de representação e ajudaram a perceber melhor o desempenho subsequente dos modelos de classificação. No que diz respeito Ć representação das proteĆnas, foram explorados formatos mais sofisticados do que os baseados em codificação posicional simples dos aminoĆ”cidos, com o intuito de capturar informaƧƵes biológicas mais complexas, tais como dependĆŖncias posicionais e relaƧƵes entre aminoĆ”cidos nas sequĆŖncias de proteĆnas. Para isso, foram usados modelos de linguagem de proteĆnas para gerar representaƧƵes vectoriais significativas (embeddings), capazes de capturar informaƧƵes biológicas detalhadas, como o contexto dos aminoĆ”cidos, interaƧƵes de curta e longa distĆ¢ncia, padrƵes e motivos nas sequĆŖncias, capturando eficazmente as dependĆŖncias e relaƧƵes dos aminoĆ”cidos dentro das sequĆŖncias. A hipótese subjacente era que os embeddings de modelos de linguagem de proteĆnas, sendo ricos em informação biológica, poderiam fornecer um suporte mais eficaz para a aprendizagem e melhorar o desempenho na previsĆ£o de funƧƵes das proteĆnas. Os resultados demonstraram que a riqueza de informaƧƵes biológicas capturada por este formato oferece vantagem sobre os mĆ©todos tradicionais de codificação posicional, com melhorias substanciais no desempenho durante a fase de teste e uma maior capacidade de generalização para novas sequĆŖncias ainda nĆ£o vistas. Dentro dos modelos de linguagem de proteĆnas, selecionou-se o ProtBERT, um dos codificadores mais avanƧados na Ć”rea, para uma avaliação aprofundada das suas variantes de embedding. Esta anĆ”lise forneceu insights valiosos, orientando a escolha das variantes mais adequadas para aplicaƧƵes futuras. No que diz respeito Ć seleção de modelos, após a anĆ”lise do desempenho de trĆŖs modelos distintos (florestas aleatórias, XGBoost e regressĆ£o logĆstica), cada um treinado e validado com cinco tipos diferentes de representaƧƵes, foi explorado o uso de conjuntos heterogĆ©neos (ensemble) compostos por vĆ”rias combinaƧƵes de pares modelo-representação. A hipótese subjacente era que, dado que diferentes modelos capturam diferentes limites de decisĆ£o e padrƵes, e diferentes representaƧƵes capturam diferentes estruturas e propriedades dos dados, um modelo que integrasse vĆ”rias combinaƧƵes bem-sucedidas poderia superar o desempenho dos melhores pares individuais. O ensemble contou ainda com diferentes estratĆ©gias de votação majoritĆ”ria, incluindo a atribuição de pesos diferenciados (linear ou exponencial) aos pares modelorepresentação que mostraram um desempenho particularmente bom, alĆ©m de incorporar a possibilidade de remoção de pares que apresentaram um desempenho significativamente inferior. Os resultados mostraram que esta abordagem proporcionou um bom desempenho na classificação e pode ser Ćŗtil para priorizar sequĆŖncias para validação experimental, especialmente ao permitir o cĆ”lculo de scores adicionais de confianƧa, como o score de concordĆ¢ncia entre votos. No entanto, nĆ£o conseguiu superar o desempenho do melhor par individual modelo-representação. VĆ”rios factores podem ter contribuĆdo para este resultado, incluindo o sobreajuste (overfitting) e a falta de sequĆŖncias desafiadoras nas fases de treino e validação, a existĆŖncia de limitaƧƵes inerentes aos mĆ©todos de votação baseados em maioria, e alguma falta de diversidade dos modelos na composição do ensemble. AlĆ©m da construção do ensemble, a anĆ”lise comparativa do desempenho dos diferentes pares modelorepresentação permitiu identificar padrƵes interessantes nos dados. Em particular, foi possĆvel distinguir um conjunto de sequĆŖncias, denominadas fĆ”ceis, que foram corretamente classificadas por todos os pares, incluindo os de baixo desempenho, e um segundo conjunto, as difĆceis, que foram consistentemente mal classificadas, mesmo pelos pares de melhor desempenho. A anĆ”lise destas sequĆŖncias revelou que todas as sequĆŖncias fĆ”ceis eram negativas, e a sua facilidade de classificação parece estar relacionada com a violação óbvia de uma assinatura de viabilidade. Esta assinatura indica que sequĆŖncias viĆ”veis tendem a evitar mutaƧƵes na regiĆ£o dos aminoĆ”cidos 567-576, sendo que, quando ocorrem mutaƧƵes nesta Ć”rea, estas sĆ£o em nĆŗmero moderado e sĆ£o principalmente substituiƧƵes. Por outro lado, as sequĆŖncias difĆceis eram todas positivas, e a dificuldade em classificĆ”-las parece residir na complexidade de reconhecer a viabilidade de todas as possĆveis substituiƧƵes. Embora estas sequĆŖncias respeitassem a assinatura de viabilidade de evitar inseƧƵes e delecƧƵes na regiĆ£o dos aminoĆ”cidos 567-576 e apresentar apenas algumas substituiƧƵes, o desafio parece estar nas substituiƧƵes especĆficas realizadas, jĆ” que as diferenƧas nas propriedades fĆsicoquĆmicas dos aminoĆ”cidos significam que nem todas as substituiƧƵes tĆŖm o mesmo impacto. Em resumo, este trabalho explorou mĆ©todos de ponta no design de proteĆnas orientado por mĆ”quinas, com foco nas tĆ©cnicas de aprendizagem automĆ”tica, com o objectivo de contribuir para desenvolvimento e bioengenharia de vectores virais. AlĆ©m de avanƧar o potencial dos AAVs como plataforma para terapia gĆ©nica, abre tambĆ©m o caminho para a aplicação mais ampla das tecnologias de aprendizagem automĆ”tica na bioengenharia de outras partĆculas virais quer seja para gĆ©nica quer para vacinação. | pt_PT |
| dc.description.abstract | This work explores advanced machine learning methods for protein design, specifically aimed at enhancing the bioengineering of viral vectors for human gene therapy, with a focus on adeno-associated viruses (AAVs). Despite the success of ML-based protein design in developing new AAV vectors, some challenges remain that were tackled herein, namely in the representation of protein sequences and the selection of optimal models for sequence-to-function prediction. For protein representation, embeddings generated by protein language models (PLMs) were investigated as a representation format potentially superior to traditional methods like one-hot encoding, since they capture richer biological insights such as amino acid context, patterns, short- and long-distance interactions, and sequence motifs. ProtBERT, a state-of-the art PLM encoder, was selected for an in-depth evaluation of its embedding variants. The results showed ProtBERT embeddings improved performance and generalization on unseen sequences. Furthermore, embeddings capturing individual amino acid information were found to deliver the best results, showcasing the value of biological information for model performance. For model selection, an ensemble approach combining multiple models trained on different sequence representations was investigated. While the ensemble approach demonstrated strong classification performance, it did not outperform the best individual model. This limitation was attributed to overfitting, as the training data lacked sufficiently challenging sequences, and potentially to the lack of modelsādiversity in the ensemble composition. Finally, newly designed sequences were evaluated using the models developed in this study, simulating future steps of this project where generative PLMs will be employed to design new sequences for laboratory production and testing. This work not only advances AAVs as a platform for gene therapy but also contributes to the broader application of machine learning technologies in bioengineering other viral particles for gene delivery and vaccination. | pt_PT |
| dc.identifier.uri | http://hdl.handle.net/10400.5/102057 | |
| dc.language.iso | eng | pt_PT |
| dc.subject | Aprendizagem AutomƔtica | pt_PT |
| dc.subject | Modelos de Linguagem de ProteĆnas | pt_PT |
| dc.subject | Classificação | pt_PT |
| dc.subject | Vectores Virais | pt_PT |
| dc.subject | Terapia GƩnica | pt_PT |
| dc.subject | Teses de mestrado - 2025 | pt_PT |
| dc.title | Machine learning-based viral design for bioengineering | pt_PT |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| rcaap.rights | openAccess | pt_PT |
| rcaap.type | masterThesis | pt_PT |
| thesis.degree.name | Mestrado em CiĆŖncia de Dados | pt_PT |
