Browsing by Author "Rodrigues, Ana Filipa de Albuquerque Ferreira"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Machine learning-based viral design for bioengineeringPublication . Rodrigues, Ana Filipa de Albuquerque Ferreira; Pesquita, CátiaO design de proteínas tem sido, desde há muito tempo, uma área de grande interesse e investigação ativa no campo das ciências biológicas e da bioengenharia. O desenvolvimento de métodos computacionais para orientar o design e a bioengenharia de proteínas, em particular os baseados em aprendizagem automática (machine learning), constituiu uma das alavancas mais significativas nesta área. Estes métodos ajudam a reduzir o vasto espaço de procura, permitindo identificar sequências com maior probabilidade de cumprir funções desejadas ou de possuir propriedades específicas. Com os avanços mais recentes neste campo, deram-se também os primeiros passos para aplicar o design de proteínas orientado por máquinas na bioengenharia de partículas virais terapêuticas, nomeadamente, vectores virais para terapia génica. O design e a bioengenharia de partículas virais têm um enorme potencial no desenvolvimento de terapias baseadas em vírus, além de impulsionarem novas descobertas nas áreas da virologia e da vectorologia, sendo por isso uma área de elevado interesse. O presente trabalho explorou métodos de ponta no design de proteínas orientado por máquinas, com uma atenção particular nas técnicas de aprendizagem automática, contribuindo para a evolução da bioengenharia de vectores virais. Como estudo de caso, o foco recaiu sobre os vectores baseados em vírus adeno-associados (adeno-associated virus, AAV), que são atualmente um dos veículos mais utilizadas para a transferência de material genético em terapias génica. Especificamente, propôs-se o desenvolvimento de classificadores binários capazes de distinguir sequências viáveis de não viáveis para auxiliar no design de novos AAVs altamente diversos, ou seja, substancialmente diferentes dos atualmente em uso. Esta diversidade é relevante para aspectos como redução da imunogenecidade do tratamento em terapias que requeiram administrações múltiplas. Embora o design de proteínas baseado em aprendizagem automática tenha vindo a ser utilizado com sucesso na bioengenharia de novos vectores para terapia génica, em especial os AAVs, existem ainda algumas limitações nas abordagens que foram executadas, e que este trabalho se propôs explorar. Essas limitações estão principalmente relacionadas com os formatos usados para a representação de sequências de proteínas, que até agora têm recorrido predominantemente a métodos de codificação posicional simples, como a codificação one-hot, e que são pobres em informação biológica. Outra limitação reside na escolha de modelos para a aprendizagem, que tem sido predominantemente baseada em modelos individuais, sem explorar a complementaridade de diferentes abordagens. O trabalho iniciou-se com a aplicação de métodos de análise exploratória de dados, como a construção do landscape de mutações de conjuntos de sequências de interesse (por exemplo, treino-validação, teste, viáveis, não-viáveis, etc.), e a avaliação das suas estatísticas de mutação. Esse processo permitiu a identificação de assinaturas e padrões característicos para cada grupo de sequências, que foram posteriormente utilizados para interpretar e compreender os resultados ao longo do estudo. Como parte da análise exploratória inicial, foram também aplicados métodos de aprendizagem não supervisionada, como o agrupamento K-means e t-SNE (t-Distributed Stochastic Neighbor Embedding), que ajudaram a confirmar a necessidade de métodos mais sofisticados para distinguir sequências viáveis de não-viáveis. Estas análises forneceram, adicionalmente, informações importantes sobre as diferenças nos formatos de representação e ajudaram a perceber melhor o desempenho subsequente dos modelos de classificação. No que diz respeito à representação das proteínas, foram explorados formatos mais sofisticados do que os baseados em codificação posicional simples dos aminoácidos, com o intuito de capturar informações biológicas mais complexas, tais como dependências posicionais e relações entre aminoácidos nas sequências de proteínas. Para isso, foram usados modelos de linguagem de proteínas para gerar representações vectoriais significativas (embeddings), capazes de capturar informações biológicas detalhadas, como o contexto dos aminoácidos, interações de curta e longa distância, padrões e motivos nas sequências, capturando eficazmente as dependências e relações dos aminoácidos dentro das sequências. A hipótese subjacente era que os embeddings de modelos de linguagem de proteínas, sendo ricos em informação biológica, poderiam fornecer um suporte mais eficaz para a aprendizagem e melhorar o desempenho na previsão de funções das proteínas. Os resultados demonstraram que a riqueza de informações biológicas capturada por este formato oferece vantagem sobre os métodos tradicionais de codificação posicional, com melhorias substanciais no desempenho durante a fase de teste e uma maior capacidade de generalização para novas sequências ainda não vistas. Dentro dos modelos de linguagem de proteínas, selecionou-se o ProtBERT, um dos codificadores mais avançados na área, para uma avaliação aprofundada das suas variantes de embedding. Esta análise forneceu insights valiosos, orientando a escolha das variantes mais adequadas para aplicações futuras. No que diz respeito à seleção de modelos, após a análise do desempenho de três modelos distintos (florestas aleatórias, XGBoost e regressão logística), cada um treinado e validado com cinco tipos diferentes de representações, foi explorado o uso de conjuntos heterogéneos (ensemble) compostos por várias combinações de pares modelo-representação. A hipótese subjacente era que, dado que diferentes modelos capturam diferentes limites de decisão e padrões, e diferentes representações capturam diferentes estruturas e propriedades dos dados, um modelo que integrasse várias combinações bem-sucedidas poderia superar o desempenho dos melhores pares individuais. O ensemble contou ainda com diferentes estratégias de votação majoritária, incluindo a atribuição de pesos diferenciados (linear ou exponencial) aos pares modelorepresentação que mostraram um desempenho particularmente bom, além de incorporar a possibilidade de remoção de pares que apresentaram um desempenho significativamente inferior. Os resultados mostraram que esta abordagem proporcionou um bom desempenho na classificação e pode ser útil para priorizar sequências para validação experimental, especialmente ao permitir o cálculo de scores adicionais de confiança, como o score de concordância entre votos. No entanto, não conseguiu superar o desempenho do melhor par individual modelo-representação. Vários factores podem ter contribuído para este resultado, incluindo o sobreajuste (overfitting) e a falta de sequências desafiadoras nas fases de treino e validação, a existência de limitações inerentes aos métodos de votação baseados em maioria, e alguma falta de diversidade dos modelos na composição do ensemble. Além da construção do ensemble, a análise comparativa do desempenho dos diferentes pares modelorepresentação permitiu identificar padrões interessantes nos dados. Em particular, foi possível distinguir um conjunto de sequências, denominadas fáceis, que foram corretamente classificadas por todos os pares, incluindo os de baixo desempenho, e um segundo conjunto, as difíceis, que foram consistentemente mal classificadas, mesmo pelos pares de melhor desempenho. A análise destas sequências revelou que todas as sequências fáceis eram negativas, e a sua facilidade de classificação parece estar relacionada com a violação óbvia de uma assinatura de viabilidade. Esta assinatura indica que sequências viáveis tendem a evitar mutações na região dos aminoácidos 567-576, sendo que, quando ocorrem mutações nesta área, estas são em número moderado e são principalmente substituições. Por outro lado, as sequências difíceis eram todas positivas, e a dificuldade em classificá-las parece residir na complexidade de reconhecer a viabilidade de todas as possíveis substituições. Embora estas sequências respeitassem a assinatura de viabilidade de evitar inseções e delecções na região dos aminoácidos 567-576 e apresentar apenas algumas substituições, o desafio parece estar nas substituições específicas realizadas, já que as diferenças nas propriedades físicoquímicas dos aminoácidos significam que nem todas as substituições têm o mesmo impacto. Em resumo, este trabalho explorou métodos de ponta no design de proteínas orientado por máquinas, com foco nas técnicas de aprendizagem automática, com o objectivo de contribuir para desenvolvimento e bioengenharia de vectores virais. Além de avançar o potencial dos AAVs como plataforma para terapia génica, abre também o caminho para a aplicação mais ampla das tecnologias de aprendizagem automática na bioengenharia de outras partículas virais quer seja para génica quer para vacinação.
