| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 4.43 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
A química é a ciência central e uma disciplina facilitadora para o acesso a pequenas moléculas com potencial interesse terapêutico. Nesse sentido, investigação básica em química pode facilitar a descoberta de novos processos de síntese que poderão ter aplicabilidade imediata no desenvolvimento de fármacos ou outros materiais de elevado valor. Mais ainda, a descoberta de tecnologias verdes alinhadas com esse objetivo é uma estratégia emergente, tendo também em conta a sustentabilidade em investigação. Recentemente, o desenvolvimento de instrumentação para eletroquímica reacendeu o interesse por este tipo de paradigma que, até aos dias de hoje, continua pouco explorado. Neste trabalho, o foco é a descoberta de novas reações eletroquímicas com o objetivo de facilitar o acesso a novas arquiteturas moleculares e métodos para funcionalização que possam ter uma aplicação medicinal. Especificamente, neste trabalho estudamos a utilização de métodos supervisionados de aprendizagem por máquinas (machine learning) para a exploração de reatividade num espaço de procura que engloba milhares de possíveis reações químicas e cuja execução em paralelo não é exequível. Além disso, focamo-nos em reagentes derivados da quitina, um produto de biomassa altamente prevalente e para o qual novos usos poderão incentivar sustentabilidade.
Nesse sentido, foram selecionados nove materiais de partida da família dos furanos como reagentes privilegiados e que são derivados de biomassa. O espaço de procura foi complementado através da seleção de 25 possíveis parceiros de reação. Os parceiros de reação apresentam diferentes funcionalidades químicas, permitindo reações com diferentes mecanismos, e foram selecionados algoritmicamente de um conjunto de 73 reagentes disponíveis no laboratório de acolhimento. Quatro métodos foram testados para a escolha dos 25 parceiros de reação, incluindo métodos de aprendizagem automática não supervisionados (k-means), maximização de diversidade e aleatórios. Para a utilização de algoritmos as moléculas foram descritas com Morgan Finterprints (radio 2, bits = 2048) ou MACCS keys que codificam subestruturas moleculares. Os representantes de cada cluster foram escolhidos de acordo com a proximidade com o centroide a cada um dos 25 clusters. Em alternativa, uma escolha por diversidade estrutural ou aleatória foram implementadas. O método com melhores resultados obtidos foi a seleção por diversidade.
Em seguida, vários algoritmos de aprendizagem por máquina foram implementados. Os mesmos incluíram métodos de lineares e não lineares como por exemplo Support Vector Machines e Random Forests. Para inicializar os algoritmos, trinta reações aleatórias no espaço de procura foram realizadas, monitorizadas e classificadas como “produtivas” ou “não produtivas”. Cada reação foi codificada para processamento por máquina e é composta por um de nove derivados de biomassa, um de vinte e cinco reagentes pré-selecionados por código, um de onze aditivos, um de dois solventes e um de dois elétrodos.
Neste trabalho, random forests emergiram como método de escolha após um estudo de validação cruzada retrospetiva. Para promover a exploração do espaço de procura (9900 reações) foi ainda implementada uma função objetivo centrada em curiosidade que utiliza o mapa logístico para ajudar na decisão de quais as reações a executar. O mapa logístico alimenta-se das probabilidades previstas pelo algoritmo de aprendizagem e de forma iterativa introduz ruído e incerteza que é essencial para mimetizar a escolha ao acaso. A exploração do espaço de procura foi então efetuada sem quaisquer objetivos pré-definidos e de forma aberta, simulando previsões caóticas, mas simultaneamente determinísticas. O grau de ruído foi controlado por um parâmetro, k, que varia entre 0 e 4, sendo que 4 maximiza o grau de ruído introduzido nas previsões do algoritmo. Apesar de ser um parâmetro escolhido pelo utilizador, neste estudo o valor foi mantido constante em 4 para aumentar a probabilidade de descoberta de novas reações. Apesar de serem previstas por um algoritmo, esta estratégia introduz incerteza e é expectável em mimetizar a descoberta ao acaso.
Para compreender o comportamento redox de cada um dos materiais de partida derivados da biomassa um voltamograma cíclico foi obtido. Todos os parceiros de reação apresentaram a capacidade de serem oxidados, mas não reduzidos. Isto significa que os parceiros de reação terão de ser reduzidos para haver reação na célula eletroquímica. Os solventes selecionados (acetonitrilo e diclorometano) foram também escolhidos de acordo com a janela de potencial para promover reações de oxidação (no caso de diclorometano) ou oxidação/redução (no caso de acetonitrilo) bem como a capacidade de dissolverem a maioria dos reagentes utilizados neste estudo. Se necessário, dimetilformamida foi utilizada como co-solvente em pequena percentagem.
Os resultados obtidos em cada reação foram alimentados ao algoritmo de aprendizagem automática para refinamento do modelo e sugestão de uma nova série de reações, deste modo mimetizando um ciclo de aprendizagem ativa. O ciclo de aprendizagem ativa foi efetuado por dez iterações das quais resultaram um total de 50 reações efetuadas. A análise de cada uma das reações consistiu na injeção de amostra reacional em HPLC equipado com uma coluna C18 e detetor de díodos. Uma reação produtiva necessita de consumo de mais de 35% do reagente limitante (derivado da biomassa). Foram ainda efetuadas reações controlo para certificação da necessidade de corrente elétrica para a obtenção de produtos de reação.
Enquanto algumas reações apenas mostraram redução do reagente limitante, outras mostraram resultados únicos e inesperados, através da observação de novos picos no cromatrograma. As reações que apenas mostraram diminuição da área sob a curva do reagente limitante podem representar resultados dúbios no sentido em que apenas o produto formado não é detetável pelo método analítico de escolha. Na maioria dos casos os cromatogramas não apresentaram muitos picos novos, significando que electroquímica não conduz a reações com um número alargado de produtos secundários.
Para visualizar o espaço reacional estudado a dimensionalidade do descritor foi reduzida com principal component analysis (PCA) e mapeada como um gráfico de densidade gaussiana. As reações efetuadas foram salientadas para identificar a diversidade e capacidade exploratória do algoritmo de decisão. As reações cobrem uma região alargada do espaço de procura, sendo ainda possível identificar zona privilegiadas de reação bem como outras onde a probabilidade de obter reações “produtivas” é reduzida. Este método de visualização permite a racionalização dos resultados e aumenta a intuição química, dado que pode ser utilizado como adjuvante à decisão, mesmo que não seja em conjunto com métodos de aprendizagem automática. À medida que as iterações prosseguiram o mapeamento do espaço químico evoluiu, sendo que reações em zonas menos densamente exploradas foram sequencialmente escolhidas. Finalmente, o conceito de entropia em teoria de informação foi utilizado para quantificar os ganhos de informação ao longo das iterações. Os resultados mostram que em média as reações escolhidas para execução são informativas, ao nível de reações escolhidas aleatoriamente, mas com um desvio padrão reduzido, o que indica a robustez do método implementado no que diz respeito a táticas de exploração em aprendizagem ativa.
Em conclusão, o modelo de aprendizagem automática aprendeu padrões de reatividade, de forma eficiente, e explorou o espaço de procura definido á priori. A formalização de curiosidade assente num mapa logístico resultou num modelo progressivamente mais curioso, fazendo sugestões para a execução de reações altamente informativas. 58% das reações executadas originaram um novo produto. O trabalho futuro assentará no scale up de reações selecionadas, isolamento dos produtos de reação e identificação estrutural.
In recent years, developments in renewable energy technologies have pushed electrochemistry to the forefront of research. This research study focused on the use of ML as a tool for predicting electrochemical reactions. Furthermore, by using electrochemistry and biomass derived building blocks, this research study leaned towards green chemistry principles. The use of a ML model, fitted with the logistic map equation added diversity and promoted chaos, pushing the model to be more curious and be more explorative. 30 reactions were done to initialize the model and 10 iterations of 5 reactions each were performed. Overall, I was able to predict reactions with 58% probability of yielding a productive result while still maintaining its explorative status. Leveraging the enormous exploratory capabilities offered by ML while reducing bias, the results demonstrate early indications of ML’s potential as a tool for predicting electrochemical reactions thereby opening opportunities for cleaner, more efficient, and highly selective reaction synthesis.
In recent years, developments in renewable energy technologies have pushed electrochemistry to the forefront of research. This research study focused on the use of ML as a tool for predicting electrochemical reactions. Furthermore, by using electrochemistry and biomass derived building blocks, this research study leaned towards green chemistry principles. The use of a ML model, fitted with the logistic map equation added diversity and promoted chaos, pushing the model to be more curious and be more explorative. 30 reactions were done to initialize the model and 10 iterations of 5 reactions each were performed. Overall, I was able to predict reactions with 58% probability of yielding a productive result while still maintaining its explorative status. Leveraging the enormous exploratory capabilities offered by ML while reducing bias, the results demonstrate early indications of ML’s potential as a tool for predicting electrochemical reactions thereby opening opportunities for cleaner, more efficient, and highly selective reaction synthesis.
Descrição
Tese de mestrado, Química Medicinal e Biofarmacêutica, 2023, Universidade de Lisboa, Faculdade de Farmácia.
Palavras-chave
Machine learning Bio-mass derived Electrochemistry Chaos theory Curiosity Teses de mestrado - 2023
