Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10451/32673
Título: | Development of a computacional approach to predict the activity of new, lead-like, Kv modulators for chronic pain therapy |
Autor: | Pereira, Gilberto Paulo |
Orientador: | Pereira, Florbela Pinto, Francisco |
Palavras-chave: | Modelos QSAR Random Forest Screening virtual Kv Técnicas de aprendizagem automática Teses de mestrado - 2018 |
Data de Defesa: | 2018 |
Resumo: | Voltage-gated K+ (Kv) channels are responsible for membrane repolarization following an action potential and for setting the neuronal firing pattern. These channels are key players in several auto-immune diseases. These conditions include multiple sclerosis, rheumatoid arthritis and psoriasis, which are known to heavily impact the life of patients. It is also known that Kv channels play an important part in chronic pain syndrome. Chronic pain is defined as pain that outlives its protective role. It has nefarious socioeconomic consequences that extend farther than just the amount of money spent each year (over $500 billion dollars). The current therapies available for these physiopathologies are either ineffective or have serious side-effects. The goal of this project was to develop a QSAR model capable of predicting the activity of new compounds towards Kv channels, allowing the discovery of new lead-like Kv modulators which could be developed into new drugs to treat autoimmune diseases and for chronic pain therapy. Nowadays, computational approaches have been used to develop drugs targeting several diseases. The field of chemoinformatics can help decreasing the time and money invested into finding new lead-like compounds for a given target by, for example, creating QSAR models to virtually screen large chemical libraries. These models can also supply information which can be useful for compound optimization into a new drug. QSAR models derive mathematical structure-activity relationships from complex data sets and use these relationships to predict the activity of new compounds towards a given target. A two-step classification strategy was undertaken to build the models used in the virtual screening. Four different machine learning (ML) techniques were explored to build the models throughout this dissertation (Random Forest, Support Vector Machines, Multilayer Perceptron, k-Nearest Neighbor). However, the best models were built using the Random Forest ML technique. Several structural and fingerprint descriptor sets were also explored. The Kv modulators data set used to build the models comprised 340 compounds, clustered in 10 different structural classes. The first model, A1, was designed to predict two activity categories: IREL, irrelevant, corresponding to ineffective Kv modulators, and RELV, relevant, corresponding to the effective Kv modulators. The second model, A2, predicted two other activity categories: HRELV, high relevance, which refers to the highly effective Kv modulators, and LRELV, low relevance, which corresponds to the moderately effective Kv modulators. The A2 model was built to allow prioritization of the most promising Kv modulators found within the RELV category. The A1 model was built using CDK ExFP and CDK 3D descriptors and the A2 model was built using CDK GraphOnly and 3D CDK descriptors. These models were used to screen five natural products and two approved-drugs databases, comprising a total of 111179 and 2635 molecules respectively. Following the virtual screening, 20 compounds were selected for experimental validation according to their probability of belonging to the HRELV category (PHRELV). One approved drug, roxithromycin, and one natural product, compound A, were tested for their ability to affect outward K+ currents evoked in acutely isolated small diameter DRG neurons at 1000 nM concentration. Compound A caused alterations in the inactivation profiles of K+ currents, indicating that it is a new Kv modulator. Neither this compound nor its scaffold have been described as Kv modulators. As such, this new scaffold can lead to new autoimmune and chronic pain studies. Os canais de potássio dependentes da voltagem (Kv) têm a função de regular a repolarização da membrana após a ocorrência de um potencial de ação e de estabelecer o padrão de disparo dos neurónios. Estes são extremamente importantes na ocorrência e progressão de várias doenças autoimunes, tais como a artrite reumatoide e a esclerose múltipla. Além disso, resultados do laboratório do Professor Pedro Lima, em conjunção com estudos passados, parecem indicar que estes canais têm um papel importante no contexto da dor crónica. A dor crónica é caracterizada por persistir para lá do tempo necessário para a regeneração do tecido, acarretando consequências nefastas para a sociedade. Nos Estado Unidos da América (EUA), os custos relativos à dor crónica ultrapassam os 500 mil milhões de dólares, anualmente, e estima-se que a sua prevalência se encontre entre os 2% e os 40% da população adulta. Em Portugal, a prevalência da dor crónica foi estimada em 37% da população adulta. As terapias existentes atualmente para ambas as fisiopatologias ou são ineficazes ou têm efeitos secundários sérios, podendo causar dependências gravíssimas. O objetivo desde projeto foi desenvolver um modelo QSAR capaz de prever a atividade de novos compostos, de modo a identificar novos moduladores, altamente eficazes, de canais Kv. Estes compostos poderão posteriormente ser otimizados, dando origem a novos fármacos para suprir a necessidade crescente de tratamentos para estas condições fisiopatológicas. O campo da quimioinformática permite reduzir o tempo e investimento necessários para identificar novos compostos líderes através, por exemplo, do desenvolvimento de modelos computacionais capazes de analisar grandes bases de dados químicas virtuais. Estes modelos também são capazes de fornecer informação útil para a otimização destes compostos em fármacos para tratar determinada condição ou doença. Modelos QSAR são modelos capazes de identificar relações de estrutura-atividade entre moléculas de uma base de dados e utilizar essas relações para prever a atividade de compostos em relação a um alvo específico. Para construir os modelos utilizados no screening virtual, uma estratégia de classificação em dois passos foi explorada. No total, o conjunto de moduladores de canais Kv utilizado para construir os modelos continha 340 moléculas, classificadas em 10 classes estruturais. Quatro técnicas de aprendizagem automática foram utilizadas ao longo deste projeto (Random Forest, Support Vector Machines, Multilayer Perceptron e k-Nearest Neighbor). Inicialmente, construíram-se modelos de regressão de modo a prever a atividade de compostos presentes em bases de dados de produtos naturais e fármacos aprovados para identificar novos modeladores, altamente eficazes, destes canais. Os modelos de regressão, no entanto, não apresentavam indicadores de performance aceitáveis, tendo um R2 baixo e um RMSE comparativamente alto. Estes modelos foram inicialmente construídos explorando descritores fingerprint e estruturais (1D, 2D e 3D). Os descritores 3D foram calculados para três tipos distintos de alinhamento do conjunto de 340 moduladores (sem alinhamento, após alinhamento global e após alinhamento considerando classes estruturais). Foram calculados descritores 3D a partir do software CDK e a partir de um programa in-house que utiliza a função de distribuição radial (RDF). Três conjuntos de descritores RDF foram calculados, com condições de cálculo diferentes entre si, utilizando a carga parcial atómica como propriedade. Tentou-se explorar dois tipos de cargas parciais atómicas: as cargas NBO, calculadas a partir do software JAS, e as cargas PEOE, calculadas a partir da ferramenta CXCALC da ChemAxon. A comparação entre o melhor modelo construído com a Random Forest e os modelos construídos usando outras técnicas de aprendizagem automática mostra que o modelo construído usando a Random Forest tinha a melhor performance. Devido aos resultados para a abordagem de regressão, optou-se por uma estratégia de classificação usando dois modelos. Os modelos foram construídos através da técnica de aprendizagem automática Random Forest explorando descritores fingerprint e estruturais. Primeiramente construiu-se um modelo, A1, capaz de prever duas categorias de atividade: RELV, correspondente a moduladores eficazes e IREL, correspondente a moduladores ineficazes. Seguidamente, construiu-se um segundo modelo, A2, capaz de prever mais duas categorias de atividade: HRELV, correspondente a moduladores altamente eficazes, e LRELV, correspondente a moduladores pouco eficazes. Este segundo modelo foi desenvolvido para permitir a priorização dos compostos RELV mais promissores. O modelo A1 foi construído com descritores CDK ExFP e descritores 3D CDK, enquanto que o modelo A2 foi construído com descritores CDK GraphOnly e descritores 3D CDK. O modelo A1 foi construído utilizando o conjunto dos 150 descritores mais importantes do conjunto CDK ExFP3D (CDK ExFP3D_B150). Para este modelo, no conjunto de treino, obteve-se: previsibilidade geral (Q) = 0.819, sensibilidade (SE) = 0.847, especificidade = 0.788 e coeficiente de correlação de Matthews (MCC) = 0.637. Os valores destes parâmetros para o conjunto de teste do modelo A1 foram: Q = 0.833, SE = 1, SP = 0.636 e MCC = 0.698. O modelo A2 foi construído usando o conjunto dos 150 descritores mais importantes do conjunto CDK GraphOnly3D (CDK GraphOnly3D_B150). Para o conjunto treino do modelo A2, os parâmetros obtidos foram: Q = 0.8, SE = 0.733, SP = 0.853 e MCC = 0.592. Para o conjunto de teste do modelo A2, os parâmetros foram: Q = 0.692, SE = 0.833, SP = 0.571 e MCC = 0.415. Estes modelos foram otimizados através da adição de descritores 3D e de seleção de descritores. Durante o procedimento de otimização dos modelos de classificação só se utilizaram descritores 3D calculados sem alinhamento prévio do conjunto de 340 moduladores de canais Kv e não se utilizou o conjunto de descritores RdfNor. Foram também obtidos os 10 descritores, fragmentos estruturais e características subestruturais mais importantes para cada categoria de atividade de cada modelo de classificação. Os 10 descritores mais importantes para cada categoria de atividade de cada modelo foram obtidos diretamente dos modelos A1 e A2 enquanto que os 10 fragmentos estruturais e características subestruturais mais importantes para cada categoria de atividade de cada modelo foram obtidos a partir de modelos construídos usando conjuntos de descritores MACCS3D e Substruture3D, respetivamente. Estes descritores, fragmentos estruturais e características subestruturais foram selecionados usando o parâmetro da Random Forest MSE Importance. Devido à obtenção de erros de previsão da categoria de atividade para os conjuntos de teste de cada modelo, limiares de aceitação foram definidos. Estes limiares foram definidos utilizando o valor da probabilidade de uma molécula pertencer à categoria de atividade RELV (PRELV) para o primeiro modelo (A1) e à categoria HRELV (PHRELV) para o segundo modelo (A2). Os limiares foram definidos como os valores mínimo de PRELV e PHRELV para os quais não se obtêm erros de previsão da categoria de atividade para os respetivos modelos. O domínio de aplicabilidade dos modelos foi definido através dos valores médios da distância de cada molécula do conjunto de teste ao conjunto de treino (ASD), calculada após submissão do conjunto de teste a um mapa auto-organizativo (SOM) construído usando o conjunto treino, das classes previstas pelo SOM para cada molécula do conjunto teste e do valor de PRELV para cada molécula do conjunto teste. Para a classe A, correspondente aos derivados de correolido, foram definidos limiares de ASD, PRELV e PHRELV diferentes. Cinco bases de dados de produtos naturais e duas bases de dados de drogas aprovadas foram analisadas em busca de novos moduladores, altamente eficazes, para canais Kv. Obtiveram-se 39 potenciais moduladores altamente eficazes após o procedimento de screening virtual, a partir dos quais se escolheram 20 compostos para validação experimental de acordo com a probabilidade dos compostos pertencerem à categoria de atividade HRELV. Destes 20 compostos, uma droga, roxithromycin, e um produto natural, composto A, foram testados quanto à sua capacidade de modelar correntes positivas de potássio em neurónios do gânglio da raiz dorsal através da técnica whole-cell voltage clamp. O composto A causou alterações no perfil de inactivação das correntes totais de potássio, após a sua aplicação, indicando que este composto é um modelador de Kv. Nem este composto nem a sua família estrutural foram descritos como tendo atividade enquanto moduladores de canais Kv e, portanto, poderão dar origem a novas terapêuticas, tanto para doenças autoimunes, como para a síndrome de dor crónica. |
Descrição: | Tese de mestrado, Bioquímica (Bioquímica Médica) Universidade de Lisboa, Faculdade de Ciências, 2018 |
URI: | http://hdl.handle.net/10451/32673 |
Designação: | Mestrado em Bioquímica (Bioquímica Médica) |
Aparece nas colecções: | FC - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
ulfc124128_Gilberto_Pereira.pdf | 243,89 kB | Adobe PDF | Ver/Abrir Acesso Restrito. Solicitar cópia ao autor! |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.