Unraveling compound taxonomies in untargeted metabolomics through artificial intelligence

Silva, Henrique dos Santos

http://hdl.handle.net/10451/56544

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Henrique_Silva.pdf		9.84 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Silva, Henrique dos Santos

Orientador(es)

Ferreira, António E. N.

Cordeiro, Carlos

Resumo(s)

A metabolómica é a identificação e quantificação do conjunto completo de metabolitos (metaboloma) numa amostra biológica – organismos inteiros, tecidos, culturas de células, etc. Metabolitos são moléculas de baixo peso molecular e apresentam-se como intermediários ou produto final de múltiplas reações enzimáticas, fazendo, portanto, parte do metabolismo das células e dando informação sobre o seu estado. Uma das principais técnicas para adquirir dados de metabolómica é a Espetrometria de Massa (MS), que se destaca pela sua elevada sensibilidade para uma grande diversidade de compostos químicos, permitindo uma maior cobertura do metaboloma. Particularmente, os Espetrómetros de Massa de Ressonância Ciclotrónica de Ião com Transformada de Fourier (FT-ICRMS) têm elevada exatidão de massa e conseguem atingir altíssimas resoluções, que resultam na reduzida necessidade de separação das amostras e permitem a identificação de padrões isotópicos de compostos de baixo peso molecular, como os metabolitos, tornando possível a atribuição desambigua da sua fórmula molecular. Antes de surgir a MS, era impossível obter as razões elementares de compostos individuais, pelo que esta caracterização era feita para amostras inteiras (ou frações destas). Em 1959, Dirk Willem van Krevlen propôs que a natureza química das amostras podia ser inferida a partir das razões elementares da amostra, o que levou ao que agora é conhecido como diagramas de van Krevlen (O/C vs H/C), que foram pela primeira vez usados para estudar amostras de petróleo e querosene. Desde então, este tipo de representação tem sido usado para a caracterização de amostras orgânicas noutro tipo de aplicações, como a caracterização das principais categorias de compostos de matéria orgânica natural. Em 2003, os diagramas de van Krevlen foram usados pela primeira vez para a representação de dados de MS em metabolómica, e desde então, têm sido bastante utilizados para o efeito. Baseado neste método de utilizar os diagramas de van Krevlen para classificar compostos, um novo método de classificação foi proposto (MSCC), que se baseia na imposição de restrições em 10 features das fórmulas químicas (O/C, H/C, N/C, P/C, N/P, O, N, P, S, e Massa) para classificar compostos em 6 categorias diferentes: Lípidos, Péptidos, Açúcares aminados, Glícidos, Nucleótidos e Compostos Fitoquímicos. Apesar deste método apresentar um aumento significativo de desempenho relativamente aos que eram baseados nos diagramas clássicos de van Krevlen, estas categorias são inespecíficas para descrever a complexidade do metaboloma de um organismo. A ChemOnt é uma taxonomia com uma hierarquia bem definida, um dicionário com anotações completas sobre cada uma das categorias, e um conjunto de regras de classificação que permitem que novas entidades (compostos) sejam também descritos. Isto permite uma classificação estrutural automática, baseada em regras bem definidas para todas as entidades químicas. A ChemOnt tem 11 níveis de classificação, sendo que os 4 primeiros níveis são, por ordem: Kingdom, Superclass, Class e Subclass. Tendo uma hierarquia bem definida, categorias bem descritas, e uma ferramenta automática de classificação de novos compostos, a ChemOnt é a taxonomia ideal para tarefas de classificação rápidas e de larga escala. A inteligência artificial tem como objetivo simular o comportamento humano em máquinas para resolver problemas complexos. O ML é uma sub-área da inteligência artificial, e faz com que as máquinas aprendam automaticamente pelos dados, sem serem explicitamente programadas para o fazer, e de forma a prever o resultado de novos dados. Algoritmos de aprendizagem supervisionada têm como objetivo fazer a correspondência entre um determinado input e o output correto, o que é feito por inferência de uma função através de dados de treino labelled. Os tipos mais comuns são tarefas de classificação, que separam os dados quando os labels representam uma variável discreta, e as tarefas de regressão quando os dados representam uma variável contínua. Este trabalho teve como principal objetivo criar um modelo de classificação de metabolitos mais robusto que o MSCC, usando métodos de inteligência artificial, que conseguem lidar com um grande número de features das fórmulas químicas, que poderão providenciar mais informação para a classificação, bem como uma taxonomia hierárquica mais descritiva. Para isso, irá aplicar-se uma estratégia hierárquica onde se usa um classificador local por cada parent node, usando algoritmos populares de ML para classificação: Random Forests (RF), K-nearest-neighbours (KNN), Logistic Regression (LR), Support Vector Machines (SVM), e Naive Bayes (NB). O dataset foi criado com compostos de 4 bases de dados diferentes: Human Metabolome Database, Kyoto Enciclopedia of Genes and Genomes Compounds, Lipid Maps Structural Database, e Chemical Entities of Biological Interest. As features usadas foram a contagem atómica de todos os elementos químicos, a sua carga, massa monoisotópica, a contagem total de alguns grupos de elementos, e as razões O/C, H/C, N/C, P/C, e N/P. Após a construção do dataset, foi feita uma divisão aleatória treino/teste de 33/67, de forma estratificada, portanto mantendo as proporções de cada classe. Para realizar o treino e tuning dos classificadores, utilizou-se o método de grid search, em que um classificador é treinado com diferentes combinações de parâmetros, com o objetivo de determinar qual o que tem a melhor generalização para dados que não foram vistos. Esta avaliação foi feita recorrendo ao método de stratified 3-fold cross-validation com o tuning baseado no F-score com média macro, que atribui o mesmo peso a cada uma das classes. A seleção das features foi realizada com base no mean decrease in Gini impurity (MDI) das RF, removendo features que estivessem correlacionadas de entre as selecionadas anteriormente A MDI revelou que de um total de 133 features, apenas 25 têm pelo menos 0.1 de importância em pelo menos um dos classificadores. Todos os classificadores necessários para a abordagem hierárquica foram treinados e otimizados com grid search usando os 5 algoritmos, e usando todas as features ou só as selecionadas para o classificador. O classificador dos compostos orgânicos ao nível da Superclass apresentava overfitting significativo. Foi testado um algoritmo de pruning (cost complexity pruning), que revelou ser ineficaz em diminuir o overfitting. Adicionalmente foram testadas duas estratégias binárias multiclass com as RF para treinar este classificador: output-code e one-vs-rest. A primeira foi aplicada diretamente com a implementação do scikit-learn. A segunda abordagem foi implementada recorrendo a um classificador binário por cada uma das classes a classificar, utilizando adicionalmente duas estratégias de amostragem aleatória do conjunto negativo de dados, de forma a combater o acentuado desequilíbrio no tamanho das classes existente no dataset. Estas abordagens revelaram também não ser eficazes para aumentar a performance do classificador. Fazendo uma média entre todos os classificadores treinados, foi possível observar que os algoritmos com melhor performance são, por ordem decrescente: RF, KNN, LR, SVM, e NB. Para o modelo de classificação, foi escolhido o melhor conjunto algoritmo/parâmetros de cada classificador, tendo sido excluído o algoritmo NB por nunca ser o único algoritmo com melhor resultado num classificador, e o SVM, uma vez que não retorna estimativas de probabilidade de previsão. Calculando a média ponderada do F1-score macro e micro no conjunto de validação dos classificadores em cada nível de classificação, foi possível concluir que a performance local dos classificadores não diminui ao longo de cada nível, permanecendo entre os 87-89% de exatidão nos 3 níveis de classificação para além do primeiro, que tem uma performance naturalmente melhor. O facto do F1-score macro ser melhor no último nível também indica que, mesmo com categorias mais específicas, a abordagem hierárquica é capaz de as distinguir e também que a composição química tem informação suficiente para o fazer. Relativamente à performance da abordagem hierárquica utilizada, também foi possível concluir que foi melhor que uma abordagem que não considerasse a hierarquia entre categorias do mesmo nível, particularmente para a classificação de classes mais pequenas e para diminuir a quantidade de recursos computacionais necessários para treinar um único classificador por nível. Para avaliar a performance do modelo de classificação, foram realizados dois tipos de validação: com o conjunto de teste do dataset inicial, e com dados de metabolómica de FT-ICR-MS. Para a previsão, foi utilizada uma abordagem top-down, assim como uma estratégia de blocking, onde a probabilidade de previsão multiplicativa em cada nível de previsão é sujeita a diferentes thresholds. Usando esta estratégia, a maioria dos compostos conseguem manter os 4 níveis de classificação com uma probabilidade maior ou igual a 0.95. O F1-score micro (exatidão), expectavelmente desce ao longo dos níveis da hierarquia. O nível Kingdom tem uma classificação praticamente perfeita (exatidão = 99,98%), no nível Superclass a exatidão é de 88,4% com 3 categorias (de 26) que não são previstas, no nível Class a exatidão é de 79,7% com 74 categorias (de 311) não previstas, e no nível Subclass a exatidão é de 74,6% com 192 categorias (de 724) não previstas. Comparando os resultados da estratégia de blocking, conclui-se também que se deve ter em atenção ao balanço entre a exatidão e a cobertura de compostos com previsão. Para a validação experimental foram usados dados obtidos por FT-ICR-MS de amostras de levedura, bem como de impressões digitais humanas. Apenas foram previstos “Compostos Orgânicos” em ambos os conjuntos de dados, com 100% de exatidão, sendo que no nível Superclass a exatidão é >92%, no nível Class >87% e no nível Subclass >78%.

FT-ICR-MS instruments have an ultra-high resolution and extreme mass accuracy, which allows for the unambiguous attribution of chemical formulas to metabolites. This work aimed to develop a tool for classifying FT-ICR-MS-based metabolomics that would use the annotated chemical formulas to classify metabolites into a more descriptive taxonomy than the ones in already developed classification systems. The ChemOnt taxonomy was used, which is hierarchical and with four main classification levels: Kingdom, Superclass, Class, and Subclass. AI approaches (ML classification algorithms) were used to build the classification model, using a local per parent node hierarchical approach. Five proven algorithms were used to train and tune each classifier: RF, KNN, LR, SVM, and NB. Tuning was performed with 3-fold cross-validation using the Grid Search algorithm based on the F1-score with macro average. Feature selection was performed using the MDI of RF, and one feature in pairwise correlated features was removed. MDI revealed that from a total of 133 features, only 25 had at least 0.1 importance in at least one of the classifiers. The “Organic compounds” classifier presented high overfitting. Cost-complexity pruning was used, however, performance did not increase, and overfitting did not decrease. Two multiclass approaches were used with this classifier: “output-code” and “one vs rest” with a sampling of the negatives. Neither has shown to increase the performance of the classifier as well. Performance of the algorithms was, in decreasing order: RF, KNN, LR, SVM, and NB. The last two algorithms were left out of the final classification model. Validation accuracy on the test set at each level was of 99,98% (Kingdom), 88,4% (Superclass), 79,7% (Class), and 74,6% (Subclass). Experimental validation with FT-ICR-MS data (yeast and human fingerprint) showed that there were only “Organic compounds”, with 100% accuracy, and at the remaining levels: Superclass (>92%), Class (>87%), and Subclass (>78%).

Descrição

Tese de Mestrado, Bioquímica, 2022, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Metabolómica FT-ICR-MS Classificação de metabolitos Aprendizagem Automática Teses de mestrado - 2023

URI

http://hdl.handle.net/10451/56544

Coleções

FC - Dissertações de Mestrado

Ver registo completo