| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 9.84 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
A metabolómica é a identificação e quantificação do conjunto completo de metabolitos
(metaboloma) numa amostra biológica – organismos inteiros, tecidos, culturas de células, etc.
Metabolitos são moléculas de baixo peso molecular e apresentam-se como intermediários ou produto
final de múltiplas reações enzimáticas, fazendo, portanto, parte do metabolismo das células e dando
informação sobre o seu estado. Uma das principais técnicas para adquirir dados de metabolómica é a
Espetrometria de Massa (MS), que se destaca pela sua elevada sensibilidade para uma grande
diversidade de compostos químicos, permitindo uma maior cobertura do metaboloma. Particularmente,
os Espetrómetros de Massa de Ressonância Ciclotrónica de Ião com Transformada de Fourier (FT-ICRMS) têm elevada exatidão de massa e conseguem atingir altíssimas resoluções, que resultam na reduzida
necessidade de separação das amostras e permitem a identificação de padrões isotópicos de compostos
de baixo peso molecular, como os metabolitos, tornando possível a atribuição desambigua da sua
fórmula molecular.
Antes de surgir a MS, era impossível obter as razões elementares de compostos individuais, pelo
que esta caracterização era feita para amostras inteiras (ou frações destas). Em 1959, Dirk Willem van
Krevlen propôs que a natureza química das amostras podia ser inferida a partir das razões elementares
da amostra, o que levou ao que agora é conhecido como diagramas de van Krevlen (O/C vs H/C), que
foram pela primeira vez usados para estudar amostras de petróleo e querosene. Desde então, este tipo
de representação tem sido usado para a caracterização de amostras orgânicas noutro tipo de aplicações,
como a caracterização das principais categorias de compostos de matéria orgânica natural. Em 2003, os
diagramas de van Krevlen foram usados pela primeira vez para a representação de dados de MS em
metabolómica, e desde então, têm sido bastante utilizados para o efeito. Baseado neste método de utilizar
os diagramas de van Krevlen para classificar compostos, um novo método de classificação foi proposto
(MSCC), que se baseia na imposição de restrições em 10 features das fórmulas químicas (O/C, H/C,
N/C, P/C, N/P, O, N, P, S, e Massa) para classificar compostos em 6 categorias diferentes: Lípidos,
Péptidos, Açúcares aminados, Glícidos, Nucleótidos e Compostos Fitoquímicos. Apesar deste método
apresentar um aumento significativo de desempenho relativamente aos que eram baseados nos
diagramas clássicos de van Krevlen, estas categorias são inespecíficas para descrever a complexidade
do metaboloma de um organismo.
A ChemOnt é uma taxonomia com uma hierarquia bem definida, um dicionário com anotações
completas sobre cada uma das categorias, e um conjunto de regras de classificação que permitem que
novas entidades (compostos) sejam também descritos. Isto permite uma classificação estrutural
automática, baseada em regras bem definidas para todas as entidades químicas. A ChemOnt tem 11
níveis de classificação, sendo que os 4 primeiros níveis são, por ordem: Kingdom, Superclass, Class e
Subclass. Tendo uma hierarquia bem definida, categorias bem descritas, e uma ferramenta automática
de classificação de novos compostos, a ChemOnt é a taxonomia ideal para tarefas de classificação
rápidas e de larga escala.
A inteligência artificial tem como objetivo simular o comportamento humano em máquinas para
resolver problemas complexos. O ML é uma sub-área da inteligência artificial, e faz com que as
máquinas aprendam automaticamente pelos dados, sem serem explicitamente programadas para o fazer,
e de forma a prever o resultado de novos dados. Algoritmos de aprendizagem supervisionada têm como
objetivo fazer a correspondência entre um determinado input e o output correto, o que é feito por
inferência de uma função através de dados de treino labelled. Os tipos mais comuns são tarefas de
classificação, que separam os dados quando os labels representam uma variável discreta, e as tarefas de
regressão quando os dados representam uma variável contínua. Este trabalho teve como principal objetivo criar um modelo de classificação de metabolitos mais
robusto que o MSCC, usando métodos de inteligência artificial, que conseguem lidar com um grande
número de features das fórmulas químicas, que poderão providenciar mais informação para a
classificação, bem como uma taxonomia hierárquica mais descritiva. Para isso, irá aplicar-se uma
estratégia hierárquica onde se usa um classificador local por cada parent node, usando algoritmos
populares de ML para classificação: Random Forests (RF), K-nearest-neighbours (KNN), Logistic
Regression (LR), Support Vector Machines (SVM), e Naive Bayes (NB).
O dataset foi criado com compostos de 4 bases de dados diferentes: Human Metabolome Database,
Kyoto Enciclopedia of Genes and Genomes Compounds, Lipid Maps Structural Database, e Chemical
Entities of Biological Interest. As features usadas foram a contagem atómica de todos os elementos
químicos, a sua carga, massa monoisotópica, a contagem total de alguns grupos de elementos, e as razões
O/C, H/C, N/C, P/C, e N/P. Após a construção do dataset, foi feita uma divisão aleatória treino/teste de
33/67, de forma estratificada, portanto mantendo as proporções de cada classe. Para realizar o treino e
tuning dos classificadores, utilizou-se o método de grid search, em que um classificador é treinado com
diferentes combinações de parâmetros, com o objetivo de determinar qual o que tem a melhor
generalização para dados que não foram vistos. Esta avaliação foi feita recorrendo ao método de
stratified 3-fold cross-validation com o tuning baseado no F-score com média macro, que atribui o
mesmo peso a cada uma das classes. A seleção das features foi realizada com base no mean decrease in
Gini impurity (MDI) das RF, removendo features que estivessem correlacionadas de entre as
selecionadas anteriormente
A MDI revelou que de um total de 133 features, apenas 25 têm pelo menos 0.1 de importância em
pelo menos um dos classificadores. Todos os classificadores necessários para a abordagem hierárquica
foram treinados e otimizados com grid search usando os 5 algoritmos, e usando todas as features ou só
as selecionadas para o classificador. O classificador dos compostos orgânicos ao nível da Superclass
apresentava overfitting significativo. Foi testado um algoritmo de pruning (cost complexity pruning),
que revelou ser ineficaz em diminuir o overfitting. Adicionalmente foram testadas duas estratégias
binárias multiclass com as RF para treinar este classificador: output-code e one-vs-rest. A primeira foi
aplicada diretamente com a implementação do scikit-learn. A segunda abordagem foi implementada
recorrendo a um classificador binário por cada uma das classes a classificar, utilizando adicionalmente
duas estratégias de amostragem aleatória do conjunto negativo de dados, de forma a combater o
acentuado desequilíbrio no tamanho das classes existente no dataset. Estas abordagens revelaram
também não ser eficazes para aumentar a performance do classificador.
Fazendo uma média entre todos os classificadores treinados, foi possível observar que os algoritmos
com melhor performance são, por ordem decrescente: RF, KNN, LR, SVM, e NB. Para o modelo de
classificação, foi escolhido o melhor conjunto algoritmo/parâmetros de cada classificador, tendo sido
excluído o algoritmo NB por nunca ser o único algoritmo com melhor resultado num classificador, e o
SVM, uma vez que não retorna estimativas de probabilidade de previsão.
Calculando a média ponderada do F1-score macro e micro no conjunto de validação dos
classificadores em cada nível de classificação, foi possível concluir que a performance local dos
classificadores não diminui ao longo de cada nível, permanecendo entre os 87-89% de exatidão nos 3
níveis de classificação para além do primeiro, que tem uma performance naturalmente melhor. O facto
do F1-score macro ser melhor no último nível também indica que, mesmo com categorias mais
específicas, a abordagem hierárquica é capaz de as distinguir e também que a composição química tem
informação suficiente para o fazer. Relativamente à performance da abordagem hierárquica utilizada,
também foi possível concluir que foi melhor que uma abordagem que não considerasse a hierarquia entre categorias do mesmo nível, particularmente para a classificação de classes mais pequenas e para
diminuir a quantidade de recursos computacionais necessários para treinar um único classificador por
nível.
Para avaliar a performance do modelo de classificação, foram realizados dois tipos de validação:
com o conjunto de teste do dataset inicial, e com dados de metabolómica de FT-ICR-MS. Para a
previsão, foi utilizada uma abordagem top-down, assim como uma estratégia de blocking, onde a
probabilidade de previsão multiplicativa em cada nível de previsão é sujeita a diferentes thresholds.
Usando esta estratégia, a maioria dos compostos conseguem manter os 4 níveis de classificação com
uma probabilidade maior ou igual a 0.95. O F1-score micro (exatidão), expectavelmente desce ao longo
dos níveis da hierarquia. O nível Kingdom tem uma classificação praticamente perfeita (exatidão =
99,98%), no nível Superclass a exatidão é de 88,4% com 3 categorias (de 26) que não são previstas, no
nível Class a exatidão é de 79,7% com 74 categorias (de 311) não previstas, e no nível Subclass a
exatidão é de 74,6% com 192 categorias (de 724) não previstas. Comparando os resultados da estratégia
de blocking, conclui-se também que se deve ter em atenção ao balanço entre a exatidão e a cobertura de
compostos com previsão. Para a validação experimental foram usados dados obtidos por FT-ICR-MS
de amostras de levedura, bem como de impressões digitais humanas. Apenas foram previstos
“Compostos Orgânicos” em ambos os conjuntos de dados, com 100% de exatidão, sendo que no nível
Superclass a exatidão é >92%, no nível Class >87% e no nível Subclass >78%.
FT-ICR-MS instruments have an ultra-high resolution and extreme mass accuracy, which allows for the unambiguous attribution of chemical formulas to metabolites. This work aimed to develop a tool for classifying FT-ICR-MS-based metabolomics that would use the annotated chemical formulas to classify metabolites into a more descriptive taxonomy than the ones in already developed classification systems. The ChemOnt taxonomy was used, which is hierarchical and with four main classification levels: Kingdom, Superclass, Class, and Subclass. AI approaches (ML classification algorithms) were used to build the classification model, using a local per parent node hierarchical approach. Five proven algorithms were used to train and tune each classifier: RF, KNN, LR, SVM, and NB. Tuning was performed with 3-fold cross-validation using the Grid Search algorithm based on the F1-score with macro average. Feature selection was performed using the MDI of RF, and one feature in pairwise correlated features was removed. MDI revealed that from a total of 133 features, only 25 had at least 0.1 importance in at least one of the classifiers. The “Organic compounds” classifier presented high overfitting. Cost-complexity pruning was used, however, performance did not increase, and overfitting did not decrease. Two multiclass approaches were used with this classifier: “output-code” and “one vs rest” with a sampling of the negatives. Neither has shown to increase the performance of the classifier as well. Performance of the algorithms was, in decreasing order: RF, KNN, LR, SVM, and NB. The last two algorithms were left out of the final classification model. Validation accuracy on the test set at each level was of 99,98% (Kingdom), 88,4% (Superclass), 79,7% (Class), and 74,6% (Subclass). Experimental validation with FT-ICR-MS data (yeast and human fingerprint) showed that there were only “Organic compounds”, with 100% accuracy, and at the remaining levels: Superclass (>92%), Class (>87%), and Subclass (>78%).
FT-ICR-MS instruments have an ultra-high resolution and extreme mass accuracy, which allows for the unambiguous attribution of chemical formulas to metabolites. This work aimed to develop a tool for classifying FT-ICR-MS-based metabolomics that would use the annotated chemical formulas to classify metabolites into a more descriptive taxonomy than the ones in already developed classification systems. The ChemOnt taxonomy was used, which is hierarchical and with four main classification levels: Kingdom, Superclass, Class, and Subclass. AI approaches (ML classification algorithms) were used to build the classification model, using a local per parent node hierarchical approach. Five proven algorithms were used to train and tune each classifier: RF, KNN, LR, SVM, and NB. Tuning was performed with 3-fold cross-validation using the Grid Search algorithm based on the F1-score with macro average. Feature selection was performed using the MDI of RF, and one feature in pairwise correlated features was removed. MDI revealed that from a total of 133 features, only 25 had at least 0.1 importance in at least one of the classifiers. The “Organic compounds” classifier presented high overfitting. Cost-complexity pruning was used, however, performance did not increase, and overfitting did not decrease. Two multiclass approaches were used with this classifier: “output-code” and “one vs rest” with a sampling of the negatives. Neither has shown to increase the performance of the classifier as well. Performance of the algorithms was, in decreasing order: RF, KNN, LR, SVM, and NB. The last two algorithms were left out of the final classification model. Validation accuracy on the test set at each level was of 99,98% (Kingdom), 88,4% (Superclass), 79,7% (Class), and 74,6% (Subclass). Experimental validation with FT-ICR-MS data (yeast and human fingerprint) showed that there were only “Organic compounds”, with 100% accuracy, and at the remaining levels: Superclass (>92%), Class (>87%), and Subclass (>78%).
Descrição
Tese de Mestrado, Bioquímica, 2022, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
Metabolómica FT-ICR-MS Classificação de metabolitos Aprendizagem Automática Teses de mestrado - 2023
