Binary similarity measures and mass-difference network analysis as effective tools in metabolomics data analysis

Traquete, Francisco Maria Reis Ventura Rosado

http://hdl.handle.net/10451/47652

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
ulfc126200_tm_Francisco_Traquete.pdf		6.2 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Traquete, Francisco Maria Reis Ventura Rosado

Orientador(es)

Ferreira, António Eduardo do Nascimento,1964-

Ferreira, Marta Filomena de Sousa Silva

Resumo(s)

A metabolómica é um campo emergente na biologia de sistemas que visa realizar uma análise global do metaboloma de um sistema biológico ao identificar e quantificar todos os seus metabolitos. Devido à alta diversidade na concentração, estrutura e caraterísticas químicas dos metabolitos, esta é uma tarefa complexa que requer a utilização de metodologias de alta resolução como espetrometria de massa (MS, Mass Spectrometry) ou ressonância magnética nuclear (NMR, Nuclear Magnetic Resonance). Apesar destes métodos não identificarem todos os metabolitos presentes num sistema (devido a limitações na gama dinâmica dos instrumentos utilizados e a preferência de cada abordagem para certos tipos de metabolitos), estes oferecem uma visão aproximada do metaboloma completo. A complexidade dos dados obtidos requerem primeiro um pré-processamento e depois um pré tratamento adequados para extrair a informação presente. Assim, ambas estas etapas são cruciais no fluxo normal de trabalho em metabolómica e, como tal, devem ser ponderados e escolhidos cuidadosamente. Sendo que muitos factores afectam significativamente o metaboloma de um sistema biológico, dados de metabolómica têm sido usados com sucesso na discriminação de amostras de diferentes sistemas e para a identificação de metabolitos chave que suportam esta discriminação, através de variados métodos estatísticos. O pré-processamento gera um conjunto de dados 2D com caraterísticas (normalmente picos m/z em análise MS) num eixo e amostras no outro. Na formação destes dados surgem valores em falta – amostras que não têm caraterísticas presentes noutras amostras. Sendo que diversos métodos estatísticos não suportam a existência de valores em falta, são aplicados métodos de filtração de picos para reduzir o número destes; seguidos da aplicação de um método de imputação dos valores em falta que restam após filtração. A análise de dados procede com a aplicação de pré-tratamentos que podem ser divididos em três sub-categorias – normalizações (incluído às vezes no pré-processamento), transformações e scaling. Uma combinação de métodos destas categorias é utilizado para extrair e destacar a variação biológica significativa entre as amostras. Contudo, todos estes métodos tradicionais destacam os padrões de intensidades entre as caraterísticas em detrimento de outras informações importantes no contexto da metabolómica como a presença e ausência destas nas amostras. Um possível problema desta utilização para a análise de dados de metabolómica é a intensidade ter uma variabilidade elevada mesmo entre amostras do mesmo grupo. Esta variabilidade aumenta ainda mais quando analisadas em lotes experimentais diferentes, instrumentos diferentes com preparação de amostras diferentes, métodos ou parâmetros de pré processamento diferentes, entre outros, originando uma baixa reprodutibilidade dos dados. A dificuldade da identificação estrutural inequívoca dos metabolitos chave na discriminação de grupos coloca-se como outro problema na análise de dados. O objetivo deste trabalho foi desenvolver duas novas abordagens para a análise computacional de dados de metabolómica, no contexto da caraterização e discriminação de amostras biológicas. Estes tratamentos descartam a informação de sinais da intensidade predominantemente utilizada pelos métodos de tratamento estabelecidos, de forma a evitar a elevada variabilidade desta, concentrando-se noutros aspectos dos dados, o que deve oferecer uma nova perspetiva sobre estes. Como parte deste desenvolvimento, uma avaliação sistemática da performance destes tratamentos para um set seleccionado de conjuntos de dados de MS de alta resolução foi outro objetivo principal do trabalho. Três combinações de métodos de pré-tratamento tradicionais foram comparadas na análise de resultados: 1) Pareto scaling; 2) Normalização por uma caraterística de referência e Pareto scaling; 3) Normalização, transformação logarítmica generalizada e Pareto scaling. Foram utilizados dois conjuntos de dados metabolómica de videira (Vitis) contendo 3 réplicas de 11 variedades cada – um obtido por electrospray em modo negativo de ionização (ESI- ) e outro em modo positivo de ionização (ESI+ ) – e um conjunto de dados de 3 réplicas de 5 estirpes de leveduras, utilizando ou a lista de picos m/z ou fórmulas atribuídas aos picos (quando possível) como caraterísticas. Semelhança binária (BinSim, Binary Similarity) é a primeira abordagem desenvolvida, sendo baseada no conceito de considerar exclusivamente a ocorrência de características espectrais. A ideia é que o conjunto de metabolitos identificados por métodos de alta resolução é caraterístico dos diferentes sistemas e pode ser utilizado para os discriminar, conseguindo obter resultados mais consistentes devido à menor variabilidade da identificação de metabolitos em relação à informação dos sinais de intensidade (descartada). Este método consiste na construção de um vector binário para cada amostra que codifica a presença de uma caraterística como 1 e ausência como 0 que pode ser usado para transformar os dados antes da aplicação de métodos estatísticos para caraterizar e classificar amostras. A simplicidade deste método encontra-se no facto de que necessita (e até prefere) pouca filtração de picos e de que salta a escolha dos métodos de imputação de valores em falta e combinação de normalizações, transformações e scaling a usar, acelerando a análise de dados. Utilizando métodos de agrupamento de amostras (não supervisionados) e modelos de classificação (supervisionados), a qualidade da discriminação das amostras nos seus respetivos grupos em dados transformados com BinSim foi consistentemente semelhante ou ligeiramente melhor do que quando tratados com tratamentos baseados em intensidade, levando, quase sempre, à melhor ou segunda melhor discriminação (dos 4 tratamentos comparados). Uma discriminação perfeita foi atingida nos dados da levedura em todos os métodos estatísticos usados; nos dados da videira, métodos não supervisionados agruparam corretamente cerca de metade dos grupos e os métodos de classificação supervisionados (Random Forest e Partial Least Squares - Discrimination Analysis, PLS-DA) previram com cerca de 80% de precisão os grupos das amostras. Para observar se esta discriminação era obtida por informação menos usada pelos métodos tradicionais, retirou-se os 2% de caraterísticas consideradas mais importantes para construir os modelos de classificação de Random Forest e de PLS-DA dos dados tratados das diferentes formas. Este conjunto de caraterísticas importantes nos dados tratados com o BinSim é muito distinto, tendo um grande número de caraterísticas apenas presentes neste (73,5% em média) em comparação com os conjuntos obtidos dos modelos construídos de dados tratados de forma diferente. Além disso, estas apareciam num pequeno número de grupos (em comparação com os restantes casos), ou seja, eram caraterísticas com muitos valores em falta e que, por isso, são muitas vezes filtradas. Nas caraterísticas importantes para construir modelos Random Forest nos dados da levedura, esta tendência foi mais acentuada com características importantes a aparecerem predominantemente apenas num grupo, ou seja, a atuarem como biomarcadores desse grupo nos dados estudados. Conclui-se, então, que a informação obtida por este tratamento é distinta em relação aos outros tratamentos baseados em intensidade no fluxo de trabalho da metabolómica. A segunda abordagem consiste em construir uma rede de diferença de massas (MDiN, Mass Difference Network) para cada amostra de um conjunto de dados e discriminar estas pela comparação das suas caraterísticas. MDiN foi um conceito originalmente desenvolvido por Breitling et al. que usa a lista de massas de dados de metabolómica como vértices/nós na rede e um conjunto de diferença de massas que estabelece arestas entre os vértices com diferenças que se enquadram nesse conjunto. Cada diferença de massa (MDB, Mass-Difference-based Building block) corresponde a uma diferença na fórmula elementar de um metabolito após a ocorrência de uma reação bioquímica comum (enzimática ou não enzimática). Assim, para cada amostra, forma-se uma rede semelhante, conceptualmente, às redes metabólicas mas gerada apenas pela informação do conjunto de dados. Cada rede tem a informação das possíveis transformações biologicamente significativas entre os metabolitos presentes que podem ocorrer num contexto biológico, enfatizando, a presença destas interações sobre a intensidade de cada caraterística. Apesar da complexidade, as redes construídas podem ser analisadas e comparadas de inúmeras formas diferentes, mostrando ter uma grande versatilidade no modo como podem ser usadas, sendo esta a principal vantagem do método. As redes construídas foram analisadas por diferentes métodos de análise de redes: focadas na centralidade dos nós (grau, intermediação e proximidade), ou nas caraterísticas globais das redes como no número de vezes que cada MDB foi usada para estabelecer arestas e na topologia da rede (usando o GCD-11, Graphlet Correlation Distance using 11 graphlet orbits). Comparando os resultados das análises por variados métodos estatísticos, a análise da centralidade dos nós, especificamente do grau, permitiu a melhor discriminação das amostras nos seus grupos. Resultados indicaram que a análise de cada nó pelas suas possíveis interações permite uma discriminação dos grupos semelhante à alcançada quando os dados são tratados com os tratamentos tradicionais mencionados anteriormente. Contudo, a análise das caraterísticas globais das redes deu indicações que poderá demonstrar diferenças importantes e biologicamente significativas gerais do metabolismo ao nível da proeminência de diferentes tipos de reações no sistema. Conclui-se, então, que ambas as abordagens são viáveis na análise de dados de metabolómica, extraindo informação que pode ser utilizada para discriminar as amostras dos conjuntos de dados. A sua diferente perspetiva também permite que sejam usados numa análise que complemente a de outros tratamentos. Ainda mais, como estes tratamentos enfatizam informação com menos variabilidade do que a intensidade, têm um grande potencial na análise de múltiplos conjuntos de dados obtidos com diferentes instrumentos, laboratórios, entre outras hipóteses dos mesmos grupos biológicos, abrindo portas para estudos futuros que se possam focar na viabilidade destas estratégias neste contexto.

Metabolomics is an emerging field in systems biology that aims to perform a comprehensive analysis of a biological system’s metabolome by identifying and quantifying all its metabolites. Due to their high diversity in concentration, structure and chemical characteristics, this is an extremely complex task which requires high resolution methodologies such as mass spectrometry (MS) or nuclear magnetic resonance (NMR) to provide an approximated overview of the metabolome. These analyses also generate complex data, which, in turn, requires first suitable pre-processing and then pre-treatment to be properly analysed – crucial steps in the workflow that must be pondered and carefully applied. Since there are many factors that significantly affect the metabolome, metabolomics data obtained from different sources and conditions has successfully been used to discriminate samples of biological systems and to find key metabolites supporting that discrimination. The pre-processing of the data generates a 2D-dataset with features (usually m/z peaks for MS analysis) on one axis and samples on the other. Subsequent data analysis aims to extract and highlight the significant biological variation between samples over the background variation in the data. Traditional data analysis in metabolomics focuses primarily on the comparison of intensity of the features in the samples rather than on information such as their presence/absence in each sample. However, a major problem of this analysis is the high variability of the intensity data between different samples (even of the same biological system) when analysed in different experimental batches, instruments, pre-processed with different methods or parameters, etc., which leads to a low level of reproducibility. Another bottleneck is the unambiguous structural identification of the metabolites that can be key in discriminating between the studied systems. The aim of this work was to develop two new approaches for the computational analysis of metabolomics data, in the context of profiling and discrimination of biological samples. As part of this development, a systematic evaluation of their performance when compared to more established methods for selected high-resolution MS datasets was also a major goal. The first approach is based on the concept of considering only the occurrence of spectral features to construct a binary sample vector encoding feature presence as 1 and absence as 0. The use of such data encoding, followed by the adoption of binary metrics of sample distance, can be used as a pre-treatment method to transform data before the application of unsupervised and supervised methods related to profiling and classification. While using such pre-treatment, called Binary Similarity (BinSim) effectively discards information contained in the metabolite signal intensities, the resulting data has less variability than intensity data and more consistent results on the discrimination of biological systems can be obtained. Furthermore, BinSim greatly simplifies the analysis by skipping most of the peak filtering, and the choice of the missing value imputation, normalization and scaling methods to use. The performance of statistical methods in discriminating the datasets transformed with BinSim was consistently as good as or slightly better than datasets treated with different combinations of traditional, intensity-based, pre-treatments. In the former, features that appeared in one (biomarker like) or a few of the groups were the most important to build discriminant classifiers, which was markedly different from those computed from datasets treated in traditional ways, emphasizing the new perspective that BinSim offers. The second approach is based on the construction of a Mass-Difference Network (MDiN) for each sample, using masses as nodes and a set of mass differences derived from common biochemical reactions to establish edges. The information in the network is the possible transformations between the identified metabolites that could happen in a biological context. Results from different network analysis on sample MDiNs were compared using statistical methods to discriminate the samples into their respective groups. Analysis that focused on node centrality measures, especially their degree, allowed a better discrimination of the samples compared to analysis focused on global network characteristics and was on par with the discrimination achieved in the same datasets treated with more established intensity-based methods, while offering the versatility of other network analysis methods on the sample MDiNs to complement the discrimination.

Descrição

Tese de mestrado em Bioquímica (Bioquímica Médica), Universidade de Lisboa, Faculdade de Ciências, 2020

Palavras-chave

Metabolómica Análise de dados Tratamento de dados Análise estatística Análise de redes Teses de mestrado - 2020

URI

http://hdl.handle.net/10451/47652

Coleções

FC - Dissertações de Mestrado

Ver registo completo