Repository logo
 
Loading...
Thumbnail Image
Publication

Enhancing analytical method confidence : a data-driven approach for analytical method performance optimization and prediction

Use this identifier to reference this record.
Name:Description:Size:Format: 
TM_Ana_Sofia_Araújo.pdf1.68 MBAdobe PDF Download

Abstract(s)

Cada medição está sujeita a algum nível de incerteza. A incerteza origina-se dos instrumentos de medição, da amostra que está a ser medida, do ambiente, do operador e de outras fontes. A incerteza de medição é um tema importante para todos os campos de medição, e a medição analítica não é excepção. Nenhum resultado de medição pode ser interpretado corretamente sem pelo menos algum conhecimento da incerteza associada: o utilizador precisa de saber qual é a magnitude da incerteza para que possa fazer as devidas considerações, ou garantir que a incerteza associada é suficientemente pequena para ser negligenciada para o seu propósito específico. Estabelecer um conhecimento e controlo adequados da incerteza de medição e comunicar esse conhecimento ao cliente quando necessário fazem parte das responsabilidades de cada laboratório. Com base nesta premissa, as Autoridades de saúde internacionais, vão ao encontro da solicitação a todos os intervenientes da indústria para a implementação da quantificação da incerteza dos métodos analíticos, de forma a avaliar a eficácia do produto e a segurança do paciente. A incerteza de cada etapa individual pode ser estimada utilizando a análise estatística de um conjunto de medições (abordagem de cima para baixo) ou determinando a incerteza de cada etapa individual (abordagem de baixo para cima). A determinação da incerteza utilizando a abordagem de baixo para cima é exigiria mais trabalho de laboratório e aumentaria consumo de tempo e recursos. A abordagem de cima para baixo, por outro lado, permite uma estimativa suficientemente boa da incerteza total utilizando os dados já gerados durante a validação de um método analítico. Esta abordagem permite manter os procedimentos de validação de métodos analíticos já implementados nos laboratórios sem a necessidade de aumentar a complexidade na execução das atividades de validação do método. Neste projeto, com base nos dados de validação para cromatografia líquida para doseamento, foram explorados vários métodos estatísticos para o cálculo da incerteza: estatística frequentista, bootstrap padrão, bootstrap Bayesiano e inferência Bayesiana com Cadeias de Markov com o Método de Monte Carlo. A frequência estatística é uma abordagem que interpreta a probabilidade como a frequência relativa de eventos ao longo de um grande número de repetições. O método de bootstrap padrão é uma técnica de reamostragem que permite estimar a distribuição de uma estatística de amostra ao gerar múltiplas amostras simuladas a partir dos dados originais, facilitando a avaliação da variabilidade e da incerteza das estimativas. O bootstrap Bayesiano ajusta a distribuição a priori e considera a incerteza associada aos parâmetros estimados. Por outro lado, a inferência Bayesiana utiliza as Cadeia de Markov com Método de Monte Carlo para amostrar a distribuição posterior de um modelo estatístico, permitindo a estimativa e a inferência sobre a incerteza com base na distribuição a priori e nas observações. Os métodos estatísticos foram avaliados e comparados. Os resultados das incertezas calculadas pelos diferentes métodos foram muito semelhantes e consistentes entre si. Ao mesmo tempo, com base nos dados históricos das análises de rotina, foi estabelecido um limite como critério máximo para a incerteza de um método analítico. O limite máximo foi estabelecido como o critério mais conservador e que detectasse o maior número de métodos analíticos cujo desvio padrão estaria acima desse limite. A abordagem mais conservadora foi 20 por cento do range da especificação. A selecção do método mais adequado passou por envolver os dados históricos das análises de rotina e de desvios de análises associados ao método analítico, em que foram comparados com a presença de desvios associados aos métodos com maior incerteza estimada, com o rácio de número de desvios por valores reportáveis e com o desvio padrão de todos os resultados que estão dentro da especificação, que envolve todas as fontes de variabilidade (lote de produto, equipamentos diferentes, analistas diferentes, etc). O método estatístico escolhido foi o método mais conservador e que conseguiria detectar mais resultados fora da especificação e que estava alinhado com o threshold para a incerteza proposto anteriormente. Embora a inferência Bayesiana fosse o método estatístico com melhor prestação, a frequência estatística teve resultados muito próximos. Por ser um método mais simples e que requer menos poder computacional, a frequência estatística foi o método seleccionado. Após a estimativa da incerteza estatística, com base nos dados das condições dos métodos e das características dos dados, criaram-se modelos de aprendizagem automática para prever a incerteza de novos métodos e identificar as variáveis que têm maior influência na incerteza total do método analítico. Para isto, foi necessário criar um dataframe com todos os dados de fontes diferente e tratar estes mesmos dados. O tratamento destes dados envolveu a limpeza e transformação das variáveis numéricas (escalonização) e das variáveis categóricas (convertidas para numéricas). Além disso, houve a necessidade de se criar novas variáveis de forma conseguir incorporar a percentagem de solventes/reagentes/produtos específicos. Após a criação do dataframe, foi avaliada distribuição da incerteza dos diferentes métodos e verificou-se que havia alguns valores atípicos. Este valores atípicos foram revistos e não foram associados a erros de introdução. Os valores atípicos são valores reais e que são uma informação valiosa no dataset. A distância de Cook foi utilizada para confirmar que estes valores atípicos tinham influência estatística. De forma a conseguir uma distribuição com uma forma mais normal, os dados foram transformados. Para esta transformação, foram testadas 3 abordagens: a transformação logarítmica, a transformação de raiz quadrada e a transformação de box-cox. A transformação de box-cox foi a que permitiu ter uma distribuição normal da incerteza e com menos valores fora de tendência. Após o processamento dos dados, fez-se a seleção das variáveis mais significativas pelo modelo da Floresta Aleatória. Após a selecção das características mais importantes, modelos de aprendizagem automática foram criados para estimar a incerteza de novos métodos com base nas condições de operação dos métodos e nas características dos produtos. Os modelos usados foram: Árvore de Decisão, Regressão Linear Múltipla, Random Forest (Floresta Aleatória), Regressão de Ridge, Lasso (Operador de Seleção e Encolhimento Absoluto Mínimo) e XGBoost (Extreme Gradient Boosting). Os modelos foram validados e comparados entre si para determinar se podem ser utilizados para prever a incerteza de um método com base nas condições dos métodos analíticos e nas características dos produtos. Os modelos como a Árvore de Decisão, Floresta Aleatória e XGBoost obtidos tiveram um bom desempenho em que explicavam em 75 por cento a variância nos dados acima e com um baixo erro associado. Os restantes modelos tiveram um desempenho mais pobre, com maior erro associado e apenas explicavam cerca de 50 porcento de variância nos dados. O modelo seleccionado foi o XGBoost, pois foi o modelo com melhores resultados e mais robusto. Este modelo foi avaliado com um conjunto de dados independentes dos dados de treino e teste. As métricas obtidas foram muito semelhantes e, através de uma visualização gráfica, pode-se verificar que os dados previstos pelo modelo são muito próximos dos dados reais. Com base nestes resultados, os objectivos deste projecto foram atingidos: estabelecer um método estatístico para calcular a incerteza total dos métodos analíticos e usar estes valores e os dados das condições de operação dos métodos analíticos e os dados das características dos produtos para criar um modelo preditivo para prever a incerteza de novos métodos e que tornasse mais eficiente o desenvolvimento destes ao identificar as variáveis com mais influência, aumentando assim a confiança no desempenho dos métodos analíticos.
Every measurement is subject to some level of uncertainty. No measurement result can be interpreted correctly without at least some knowledge of the associated uncertainty. The health authority entities are becoming more demanding regarding the analytical quality control of the products and moving towards the quantitation of analytical method uncertainty. During analytical method activities, the development of an analytical method with a small uncertainty associated can be time and resource-exhaustive. There is the need to establish a standard procedure for uncertainty estimation for analytical method development and optimization. In this project, it is explored several statistical methods approaches (frequentist statistics, standard bootstrap, Bayesian bootstrap and Bayesian inference with Markov Chain Monte Carlo) for uncertainty estimation considering the analytical method validation results and the definition for a recommend default threshold for the Total Uncertainty Measurement, supported by the historical data from Hovione, that includes the results from routine analysis and deviations events. Overall, the uncertainty estimated by the different approaches presented similar results. The approach by frequentist statistics was considered, as it is the simplest. With the uncertainty estimated by frequentist statistics, it was explored the use of Machine Learning regression models (Decision Tree, Multiple Linear Regression, Random Forest, Ridge Regression, Least Absolute Shrinkage and Selection Operator and Extreme Gradient Boosting ) to predict the uncertainty associated of new analytical methods and to identify the variables that have influence in its uncertainty. The obtained Machine Learning models were validated and compare between them to select the best model. Overall, the Decision Tree, Random Forest and Extreme Gradient Boosting presented the best performance, being the Extreme Gradient Boosting the most robust model and with better evaluation.

Description

Trabalho de Projeto de Mestrado, Ciências de Dados, 2024, Universidade de Lisboa, Faculdade de Ciências

Keywords

Incerteza Métodos estatísticos Aprendizagem automática Métodos analíticos Validação Teses de mestrado - 2024

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License