| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 1.68 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Cada medição está sujeita a algum nível de incerteza. A incerteza origina-se dos instrumentos de
medição, da amostra que está a ser medida, do ambiente, do operador e de outras fontes. A incerteza de
medição é um tema importante para todos os campos de medição, e a medição analítica não é excepção.
Nenhum resultado de medição pode ser interpretado corretamente sem pelo menos algum conhecimento
da incerteza associada: o utilizador precisa de saber qual é a magnitude da incerteza para que possa
fazer as devidas considerações, ou garantir que a incerteza associada é suficientemente pequena para ser
negligenciada para o seu propósito específico.
Estabelecer um conhecimento e controlo adequados da incerteza de medição e comunicar esse conhecimento ao cliente quando necessário fazem parte das responsabilidades de cada laboratório. Com
base nesta premissa, as Autoridades de saúde internacionais, vão ao encontro da solicitação a todos os
intervenientes da indústria para a implementação da quantificação da incerteza dos métodos analíticos,
de forma a avaliar a eficácia do produto e a segurança do paciente. A incerteza de cada etapa individual pode ser estimada utilizando a análise estatística de um conjunto de medições (abordagem de cima
para baixo) ou determinando a incerteza de cada etapa individual (abordagem de baixo para cima). A
determinação da incerteza utilizando a abordagem de baixo para cima é exigiria mais trabalho de laboratório e aumentaria consumo de tempo e recursos. A abordagem de cima para baixo, por outro lado,
permite uma estimativa suficientemente boa da incerteza total utilizando os dados já gerados durante a
validação de um método analítico. Esta abordagem permite manter os procedimentos de validação de
métodos analíticos já implementados nos laboratórios sem a necessidade de aumentar a complexidade
na execução das atividades de validação do método.
Neste projeto, com base nos dados de validação para cromatografia líquida para doseamento, foram
explorados vários métodos estatísticos para o cálculo da incerteza: estatística frequentista, bootstrap
padrão, bootstrap Bayesiano e inferência Bayesiana com Cadeias de Markov com o Método de Monte
Carlo. A frequência estatística é uma abordagem que interpreta a probabilidade como a frequência relativa de eventos ao longo de um grande número de repetições. O método de bootstrap padrão é uma técnica de reamostragem que permite estimar a distribuição de uma estatística de amostra ao gerar múltiplas
amostras simuladas a partir dos dados originais, facilitando a avaliação da variabilidade e da incerteza
das estimativas. O bootstrap Bayesiano ajusta a distribuição a priori e considera a incerteza associada aos
parâmetros estimados. Por outro lado, a inferência Bayesiana utiliza as Cadeia de Markov com Método
de Monte Carlo para amostrar a distribuição posterior de um modelo estatístico, permitindo a estimativa e
a inferência sobre a incerteza com base na distribuição a priori e nas observações. Os métodos estatísticos
foram avaliados e comparados. Os resultados das incertezas calculadas pelos diferentes métodos foram
muito semelhantes e consistentes entre si. Ao mesmo tempo, com base nos dados históricos das análises
de rotina, foi estabelecido um limite como critério máximo para a incerteza de um método analítico. O
limite máximo foi estabelecido como o critério mais conservador e que detectasse o maior número de
métodos analíticos cujo desvio padrão estaria acima desse limite. A abordagem mais conservadora foi 20
por cento do range da especificação. A selecção do método mais adequado passou por envolver os dados
históricos das análises de rotina e de desvios de análises associados ao método analítico, em que foram
comparados com a presença de desvios associados aos métodos com maior incerteza estimada, com o
rácio de número de desvios por valores reportáveis e com o desvio padrão de todos os resultados que estão dentro da especificação, que envolve todas as fontes de variabilidade (lote de produto, equipamentos
diferentes, analistas diferentes, etc). O método estatístico escolhido foi o método mais conservador e que
conseguiria detectar mais resultados fora da especificação e que estava alinhado com o threshold para a
incerteza proposto anteriormente. Embora a inferência Bayesiana fosse o método estatístico com melhor
prestação, a frequência estatística teve resultados muito próximos. Por ser um método mais simples e
que requer menos poder computacional, a frequência estatística foi o método seleccionado.
Após a estimativa da incerteza estatística, com base nos dados das condições dos métodos e das características dos dados, criaram-se modelos de aprendizagem automática para prever a incerteza de novos
métodos e identificar as variáveis que têm maior influência na incerteza total do método analítico. Para
isto, foi necessário criar um dataframe com todos os dados de fontes diferente e tratar estes mesmos
dados. O tratamento destes dados envolveu a limpeza e transformação das variáveis numéricas (escalonização) e das variáveis categóricas (convertidas para numéricas). Além disso, houve a necessidade de
se criar novas variáveis de forma conseguir incorporar a percentagem de solventes/reagentes/produtos
específicos. Após a criação do dataframe, foi avaliada distribuição da incerteza dos diferentes métodos
e verificou-se que havia alguns valores atípicos. Este valores atípicos foram revistos e não foram associados a erros de introdução. Os valores atípicos são valores reais e que são uma informação valiosa
no dataset. A distância de Cook foi utilizada para confirmar que estes valores atípicos tinham influência estatística. De forma a conseguir uma distribuição com uma forma mais normal, os dados foram
transformados. Para esta transformação, foram testadas 3 abordagens: a transformação logarítmica, a
transformação de raiz quadrada e a transformação de box-cox. A transformação de box-cox foi a que
permitiu ter uma distribuição normal da incerteza e com menos valores fora de tendência. Após o processamento dos dados, fez-se a seleção das variáveis mais significativas pelo modelo da Floresta Aleatória.
Após a selecção das características mais importantes, modelos de aprendizagem automática foram
criados para estimar a incerteza de novos métodos com base nas condições de operação dos métodos e nas
características dos produtos. Os modelos usados foram: Árvore de Decisão, Regressão Linear Múltipla,
Random Forest (Floresta Aleatória), Regressão de Ridge, Lasso (Operador de Seleção e Encolhimento
Absoluto Mínimo) e XGBoost (Extreme Gradient Boosting).
Os modelos foram validados e comparados entre si para determinar se podem ser utilizados para
prever a incerteza de um método com base nas condições dos métodos analíticos e nas características
dos produtos. Os modelos como a Árvore de Decisão, Floresta Aleatória e XGBoost obtidos tiveram
um bom desempenho em que explicavam em 75 por cento a variância nos dados acima e com um baixo
erro associado. Os restantes modelos tiveram um desempenho mais pobre, com maior erro associado e
apenas explicavam cerca de 50 porcento de variância nos dados. O modelo seleccionado foi o XGBoost,
pois foi o modelo com melhores resultados e mais robusto. Este modelo foi avaliado com um conjunto de
dados independentes dos dados de treino e teste. As métricas obtidas foram muito semelhantes e, através
de uma visualização gráfica, pode-se verificar que os dados previstos pelo modelo são muito próximos
dos dados reais. Com base nestes resultados, os objectivos deste projecto foram atingidos: estabelecer
um método estatístico para calcular a incerteza total dos métodos analíticos e usar estes valores e os
dados das condições de operação dos métodos analíticos e os dados das características dos produtos
para criar um modelo preditivo para prever a incerteza de novos métodos e que tornasse mais eficiente
o desenvolvimento destes ao identificar as variáveis com mais influência, aumentando assim a confiança no desempenho dos métodos analíticos.
Every measurement is subject to some level of uncertainty. No measurement result can be interpreted correctly without at least some knowledge of the associated uncertainty. The health authority entities are becoming more demanding regarding the analytical quality control of the products and moving towards the quantitation of analytical method uncertainty. During analytical method activities, the development of an analytical method with a small uncertainty associated can be time and resource-exhaustive. There is the need to establish a standard procedure for uncertainty estimation for analytical method development and optimization. In this project, it is explored several statistical methods approaches (frequentist statistics, standard bootstrap, Bayesian bootstrap and Bayesian inference with Markov Chain Monte Carlo) for uncertainty estimation considering the analytical method validation results and the definition for a recommend default threshold for the Total Uncertainty Measurement, supported by the historical data from Hovione, that includes the results from routine analysis and deviations events. Overall, the uncertainty estimated by the different approaches presented similar results. The approach by frequentist statistics was considered, as it is the simplest. With the uncertainty estimated by frequentist statistics, it was explored the use of Machine Learning regression models (Decision Tree, Multiple Linear Regression, Random Forest, Ridge Regression, Least Absolute Shrinkage and Selection Operator and Extreme Gradient Boosting ) to predict the uncertainty associated of new analytical methods and to identify the variables that have influence in its uncertainty. The obtained Machine Learning models were validated and compare between them to select the best model. Overall, the Decision Tree, Random Forest and Extreme Gradient Boosting presented the best performance, being the Extreme Gradient Boosting the most robust model and with better evaluation.
Every measurement is subject to some level of uncertainty. No measurement result can be interpreted correctly without at least some knowledge of the associated uncertainty. The health authority entities are becoming more demanding regarding the analytical quality control of the products and moving towards the quantitation of analytical method uncertainty. During analytical method activities, the development of an analytical method with a small uncertainty associated can be time and resource-exhaustive. There is the need to establish a standard procedure for uncertainty estimation for analytical method development and optimization. In this project, it is explored several statistical methods approaches (frequentist statistics, standard bootstrap, Bayesian bootstrap and Bayesian inference with Markov Chain Monte Carlo) for uncertainty estimation considering the analytical method validation results and the definition for a recommend default threshold for the Total Uncertainty Measurement, supported by the historical data from Hovione, that includes the results from routine analysis and deviations events. Overall, the uncertainty estimated by the different approaches presented similar results. The approach by frequentist statistics was considered, as it is the simplest. With the uncertainty estimated by frequentist statistics, it was explored the use of Machine Learning regression models (Decision Tree, Multiple Linear Regression, Random Forest, Ridge Regression, Least Absolute Shrinkage and Selection Operator and Extreme Gradient Boosting ) to predict the uncertainty associated of new analytical methods and to identify the variables that have influence in its uncertainty. The obtained Machine Learning models were validated and compare between them to select the best model. Overall, the Decision Tree, Random Forest and Extreme Gradient Boosting presented the best performance, being the Extreme Gradient Boosting the most robust model and with better evaluation.
Description
Trabalho de Projeto de Mestrado, Ciências de Dados, 2024, Universidade de Lisboa, Faculdade de Ciências
Keywords
Incerteza Métodos estatísticos Aprendizagem automática Métodos analíticos Validação Teses de mestrado - 2024
