Preterm labor prediction using uterine electromyography with Machine Learning and Deep Learning Models

Martins, Inês Maria de Freitas

http://hdl.handle.net/10451/61464

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Inês_Martins.pdf		4.27 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Martins, Inês Maria de Freitas

Orientador(es)

Nunes, Maria Helena Mouriño Silva

Batista, Arnaldo Manuel Guimarães

Resumo(s)

De acordo com a Organização Mundial da Saúde (OMS) o parto prematuro é definido como o nascimento de bebés antes da finalização das 37 semanas de gestação, sendo considerado um risco de saúde elevado tanto para o bebé como para a mãe. Dois terços destes partos, não tem um diagnóstico específico, enquanto os restantes encontram-se normalmente associados a fatores relacionados com a mãe como várias gravidezes, historial de partos prematuros, uso de drogas, idade inferior a 18 anos, entre outros. A prematuridade é a primeira causa de morte no mundo para crianças com menos de 5 anos, uma vez que quando ocorre o parto, os bebés não se encontram completamente desenvolvidos, podendo vir a sofrer deficiências a nível visual e auditivo e também outras complicações ao nível da saúde como problemas cardiovasculares ou respiratórios. Em Portugal, de acordo com a Sociedade Portuguesa de Pediatria, 8% dos bebés nascem prematuros. Deste modo, a monitorização dos partos de forma a prever partos pré-termo tornou-se fundamental. Os dois métodos mais comumente usados na monitorização da contratilidade uterina são o Cateter de Pressão Intrauterino e o Tocograma Externo, porém ambos apresentam limitações como o facto de ser invasivo ou de não mostrar eficácia para grávidas de elevada massa corporal, respetivamente. O estudo da atividade das contrações no útero através do Electrohisterograma (EHG) como método alternativo tem sido uma forte aposta na previsão do parto prematuro. O EHG é um método não invasivo realizado através de elétrodos colocados no abdómen, que regista a atividade contrátil do útero e resulta num sinal elétrico. Demonstra eficácia em pacientes com índice de massa corporal alta, sendo capaz de indicar quando as grávidas vão entrar em trabalho de parto. Atualmente, o estudo do sinal EHG é uma das práticas mais usadas para estudar e classificar o parto prematuro através de técnicas de Machine Learning (ML) e Deep Learning (DL). Para isso, utilizam-se características frequenciais, temporais, entre outras provenientes do sinal, chamadas de features, que vão representar o sinal. Estas são depois inseridas em algoritmos de ML e DL capazes de fazer previsões com base nas características do sinal. Em literatura as features mais utilizadas para representar os sinais EHG consistem na frequência, amplitude, entropia e outras, demonstrando resultados positivos com elevado valor preditivo, tanto em algoritmos de Machine Learning como de Deep Learning. Desta forma, através do sinal EHG obtido na monitorização do útero será possível prever se a grávida irá ter um parto prematuro ou termo. No entanto, esta classificação ainda se encontra numa fase experimental, existindo uma lacuna no contexto clínico, para uma previsão automática do tipo de parto. Todos estes trabalhos enfrentam um problema associado à falta de observações de partos prematuros nas bases de dados utilizadas. As soluções propostas para combater o desequilíbrio nos dados envolve a utilização de técnicas de sobreamostragrem, como SMOTE, que consistem na produção de observações sintéticos para a classe da minoria (partos prematuros). O número ideal de amostras a serem produzidas é ainda algo a ser estudado, sendo que a maior parte dos estudos fazem uma compensação dos dados com uma proporção final de observações de 1:1, porém este método pode levar a um decréscimo na habilidade do classificador identificar a classe maioritária e uma previsão irrealista e demasiado otimista. De acordo com os autores, o SMOTE atinge os melhores resultados através da combinação de uma subamostragem da classe maioritária com a sobreamostragem da classe minoritária, através do SMOTE. Num sinal EHG processado é possível distinguir a existência de contrações como Braxton-Hicks, ondas Alvarez e ondas LDBF (Longue Durée Basse Fréquence). De momento, na literatura as features são extraídas do sinal completo e não das contrações, nomeadamente das Alvarez e Braxton-Hicks, que contêm informação relevante para a prematuridade do parto. Contudo, as contrações são séries temporais com um número diferente de observações. Deste modo, a solução apresentada para este problema é a análise espectral de cada contração, através do espetro de cada contração, obtido através de uma transformação de tempo para frequência, como a Transformada de Fourier, que é capaz de representar um sinal na base de dados. Esta técnica é usada para extração de features e classificação no campo de diagnóstico médico. Dentro da estimação espetral existem dois métodos: paramétricos e não paramétricos, sendo que o método Welch é uma abordagem não paramétrica, capaz de calcular o espetro de cada contração detetada no sinal EHG, que demonstrou bons resultados na classificação das contrações noutros trabalhos, representando bem o singal EHG, e apresentando sempre a mesma dimensão, independente da duração da contração. Neste estudo, foi utilizada a base de dados pública TPEHG (Term Preterm EHG) com um total de 300 registos, 262 pré-termo e 38 termo. A base de dados apresenta 4 elétrodos, com 3 canais bipolares, sendo que apenas um canal foi escolhido, de acordo com a literatura, visto que o sinal vertical tem uma maior variação do potencial de sinal. Este sinal foi depois filtrado para eliminar o ruído materno do ECG, ou outros ruídos relacionados, e processado para uma frequência amostral final de 4 Hz. As features foram extraídas através da estimação espetral pelo método Welch, finalizando com um total de 200 features. No final, o base de dados utilizado consistia em 4622 observações/contrações, 407 correspondentes a parto prematuro e 2829 parto termo, com 200 features cada. Esta base de dados foi depois fornecida a três algoritmos diferentes de ML, incluindo o Random Forest, RUSBoosted Trees, Support Vector Machine, e uma Shallow Neural Network, e o algoritmo Long-Short Term Memory de DL, com o objetivo de classificar os parto prematuros. Até agora, nenhum estudo se focou na utilização de um algoritmo de LSTM, e na utilização do espetro das contrações como features. Neste estudo, as técnicas mencionadas anteriormente foram aplicadas em 5 cenários diferentes nos algoritmos de ML, de modo a obter o modelo mais robusto para evitar situações de overfitting, e obter os resultados mais realistas possíveis, (1) treinar os dados, sem qualquer opção adicional de outros métodos; (2) treinar os dados com os mesmos algoritmos, adicionando uma técnica de sobreamostragem sintética, SMOTE; (3) treinar os dados com técnica de SMOTE mais uma técnica de redução de dimensionalidade, PCA; (4) treinar os dados com a utilização de um método de seleção de features, MRMR; (5) tuning dos parâmetros do modelo, através do método Bayesian Optimization. Desta forma, os dados foram treinados, validados, e os modelos com melhores resultados preditivos foram depois testados. Os algoritmos de DL foram apenas testados usando o dataset original e o dataset com SMOTE aplicado. Para todos os algoritmos, a accuracy, precision, recall, F1-Score, false negative rate, false positive rate e AUC (exceto para os de DL) foram calculados. Os resultados indicam que usar os primeiros 200 pontos da estimação espetral pelo método Welch, como features frequenciais, não proporciona melhores resultados quando comparando a features mais tradicionais, de tempo-frequência, usadas em toda a literatura. Além disso, utilizar a técnica de SMOTE conciliada com uma subamostragem da classe maioritária produz piores resultados quando comparando com a aplicação de só SMOTE, como usado pela maioria dos autores. Os algoritmos de ML têm um melhor comportamento que os de DL, uma vez que são modelos mais simples não dependentes de uma elevada quantidade de dados. Apesar dos resultados promissores no grupo de treino, com uma elevada Accuracy, F1-score e AUC, o momento de teste teve uma performance abaixo dos valores esperados e em literatura. Com base nestes resultados, concluímos que apesar da abordagem da aplicação de SMOTE após a separação em grupo de treino de teste ser a mais correta, não permite resultados semelhantes à literatura (em que esta ordem de passos usada é a inversa), uma vez que o algoritmo é processado usando um grupo de teste com uma estrutura muito diferente à de treino, o que pode levar a menor precision e recall. Em suma, conclui-se que a utilização do espetro das contrações como features frequenciais num dataset sobreamostrado com a técnica de SMOTE, utilizando as diferentes técnicas de ML e DL referidas, não é uma melhor alternativa em relação à utilização de features de tempo-frequência presentes em literatura. Contudo, é possível concluir a importância de registar mais dados de partos prematuros de EHG, com vista a melhorar as experiências futuras, e evitar a utilização de técnicas como a de SMOTE. Para além disso, abriu-se também a possibilidade da aplicação de uma rede neuronal complexa como o LSTM, com resultados promissores para o futuro, que podem ser eficazes quando aplicados na classificação de parto prematuro.

The World Health Organization defines premature birth as the birth of a baby before the completion of 37 weeks of gestation which is considered a high health risk for both the baby and the mother. Prematurity is the leading cause of death in the world for children under 5 years old, therefore monitoring the uterus to predict preterm labor has become essential. Currently, the Intrauterine Pressure Catheter and the External Tocography are the most used monitoring devices, however, they are invasive and don’t perform well with high body mass index (BMI) patients, respectively. The Electrohysterogram (EHG) has emerged as a noninvasive method for predicting premature birth with high performance for mothers with high BMI. This method uses electrodes placed on the abdomen to record uterine contractions by producing an electrical signal, that contains important information regarding the electrical activity of the uterus. The study of the EHG signal is one of the most used practices for studying and classifying premature birth using Machine Learning (ML) and Deep Learning (DL) techniques. In this technique, features are extracted from the signal such as frequency, amplitude, and others to represent the signal and inserted into algorithms capable of making predictions based on the signal characteristics. However, this classification method is still in the experimental phase, and there is a gap in the clinical context for automatic birth type prediction. One of the challenges faced by this method is the lack of observations of premature births in the databases used. Oversampling techniques, such as SMOTE, address the lack of observations of premature births in the databases by producing synthetic observations for the minority class. In this thesis, the Welch estimation of the power spectra of the signal of each contraction from the TPEHG Ljubljana public database is used as features, comprising 200 features. The Minimum Redundancy Maximum Relevance (MRMR) Algorithm was used to search for the most relevant features from this dataset with only 180 showing any relevance, and SMOTE was applied to solve the skewed dataset problem. Four different machine learning algorithms were used, including the Support Vector Machine, the RUSBoosted trees, a Shallow Neural Network, and a Random Forest classifier, moreover, a deep learning network was also tested. These were also optimized with the Bayesian hyperparameter optimization. All algorithms performed with high accuracy, although showing a low predictive power for the test group, probably due to a highly imbalanced test set. We concluded that the use of spectral features of the contractions as an alternative to the timefrequency features shows promising results with the training dataset, but cannot accurately predict preterm labor in the test set, due to the imbalanced dataset problem. More samples should be collected in the future so more meaningful conclusions can be taken.

Descrição

Trabalho de Projeto de Mestrado, Bioestatística, 2023, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

SMOTE Machine Learning Parto prematuro Electrohisterograma LSTM Teses de mestrado - 2023

URI

http://hdl.handle.net/10451/61464

Coleções

FC - Dissertações de Mestrado

Ver registo completo