| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 4.27 MB | Adobe PDF |
Autores
Resumo(s)
De acordo com a Organização Mundial da Saúde (OMS) o parto prematuro é definido como o
nascimento de bebés antes da finalização das 37 semanas de gestação, sendo considerado um risco de saúde
elevado tanto para o bebé como para a mãe. Dois terços destes partos, não tem um diagnóstico específico,
enquanto os restantes encontram-se normalmente associados a fatores relacionados com a mãe como várias
gravidezes, historial de partos prematuros, uso de drogas, idade inferior a 18 anos, entre outros. A
prematuridade é a primeira causa de morte no mundo para crianças com menos de 5 anos, uma vez que
quando ocorre o parto, os bebés não se encontram completamente desenvolvidos, podendo vir a sofrer
deficiências a nível visual e auditivo e também outras complicações ao nível da saúde como problemas
cardiovasculares ou respiratórios. Em Portugal, de acordo com a Sociedade Portuguesa de Pediatria, 8% dos
bebés nascem prematuros. Deste modo, a monitorização dos partos de forma a prever partos pré-termo
tornou-se fundamental.
Os dois métodos mais comumente usados na monitorização da contratilidade uterina são o Cateter
de Pressão Intrauterino e o Tocograma Externo, porém ambos apresentam limitações como o facto de ser
invasivo ou de não mostrar eficácia para grávidas de elevada massa corporal, respetivamente. O estudo da
atividade das contrações no útero através do Electrohisterograma (EHG) como método alternativo tem sido
uma forte aposta na previsão do parto prematuro. O EHG é um método não invasivo realizado através de
elétrodos colocados no abdómen, que regista a atividade contrátil do útero e resulta num sinal elétrico.
Demonstra eficácia em pacientes com índice de massa corporal alta, sendo capaz de indicar quando as
grávidas vão entrar em trabalho de parto.
Atualmente, o estudo do sinal EHG é uma das práticas mais usadas para estudar e classificar o parto
prematuro através de técnicas de Machine Learning (ML) e Deep Learning (DL). Para isso, utilizam-se
características frequenciais, temporais, entre outras provenientes do sinal, chamadas de features, que vão
representar o sinal. Estas são depois inseridas em algoritmos de ML e DL capazes de fazer previsões com
base nas características do sinal. Em literatura as features mais utilizadas para representar os sinais EHG
consistem na frequência, amplitude, entropia e outras, demonstrando resultados positivos com elevado valor
preditivo, tanto em algoritmos de Machine Learning como de Deep Learning. Desta forma, através do sinal
EHG obtido na monitorização do útero será possível prever se a grávida irá ter um parto prematuro ou termo.
No entanto, esta classificação ainda se encontra numa fase experimental, existindo uma lacuna no contexto
clínico, para uma previsão automática do tipo de parto.
Todos estes trabalhos enfrentam um problema associado à falta de observações de partos prematuros
nas bases de dados utilizadas. As soluções propostas para combater o desequilíbrio nos dados envolve a
utilização de técnicas de sobreamostragrem, como SMOTE, que consistem na produção de observações
sintéticos para a classe da minoria (partos prematuros). O número ideal de amostras a serem produzidas é
ainda algo a ser estudado, sendo que a maior parte dos estudos fazem uma compensação dos dados com
uma proporção final de observações de 1:1, porém este método pode levar a um decréscimo na habilidade
do classificador identificar a classe maioritária e uma previsão irrealista e demasiado otimista. De acordo
com os autores, o SMOTE atinge os melhores resultados através da combinação de uma subamostragem da
classe maioritária com a sobreamostragem da classe minoritária, através do SMOTE.
Num sinal EHG processado é possível distinguir a existência de contrações como Braxton-Hicks,
ondas Alvarez e ondas LDBF (Longue Durée Basse Fréquence). De momento, na literatura as features são
extraídas do sinal completo e não das contrações, nomeadamente das Alvarez e Braxton-Hicks, que contêm
informação relevante para a prematuridade do parto. Contudo, as contrações são séries temporais com um
número diferente de observações. Deste modo, a solução apresentada para este problema é a análise espectral de cada contração, através do espetro de cada contração, obtido através de uma transformação de
tempo para frequência, como a Transformada de Fourier, que é capaz de representar um sinal na base de
dados. Esta técnica é usada para extração de features e classificação no campo de diagnóstico médico.
Dentro da estimação espetral existem dois métodos: paramétricos e não paramétricos, sendo que o método
Welch é uma abordagem não paramétrica, capaz de calcular o espetro de cada contração detetada no sinal
EHG, que demonstrou bons resultados na classificação das contrações noutros trabalhos, representando bem
o singal EHG, e apresentando sempre a mesma dimensão, independente da duração da contração.
Neste estudo, foi utilizada a base de dados pública TPEHG (Term Preterm EHG) com um total de
300 registos, 262 pré-termo e 38 termo. A base de dados apresenta 4 elétrodos, com 3 canais bipolares,
sendo que apenas um canal foi escolhido, de acordo com a literatura, visto que o sinal vertical tem uma
maior variação do potencial de sinal. Este sinal foi depois filtrado para eliminar o ruído materno do ECG,
ou outros ruídos relacionados, e processado para uma frequência amostral final de 4 Hz. As features foram
extraídas através da estimação espetral pelo método Welch, finalizando com um total de 200 features. No
final, o base de dados utilizado consistia em 4622 observações/contrações, 407 correspondentes a parto
prematuro e 2829 parto termo, com 200 features cada. Esta base de dados foi depois fornecida a três
algoritmos diferentes de ML, incluindo o Random Forest, RUSBoosted Trees, Support Vector Machine, e
uma Shallow Neural Network, e o algoritmo Long-Short Term Memory de DL, com o objetivo de classificar
os parto prematuros. Até agora, nenhum estudo se focou na utilização de um algoritmo de LSTM, e na
utilização do espetro das contrações como features.
Neste estudo, as técnicas mencionadas anteriormente foram aplicadas em 5 cenários diferentes nos
algoritmos de ML, de modo a obter o modelo mais robusto para evitar situações de overfitting, e obter os
resultados mais realistas possíveis, (1) treinar os dados, sem qualquer opção adicional de outros métodos;
(2) treinar os dados com os mesmos algoritmos, adicionando uma técnica de sobreamostragem sintética,
SMOTE; (3) treinar os dados com técnica de SMOTE mais uma técnica de redução de dimensionalidade,
PCA; (4) treinar os dados com a utilização de um método de seleção de features, MRMR; (5) tuning dos
parâmetros do modelo, através do método Bayesian Optimization. Desta forma, os dados foram treinados,
validados, e os modelos com melhores resultados preditivos foram depois testados. Os algoritmos de DL
foram apenas testados usando o dataset original e o dataset com SMOTE aplicado. Para todos os algoritmos,
a accuracy, precision, recall, F1-Score, false negative rate, false positive rate e AUC (exceto para os de
DL) foram calculados.
Os resultados indicam que usar os primeiros 200 pontos da estimação espetral pelo método Welch,
como features frequenciais, não proporciona melhores resultados quando comparando a features mais
tradicionais, de tempo-frequência, usadas em toda a literatura. Além disso, utilizar a técnica de SMOTE
conciliada com uma subamostragem da classe maioritária produz piores resultados quando comparando com
a aplicação de só SMOTE, como usado pela maioria dos autores. Os algoritmos de ML têm um melhor
comportamento que os de DL, uma vez que são modelos mais simples não dependentes de uma elevada
quantidade de dados. Apesar dos resultados promissores no grupo de treino, com uma elevada Accuracy,
F1-score e AUC, o momento de teste teve uma performance abaixo dos valores esperados e em literatura.
Com base nestes resultados, concluímos que apesar da abordagem da aplicação de SMOTE após a separação
em grupo de treino de teste ser a mais correta, não permite resultados semelhantes à literatura (em que esta
ordem de passos usada é a inversa), uma vez que o algoritmo é processado usando um grupo de teste com
uma estrutura muito diferente à de treino, o que pode levar a menor precision e recall.
Em suma, conclui-se que a utilização do espetro das contrações como features frequenciais num
dataset sobreamostrado com a técnica de SMOTE, utilizando as diferentes técnicas de ML e DL referidas,
não é uma melhor alternativa em relação à utilização de features de tempo-frequência presentes em
literatura. Contudo, é possível concluir a importância de registar mais dados de partos prematuros de EHG,
com vista a melhorar as experiências futuras, e evitar a utilização de técnicas como a de SMOTE. Para além
disso, abriu-se também a possibilidade da aplicação de uma rede neuronal complexa como o LSTM, com
resultados promissores para o futuro, que podem ser eficazes quando aplicados na classificação de parto
prematuro.
The World Health Organization defines premature birth as the birth of a baby before the completion of 37 weeks of gestation which is considered a high health risk for both the baby and the mother. Prematurity is the leading cause of death in the world for children under 5 years old, therefore monitoring the uterus to predict preterm labor has become essential. Currently, the Intrauterine Pressure Catheter and the External Tocography are the most used monitoring devices, however, they are invasive and don’t perform well with high body mass index (BMI) patients, respectively. The Electrohysterogram (EHG) has emerged as a noninvasive method for predicting premature birth with high performance for mothers with high BMI. This method uses electrodes placed on the abdomen to record uterine contractions by producing an electrical signal, that contains important information regarding the electrical activity of the uterus. The study of the EHG signal is one of the most used practices for studying and classifying premature birth using Machine Learning (ML) and Deep Learning (DL) techniques. In this technique, features are extracted from the signal such as frequency, amplitude, and others to represent the signal and inserted into algorithms capable of making predictions based on the signal characteristics. However, this classification method is still in the experimental phase, and there is a gap in the clinical context for automatic birth type prediction. One of the challenges faced by this method is the lack of observations of premature births in the databases used. Oversampling techniques, such as SMOTE, address the lack of observations of premature births in the databases by producing synthetic observations for the minority class. In this thesis, the Welch estimation of the power spectra of the signal of each contraction from the TPEHG Ljubljana public database is used as features, comprising 200 features. The Minimum Redundancy Maximum Relevance (MRMR) Algorithm was used to search for the most relevant features from this dataset with only 180 showing any relevance, and SMOTE was applied to solve the skewed dataset problem. Four different machine learning algorithms were used, including the Support Vector Machine, the RUSBoosted trees, a Shallow Neural Network, and a Random Forest classifier, moreover, a deep learning network was also tested. These were also optimized with the Bayesian hyperparameter optimization. All algorithms performed with high accuracy, although showing a low predictive power for the test group, probably due to a highly imbalanced test set. We concluded that the use of spectral features of the contractions as an alternative to the timefrequency features shows promising results with the training dataset, but cannot accurately predict preterm labor in the test set, due to the imbalanced dataset problem. More samples should be collected in the future so more meaningful conclusions can be taken.
The World Health Organization defines premature birth as the birth of a baby before the completion of 37 weeks of gestation which is considered a high health risk for both the baby and the mother. Prematurity is the leading cause of death in the world for children under 5 years old, therefore monitoring the uterus to predict preterm labor has become essential. Currently, the Intrauterine Pressure Catheter and the External Tocography are the most used monitoring devices, however, they are invasive and don’t perform well with high body mass index (BMI) patients, respectively. The Electrohysterogram (EHG) has emerged as a noninvasive method for predicting premature birth with high performance for mothers with high BMI. This method uses electrodes placed on the abdomen to record uterine contractions by producing an electrical signal, that contains important information regarding the electrical activity of the uterus. The study of the EHG signal is one of the most used practices for studying and classifying premature birth using Machine Learning (ML) and Deep Learning (DL) techniques. In this technique, features are extracted from the signal such as frequency, amplitude, and others to represent the signal and inserted into algorithms capable of making predictions based on the signal characteristics. However, this classification method is still in the experimental phase, and there is a gap in the clinical context for automatic birth type prediction. One of the challenges faced by this method is the lack of observations of premature births in the databases used. Oversampling techniques, such as SMOTE, address the lack of observations of premature births in the databases by producing synthetic observations for the minority class. In this thesis, the Welch estimation of the power spectra of the signal of each contraction from the TPEHG Ljubljana public database is used as features, comprising 200 features. The Minimum Redundancy Maximum Relevance (MRMR) Algorithm was used to search for the most relevant features from this dataset with only 180 showing any relevance, and SMOTE was applied to solve the skewed dataset problem. Four different machine learning algorithms were used, including the Support Vector Machine, the RUSBoosted trees, a Shallow Neural Network, and a Random Forest classifier, moreover, a deep learning network was also tested. These were also optimized with the Bayesian hyperparameter optimization. All algorithms performed with high accuracy, although showing a low predictive power for the test group, probably due to a highly imbalanced test set. We concluded that the use of spectral features of the contractions as an alternative to the timefrequency features shows promising results with the training dataset, but cannot accurately predict preterm labor in the test set, due to the imbalanced dataset problem. More samples should be collected in the future so more meaningful conclusions can be taken.
Descrição
Trabalho de Projeto de Mestrado, Bioestatística, 2023, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
SMOTE Machine Learning Parto prematuro Electrohisterograma LSTM Teses de mestrado - 2023
