| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 2.72 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Cerca de 15.5% da população mundial apresemta algum tipo de problema do foro mental, com este
cenário a aumentar, particularmente depois da pandemia causada pela COVID-19. Uma vez que problemas de saúde mental afetam várias populações e os transtornos de depressão e ansiedade estão a tornar-se
cada vez mais prevalecentes, o estudo das emoções torna-se mais necessário. Por conseguinte, a deteção
precoce e consequente tratamento da depressão são aspetos cruciais.
Uma das formas de detetar emoções é através da fala. A fala é um método de comunicação vital, esta
não só transmite uma mensagem semântica como também detalhes sobre o estado emocional do orador,
através da sua voz. É razoavelmente simples de recolher e processar em tempo real, através de um sensor
auditivo como um microfone. Aspeto este que é crucial ao considerar qual a modalidade a utilizar para o
reconhecimento das emoções. Um sistema capaz de registar áudio e analisar emoções poderia permitir o
diagnóstico automático de depressão em doentes, ajudando os médicos a apoiar as suas decisões e evitar
erros críticos, permitindo cuidados mentais pró-ativos.
Posto isto, podemos dizer que esta dissertação tem dois objetivos principais. Um deles é ser capaz de
reconhecer as emoções através dos sinais áudio da fala com base nas suas características acústicas e com
a ajuda de algoritmos de machine learning. O outro é utilizar essa capacidade para avaliar as diferenças
emocionais entre grupos de pessoas com e sem depressão. Se conhecermos o perfil emocional das pessoas
com depressão e as suas diferenças em comparação com um grupo saudável, tendo um sistema capaz de
reconhecer as emoções seria possível ajudar os clínicos a diagnosticar depressão. Uma vez que estávamos
a trabalhar com características relacionadas com a fala, acrescentámos um objetivo paralelo de detetar
doentes com perturbações da fala, a partir de áudios dos mesmos.
O primeiro passo foi implementar o reconhecimento de emoções: ‘raiva’; ‘nojo’; ‘medo’; ‘felicidade’; ‘neutra’; ‘tristeza’; ‘surpresa’. Os métodos utilizados basearam-se no pré-processamento dos
áudios e em técnicas de aumento do número de dados existentes. No pré-processamento realizado foi
considerada a remoção de partes de silêncio no início e fim dos sinais e a sua filtragem. As características
extraídas dos áudios foram as seguintes: Zero Crossing Rare, Chroma, Mel Frequency Cepstral Coefficents, Root Mean Square, Mean Mel Spectogram, Mean Fundamental Frequency, Mean Fundamental
Frequency variability e Energia. O classificador utilizado foi uma rede neural convolocional que incluí
camadas unidimensionais convolutivas combinadas com camadas de dropout, max-polling, e activation.
Realizámos o reconhecimento das emoções nos conjuntos de dados: RAVDESS (7 emoções), TESS
(7 emoções), CREMA-D (6 emoções) e SAVEE (7 emoções). Para isso, extraímos as características dos áudios mencionadas no parágrafo anterior e comparámos a utilização de técnicas de pré-processamento
e de aumento do número de dados no desempenho do nosso modelo.
O reconhecimento de emoções pode ser categorizado em dependente do orador (SD) ou independented do orador (SI). Nos conjuntos de dados de treino e teste dos estudos SD, existem amostras de
áudio do mesmo ator expressando várias emoções. Por outro lado, os estudos SI usam dados de treino e
teste compostos por amostras de áudio de diferentes atores.
Para uma abordagem dependente do orador, obtivemos resultados de acurácia de 65.81%, 99.24%,
50.05%, 69.55%, e 62.34% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados
combinados, respetivamente. A partir dos resultados, concluímos que o pré-processamento melhora a
acurácia média quando temos menos amostras de dados. No entanto, com mais amostras de dados, o préprocessamento não influencia significativamente o desempenho porque o modelo tem mais dados com
que aprender. De um modo geral, o aumento do número de dados é uma boa técnica para um sistema
dependente do orador. O pré-processamento também pode ser utilizado quando o conjunto de dados é
pequeno. Além disso, TESS e SAVEE têm melhores resultados que os restantes, o que indica que o
modelo pode aprender melhor com um menor número de oradores. Portanto, se quisermos monitorizar o
estado emocional de uma única pessoa ao longo do tempo, podemos criar um modelo usando amostras de
discurso rotuladas emocionalmente dessa pessoa e depois usá-lo para prever as suas emoções no futuro.
Para uma abordagem independente do orador, obtivemos resultados de acurácia de 41.29%, 30.51%,
45.10%, 41.54%, e 44.05% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados
combinados, respetivamente. Nesta abordagem, o aumento do número de dados e o pré-processamento
não parecem ter tanta influência, como acontece na abordagem dependente do orador. No entanto, é útil
utilizar estas técnicas quando o tamanho do conjunto de dados é pequeno. Além disso, vemos que tendo
menos oradores é pior nesta abordagem. TESS tem apenas dois oradores, e o modelo irá sobreajustar-se
ao orador utilizado no treino numa abordagem independente do orador. Assim, quando queremos prever
emoções em oradores que não estão presentes no treino, devemos utilizar dados no treino de muitos
oradores diferentes.
Outras conclusões relacionadas com o reconhecimento de emoções pela voz são que a maioria das
classificações erradas ocorrem entre emoções com valores próximos num dos eixos do plano valênciaexcitação.
Tendo o nosso modelo de reconhecimento de emoções a partir da fala pronto, fizémos uma avaliação
da depressão usando áudios de voz de grupos de pessoas com depressão e saudáveis e as emoções previstas pelo nosso modelo. Por conseguinte, utilizámos o conjunto de dados DAIC-WOZ, e o nosso modelo
treinado no conjunto de dados combinado com aumento de dados e sem pré-processamento. Utilizámos
o modelo com o conjunto de dados combinado porque tem a maior variabilidade possível. Uma vez que
o aplicámos a dados de uma população completamente diferente, o conjunto de dados combinado é o
que pode generalizar melhor. A combinação utilizada é com aumento de dados e sem pré-processamento
porque é a que tem melhores resultados para o conjunto de dados combinado numa abordagem independente do orador, que é o caso aqui.
As principais conclusões na avaliação das diferenças emocionais entre grupos de pessoas com depressão e grupos controlo estão relacionadas com ‘nojo’, ‘medo’ e ‘tristeza’. Para ‘nojo’, encontrámos provas de que os níveis mais elevados de depressão podem estar relacionados com valores mais baixos
de ‘nojo’.
Embora nenhum dos grupos tenha frequentemente experimentado ‘medo’, verificámos que indivíduos com depressão grave podem apresentar valores mais altos de ‘medo’ em relação a indivíduos com
níveis mais baixos de depressão.
Para ‘tristeza’, encontrámos provas de que níveis mais elevados de ‘tristeza’ podem estar relacionados
com níveis mais elevados de depressão.
Durante a realização deste trabalho pôs-se ainda em questão se seria possível usar áudios de voz para
detetar outras patologias. Visto que se usaram propriedades relacionadas com a voz, tentou-se perceber
se era possível usar as características vocais para reconhecer distúrbios relacionados com a fala usando a
base de dados TORGO. Esta base de dados inclui áudios provenientes de 8 participantes com patologia
causadora de disartria e 7 participantes controlo. Os dados correspondem a áudios como sons, palavras
curtas, frases restritas e frases não restritas por parte de todos os participantes. Neste sentido, alcançouse uma acurácia de 93.75% na detecção de pessoas com esta doença, numa abordagem independente do
orador.
Um possível trabalho futuro deve abordar a questão dos áudios aqui tratados não corresponderam
a áudios gravados num ambiente de vida real. Para isso deve-se ter acesso a áudios correspondentes a
iterações da vida real que estejam classificados de acordo com a emoção sentida. Outra tarefa a pensar
seria eliminar o ruído das amostras de áudio adquiridas. Outras melhorias que poderiam ser feitas seriam
ajustar os hiperparâmetros do classificador e aplicar seleção de características, o que poderia melhorar o
desempenho do classificador.
Na nossa avaliação das emoções nos vários grupos com depressão, utilizámos o nosso modelo de
reconhecimento de emoções pela fala que apresenta uma acurácia inferior a 50%, numa abordagem independente do orador. Consequentemente, as emoções previstas não são uma representação exata da
realidade. Além disso, o número de sujeitos em cada grupo diminui à medida que o nível de depressão aumenta, pelo que não temos um número elevado de amostras dos grupos de depressão. Ainda, as amostras
de áudio são provenientes de entrevistas, e a pessoa sabe que estão a ser gravadas, consequentemente
pode esconder as suas emoções.
Os resultados de uma avaliação das diferenças emocionais entre os grupos de depressão e um modelo
de reconhecimento de emoções poderiam ajudar, num trabalho futuro, a desenvolver um modelo capaz
de detetar automaticamente o nível de depressão de uma pessoa.
Mental health problems affect various populations; states of depression and anxiety are becoming more prevalent, leading to a relevant growth in the study of emotions. One of the ways to predict emotions is using speech emotion recognition. We aimed to develop a model to recognize emotions from speech signals using speech features and deep learning algorithms, and using the developed model; we wanted to assess the emotional differences between groups of people with and without depression. In parallel, we wanted to detect patients with speech disorders from their speech audios. We used a one-dimensional Convolutional Neural Network classifier and several speech features such as Zero Crossing Rate, Chroma, Mel Frequency Cepstral Coefficients, Root Mean Square, Mel Spectrogram, Fundamental Frequency, and Energy. We also made a comparison between the use of augmentation and preprocessing techniques. For speech emotion recognition, we used emotional speech datasets: RAVDESS, TESS, CREMA-D, and SAVEE. For a speaker-dependent approach, we obtained accuracy results of 65.81%, 99.24%, 50.05%, 69.55%, and 62.34% for RAVDESS, TESS, CREMA-D, SAVEE, and the combined dataset, respectively. For a speaker-independent approach, we obtained accuracy results of 41.29%, 30.51%, 45.10%, 41.54%, and 44.05% for RAVDESS, TESS, CREMA-D, SAVEE, and the combined dataset, respectively. In the assessment of emotional differences between depressed and healthy groups, using the DAICWOZ dataset, we found that for ‘sad’ and ‘fear’, there is evidence that higher groups of depression have a higher median percentage of audios for these emotions that lower levels of depression. For ‘disgust’, we found evidence that a higher level of depression can relate to lower values of ‘disgust’. Regarding detecting dysarthria from speech audios, we achieve a 93.75% accuracy using the TORGO dataset in detecting patients with this disease in a speaker-independent approach.
Mental health problems affect various populations; states of depression and anxiety are becoming more prevalent, leading to a relevant growth in the study of emotions. One of the ways to predict emotions is using speech emotion recognition. We aimed to develop a model to recognize emotions from speech signals using speech features and deep learning algorithms, and using the developed model; we wanted to assess the emotional differences between groups of people with and without depression. In parallel, we wanted to detect patients with speech disorders from their speech audios. We used a one-dimensional Convolutional Neural Network classifier and several speech features such as Zero Crossing Rate, Chroma, Mel Frequency Cepstral Coefficients, Root Mean Square, Mel Spectrogram, Fundamental Frequency, and Energy. We also made a comparison between the use of augmentation and preprocessing techniques. For speech emotion recognition, we used emotional speech datasets: RAVDESS, TESS, CREMA-D, and SAVEE. For a speaker-dependent approach, we obtained accuracy results of 65.81%, 99.24%, 50.05%, 69.55%, and 62.34% for RAVDESS, TESS, CREMA-D, SAVEE, and the combined dataset, respectively. For a speaker-independent approach, we obtained accuracy results of 41.29%, 30.51%, 45.10%, 41.54%, and 44.05% for RAVDESS, TESS, CREMA-D, SAVEE, and the combined dataset, respectively. In the assessment of emotional differences between depressed and healthy groups, using the DAICWOZ dataset, we found that for ‘sad’ and ‘fear’, there is evidence that higher groups of depression have a higher median percentage of audios for these emotions that lower levels of depression. For ‘disgust’, we found evidence that a higher level of depression can relate to lower values of ‘disgust’. Regarding detecting dysarthria from speech audios, we achieve a 93.75% accuracy using the TORGO dataset in detecting patients with this disease in a speaker-independent approach.
Descrição
Tese de Mestrado Integrado, Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), 2022, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
