Speech emotion recognition models from multisourced data and application to depression and dysarthria

Silva, Daniel Brandão da

http://hdl.handle.net/10451/59390

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Daniel_Silva.pdf		2.72 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Silva, Daniel Brandão da

Orientador(es)

Ferreira, Hugo Alexandre

Resumo(s)

Cerca de 15.5% da população mundial apresemta algum tipo de problema do foro mental, com este cenário a aumentar, particularmente depois da pandemia causada pela COVID-19. Uma vez que problemas de saúde mental afetam várias populações e os transtornos de depressão e ansiedade estão a tornar-se cada vez mais prevalecentes, o estudo das emoções torna-se mais necessário. Por conseguinte, a deteção precoce e consequente tratamento da depressão são aspetos cruciais. Uma das formas de detetar emoções é através da fala. A fala é um método de comunicação vital, esta não só transmite uma mensagem semântica como também detalhes sobre o estado emocional do orador, através da sua voz. É razoavelmente simples de recolher e processar em tempo real, através de um sensor auditivo como um microfone. Aspeto este que é crucial ao considerar qual a modalidade a utilizar para o reconhecimento das emoções. Um sistema capaz de registar áudio e analisar emoções poderia permitir o diagnóstico automático de depressão em doentes, ajudando os médicos a apoiar as suas decisões e evitar erros críticos, permitindo cuidados mentais pró-ativos. Posto isto, podemos dizer que esta dissertação tem dois objetivos principais. Um deles é ser capaz de reconhecer as emoções através dos sinais áudio da fala com base nas suas características acústicas e com a ajuda de algoritmos de machine learning. O outro é utilizar essa capacidade para avaliar as diferenças emocionais entre grupos de pessoas com e sem depressão. Se conhecermos o perfil emocional das pessoas com depressão e as suas diferenças em comparação com um grupo saudável, tendo um sistema capaz de reconhecer as emoções seria possível ajudar os clínicos a diagnosticar depressão. Uma vez que estávamos a trabalhar com características relacionadas com a fala, acrescentámos um objetivo paralelo de detetar doentes com perturbações da fala, a partir de áudios dos mesmos. O primeiro passo foi implementar o reconhecimento de emoções: ‘raiva’; ‘nojo’; ‘medo’; ‘felicidade’; ‘neutra’; ‘tristeza’; ‘surpresa’. Os métodos utilizados basearam-se no pré-processamento dos áudios e em técnicas de aumento do número de dados existentes. No pré-processamento realizado foi considerada a remoção de partes de silêncio no início e fim dos sinais e a sua filtragem. As características extraídas dos áudios foram as seguintes: Zero Crossing Rare, Chroma, Mel Frequency Cepstral Coefficents, Root Mean Square, Mean Mel Spectogram, Mean Fundamental Frequency, Mean Fundamental Frequency variability e Energia. O classificador utilizado foi uma rede neural convolocional que incluí camadas unidimensionais convolutivas combinadas com camadas de dropout, max-polling, e activation. Realizámos o reconhecimento das emoções nos conjuntos de dados: RAVDESS (7 emoções), TESS (7 emoções), CREMA-D (6 emoções) e SAVEE (7 emoções). Para isso, extraímos as características dos áudios mencionadas no parágrafo anterior e comparámos a utilização de técnicas de pré-processamento e de aumento do número de dados no desempenho do nosso modelo. O reconhecimento de emoções pode ser categorizado em dependente do orador (SD) ou independented do orador (SI). Nos conjuntos de dados de treino e teste dos estudos SD, existem amostras de áudio do mesmo ator expressando várias emoções. Por outro lado, os estudos SI usam dados de treino e teste compostos por amostras de áudio de diferentes atores. Para uma abordagem dependente do orador, obtivemos resultados de acurácia de 65.81%, 99.24%, 50.05%, 69.55%, e 62.34% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. A partir dos resultados, concluímos que o pré-processamento melhora a acurácia média quando temos menos amostras de dados. No entanto, com mais amostras de dados, o préprocessamento não influencia significativamente o desempenho porque o modelo tem mais dados com que aprender. De um modo geral, o aumento do número de dados é uma boa técnica para um sistema dependente do orador. O pré-processamento também pode ser utilizado quando o conjunto de dados é pequeno. Além disso, TESS e SAVEE têm melhores resultados que os restantes, o que indica que o modelo pode aprender melhor com um menor número de oradores. Portanto, se quisermos monitorizar o estado emocional de uma única pessoa ao longo do tempo, podemos criar um modelo usando amostras de discurso rotuladas emocionalmente dessa pessoa e depois usá-lo para prever as suas emoções no futuro. Para uma abordagem independente do orador, obtivemos resultados de acurácia de 41.29%, 30.51%, 45.10%, 41.54%, e 44.05% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. Nesta abordagem, o aumento do número de dados e o pré-processamento não parecem ter tanta influência, como acontece na abordagem dependente do orador. No entanto, é útil utilizar estas técnicas quando o tamanho do conjunto de dados é pequeno. Além disso, vemos que tendo menos oradores é pior nesta abordagem. TESS tem apenas dois oradores, e o modelo irá sobreajustar-se ao orador utilizado no treino numa abordagem independente do orador. Assim, quando queremos prever emoções em oradores que não estão presentes no treino, devemos utilizar dados no treino de muitos oradores diferentes. Outras conclusões relacionadas com o reconhecimento de emoções pela voz são que a maioria das classificações erradas ocorrem entre emoções com valores próximos num dos eixos do plano valênciaexcitação. Tendo o nosso modelo de reconhecimento de emoções a partir da fala pronto, fizémos uma avaliação da depressão usando áudios de voz de grupos de pessoas com depressão e saudáveis e as emoções previstas pelo nosso modelo. Por conseguinte, utilizámos o conjunto de dados DAIC-WOZ, e o nosso modelo treinado no conjunto de dados combinado com aumento de dados e sem pré-processamento. Utilizámos o modelo com o conjunto de dados combinado porque tem a maior variabilidade possível. Uma vez que o aplicámos a dados de uma população completamente diferente, o conjunto de dados combinado é o que pode generalizar melhor. A combinação utilizada é com aumento de dados e sem pré-processamento porque é a que tem melhores resultados para o conjunto de dados combinado numa abordagem independente do orador, que é o caso aqui. As principais conclusões na avaliação das diferenças emocionais entre grupos de pessoas com depressão e grupos controlo estão relacionadas com ‘nojo’, ‘medo’ e ‘tristeza’. Para ‘nojo’, encontrámos provas de que os níveis mais elevados de depressão podem estar relacionados com valores mais baixos de ‘nojo’. Embora nenhum dos grupos tenha frequentemente experimentado ‘medo’, verificámos que indivíduos com depressão grave podem apresentar valores mais altos de ‘medo’ em relação a indivíduos com níveis mais baixos de depressão. Para ‘tristeza’, encontrámos provas de que níveis mais elevados de ‘tristeza’ podem estar relacionados com níveis mais elevados de depressão. Durante a realização deste trabalho pôs-se ainda em questão se seria possível usar áudios de voz para detetar outras patologias. Visto que se usaram propriedades relacionadas com a voz, tentou-se perceber se era possível usar as características vocais para reconhecer distúrbios relacionados com a fala usando a base de dados TORGO. Esta base de dados inclui áudios provenientes de 8 participantes com patologia causadora de disartria e 7 participantes controlo. Os dados correspondem a áudios como sons, palavras curtas, frases restritas e frases não restritas por parte de todos os participantes. Neste sentido, alcançouse uma acurácia de 93.75% na detecção de pessoas com esta doença, numa abordagem independente do orador. Um possível trabalho futuro deve abordar a questão dos áudios aqui tratados não corresponderam a áudios gravados num ambiente de vida real. Para isso deve-se ter acesso a áudios correspondentes a iterações da vida real que estejam classificados de acordo com a emoção sentida. Outra tarefa a pensar seria eliminar o ruído das amostras de áudio adquiridas. Outras melhorias que poderiam ser feitas seriam ajustar os hiperparâmetros do classificador e aplicar seleção de características, o que poderia melhorar o desempenho do classificador. Na nossa avaliação das emoções nos vários grupos com depressão, utilizámos o nosso modelo de reconhecimento de emoções pela fala que apresenta uma acurácia inferior a 50%, numa abordagem independente do orador. Consequentemente, as emoções previstas não são uma representação exata da realidade. Além disso, o número de sujeitos em cada grupo diminui à medida que o nível de depressão aumenta, pelo que não temos um número elevado de amostras dos grupos de depressão. Ainda, as amostras de áudio são provenientes de entrevistas, e a pessoa sabe que estão a ser gravadas, consequentemente pode esconder as suas emoções. Os resultados de uma avaliação das diferenças emocionais entre os grupos de depressão e um modelo de reconhecimento de emoções poderiam ajudar, num trabalho futuro, a desenvolver um modelo capaz de detetar automaticamente o nível de depressão de uma pessoa.

Mental health problems affect various populations; states of depression and anxiety are becoming more prevalent, leading to a relevant growth in the study of emotions. One of the ways to predict emotions is using speech emotion recognition. We aimed to develop a model to recognize emotions from speech signals using speech features and deep learning algorithms, and using the developed model; we wanted to assess the emotional differences between groups of people with and without depression. In parallel, we wanted to detect patients with speech disorders from their speech audios. We used a one-dimensional Convolutional Neural Network classifier and several speech features such as Zero Crossing Rate, Chroma, Mel Frequency Cepstral Coefficients, Root Mean Square, Mel Spectrogram, Fundamental Frequency, and Energy. We also made a comparison between the use of augmentation and preprocessing techniques. For speech emotion recognition, we used emotional speech datasets: RAVDESS, TESS, CREMA-D, and SAVEE. For a speaker-dependent approach, we obtained accuracy results of 65.81%, 99.24%, 50.05%, 69.55%, and 62.34% for RAVDESS, TESS, CREMA-D, SAVEE, and the combined dataset, respectively. For a speaker-independent approach, we obtained accuracy results of 41.29%, 30.51%, 45.10%, 41.54%, and 44.05% for RAVDESS, TESS, CREMA-D, SAVEE, and the combined dataset, respectively. In the assessment of emotional differences between depressed and healthy groups, using the DAICWOZ dataset, we found that for ‘sad’ and ‘fear’, there is evidence that higher groups of depression have a higher median percentage of audios for these emotions that lower levels of depression. For ‘disgust’, we found evidence that a higher level of depression can relate to lower values of ‘disgust’. Regarding detecting dysarthria from speech audios, we achieve a 93.75% accuracy using the TORGO dataset in detecting patients with this disease in a speaker-independent approach.

Descrição

Tese de Mestrado Integrado, Engenharia Biomédica e Biofísica (Engenharia Clínica e Instrumentação Médica), 2022, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023

URI

http://hdl.handle.net/10451/59390

Coleções

FC - Dissertações de Mestrado

Ver registo completo