Assessment of mandarin in automatic speech recognition systems

Matos, Érica Ribeiro Martins de2026-01-092026-01-092025-06-02http://hdl.handle.net/10400.5/116543Mestrado em LinguísticaOs sistemas de reconhecimento automático da fala (ASR - Automatic Speech Recognition) são fundamentais na tecnologia moderna, permitindo aplicações como assistentes virtuais, serviços de transcrição e monitorização de mídia. Apesar dos avanços significativos, o desenvolvimento de sistemas de reconhecimento para línguas tonais, como o chinês mandarim, continua a ser um desafio. O mandarim, falado por mais de mil milhões de pessoas na China continental, Hong Kong, Macau, Taiwan, Singapura e Malásia, apresenta uma grande variação linguística devido às diferentes pronúncias regionais, o que dificulta a precisão dos sistemas de ASR. As características linguísticas únicas do mandarim, como os tons lexicais, o extenso inventário fonético e o sistema de escrita logográfico, dificultam a obtenção de um melhor desempenho num curto tempo de processamento. O mandarim é uma língua tonal, o que significa que o significado das palavras pode variar substancialmente dependendo do tom utilizado. Existem cinco tons no mandarim e cada um deles é essencial para distinguir palavras com diferentes significados. O papel fundamental dos tons na diferenciação dos significados das palavras torna ainda mais desafiadora a construção de sistemas de reconhecimento automático que sejam tão precisos quanto eficientes. Esta dissertação descreve o trabalho desenvolvido durante um estágio integrado no mestrado em Linguística, conduzido na VoiceInteraction, uma empresa especializada em tecnologias proprietárias nas áreas de processamento de linguagem natural e reconhecimento automático da fala. A empresa disponibiliza seis plataformas, cada uma projetada para setores específicos como Noticiários, Administração Pública, Educação, Saúde e Centros de Contacto. A VoiceInteraction suporta uma ampla gama de idiomas, o que permite alcançar um público global. O objetivo principal deste trabalho foi validar e reformular os dados de fala em mandarim, com o objetivo de melhorar a precisão dos sistemas de reconhecimento de fala para esta língua. Focando-se em três tarefas principais: a reformulação do conjunto de fones (phone set), a validação das palavras fora do vocabulário (OOV - Out-of-vocabulary) e a definição e colocação dos tons e o desenvolvimento de um conjunto de referência, ou golden set, para a avaliação do sistema. A primeira tarefa envolveu a reformulação e validação do conjunto de segmentos fonéticos, obtido da AISHELL Foundation’s DaCiDian, amplamente usado no meio académico, como referência para a conversão de palavras em fonética para ASR em mandarim. Uma vez que este conjunto de fones é adaptado do inglês, compromete a representação precisa dos sons do mandarim. O objetivo foi criar uma representação fonética rigorosa que capturasse com precisão os sons do mandarim. Para isso, estabeleceu-se uma correspondência entre todas as combinações de pīnyīn (o sistema fonético do mandarim) e símbolos X-SAMPA (alfabeto fonético utilizado em ASR), garantindo uma representação fonética precisa. A nova versão do conjunto de fones incluiu modificações necessárias, como inserções, exclusões e substituições, para melhor refletir os segmentos fonéticos e fonológicos autênticos do mandarim, especialmente nas consoantes africadas e aspiradas, que são significativamente diferentes do inglês. A reformulação do conjunto de fones permitiu que o sistema ASR fosse mais sensível às distinções fonológicas essenciais do mandarim, incluindo o reconhecimento adequado dos diferentes tipos de consoantes e vogais. O reconhecimento da tonalidade representa um desafio significativo para os sistemas ASR, já que a transcrição de tons incorretos pode resultar em erros graves de interpretação, alterando o significado da palavra. Para lidar com esse desafio, a correspondência grafema-para-fonema (G2P - Grapheme-to-Phoneme), que converte grafemas (escrita) em fones (pronúncia), é fundamental. Este processo é realizado a partir de um dicionário fonético, também obtido da AISHELL Foundation’s DaCiDian, que mapeia palavras para as suas correspondentes transcrições em pīnyīn e tons. Contudo, ao processar dados de fala de notícias em mandarim, surgem palavras designadas “fora do vocabulário” (do inglês out-of-vocabulary OOV), ou seja, palavras que não estavam presentes no dicionário fonético. Para resolver este problema, a segunda tarefa é dividida em duas partes, a primeira trata da validação das palavras OOV, que garante a associação correta dos caracteres aos respetivos pīnyīn e tons. Durante o processo de validação, cerca de treze mil (13.245) de um total de quase cento e cinquenta mil (149.237) entradas foram corrigidas, para garantir que cada palavra estava corretamente ligada à sua pronúncia correspondente, minimizando os erros associados a tons. A segunda parte desta tarefa estabelece o posicionamento dos tons para todas as combinações de pīnyīn existentes. A colocação dos tons foi efetuada na vogal nuclear de cada sílaba, garantido o alinhamento com as regras de posicionamento dos tons no pīnyīn. Finalmente, foi criado meticulosamente um conjunto de referência (golden set), a partir de transcrições humanas de segmentos de áudio de notícias com quase três horas de duração, com o objetivo de avaliar e aprimorar os sistemas de reconhecimento de fala. Além disso, foi também necessário compreender de que forma as regras de anotação já existentes para o português e inglês poderiam ser adaptadas para o mandarim. Durante este processo, foram identificados e corrigidos alguns erros, como a falta de pontuação, omissão de pausas preenchidas, transcrição incorreta de números e de segmentos em línguas estrangeiras. Foram também identificados alguns desafios como ruído de fundo, sobreposição de fala, alternância de códigos (code-switching), variação de pronúncia e transliteração na criação do conjunto de referência. Quanto às regras de anotação, constatou-se a necessidade de adaptações específicas para o mandarim, como no caso de regras de capitalização, normalização de dígitos, o uso de interjeições e pausas preenchidas, assim como a pontuação própria da língua. O conjunto de teste (do inglês golden set) permitiu validar os dados de treino reformulados durante o estágio e obter os resultados subsequentes. Os resultados envolveram uma comparação entre os dados pré-existentes e os dados reformulados, que incorporam dados resultantes de todas as tarefas mencionadas. Ambos foram testados em modelos com configurações distintas: uma abordagem híbrida que combina modelos de Markov com redes neuronais (HMM - Hidden Markov Models + DNN - Deep Neural Networks) e HMM com redes neuronais com atraso temporal (HMM + TDNN - Time-Delay Neural Network). Os novos dados demonstraram um desempenho consistentemente superior aos anteriores em ambas as configurações, apresentando uma redução na taxa de erro de caracteres (CER - Character Error Rate). A adoção do modelo HMM + TDNN, anteriormente não utilizado pela empresa, permitiu a utilização de uma maior quantidade de dados de treino, resultando numa redução total de 1,25% na CER, em comparação com o modelo tradicional HMM + DNN. Este trabalho foi aplicado a todos os produtos da empresa, permitindo não apenas a melhoria da eficiência, mas também facilitando a expansão da empresa nos mercados asiáticos. O conjunto de segmentos fonéticos reformulado, a validação de OOVs, a correta colocação dos tons e a criação do conjunto de referência foram elementos cruciais para a melhoria do desempenho do modelo TDNN no reconhecimento automático para o mandarim. Estes componentes contribuíram para a maior precisão fonética e reconhecimento tonal, abordando desafios como a fala espontânea e as pausas preenchidas. Os resultados destacam como a integração destas melhorias permitiu construir um sistema de reconhecimento de fala automático robusto, capaz de lidar com a complexidade da fala em mandarim. Os resultados demonstram progresso e destacam os benefícios do aumento dos dados de treino, mas ainda há espaço para mais investigação. No futuro, pode-se explorar a integração de variações dialetais e fenómenos da fala espontânea, além de implementar estratégias para gerar léxicos fonéticos que minimizem as pronúncias alternativas, como, por exemplo, a aplicação de regras para o uso do tom neutro, que ocorre principalmente em sufixos e partículas.Automatic Speech Recognition (ASR) systems are essential in modern technology, enabling applications like virtual assistants, transcription services, and media monitoring. However, developing ASR systems for tonal languages like Mandarin Chinese remains challenging due to its unique linguistic features, such as lexical tones, extensive phonetic inventory and logographic writing system. This thesis describes the work conducted during an internship for the master's in Linguistics at VoiceInteraction, a company specializing in proprietary technologies in the fields of natural language processing (NLP) and ASR. The goal was to validate and redesign Mandarin speech data, focusing on four main tasks: redesigning the phone set, validating out-of-vocabulary (OOV) words, establishing tone placement and developing a golden set for system evaluation. The redesigned phone set mapped all pīnyīn combinations to X-SAMPA symbols. The Grapheme to Phoneme (G2P) correspondence was improved by validating out-of-vocabulary (OOV) words and by establishing tone placement in the nuclear vowel of the syllable. A golden set was created, derived from human transcription, incorporating spontaneous speech phenomena like pauses and repetitions, serving as reference for evaluating ASR systems. The results involved comparing the original and the redesigned data, using two hybrid model configurations: Hidden Markov Model with Deep Neural Networks (HMM + DNN) and HMM with Time Delay Neural Networks (HMM + TDNN). The new data consistently outperformed the previous data across both model configurations, resulting in a reduction of the character error rate (CER). Prompted by the use of TDNNs and a larger training set, the CER for Mandarin improved from 11.3% to 10.05%, reflecting a decrease of 1.25%. The work presented enhanced Mandarin ASR, improving phonetic accuracy and tone recognition, while addressing challenges such as spontaneous speech and filled pauses. The results highlight how their integration built a robust ASR system capable of handling the complexities of Mandarin speech.application/pdfengAssessment of mandarin in automatic speech recognition systemsmaster thesis203955668