Repository logo
 
No Thumbnail Available
Publication

Machine translation of clitic personal pronouns between portuguese and chinese

Use this identifier to reference this record.
Name:Description:Size:Format: 
ulflxxu_tm.pdf3.2 MBAdobe PDF Download

Abstract(s)

This study investigates how two commercial machine translation (MT) systems – Google Translate and DeepL – perform when translating Portuguese clitic personal pronouns into Chinese. Clitic personal pronoun is an important and frequently used linguistic element in Portuguese, while clitic lexical items do not exist in Chinese. Focusing on the challenges posed by the distinct grammatical structures between Portuguese and Chinese, this research explores the strategies employed by these MT systems when translating clitic personal pronouns, assesses the quality of the translations produced, and categorizes the types of errors observed. A mixed-methods approach was used, combining quantitative and qualitative analyses. The study involved a corpus of 150 Portuguese sentences containing 163 clitic personal pronouns. These sentences were translated into Chinese using DeepL and Google Translate, creating a bilingual corpus for further analysis. The translations were annotated and examined, and back-translation from Chinese to Portuguese was performed to evaluate the loss of linguistic information in the translation process. The findings reveal that both MT systems predominantly use Chinese personal pronouns in the translation of these elements or omission strategies, with errors such as omission and mistranslation occurring in approximately 20% of the cases. Additionally, backtranslation indicates that most information associated with clitic personal pronouns is recoverable, although not always and despite some semantic nuances being lost. The results suggest that translating Portuguese clitic personal pronouns into Chinese remains a challenge for MT systems due to the absence of equivalent grammatical structures in Chinese. These findings emphasize the need for further refinement of MT algorithms, particularly in handling clitic personal pronouns and reducing errors. This study contributes to a deeper understanding of MT challenges in the translation from Portuguese to Chinese, particularly concerning clitic personal pronouns. It highlights the importance of ongoing improvements in MT technology and exhibits the strengths and limitations of current MT systems.
No mundo interligado de hoje, a tradução automática (TA) tornou-se uma ferramenta essencial para facilitar a comunicação interlinguística e intercultural. Este estudo investiga a tradução dos pronomes pessoais clíticos de português para chinês, realizada por dois sistemas comerciais de TA: Google Translate e DeepL. Desde o início do século XXI, o advento da tradução automática baseada em redes neurais (neural machine translation, NMT) melhorou significativamente a qualidade das traduções e tornou-se a abordagem de ponta no domínio da TA. Por meio da aprendizagem profunda (deep learning), os modelos de NMT processam frases inteiras, capturando o contexto linguístico e as nuances com mais eficácia do que as abordagens anteriores de TA. Os modelos de NMT são agora amplamente utilizados e os dois tradutores automáticos comerciais selecionados neste estudo adotam essa abordagem. Os pronomes pessoais clíticos do português, como “me”, “te”, “lhe”, “nos”, e “lhes”, são elementos linguísticos importantes e frequentemente utilizados em português. Estes pronomes pessoais clíticos desempenham funções diversas na língua portuguesa, relacionadas principalmente com a concordância verbal e a marcação de objetos diretos ou indiretos. Em chinês, no entanto, a estrutura gramatical é muito diferente e não existem os clíticos. Centrando-se nos desafios colocados pelas estruturas gramaticais distintas entre o português e o chinês, esta investigação explora as estratégias utilizadas pelos sistemas de TA na tradução dos pronomes pessoais clíticos, avalia a qualidade das traduções produzidas e categoriza os tipos dos erros encontrados nesse processo. Posteriormente, por meio de uma segunda fase de retro-tradução de chinês para português, com o objetivo de identificar possíveis perdas de informação. O estudo é orientado por três questões de investigação: (1) Que estratégias de tradução são utilizadas pelo DeepL e pelo Google Translate para traduzir os pronomes pessoais clíticos de português para chinês? (2) Qual é a qualidade das traduções resultantes? (3) Existe perda de informação na retro-tradução dos outputs chineses para português? Este trabalho é estruturado em seis capítulos: no primeiro capítulo, apresentamos os aspetos introdutórios desta investigação, incluindo o background, o tema de estudo, as perguntas de investigação, os objetivos, as motivações, etc. Os capítulos segundo e terceiro fornecem o enquadramento teórico deste estudo. O segundo capítulo aborda a tradução automática, apresentando a sua evolução histórica e as principais abordagens, com foco na tradução automática baseada em redes neurais. Além disso, introduzimos os sistemas de TA selecionados e a tipologia de erros utilizada nesta investigação. O terceiro capítulo é dedicado às descrições gramaticais do português e do chinês, com ênfase nos pronomes pessoais das duas línguas, que constituem o foco central deste estudo. O quarto capítulo apresenta a metodologia desta investigação. Para atingir os objetivos, o estudo adota uma metodologia mista, combinando abordagens quantitativas e qualitativas. Do corpus online CETEMPúblico, foram extraídas 150 frases completas em português, cada uma contendi pelo menos um pronome pessoal clítico, totalizando 163 pronomes pessoais clíticos. Estas frases foram traduzidas para chinês pelo DeepL e pelo Google Translate, criando um corpus bilingue para a análise posterior. Em seguida, os resultados chineses foram retrotraduzidos para português, utilizando os mesmos sistemas de TA, a fim de avaliar as recuperações e as perdas da informação transmitida pelos pronomes pessoais clíticos nas frases originais, através da comparação com as frases originais. As traduções foram anotadas, examinadas e analisadas. Em primeiro lugar, as contrapartidas dos clíticos nas traduções chinesas e nas retro-traduções portuguesas foram anotadas e a qualidades das suas traduções foram avaliadas separadamente. Em segundo lugar, identificaram-se as estratégias aplicadas nas traduções para chinês e examinou-se, nas retrotraduções para português, se as informações foram recuperadas e se foram utilizados clíticos. A terceira etapa consistiu na análise dos erros, que envolveu a categorização conforme a tipologia de erros de Multidimensional Quality Metrics (MQM) (Lommel et al., 2014), com foco nos níveis de precisão e das convenções linguísticas. Os resultados revelam que ambos os sistemas de TA empregam predominantemente duas estratégias principais para lidar com os pronomes pessoais clíticos portugueses. A estratégia mais utilizada pelos dois sistemas é a substituição por pronomes pessoais chineses, que correspondem à pessoa e ao número gramatical do texto de partida. A segunda estratégia mais frequente é a omissão de qualquer elemento equivalente aos pronomes pessoais clíticos. O uso de pronomes pessoais chineses representa mais de 50% dos casos, enquanto a omissão ocorre em aproximadamente 35% nas traduções. Embora a omissão seja uma estratégia frequente, muitas vezes leva à perda de informações semânticas e sintáticas, reduzindo a precisão da tradução. Outras estratégias menos comuns incluem a substituição de pronomes clíticos por outros tipos de pronomes (demonstrativos e possessivos) ou por sintagmas (nominais, verbais e adverbiais). Em termos de qualidade de tradução, o estudo demostra que ambos os sistemas atingem mais de 70% de precisão, produzindo traduções de alta qualidade na maioria dos casos. No entanto, ocorrem erros em cerca de 20% dos resultados, principalmente devido às omissões, a mistranslations e a overtranslations. Entre os dois sistemas, o DeepL tem um desempenho ligeiramente melhor, produzindo menos erros e fornecendo traduções mais precisas em geral. No entanto, a diferença entre os dois sistemas não é estatisticamente significativa. A análise da retro-tradução indica que aproximadamente 80% da informação original associada aos pronomes clíticos é retida na retro-tradução para o português. O uso adequado dos pronomes clíticos correlaciona-se com taxas mais elevadas de recuperação de informação, sublinhando o seu papel importante na manutenção da coerência linguística e na redução da perda semântica. Esta observação destaca a importância de traduzir com precisão os pronomes clíticos para garantir a integridade do conteúdo traduzido. Este estudo procura contribuir para as investigações existentes sobre a TA entre o português e o chinês, abordando uma característica linguística específica: os pronomes pessoais clíticos. Os resultados demonstram tanto as capacidades como as limitações dos sistemas de TA atuais na tradução destes pronomes clíticos, revelando áreas específicas para melhoria, como a resolução de erros de omissão e o refinamento das estratégias de tradução para estruturas sintáticas complexas. O estudo apresenta algumas limitações. Em primeiro lugar, o tamanho relativamente pequeno do corpus de 150 frases pode restringir a generalização dos resultados. Um corpus maior e mais diversificado forneceria insights mais robustos. Em segundo lugar, o estudo centra-se exclusivamente nos pronomes pessoais clíticos, deixando por explorar outros elementos clíticos e as suas funções tais como se passivo ou se impessoal. Em terceiro lugar, a investigação não propõe estratégias para melhorar a precisão da tradução, o que poderá ser um foco para estudos futuros. Além disso, a rápida evolução das tecnologias de TA, incluindo a introdução de grandes modelos de linguagem (large language models, LLMs) e a evolução do DeepL e Google Translate, apresenta uma oportunidade para trabalhos de investigação futuros para comparar os sistemas NMT tradicionais com ferramentas de tradução emergentes. Por fim, o estudo examina os pronomes clíticos de forma isolada, sem considerar contextos interfrásicos mais amplos, que podem influenciar a qualidade da tradução. Em conclusão, esta investigação apresenta dados relevantes sobre os desafios e estratégias envolvidos na tradução dos pronomes pessoais clíticos portugueses para chinês utilizando sistemas de TA comerciais. As conclusões fornecem perspetivas para melhorar a precisão da TA. A investigação futura poderá centrar-se no desenvolvimento de modelos linguísticos avançados, no refinamento de algoritmos de TA e na expansão do âmbito da análise para incluir fatores contextuais mais amplos. À medida que as tecnologias de TA continuam a evoluir, enfrentar estes desafios será essencial para melhorar a comunicação interlinguística e promover uma maior compreensão entre línguas e culturas.

Description

Keywords

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License