Moniz, Helena Gorete SilvaSánchez Torrón, MarinaGerardo, João Pedro Gaspar2023-03-222023-03-222022-11-252022-11-12http://hdl.handle.net/10451/56764O presente trabalho foi desenvolvido no âmbito da unidade curricular “Estágio Curricular”, exercida no segundo ano letivo do Mestrado em Tradução Da Faculdade de Letras da Universidade de Lisboa (FLUL). Este estágio terá sido realizado na Unbabel, uma empresa que oferece soluções de tradução baseadas em inteligência artificial, para domínios de apoio ao cliente, tais como as FAQs, ou seja, aos artigos de Perguntas Frequentes, o chat (diálogos escritos) e os tickets (por tickets entenda-se emails mandados por clientes para a equipa de apoio ao cliente de uma empresa). O foco deste trabalho será demonstrar o impacto e a eficácia de regras linguísticas em duas variedades da língua portuguesa, o português europeu e o português do Brasil. O objetivo deste projeto foi investigar o impacto e eficácia de destacar erros presentes num ambiente de pós-edição de traduções feitas por modelos de tradução automática. Para este fim, foram identificados erros comuns através da análise de conjuntos de dados, em contexto de apoio ao cliente, de inglês para português europeu e inglês para português do Brasil. Com base nesta análise, foram criadas regras linguísticas com o objetivo de prevenir erros e melhorar a qualidade da pós-edição, assim como torná-la mais eficiente. Após uma fase de deteção de erros, criaram-se regras linguísticas como solução para os erros encontrados. Para este efeito, analisaram-se conjuntos de dados constituídos por mensagens de apoio ao cliente, sob a forma de tickets, com os pares de línguas inglês-português europeu e inglês-português do Brasil, a fim de desenvolver soluções para os erros encontrados. Visa-se, desta forma, melhorar a qualidade e a eficiência dos editores que operam a pós-edição dos textos com erros de edição que afetam a qualidade. Após a fase de deteção de erros e de desenvolvimento das respetivas regras linguísticas, iniciou-se a fase de validação. Recorrendo a conjuntos de dados diferentes, testou-se a eficácia das regras desenvolvidas. Os resultados foram documentados e analisados na perspetiva de os editores aceitarem e implementarem as soluções propostas, embora exista a possibilidade de os editores escolherem ignorar as sugestões propostas pelas regras linguísticas. Contudo, assumindo que os editores tenham optado por aceitar as sugestões, observou-se um aumento significativo nos índices de qualidade dos conjuntos. Ao comparar os conjuntos de dados antes e depois de aplicadas as regras, registou-se, em termos de média, um aumento de 5 pontos no conjunto de dados no par linguístico inglês-português europeu e de mais de 11 pontos no conjunto de dados no par linguístico inglês-português do Brasil com base na métrica standard Multidimensional Quality Metric (MQM). Em casos específicos, identificou-se um aumento muito considerável de quase 44 pontos nas mensagens com os valores mínimos para o par inglês-português e de 53 pontos para o par inglês-português do Brasil.This work was done during the course of the Master’s internship, in the second year of the Master’s in Translation Studies in the Faculty of Arts and Humanities of the University of Lisbon (FLUL). The internship was at Unbabel, a company that focuses on AI-based translation services for customer service domains such as FAQs, chat and tickets (emails). The goal of this research is to investigate the impact and effectiveness of highlighting errors in the machine translation output in a post-editing environment. To that end, linguistic rules addressing common errors in European Portuguese and Brazilian Portuguese were created. Common errors in European Portuguese were identified by analyzing and annotating English to European Portuguese and English to Brazilian Portuguese datasets in the context of customer service. Based on this analysis, a set of linguistic rules was created, aimed at preventing errors and improving the overall quality and efficiency of the post-editors. An error detection phase and subsequent creation of linguistic rules to solve the detected errors was followed by a testing phase of said rules. The results were documented and analyzed with the assumption that the editors would accept and implement the proposed solutions, although it is possible the editors choose to ignore and skip the suggestions proposed by the linguistic rules. However, assuming the editors accept the suggestions, there was a significant increase in the overall quality of the test datasets. By comparing the datasets before and after applying the rules, an overall increase of 5 MQM points was observed in English to European Portuguese; for English to Brazilian Portuguese, such increase was of 11 MQM points. Maximum increases were of 44 MQM points in English to European Portuguese and of 53 points in English to Brazilian Portuguese.porValidação de regras linguísticas para melhorar a qualidade do português europeu e português do Brasil num contexto de pós-ediçãomaster thesis203116569