| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 12.9 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Desde a introdução da tradução automática (TA), é salientada a relevância da pós-edição humana como requisito para assegurar traduções de qualidade. Esta necessidade permanece igualmente fundamental desde a recente introdução dos modelos de linguagem de grande dimensão (do inglês, Large Language Models, doravante LLM) no domínio da tradução. À medida que os métodos de tradução evoluem, também os processos de garantia de qualidade devem manter-se atualizados. O presente projeto destina-se a investigar a tarefa de explicação de erros gramaticais (do inglês, Grammar Error Explanation), juntamente com as tarefas de deteção de erros gramaticais (Grammar Error Detection) e correção de erros gramaticais (Grammar Error Correction). Sobretudo, visando averiguar a qualidade dos sistemas da Unbabel e encontrar aquele que demonstra o melhor desempenho, especialmente na tarefa de explicação de erros, para implementá-lo na ferramenta interna de pós-edição, dando assim resposta à motivação inicial do projeto. O projeto foi elaborado no âmbito de um estágio na empresa, em colaboração com a equipa de Engenharia Linguística e a equipa de Comunidade. Os objetivos do projeto tinham três pontos principais: 1) Criar métricas de avaliação personalizadas para avaliar o desempenho de ferramentas de explicação de erros; 2) Definir uma metodologia de avaliação adequada para a deteção e correção de erros; 3) Aplicar ambas as metodologias às ferramentas proprietárias da Unbabel capazes de realizar as tarefas de deteção, correção e explicação de erros. Para alcançar estes objetivos, o primeiro passo consistiu em caracterizar a empresa de acolhimento, incluindo os seus objetivos, produtos, e serviços. A Unbabel, enquanto empresa que oferece serviços de tradução automática, dispõe de vários processos de garantia de qualidade, entre os quais se destaca a etapa de pós-edição, realizada pelos pós-editores, membros da Comunidade de trabalhadores freelance da empresa. Esta atividade decorre na ferramenta proprietária, Polyglot, a ferramenta interna de tradução assistida por computador (TAC), que integra (i) o Smartcheck, um sistema de deteção de erros baseado em regras; (ii) o MQM-QE, um sistema de deteção de erros com arquitetura de LLM; (iii) e o Instruction Checker, um modelo LLM destinado às tarefas de deteção e explicação de erros, especificamente elaborado para erros relacionados com o não-cumprimento das regras impostas pelos clientes. Para além destes, a empresa tem outras ferramentas proprietárias de correção de erros: o GPT-QE, uma adaptação do modelo GPT-4o-mini da Open AI para fazer deteção, correção, e explicação de erros (utilizada exclusivamente para testes internos) e os modelos LLM generalistas da Unbabel — Sugarloaf e Vesuvius — que foram testados como ferramentas de deteção, correção e explicação de erros especificamente para este projeto. Para além da descrição dos produtos que a Unbabel oferece, também os membros mais relevantes da Comunidade foram detalhados. Primeiro, os anotadores, responsáveis pela identificação manual de erros na plataforma proprietária (Annotation Tool), uma tarefa que fez também parte deste projeto. Em seguida, os já referidos pós-editores, que estão por trás da motivação inicial para este projeto, visto que as explicações de erros visam dar mais contexto para os erros automaticamente identificados, facilitando o processo de pós-edição. Um último fenómeno que motiva a elaboração deste projeto é que a última análise elaborada a uma das ferramentas proprietárias de correção de erros foi para o Smartcheck em Cabeça (2023), que introduziu uma nova metodologia na ferramenta e avaliou o seu desempenho. Assim, este projeto visa a criar uma avaliação comparativa atualizada das ferramentas de correção de erros proprietárias da Unbabel. Dado o contexto da empresa, o próximo passo foi estabelecer o enquadramento teórico. Numa primeira etapa, procedeu-se a uma pequena introdução à história e funcionamento da TA, dado que o material de teste utilizado neste projeto foi traduzido ainda utilizando os sistemas baseados em Tradução Automática Neuronal (do inglês Neural Machine Translation). Seguidamente, contextualizou-se o funcionamento dos mais modernos LLM, começando com informação geral sobre arquiteturas, abordando depois as várias formas de utilização através da engenharia de prompt, e terminando com as aplicações no domínio da tradução. Finalmente, a secção mais relevante do enquadramento foi dedicada à descrição das tarefas de deteção, correção e explicação de erros gramaticais, incluindo os métodos de avaliação existentes, bem como as ferramentas mais pertinentes para cada uma das tarefas. A elaboração do enquadramento teórico realçou que, apesar de as tarefas de deteção e correção de erros estarem bem consolidadas na indústria, a explicação de erros constitui ainda um campo emergente, impulsionado sobretudo pela introdução dos LLM, não existindo até ao momento metodologias amplamente reconhecidas de avaliação destas ferramentas. Além disso, nenhuma das abordagens tem análises formais de aplicação em ferramentas de pós-edição. Tendo os contextos prático e teórico, a metodologia para a avaliação das ferramentas foi elaborada, dividindo-se em seis fases distintas, focando-se as duas primeiras fases na recolha e preparação do material. Na Fase 1, foram selecionados os textos de dois clientes da Unbabel da área de engenharia no par de línguas inglês-alemão e preparados os recursos necessários para a tarefa de anotação, nomeadamente o estudo da ferramenta, das regras de identificação de erros, e das instruções dos clientes. A Fase 2 serviu para a criação dos gold-standard, bases de referência com a versão correta de erros detetados, corrigidos e explicados que serviram como ponto de comparação para a avaliação das ferramentas automáticas. A elaboração de gold-standard de deteção de erros foi feita através da ferramenta interna de anotação que serve justamente para identificar erros, colocando-os na categoria adequada e atribuindo-lhes a severidade correspondente. Os segmentos anotados foram depois exportados para uma folha no Google Sheets, onde os gold-standard para a correção e explicação de erros foram elaborados para cada erro identificado. Na Fase 3 foi primeiro estabelecida a metodologia de avaliação de deteção e correção de erros, consistindo na comparação automática entre os gold-standard de identificação e correção e os resultados das mesmas tarefas elaboradas por cada sistema, calculando posteriormente as métricas de Precision, Recall, e F1-score. Para a avaliação das explicações de erros, foram desenvolvidas métricas customizadas — Accuracy, Relevance, Completeness, e Clarity — que permitiram uma análise comparativa entre as explicações gold-standard e aquelas geradas pelos sistemas. As três fases subsequentes corresponderam à avaliação prática dos sistemas selecionados: na Fase 4 foram testados os sistemas integrados no Polyglot (Smartcheck, MQM-QE e Instruction Checker); na Fase 5 o GPT-QE; e na Fase 6, os modelos LLM da Unbabel (Sugarloaf e Vesuvius). Após a descrição dos processos na metodologia, os resultados foram apresentados e discutidos. O Vesuvius e o MQM-QE tiveram a melhor execução, enquanto ferramentas que somente identificam erros sem os categorizar ou corrigir, com valores F1-score de 0,19 e 0,27, respetivamente. Quanto às ferramentas que, para além de identificar os erros, podem classificá-los e categorizá-los, sobressaíram o Vesuvius, com valor F1-score de 0,13, e o GPT-QE, com 0,20. Ainda nesta categoria, o Vesuvius demonstrou a maior facilidade em corrigir e categorizar os erros, tendo feito as tarefas corretamente mais consistentemente do que todas as outras ferramentas. Por último, relativamente à explicação de erros, a ferramenta com melhor desempenho foi, novamente, o Vesuvius. Em síntese, o presente projeto possibilitou a definição e implementação de uma metodologia para a avaliação de explicação de erros gramaticais gerados em traduções automáticas, aplicando-a a sistemas de explicação de erros da Unbabel. Além disso, foi feita uma avaliação de todos os sistemas de deteção e correção da empresa. Concluiu-se que a metodologia formulada foi eficaz na avaliação dos sistemas que detetam, corrigem e explicam erros, oferecendo resultados interpretáveis sobre a qualidade destes sistemas dentro da Unbabel. Além disso, o presente projeto contribui com uma nova metodologia especialmente desenvolvida para a avaliação de explicações de erros, que confere uma visão multidimensional sobre a qualidade das explicações e está apta para ser testada em produção. Ainda, a presente aplicação desta metodologia para outras tarefas na empresa prova que é adaptável para outras áreas. O projeto inclui-se ainda no âmbito do Center for Responsible AI1, na medida em que realça a importância da contínua avaliação de ferramentas de correção de erros automáticas, garantindo assim qualidade na TA e uma utilização responsável da Inteligência Artificial.
Since the advent of Machine Translation (MT), a human post-edition (PE) step has been considered essential to ensure translation quality. This requirement persists even with the recent adoption of Large Language Models (LLMs) for translation. However, as translation methods evolve, so must quality assurance methods, particularly Grammar Error Detection (GED), Grammar Error Correction (GEC), and Grammar Error Explanation (GEE). At Unbabel, PE is conducted in Polyglot, the proprietary CAT tool, assisted by proprietary GED systems, including the proprietary rule-based Smartcheck and the proprietary LLM-based MQM-QE and Instruction Checker. While LLM tools offer promising capabilities, they face a common challenge — the opacity behind their decisions. Instruction Checker addresses this by providing automatic GEE, contextualizing GED outputs, although specifically for instruction-related errors. Yet, as GEE is an emerging field, evaluation methods for such tools remain relatively unexplored. Furthermore, although GED and GEC are well-defined and widely studied tasks, there are no updated formal assessments of Unbabel’s tools. Additionally, there is no GEE tool in Polyglot aimed at general errors. This project, developed during an internship at Unbabel, addresses these gaps by proposing an evaluation framework for GEE, performing an updated benchmark of all error correction tools currently integrated into Polyglot and being used in production, and, ultimately, aiming to address the central need — proposing the best candidate GEE tool to put in production. To achieve this, gold-standards for GED, GEC, and GEE were created as baselines using translated texts from two technical engineering clients in the English-German language pair. Each tool — namely Smartcheck, MQM-QE, Instruction Checker, GPT-QE, Sugarloaf, and Vesuvius, the latter two being Unbabel’s generalist LLMs — was tested on one or more tasks. Finally, established GED and GEC evaluation frameworks, along with newly developed GEE metrics, were applied to assess system performance. Among error identification tools, MQM-QE and Vesuvius achieved the best F1-scores (0.27 and 0.19). For the systems performing both GED and GEC, Vesuvius and GPT-QE reached the highest scores (0.13 and 0.20). Within this category, Vesuvius demonstrated greater consistency in correcting and categorizing errors, outperforming all other systems. Finally, in the domain of GEE, the best-performing tools were Vesuvius and GPT-QE. Overall, the evaluation methodology successfully assessed Unbabel’s systems, while the custom GEE metrics enabled a multidimensional analysis of automatically generated error explanations and demonstrated adaptability for other company tasks. Most importantly, this work identified the most suitable tool for implementing error explanations in Polyglot.
Since the advent of Machine Translation (MT), a human post-edition (PE) step has been considered essential to ensure translation quality. This requirement persists even with the recent adoption of Large Language Models (LLMs) for translation. However, as translation methods evolve, so must quality assurance methods, particularly Grammar Error Detection (GED), Grammar Error Correction (GEC), and Grammar Error Explanation (GEE). At Unbabel, PE is conducted in Polyglot, the proprietary CAT tool, assisted by proprietary GED systems, including the proprietary rule-based Smartcheck and the proprietary LLM-based MQM-QE and Instruction Checker. While LLM tools offer promising capabilities, they face a common challenge — the opacity behind their decisions. Instruction Checker addresses this by providing automatic GEE, contextualizing GED outputs, although specifically for instruction-related errors. Yet, as GEE is an emerging field, evaluation methods for such tools remain relatively unexplored. Furthermore, although GED and GEC are well-defined and widely studied tasks, there are no updated formal assessments of Unbabel’s tools. Additionally, there is no GEE tool in Polyglot aimed at general errors. This project, developed during an internship at Unbabel, addresses these gaps by proposing an evaluation framework for GEE, performing an updated benchmark of all error correction tools currently integrated into Polyglot and being used in production, and, ultimately, aiming to address the central need — proposing the best candidate GEE tool to put in production. To achieve this, gold-standards for GED, GEC, and GEE were created as baselines using translated texts from two technical engineering clients in the English-German language pair. Each tool — namely Smartcheck, MQM-QE, Instruction Checker, GPT-QE, Sugarloaf, and Vesuvius, the latter two being Unbabel’s generalist LLMs — was tested on one or more tasks. Finally, established GED and GEC evaluation frameworks, along with newly developed GEE metrics, were applied to assess system performance. Among error identification tools, MQM-QE and Vesuvius achieved the best F1-scores (0.27 and 0.19). For the systems performing both GED and GEC, Vesuvius and GPT-QE reached the highest scores (0.13 and 0.20). Within this category, Vesuvius demonstrated greater consistency in correcting and categorizing errors, outperforming all other systems. Finally, in the domain of GEE, the best-performing tools were Vesuvius and GPT-QE. Overall, the evaluation methodology successfully assessed Unbabel’s systems, while the custom GEE metrics enabled a multidimensional analysis of automatically generated error explanations and demonstrated adaptability for other company tasks. Most importantly, this work identified the most suitable tool for implementing error explanations in Polyglot.
Descrição
Mestrado em Tradução.
