Improving translation quality with automatic post-editing through  large language models

Correia, Catarina Cunha do Maio

http://hdl.handle.net/10400.5/98932

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
ulflccmcorreia_tm.pdf		6.04 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Correia, Catarina Cunha do Maio

Orientador(es)

Moniz, Helena Gorete Silva

Buchicchio, Marianna

Resumo(s)

With the development of Machine Translation (MT) in the last few years particularly with the emergence of Large Language Models (LLMs) it has been possible to observe the evolution of these systems in terms of translation quality, but also in the development of various tasks that were not possible before neural machine translation (NMT). LLMs are trained with billions of data from the World Wide Web to execute various tasks. Some of the tasks performed by LLMs include text summarization, conversation, grammatical error correction, translation correction and classification, and automatic post-editing (APE), among others. APE relates to methods of learning from data post-edited by a human to improve a machine translation by a system. A system's learning process includes patterns found in parallel data, including an MT version without editing and an MT version with post-editing. APE resurged in 2015 at the Workshop on Machine Translation (WMT) conference, where there were tasks related to APE. Although some models have excelled in their improvements in APE, it was only with the emergence of LLMs that APE resurged in the translation industry. For this reason, the main goal of this project is to improve translation quality with APE through LLMs.The project’s dissertation consisted of experiments with two LLMs: GPT-4 from OpenAI and TowerLLM, Unbabel’s proprietary LLM. The two LLMs were tested using two different content types: customer support and news. The language pair used in our experiments with the customer support data was English to Simplified Chinese (EN_ZH-CN). As a request of the Research Team from Unbabel we also work with the language pair English to Traditional Chinese (EN_ZH-TW) however, we did not make experiments with this data. The language pairs used in our experiments with the news data were English to Simplified Chinese (EN_ZH-CN). However, the data also included the Simplified Chinese to English (ZH-CN_EN) variety. We will not be working with ZH-CN_EN for the customer support data since this language pair does not have a significant volume of data sent by the clients at Unbabel. The customer support content (chat) was from Unbabel proprietary data and the news data was from the Shared Task: General Machine Translation from the WMT23 (Kocmi et al., WMT 2023). The positive results of the experiments of GPT-4 APE and Tower-APE with the customer support data and the Shared Task: General Machine Translation from the WMT23 (Kocmi et al., WMT 2023) data showed that GPT-4 APE performed better than Tower-APE in the two content domains, although Tower-APE presented positive results. The results confirmed the success of the experiments in the two content domains, which show that the use of APE can be applied to diverse content domains. The results also prove that APE can be used through different LLMs such as GPT-4 and TowerLLM. APE could improve the quality of the translation without human intervention. Nevertheless, a human-in-the-loop approach remains important in assessing APE quality. The capacity of GPT-4 APE and Tower-APE to improve the MT is mostly achieved, especially by GPT-4 APE. The introduction of unnecessary errors in their edits is also confirmed. Notwithstanding that there are errors introduced by GPT-4 APE and Tower-APE in both content domains, the number of errors introduced by APE is considerably inferior to the number of correct edits.

Com o desenvolvimento da Tradução Automática (TA) nos últimos anos, particularmente com o aparecimento dos modelos de linguagem de grande dimensão, do inglês Large Language Models (LLMs), foi possível observar a evolução destes sistemas na qualidade de tradução, mas também no desenvolvimento de várias tarefas que não eram possíveis antes dos sistemas de tradução neurais do inglês, neural machine translation (NMT). Os modelos de linguagem de grande dimensão são treinados com biliões de dados provenientes da World Wide Web para a realização de diversas tarefas. Algumas das tarefas concretizadas pelos grandes modelos de linguagem incluem a sumarização de texto, conversações, correção de erros gramaticais, correção e classificação de traduções, pós-edição automática, entre outros. A pós-edição automática do inglês automatic post-editing (APE) está relacionada com métodos de aprendizagem de dados pós-editados por um ser humano para melhoria de uma tradução automática por parte de um sistema. O processo de aprendizagem de um sistema inclui padrões encontrados em dados paralelos que incluem uma versão de tradução automática sem edição e uma versão de tradução automática com pós-edição. A pós-edição automática começou a ter destaque no ano de 2015, na conferência Workshop on Machine Translation (WMT), onde passaram a existir tarefas específicas relacionadas com pós-edição automática. Apesar de existirem modelos que se destacaram pelas melhorias realizadas na pós-edição automática, foi apenas com o aparecimento dos modelos de linguagem de grande dimensão que a pós-edição automática passou a ter um maior destaque na indústria da tradução. Por este motivo, o principal objetivo deste projeto relaciona-se com a melhoria da qualidade da tradução através da utilização de grandes modelos de linguagem para a tarefa de pós-edição automática. A Secção 1 refere-se à introdução do projeto da dissertação. Os principais objetivos do projeto incluem a avaliação da capacidade da pós-edição automática para melhorar a qualidade da tradução sem intervenção humana, perceber se o GPT-4 APE e o Tower-APE melhoraram a qualidade da tradução, qual o sistema com a melhor prestação e avaliar se os sistemas introduziram erros desnecessários nas suas pós-edições. A Secção 2 da dissertação foca-se na apresentação da empresa Unbabel particularmente nos seus níveis de tradução disponíveis e processos de qualidade implementados. A Secção 3 apresenta o estado da arte da tradução automática, iniciando-se com as variedades do chinês e o estado da arte nestas variedades, seguindo-se pela história e evolução da pós-edição e da pós-edição automática. A segunda parte do capítulo, relaciona-se com a avaliação da qualidade da tradução, em dois níveis diferentes: manual e automatizada. A Secção 4 refere-se à metodologia utilizada no projeto da dissertação, incluindo um esclarecimento das motivações do projeto, a descrição dos dados internos de apoio ao cliente pertencentes à empresa Unbabel. Nesta secção, será apresentado o processo de análise dos dados, assim como as características de dados de apoio ao cliente. Neste capítulo ainda serão descritas as experiências de pós-edição automática através dos modelos GPT-4 da OpenAI e TowerLLM da Unbabel. De seguida, serão apresentados os dados externos relacionados com notícias provenientes da Shared Task: General Machine Translation of the WMT23 (Kocmi et al., WMT 2023) e as experiências feitas com pós-edição automática nestes dados em dois modelos diferentes: GPT-4 da OpenAI e TowerLLM da Unbabel. O par de línguas usados nas nossas experiências com os dados de apoio ao cliente foi o Inglês-Chinês Simplificado (EN_ZH-CN). A pedido da equipa de investigação da Unbabel, também trabalhámos com o par de línguas Inglês-Chinês Tradicional (EN_ZH-TW), no entanto, não fizemos experiências com estes dados. As experiências com estes dados encontram-se nas propostas para trabalho futuro na Secção 6. Os pares de línguas usados nas nossas experiências com os dados de notícias foram Inglês-Chinês Simplificado (EN_ZH-CN). No entanto, os dados também continham o par de línguas Chinês Simplificado-Inglês (ZH-CN_EN). Não iremos trabalhar com o par de línguas Chinês Simplificado-Inglês (ZH-CN_EN) nos dados de apoio ao cliente, pois a Unbabel não tem uma grande quantidade de dados enviada pelos clientes neste par de línguas. No entanto, como trabalho futuro, a Unbabel está a recolher dados de apoio ao cliente para poder incluir este par de línguas. A principal razão de utilizarmos dois tipos de conteúdos diferentes é por os dados de apoio ao cliente serem dados internos da empresa e por os dados da Shared Task: General Machine Translation of the WMT23 (Kocmi et al., WMT 2023) serem públicos. Esta comparação é fundamental para avaliar a prestação do Tower-APE, particularmente nos dados internos, para que este módulo possa ser implementado na empresa. No entanto, também é importante avaliar a prestação do Tower-APE em dados externos. A primeira experiência realizada foi com os dados internos de apoio ao cliente. O primeiro passo consistiu na criação de uma baseline a partir de segmentos de TA como ponto de partida de uma perspetiva de qualidade linguística. Os objetivos da baseline consistiram em detetar erros nos pares de línguas Inglês-Chinês Simplificado (EN_ZH-CN) e Inglês-Chinês Tradicional (EN_ZH-TW), sendo que esta foi a base para as nossas experiências com o GPT-4 APE e o Tower-APE para diminuir os erros encontrados na TA. A variedade de EN_ZH-TW não foi utilizada nas experiências. Esta situação deve-se ao facto de a equipa de investigação da Unbabel nos ter pedido para analisar esta variedade como trabalho futuro quando o TowerLLM incluir esta variedade. Adicionalmente, a baseline também serviu para nos familiarizarmos com o conteúdo tratado e permitiu a aprendizagem da Multidimensional Quality Metrics (MQM) Framework (Lommel et al., 2014). Os dados da baseline foram produzidos com anotações humanas MQM (Lommel et al., 2014) da Comunidade de Anotadores da Unbabel. Este processo permitiu-nos corrigir os dados e criar padrões de excelência. Anotámos mais dados na Annotation Tool, uma ferramenta proprietária da Unbabel, pois o número de palavras entre as duas variedades de chinês estava desequilibrado. Adicionalmente, decidimos verificar se havia anotações em falta em segmentos com 100 MQM nas duas variedades de chinês pois precisávamos de criar padrões de excelência para a nossa baseline. Ao longo do processo de anotação, obtivemos o número total de erros, assim como o número total de Business Critical Errors (BCEs) que serão explicados na Secção 5. O passo seguinte consistiu na criação de referências para as nossas experiências com o par de línguas EN_ZH-CN por parte de um Revisor encontrado pela equipa de Comunidade da Unbabel. Assim que obtivemos as traduções de referência, revimos e corrigimos erros encontrados nos segmentos, para assegurar a boa qualidade das traduções. Seguidamente, aplicámos o prompt usado em Alves et al., (2024) para gerar os segmentos com pós-edição automática no GPT-4 e no Tower-LLM. Implementámos a métrica TER (Snover et al., 2006) entre a TA e o APE (GPT-4 and TowerLLM) para perceber se a TA tinha boa qualidade e a APE não fez nenhuma melhoria ou se a TA tinha baixa qualidade e a APE não corrigiu a TA. Como pretendíamos testar se seria possível automatizar as anotações de MQM humanas e utilizar a implementação automática de MQM (GPT-QE), implementámos o GPT-QE na TA e calculámos o coeficiente de correlação de Pearson (Freedman et al., 2007) entre a TA com GPT-QE e a TA com as anotações MQM humanas, o que provou ser possível e assim implementar o GPT-QE no GPT-4 APE e no Tower-APE. O GPT-QE é um prompt no GPT que identifica erros, a sua categoria, severidade e produz pontuações automáticas para cada segmento utilizando a mesma fórmula que a métrica MQM (Lommel et al., 2014). Para este projeto, inspirámo-nos no trabalho de (Fernandes et al., 2023) com o AUTOMQM que será explicado na Secção 3.5.2. Implementámos o GPT-QE no GPT-4 APE e no Tower-APE para obtermos as anotações automáticas dos erros produzidos nos sistemas e quantos erros foram corrigidos pelos sistemas. Finalmente, procedemos à revisão e correção da classificação dos erros, devido a categorias inventadas pelo GPT que não se encontram nas categorias da métrica MQM implementada na Unbabel, a Unbabel Error Typology. A revisão e correção dos erros foi realizada a partir de um documento interno que incluía o mapeamento dos erros entre o GPT-QE e a implementação interna do MQM da Unbabel. Desta forma, obtivemos um conjunto de dados anotados a partir de MQM anotado automaticamente em que apenas algumas categorias foram revistas para estar de acordo com a implementação usada na Unbabel. A segunda experiência foi realizada com os dados externos da Shared Task: General Machine Translation of the WMT23. O primeiro passo da experiência consistiu na recolha de dados da WMT23 (Kocmi et al., WMT 2023) a partir de Alves et al., (2024). O segundo passo prendeu-se com a criação da baseline a partir da anotação dos dados da WMT23 (Kocmi et al., WMT 2023) com o GPT-QE, o prompt usado em Alves et al., (2024) no GPT-4 e no TowerLLM para obter a APE nos dois sistemas e implementar nos dados da WMT23 (Kocmi et al., WMT 2023). De seguida, calculámos o TER (Snover et al., 2006) 0.0 entre a TA e a APE (GPT-4 e TowerLLM) para entender se a TA tinha boa qualidade e a APE não fez nenhuma melhoria ou se a TA tinha baixa qualidade e a APE não corrigiu a TA. Finalmente, implementámos o GPT-QE no GPT-4 APE e no Tower-APE para obtermos a pontuação MQM dos segmentos erros cometidos pelos sistemas e os erros corrigidos pelos sistemas. No entanto, foi necessário realizarmos uma revisão e correção da classificação dos erros, pois o GPT tende a criar categorias que não estão de acordo com a métrica MQM implementada na Unbabel, a Unbabel Error Typology. A Secção 5 esclarece os resultados encontrados a partir da realização da baseline nos dados de apoio ao cliente da Unbabel e os dados da Shared Task: General Machine Translation of the WMT23 (Kocmi et al., WMT 2023). A análise manual dos dados de apoio ao cliente da Unbabel e os dados da Shared Task: General Machine Translation of the WMT23 (Kocmi et al., WMT 2023) com a implementação de TER (Snover et al., 2006) serão descritos. Os resultados das anotações automáticas realizadas com o GPT-QE nos dados internos (dados de apoio ao cliente) e externos (dados da Shared Task: General Machine Translation of the WMT23) (Kocmi et al., WMT 2023) serão apresentadas. Um capítulo de comparação dos resultados dos tipos de conteúdos será apresentado. A Secção 6 irá apresentar as conclusões e o trabalho futuro a realizar com a temática do projeto. Os resultados das nossas experiências com o GPT-4 APE e o Tower-APE com os dados de apoio ao cliente e com os dados da Shared Task: General Machine Translation of the WMT23 (Kocmi et al., WMT 2023) provaram que o GPT-4 APE teve melhor prestação que o Tower-APE nos dois tipos de conteúdo, embora o Tower-APE tenha demonstrado resultados positivos. Os resultados confirmaram o sucesso das experiências nos dois tipos de conteúdo e comprovaram que a pós-edição automática pode ser aplicada a diversos conteúdos. Os resultados provam igualmente que a pós-edição automática pode ser utilizada a partir de diferentes modelos de linguagem de grande dimensão como o GPT-4 e o TowerLLM. A pós-edição automática melhorou a qualidade da tradução sem intervenção humana. Contudo, a intervenção humana continua a ser necessária para avaliar a qualidade da pós-edição automática. A capacidade do GPT-4 APE e do Tower-APE melhorar a TA foi maioritariamente alcançada, particularmente para o GPT-4 APE. A introdução de erros nas edições também foi confirmada. No entanto, o GPT-4 APE e o Tower-APE introduziram erros nos dois tipos de conteúdo, não obstante, o número de erros introduzidos pela pós-edição automática é substancialmente inferior ao número de edições corretas.

URI

http://hdl.handle.net/10400.5/98932

Coleções

FL - Dissertações de Mestrado

Ver registo completo