Generating subject-matter expertise assessments with GPT-4 : a medical translation use-case

Silveira, Diana de Lemos Rosa Rodrigo da

http://hdl.handle.net/10400.5/100918

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
ulfldlrrsilveira_tm.pdf		8.27 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Silveira, Diana de Lemos Rosa Rodrigo da

Orientador(es)

Moniz, Helena Gorete Silva

Sánchez-Torrón, Marina

Resumo(s)

It is well established that the human revision step is paramount to ensuring high quality translations in machine translation (MT) workflows. This step is also vital for certain large language model (LLM) use-cases. Human oversight is particularly critical when dealing with high risk content, as is the case with specialized fields, such as medicine, law or finance, among others, where errors and inaccuracies in translation can bring serious and sometimes life-threatening consequences. For these types of text, an in-depth understanding of the subject-matter is essential: reviewers who possess subject-matter expertise (SME) on the relevant fields play an important role in this process. Their specialized knowledge and expertise allow them to make corrections and improvements that guarantee the accuracy, reliability and appropriateness of the final translated document, ensuring overall quality. The research undertaken examines the suitability of an LLM, GPT-4, for generating multiple-choice questions (MCQs) aimed at assessing expertise in the domain of medical translation. The main objective of these questions is to model the skills of potential subject-matter experts in a human-in-the-loop MT workflow, to ensure that tasks are matched to the individuals with the right skill profile. These tests are designed to be a part of a wider assessment strategy, involving real-life revision tasks and feedback provision. The SME assessments developed and discussed in this dissertation are designed, therefore, as a complementary step in the evaluation and recruitment of SMEs. The investigation for the internship was conducted at Unbabel, an artificial intelligence (AI)-powered translation platform. Two medical translation experts evaluated the GPT-4-generated test items, one focusing on English–European Portuguese, and the other on English–German. The evaluators were then asked to create usable alternatives – gold standards – for the low quality test items. We present a methodology for creating prompts to elicit high quality GPT-4 outputs for this use-case, as well as for designing evaluation systems for human review of such output. We also propose guidelines with actionable steps for turning low quality test items into high quality ones, later analyzing the results and efficacy of the gold standard creation process. Our findings suggest that GPT-4 has the capacity of generating suitable items for SME tests, potentially providing a more scalable approach compared to relying solely on humans. Furthermore, we propose recommendations for future research to build on our approach and refine the quality of the outputs generated by LLMs.

É um facto estabelecido que a etapa de revisão humana é fundamental para garantir traduções de qualidade em processos de tradução automática. É igualmente necessária em determinados casos de utilização de modelos de linguagem de grande dimensão (do inglês, large language models). Isto torna-se especialmente relevante quando os materiais traduzidos contêm informação de alto risco, como no caso de áreas especializadas, tais como a medicina, o direito ou as finanças, nas quais um erro de tradução pode desencadear consequências graves. Para textos desta natureza, os revisores que possuam conhecimentos especializados em determinadas áreas têm a capacidade de gerar um impacto positivo na qualidade final da tradução, garantindo maior precisão terminológica e científica, bem como a fluidez estilística adequada a cada tipo de documento. Na Unbabel, a entidade de acolhimento de estágio, os processos de pós-edição (PE) e revisão humana inserem-se num modelo de crowdsourcing, com várias comunidades de freelancers divididas por pares de línguas. O atual processo de recrutamento de editores envolve testes de proficiência linguística e tarefas de treino de PE, que funcionam como elementos avaliativos de triagem para conceder/recusar o acesso a tarefas profissionais de PE. A partir do momento em que os editores têm acesso a estas tarefas, existe um processo de avaliação periódico da qualidade das edições realizadas. Os revisores, também conhecidos na Unbabel como editores sénior (do inglês, senior editors), são geralmente promovidos a partir do cargo de editores, devendo-se isso às suas classificações elevadas em tarefas de PE. Na Unbabel, a tarefa de revisão figura apenas em algumas das modalidades de tradução que podem ser selecionadas pelo cliente, conhecidas como pipelines. As pipelines são diferentes processos de qualidade com recurso maior ou menor à intervenção humana: aquelas que incluem pós-edição e revisão encontram-se no nível mais elevado de verificação de qualidade da Unbabel. O processo de revisão, em particular, é o último passo de verificação humana antes de a tradução ser entregue ao cliente, pelo que requer elevados graus de rigor e detalhe. Atualmente, não existem em funcionamento na Unbabel processos de avaliação que testem os conhecimentos e competências dos revisores de textos especializados que já fazem parte das comunidades de freelancers. A existência destes processos permitiria uma triagem mais eficaz na atribuição das tarefas de revisão. Com o intuito de dar resposta a esta questão, a presente investigação analisa a adequação de um modelo de linguagem de grande dimensão, o GPT-4 (OpenAI, 2023), para gerar itens de teste destinados a avaliar os conhecimentos especializados no domínio da tradução médica. A implementação dos testes teria como principal objetivo reproduzir as competências de potenciais especialistas nos fluxos de trabalho de tradução automática com revisão humana, funcionando como um complemento na atribuição das tarefas de revisão aos indivíduos com o perfil de competências adequado. O objetivo do estudo é avaliar a qualidade dos itens de teste produzidos, definindo-se se seria uma opção plausível integrar estes testes no processo de recrutamento de revisores, dentro das comunidades da Unbabel. A área da tradução médica foi escolhida devido à sua presença crescente no volume total de documentos traduzidos pela empresa, facto que se deve à aquisição da empresa alemã EVS. De futuro, deveremos expandir este estudo a outras áreas de especialização e pares de línguas, uma vez que o mesmo surge a partir da necessidade de criar processos avaliativos para todas as principais áreas da tradução especializada na Unbabel. Dentro da área da tradução médica, foram selecionados alguns tipos de documentos relevantes para a entidade de estágio, à data da realização do estudo. Nomeadamente: estudos e ensaios clínicos, protocolos de ensaio clínico e informação médica geral. Os itens de teste gerados cingiram-se a estas tipologias de documento e informação. Escolhemos dois pares de línguas (PLs) – inglês–português europeu e inglês–alemão –, o primeiro por ser o nosso principal PL de línguas de trabalho na tradução; o segundo por ser atualmente um dos PLs mais prolíficos na área da tradução médica. Utilizando prompts (instruções para o modelo de linguagem de grande dimensão), desenvolvidas de forma iterativa, obtivemos quatro bancos de itens de teste para cada PL, divididos por tipologia de escolha múltipla e subtópico dentro da área da tradução médica. Para cada PL, foram gerados quatro bancos de itens de teste com cinquenta perguntas cada (duzentos itens de teste por PL). Os três primeiros bancos são itens de teste em língua de partida (inglês), sendo iguais para ambos os PLs. O quarto banco de perguntas é de tradução terminológica, sendo distinto para cada PL. Para este estudo, optámos por um formato de escolha múltipla, uma vez que este possibilita a automatização da avaliação, permitindo também a abordagem de tópicos mais diversificados. Os itens de teste gerados pelo GPT-4 foram avaliados por tradutores médicos especializados, através de um sistema de avaliação de qualidade que inclui os critérios: i) precisão e clareza da pergunta, ii) factualidade da resposta correta, iii) opções de resposta não-ambíguas (apenas uma resposta correta), iv) prevalência da resposta correta e v) distratores plausíveis. Considerámos que os cinco critérios tinham um grau de importância igual, pelo que atribuímos uma pontuação de 0.1 a cada um (um item de teste funcional, que não requer alterações, pontua 0.5). Para o PL inglês–português europeu, o primeiro banco obteve a pontuação de 98.36 (máximo:100), o segundo a pontuação de 96, o terceiro a pontuação de 94.04 e o quarto a pontuação de 88.75. Para o PL inglês–alemão, o primeiro banco obteve a pontuação de 95.90, o segundo a pontuação de 95.60, o terceiro a pontuação de 94.04 e o quarto a pontuação de 95.42. Com base nos resultados da avaliação, foi pedido aos avaliadores que alterassem os itens de teste problemáticos, transformando-os em itens funcionais. Para tal, criámos um guia de instruções detalhadas sobre que estratégias utilizar em cada situação, incluindo exemplos de itens problemáticos e possíveis soluções. O princípio subjacente a estas alterações é manter o item de teste próximo do original, alterando apenas a(s) parte(s) problemática(s). O sistema de pontuação foi construído tendo em vista este processo de correção humana dos itens de teste de baixa qualidade, partindo da ideia de que corrigir partes do item, em vez de substituí-lo na totalidade, seria um processo eficaz, permitindo aproveitar quase todos os itens gerados. Contudo, os avaliadores reportaram o processo de correção como sendo demorado e complexo, particularmente quando o problema se devia à falta de distratores plausíveis. Por este motivo, em implementações futuras, consideramos propício utilizar um sistema de “manter/descartar” no processo de seleção de itens de teste adequados, no qual os itens inadequados serão descartados, em vez de melhorados; isto terá impacto na percentagem total de itens aproveitados, sendo possível, no entanto, gerar novos itens que substituam os itens problemáticos. Neste estudo, apresentamos uma metodologia para a criação de prompts para obter resultados de qualidade elevada do GPT-4 para a criação de itens de teste. Apresentamos também um guia para o desenvolvimento de sistemas de avaliação e pontuação para a anotação humana desses resultados, assim como instruções para a melhoria humana de itens de teste a corrigir, transformando-os em itens funcionais. Os resultados do estudo sugerem que o GPT-4 tem capacidade para gerar itens adequados para testes de conhecimento especializado aplicados à tradução, proporcionando uma abordagem mais eficiente e escalável do que recorrer exclusivamente a humanos. A criação de materiais de teste para o recrutamento de revisores especializados é necessária em várias áreas de especialização, pelo que ter uma metodologia adaptável para a automatização desse processo é fundamental. Além disso, propomos recomendações para investigação futura com o objetivo de desenvolver a nossa abordagem para uma futura implementação da mesma na empresa, e de aperfeiçoar a qualidade dos resultados gerados pelos modelos de linguagem de grande dimensão. A investigação foi efetuada na Unbabel, uma empresa de inteligência artificial que combina a tradução e avaliação de qualidade automáticas com a pós-edição, revisão e avaliação de qualidade humanas. O trabalho inclui-se também no âmbito do Center for Responsible AI, uma vez que a avaliação eficaz de pós-editores e revisores de tradução automática é um elemento fundamental no uso responsável da inteligência artificial. O Center for Responsible AI é um projeto independente, financiado pela União Europeia, República Portuguesa e Plano de Recuperação e Resiliência (PRR), com o objetivo de desenvolver produtos de inteligência artificial responsável.

URI

http://hdl.handle.net/10400.5/100918

Coleções

FL - Dissertações de Mestrado

Ver registo completo