Neves, Inês Ferreira Lopes2026-03-262026-03-262026-01-09http://hdl.handle.net/10400.5/117755Mestrado em Tradução.O objetivo deste trabalho é discutir e analisar o trabalho que desenvolvi durante o estágio que realizei na empresa Elsa Speak, nomeadamente uma tarefa específica que me foi atribuída. Nesta tarefa pretendia-se chegar a um prompt, para ser depois utilizado no ChatGPT 4o, para produzir a tradução de conteúdo da aplicação desenvolvida pela empresa, com a melhor qualidade possível. Mais especificamente, o prompt deveria levar o modelo a traduzir adequadamente exercícios em formato de jogo que visam ajudar o utilizador a desenvolver as suas competências na língua inglesa. Cada jogo é também gerado pelo ChatGPT através de um outro prompt num processo anterior, havendo vários tipos de jogo, todos eles com formatos diferentes. O desenvolvimento da tarefa envolveu uma fase de treino, em que apenas um tipo de jogo foi utilizado para testar prompts diferentes, tentando adaptá-los às necessidades de tradução que foram sendo identificadas. Para avaliar as traduções em questão utilizei anotação MQM (Multidimensional Quality Metric) com algumas adaptações e, tendo em conta dos problemas identificados, fui fazendo alterações no prompt que procurassem resolvê-los. Os problemas encontrados durante este processo são devidamente descritos, recorrendo a excertos dos textos de chegada que fui obtendo. Quando o prompt atingiu resultados de tradução que considerei adequados para o nosso caso em estudo, prossegui para uma fase de teste. Nesta fase utilizei o prompt com melhor desempenho durante a fase de treino para traduzir todos os outros tipos de jogos (excluindo apenas aquele que foi usado na fase de treino). O objetivo era verificar se o prompt que obteve bons resultados de tradução com um tipo de jogo funcionaria igualmente bem para os restantes. Para avaliar os resultados de tradução destes 5 tipos de jogos utilizei a forma de avaliação automática BLEU Score. Este método automático de avaliação acelerou o processo, permitindo que avaliasse as traduções dentro do tempo que me restava de estágio e que mais facilmente pudesse comparar os resultados obtidos. Ou seja, com o BLEU Score obtive uma avaliação quantitativa na forma de um percentagem de coincidência entre as traduções produzidas pela LLM e traduções de referência e pude comparar os resultados. Para além da comparação das percentagens BLEU fiz ainda uma anotação não exaustiva (focada nos problemas mais relevantes para este caso estudo), mais uma vez utilizando o modelo MQM com algumas adaptações, para identificar os possíveis problemas nas traduções obtidas durante a fase de teste. Depois de analisar estes resultados conclui-se que o prompt que desenvolvi funciona bem para todos os tipos de jogos em questão, salvo algumas melhorias que poderiam ser conseguidas, por exemplo, com instruções no prompt específicas de cada tipo de jogo.The aim of this paper is to discuss and analyse the work I carried out during my internship at Elsa Speak, specifically a particular task that was assigned to me. The goal of this task was to come up with a prompt, to be used in ChatGPT 4o, to produce the best possible quality translation of the content of the application developed by the company. More specifically, the prompt should lead the model to properly translate game-based exercises that aim to help users develop their English language skills. Each game is also generated by ChatGPT through another prompt in a previous process, with several game types, all with different formats. The development of the task involved a training phase, in which only one game type was used to test different prompts, attempting to adapt them to the translation needs that were identified. To evaluate the translations in question, I used MQM (Multidimensional Quality Metric) annotation with some adaptations and, taking into account the problems identified, I made changes to the prompt that sought to resolve them. The problems encountered during this process are duly described, using excerpts from the target texts that I obtained. When the prompt achieved translation results that I considered adequate for our case study, I proceeded to a testing phase. In this phase, I used the prompt that performed best during the training phase to translate all other game types (excluding only the one used in the training phase). The goal was to verify whether the prompt that achieved good translation results with one game type would work equally well for the others. To evaluate the translation results of these five game types, I used the BLEU Score automatic evaluation method. This automatic evaluation method sped up the process, allowing me to evaluate the translations within the time I had left in my internship and to more easily compare the results obtained. In other words, with the BLEU Score, I obtained a quantitative evaluation in the form of a percentage of coincidence between the translations produced by the LLM and reference translations, and I was able to compare the results. In addition to comparing the BLEU scores, I also made a non-exhaustive annotation (focusing on the most relevant issues for this case study), once again using the MQM model with some adaptations, to identify possible problems in the translations obtained during the testing phase. After analysing these results, it can be concluded that the prompt I developed works well for all types of games in question, except for some improvements that could be made, for example, with specific instructions in the prompt for each type of game.application/pdfporPrompts para tradução de conteúdos educativos para ensino de língua - Estágio na Elsa Speakmaster thesis204181534http://hdl.handle.net/10400.5/117755