Repository logo
 
No Thumbnail Available
Publication

Cultural transcreation in asian languages

Use this identifier to reference this record.
Name:Description:Size:Format: 
ulflhjwu_tm.pdf4.23 MBAdobe PDF Download

Abstract(s)

Transcreation, also known as creative translation, is a relatively recent concept that has emerged in the field of linguistic conversion (Díaz-Millón & Olvera-Lobo, 2021). Discussions on transcreation are still relatively scarce, and predominantly focused on manual processes and their application in the advertising and marketing industry solemnly. This study focused on the Cultural Transcreation (CT) product, targeting three Asian languages: Mandarin Chinese (core focus), Japanese, and Korean. The work integrates Large Language Models (LLMs) and prompt engineering to develop a specialised transcreation product. The internship was conducted at Unbabel, a company that combines human translation (HT) with artificial intelligence (AI) technology. The research begins by defining transcreation and its cultural adaptation in Customer Service (CS) sector, establishing cultural awareness guidelines for prompt development. This is followed by an initial investigation to test CT’s feasibility across datasets from four domains. Subsequently, a CT benchmarking samples’ cultural validation analysis applied the initial prompt to LLMs, generating culturally rephrased texts that provided feedback for further prompt optimisation. Following this, the first official version of the prompts was launched and refined through a three-month pilot study. The customers’ feedback led to further improvements, resulting in Prompt version 2.0. Moreover, results from both prompt versions demonstrated the prompt-based transcreation’s success in the CS sector. Furthermore, this research expanded to examine transcreation in website content translation. The prompt engineering was found to generate higher-quality outputs compared to machine translation (MT) and HT. Finally, a supplementary test confirmed the ability of the website content prompt to transcreate advertising slogans effectively. The study validates the feasibility of CT in CS and lays a foundation for broader transcreation applications in various sectors. The outcomes of this thesis were applied to a CT product that was also integrated into the Center for Responsible AI1 project, in line with the core concept of creating understanding through cultural adaptations in responsible ways.
Transcriação, também conhecida como tradução criativa (“tradução” + “criação”), é um conceito que surgiu relativamente tarde no campo da conversão linguística (Díaz-Millón & Olvera-Lobo, 2021). O conceito distingue-se da tradução por muitos tradutores e empresas envolvidos no setor de conversão cultural linguística, um dos exemplos é a Circle Translation, que detalha num dos artigos do seu website, What is Transcreation and Why Do You Need It?, a diferença entre transcriação e tradução tradicional: Transcreation is an advanced and nuanced form of translation that goes beyond mere word-for-word conversion. Unlike traditional translation, which focuses on linguistic accuracy, transcreation involves a comprehensive adaptation process. This includes reimagining the original message’s tone, style, and context to resonate with the target audience’s cultural and emotional sensibilities [Tradução nossa: A transcriação é uma forma avançada e matizada de tradução que vai para além da mera conversão palavra-por-palavra. Ao contrário da tradução tradicional, que se centra na exatidão linguística, a transcriação envolve um processo de adaptação abrangente. Este processo inclui reimaginar o tom, o estilo e o contexto da mensagem original, para que esta se adapte às sensibilidades culturais e emocionais do público-alvo]. Atualmente, as discussões sobre a transcriação concentram-se predominantemente em processos manuais e na sua aplicação nos setores da publicidade e do marketing, exclusivamente. O presente projeto, no entanto, coloca a Transcriação Cultural (TC) como o seu foco central, visando três línguas asiáticas: chinês mandarim, japonês e coreano. Uma nota inicial, o principal par de línguas de trabalho nesta investigação (da responsabilidade da autora do presente texto) é o inglês para chinês mandarim simplificado (zh-CN-Hans) e tradicional (zh-TW-Hant). No presente trabalho, procura-se explorar o conceito de TC com as tecnologias mais avançadas — nomeadamente, Modelos de Linguagem de Grande Dimensão (Large Language Models ou LLMs) e engenharia de prompts (prompt engineering) — para desenvolver um produto de TC especializado e já em produção. É de referir que, enquanto tema de investigação do estágio de mestrado, o presente trabalho é realizado na Unbabel, uma empresa de plataforma de tradução dedicada ao desenvolvimento da Tradução Humana (TH) combinada com tecnologias de Inteligência Artificial (IA). O principal objetivo da metodologia do presente estudo é desenvolver um produto de transcriação cultural, baseado em LLMs, para implementação e utilização no setor de Serviço de Atendimento ao Cliente (SAC), através da criação de diretrizes de consciência cultural em línguas asiáticas e prompts de transcriação, seguidos de testes de mercado e avaliação do produto. Adicionalmente, vale a pena salientar que o presente trabalho fez do SAC o principal mercado de análise pelos seguintes motivos: i. Características do setor e conexão com o grupo-alvo – o setor de SAC é, de facto, ponte de ligação e comunicação entre marcas/empresas e os seus clientes internacionais e é, por isso, o mais intuitivamente exposto a diferentes culturas. Ou seja, as diferenças culturais na comunicação entre agentes de SAC e o grupo-alvo são mais diretamente percebidas e exigem uma tradução e reescrita culturalmente relevantes. ii. Domínio com especial foco na Unbabel – enquanto plataforma de TH movida a IA, a empresa oferece serviços de tradução centrados no atendimento e apoio ao cliente, investindo fortemente na otimização dos serviços de tradução oferecidos em plataformas de comunicação como a Zendesk e a Salesforce. Por conseguinte, o SAC é a opção preferida para ser a área de investigação principal do estudo tendo em conta os dados disponíveis e os recursos existentes da empresa neste domínio. No Capítulo 2, o estudo começa por apresentar as características da entidade acolhedora Unbabel (Secção 2.1), o seu fluxo de trabalho (Secção 2.2), o framework de qualidade (Secção 2.3) e as métricas de avaliação da mesma (Secção 2.4), juntamente com a descrição da equipa de desenvolvimento do produto e as tarefas associadas que constituem o foco da presente investigação (Secção 2.5). O Capítulo 3 inicia-se com uma discussão sobre a história da transcriação (Secção 3.1), as controvérsias que a rodeiam na área da conversão linguística e os critérios para a distinguir de outros termos da mesma área. Na secção 3.2 subsequente, são apresentados o desenvolvimento histórico e as técnicas da Tradução Automática (TA). A Secção 3.3 oferece uma visão geral do processamento de linguagem natural (PLN), precedendo a introdução detalhada dos LLMs, que constituem a base tecnológica para os principais objetivos de investigação deste estudo. O capítulo da metodologia (Capítulo 4) descreve primeiramente os principais objetivos da presente investigação na Secção 4.1, seguido de uma apresentação das diretrizes fundamentais de TC desenvolvidas para o produto na Secção 4.2. Em seguida, as Secções 4.3 a 4.6 apresentam uma descrição passo a passo dos métodos utilizados na condução dos quatro estudos principais, incluindo a recolha e seleção de dados, os processos de teste e as considerações relevantes. Como primeiro passo metodológico, foram definidos e apresentados três grandes objetivos do estudo: i) criação de diretrizes culturalmente conscientes e dos prompts, e a testagem da qualidade de TA através da qual se avaliam essas diretrizes e os prompts iniciais; ii) exploração da viabilidade da TC automática em diferentes domínios e tipos de textos, das possibilidades e novas aplicações da transcriação em setores fora do âmbito da consciência cultural; iii) criação do produto de TC especializado no setor do SAC e a realização da sua experiência piloto para análise da qualidade do serviço prestado e o papel do prompt engineering e dos LLMs, o foco central deste estudo. De seguida, o presente estudo aproveitou plenamente os recursos relevantes que a Unbabel dispõe, e foram desenvolvidas e estabelecidas diretrizes básicas de como criar linguisticamente consciência cultural em três línguas asiáticas. Essas diretrizes, formuladas como métodos estratégicos, serviram de forma eficaz às experiências subsequentes, estabelecendo uma base sólida para o produto testado na fase piloto com os clientes. Além disso, através de uma série de regras de expressão de consciência cultural explicitamente definidas, que devem ser seguidas e implementadas, bem como expressões linguísticas inadequadas que devem ser evitadas ou proibidas para prevenir ambiguidades ou mal-entendidos indesejados com o público-alvo, a versão inicial dos prompts de TC nas três línguas-alvo foi desenvolvida com sucesso antes do início da fase experimental subsequente. Assim sendo, com base no estabelecimento bem-sucedido das regras de consciência cultural e dos prompts iniciais, as seguintes quatro grandes experiências foram realizadas, das quais foram obtidos resultados sólidos: 1. Exploração de TC em domínios diversos; 2. Validação cultural de amostras de TA; 3. Realização e avaliação do teste-piloto de TC – experiência central do presente estudo. 4. Análise exploratória da Transcriação em conteúdos de website; A primeira investigação sobre a TC (Secção 5.1) visou explorar a viabilidade deste conceito em conjuntos de dados variados de quatro setores selecionados aleatoriamente, nomeadamente marketing, news media, videojogos e brinquedos, e ciências da vida. Como nem todas as áreas requerem adaptação cultural, o intuito prendia-se com testar se a transcriação seria aplicável nestes quatro setores. Com base nos 778 segmentos recolhidos e filtrados para a anotação, conclui-se que, dos quatro setores analisados, os setores de marketing e news media não são, de momento, recomendados para o produto de TC, por dois motivos principais: 1) o conteúdo do conjunto de dados de marketing relaciona-se maioritariamente com sinopses de filmes, um tipo de texto e conteúdo que não requer, de forma significativa, criatividade na tradução, com exceção da transcriação de certos nomes para personagens/lugares/itens, etc., que, no entanto, não apareceram nos dados de amostragem; 2) no que diz respeito aos segmentos de news media, devido à exatidão e ao rigor que lhes são exigidos na divulgação de informações, os meios convencionais de tradução são suficientes para atender às necessidades deste domínio, sem necessidade extra da adaptação criativa que possa introduzir discrepâncias. No entanto, existem oportunidades consideráveis em áreas específicas dos setores de gaming e ciências da vida, principalmente devido à necessidade de ajustes estilísticos e formalidades na língua-alvo. A análise subsequentemente focou-se na TC baseada em IA no âmbito do mercado de SAC (Secção 5.2). Nesta segunda experiência, os prompts iniciais, construídos com base nas primeiras conclusões e diretrizes do estudo, foram testados em diferentes LLMs para gerar amostras adaptadas culturalmente à língua-alvo. Estas amostras foram posteriormente analisadas e avaliadas quanto às suas estruturas linguísticas e à qualidade dos resultados, o que resultou no refinamento e criação da primeira versão oficial dos prompts de transcriação — Prompt versão 1.0 — concebidos para a reformulação de e-mails de SAC. Ainda como parte final deste teste de validação, com base nas análises estruturais das modificações culturais necessárias observadas durante a fase de teste, procedeu-se à estruturação e construção de uma classificação linguística das reformulações transcriativas que engloba todos os tipos potenciais de reformulações que a transcriação cultural pode empregar. Tal pode servir como uma visão geral abrangente dos vários tipos de reformulação aplicáveis à TC, fornecendo um quadro estruturado e informativo para investigações futuras e aplicação prática no terreno. Após a construção da primeira versão oficial dos prompts, foi iniciada a experiência central do presente estudo, um teste piloto de TC com clientes da Unbabel, cuja duração da avaliação contínua de e-mails reformulados foi de três meses, tendo como objetivo a obtenção de feedbacks autênticos e em tempo real. A função de reformulação cultural do produto de TC destinado para o SAC é concebida como uma nova etapa inserida no meio do processamento linguístico antes de traduzir o texto de origem para a língua-alvo. Mais especificamente, esta etapa consiste em reformular automaticamente a mensagem original para uma outra, mais adequada culturalmente ao público-alvo da língua de destino, mas ainda na língua de origem, enquanto otimiza erros expressivos que possam gerar mal-entendidos culturais em conversões bilíngues. A meio do período de recolha e avaliação do teste piloto, foram reunidos feedbacks e conclusões intermédias suficientes para promover o aperfeiçoamento dos prompts. Como resultado, foi criada a segunda versão dos prompts — Prompt versão 2.0 — que foi testada em vários LLMs, nomeadamente GPT-3.5-Turbo-16k-0613, GPT-4 e GPT-4-Turbo-Preview, para determinar o modelo mais adequado para a fase seguinte, marcando também o início da segunda fase do piloto com clientes. Adicionalmente, duas semanas após a conclusão da segunda fase do piloto e de toda esta avaliação em tempo real, a OpenAI lançou um novo modelo, o GPT-4o, que apresenta uma melhoria significativa do desempenho em relação aos GPTs anteriores da mesma série. Assim, o estudo acabou por incorporar também o GPT-4o num segundo teste de comparação de resultados de LLMs e os resultados demonstraram que o desempenho do GPT-4o superou significativamente o dos restantes modelos, levando à sua adoção como o novo modelo utilizado para o produto. Decorrendo da análise do estudo piloto, após a conclusão da segunda fase, os resultados e feedbacks de ambas as fases foram analisados e comparados (Secção 5.3). A análise revelou que ambas as versões de prompts funcionaram com sucesso, com todos os e-mails a serem efetivamente reformulados de forma criativa e culturalmente adaptada. Além disso, a versão 2.0 dos prompts, não só corrigiu muitos dos erros de reformulação identificados na primeira fase, como também aumentou significativamente a proporção de e-mails transcriados de alta qualidade, ao mesmo tempo que reduziu a taxa de e-mails com problemas menores e maiores. Após a conclusão da avaliação-piloto supramencionada, o presente trabalho focou-se na transcriação cultural de forma mais transversal e explorou a viabilidade da aplicação da transcriação no contexto da tradução de conteúdos de websites, sendo o principal contributo do presente estudo uma empresa recentemente adquirida e integrada pela Unbabel, que suporta todas as necessidades de localização e gestão de tradução para websites e aplicações web, e que oferece serviços de tradução humana e automática. Nesta experiência, um novo prompt, mais conciso e direcionado, foi desenvolvido após a revisão de mais de 4.000 segmentos de dados relevantes fornecidos pela empresa. O teste de transcriação de conteúdos de websites e os resultados obtidos, discutidos na Secção 5.4, trouxe as seguintes conclusões: 1) a qualidade dos outputs gerados na língua-alvo pelo prompt desenvolvido para esta experiência, aplicável a uma ampla gama de indústrias e tipos de texto, superou significativamente a qualidade da tradução automática. Na maioria dos casos, a qualidade dos outputs baseados em prompts foi comparável ou até superior à da TH sem pedido explícito de transcriação cultural (uma vez que este é um processo completamente novo na Unbabel); 2) o GPT-4o com a prompt adaptada ao conteúdo, realizou com sucesso traduções criativas em 67,7% dos segmentos em que foram identificadas unidades passíveis de reformulação criativa. Por fim, como tarefa conclusiva desta experiência, foi realizado um breve teste suplementar, para determinar se o prompt desenvolvido para a tradução de conteúdos de websites poderia identificar anúncios publicitários como um tipo de texto distinto e aplicar a transcriação de forma eficaz. Os resultados na Secção 5.4.1 confirmaram essa capacidade. Através da seleção aleatória de dezenas de anúncios criativos públicos de marcas conhecidas e da sua inserção no LLM, com base na prompt de transcriação de conteúdos de websites, verificou-se que o modelo conseguiu traduzir e reescrever criativamente os anúncios. Além disso, os outputs seguiram as características principais dos anúncios publicitários eficazes na língua-alvo: apelativos, concisos e até capazes de criar rimas. Desta forma, através do presente trabalho, validou-se com sucesso a viabilidade de uma subcategoria da transcriação — a Transcriação Cultural — no setor de SAC, bem como o desenvolvimento e implementação bem-sucedidos de um produto baseado neste conceito. Adicionalmente, o estudo confirmou igualmente a aplicabilidade mais ampla da transcriação a outros campos, estabelecendo as bases para futuras investigações e desenvolvimentos de produtos dentro deste conceito. O presente trabalho contribui, assim, para a criação de um novo produto na Unbabel, a Transcriação Cultural, aplicado a vários domínios e testado com clientes que o usam e providenciam feedback. Contribui também para o projeto do Center for Responsible AI (https://centerforresponsible.ai/), na medida em que o produto de transcriação cultural tem especial destaque na aplicação de princípios da Inteligência Artificial e está alinhado com os objetivos de desenvolvimento sustentável da Organização das Nações Unidas.

Description

Keywords

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License