Repository logo
 
No Thumbnail Available
Publication

Information extraction and plain language application with large language models : a case study of package leaflets

Use this identifier to reference this record.
Name:Description:Size:Format: 
ulflaslopes_tm.pdf3.38 MBAdobe PDF Download

Abstract(s)

Specialised domains of Translation pose significant challenges due to regulatory requirements and the need for accessible communication with general audiences. The Package Leaflet (PL) is the result of adapting the Summary of Product Characteristics (SmPC), a highly technical document meant for healthcare professionals. Both documents have different structures, with PL requiring adaptation of technical language into Plain Language through the application of ISO 24495-1:2023 (International Organisation for Standardisation, 2023). Recently, Large Language Models (LLMs) have shown promising results in tasks beyond translation, like information extraction and simplification, which will be the foci of this report. This study investigates LLMs’ potential in addressing these challenges by automatically generating PLs. The research focuses on the evaluation of LLMs’ capabilities in the extraction of relevant information from the SmPC, and the transformation of complex terminology into patient-friendly language. Utilising Prompt Engineering techniques – few-shot and Chain-of-Thought (CoT) – we tested multiple LLMs, including state-of-the-art models like GPT-4o and Claude-3.5-Haiku, and emerging alternatives like Tower-4.0-Sugarloaf, against publicly available PLs in English. We developed two prompt versions for these tasks, both achieving varying levels of success. This work was conducted at Unbabel, an AI-powered translation company that combines human expertise with AI applications to provide translations in different industry sectors. Results show that GPT-4o has the best overall results in both tasks, particularly in Plain Language adaptation, where the simplification quality is akin to a professional translator. Nevertheless, all models struggle with extensive PL sections, particularly with the extraction and the classification of some side effects. The CoT technique is better suited for our case study, as it allows the models to process prompt instructions and perform tasks more efficiently. Our methodology emphasises that, while LLMs are powerful tools in the creation of regulated documents, human expertise remains irreplaceable, aligning with the principles of Human-Centered AI (Shneiderman, 2022) and Human-Centered Augmented Translation (O’Brien, 2024), where AI applications should enhance translators’ capabilities, rather than replacing them. Future work includes expanding the research to other medical documents, incorporating multiple languages, and refining Plain Language adaptation strategies.
Os domínios de tradução especializada, como a tradução médica ou jurídica, apresentam desafios significativos devido aos requisitos regulatórios próprios de cada domínio, bem como da necessidade de simplificar a informação para o público em geral. Documentos como o Folheto Informativo (FI), são feitos com base num documento técnico e extenso, destinado a profissionais de saúde, designado Resumo das Características do Medicamento (RCM). Além de ambos os documentos terem estruturas distintas, a criação de um FI requer a adaptação da linguagem técnica em linguagem mais simples, de acordo com os princípios da Linguagem Clara (Plain Language). Os mais recentes desenvolvimentos com Modelos de Linguagem de Grande Dimensão (Large Language Models - LLMs) revelam resultados promissores em tarefas para além da tradução, como a extração de informação e a simplificação. No contexto farmacêutico, a Directiva 2001/83/CE da União Europeia estabelece que os FI devem ser elaborados de forma a serem claros e compreensíveis, para que os seus leitores possam agir de forma adequada. Contudo, estudos demonstram que, por vezes, os pacientes têm dificuldades em compreender estes documentos, devido à presença de linguagem técnica e a uma formatação pouco intuitiva (Morrow et al., 1996; Raynor et al., 2007; Maat & Lentz, 2011). Neste contexto, surge a necessidade de aplicar Linguagem Clara, um conceito abrangente que vai para além da simplificação linguística. Em 2023, a Organização Internacional de Normalização (ISO) publicou a norma ISO 24495-1:2023, que define a Linguagem Clara como uma forma de comunicação na qual a redação, estrutura e apresentação são tão claras que os leitores conseguem facilmente encontrar a informação que necessitam, compreender e utilizar essa informação (International Organisation for Standardisation, 2023). O presente estudo explora o potencial dos Modelos de Linguagem de Grande Dimensão na criação automática de FI. Para tal, focamos a avaliação das capacidades destes modelos em dois aspectos: a extração de informação relevante a partir do RCM e a transformação de terminologia técnica em linguagem acessível e compreensível para o público em geral. Através de técnicas de Engenharia de Prompts (Prompt Engineering), como few-shot (Brown et al., 2020) e Chain-of-Thought (Wei et al., 2023), testámos diferentes modelos, incluindo modelos avançados como o GPT-4o e o Claude-3.5-Haiku, bem como novas alternativas, como o Tower-4.0-Sugarloaf. Os resultados gerados por estes modelos foram comparados com os folhetos disponíveis online, em Inglês, que considerámos como padrão de referência. Foram desenvolvidas e testadas duas versões de prompts, que permitiram aos modelos realizar estas duas tarefas, com diferentes níveis de sucesso. Este trabalho foi realizado na Unbabel, uma empresa de tradução com base em Inteligência Artificial (IA) que combina a especialização dos tradutores com aplicações de IA para fornecer traduções a diferentes setores da indústria. A investigação está em linha com os objetivos do Center for Responsible AI (CRAI), sendo financiada pelo Plano de Recuperação e Resiliência (PRR) através do projeto C645008882-00000055, e ainda pela Fundação para a Ciência e Tecnologia (FCT), através do projeto DOI:10.54499/UIDB/50021/2020. O estudo tem a seguinte estrutura: na Secção 2, apresentamos a Unbabel, a instituição que acolheu o estágio e onde foram realizadas as tarefas que contribuíram para o desenvolvimento deste estudo; descrevemos os seus diferentes fluxos de trabalho (Secção 2.1), os processo de qualidade (Secção 2.2), e terminamos com a descrição da equipa de trabalho e as tarefas realizadas no âmbito desta investigação; na Secção 3, descrevemos o desenvolvimento histórico da Tradução Automática (TA) (Secção 3.1), o atual paradigma dos Modelos de Linguagem de Grande Escala (Secção 3.2) e as suas aplicações no domínio da tradução médica, explicamos a definição e algumas das estratégias de engenharia de prompts (Seção 3.3), apresentamos a definição e as estratégias de Linguagem Clara (Secção 3.4), e os quatro princípios base contidos na norma internacional de Linguagem Clara, terminando esta secção com o enquadramento regulatório farmacêutico que rege a criação dos FI (Secção 3.5), apresentando o modelo QRD e a aplicação de testes de legibilidade e usabilidade. A Secção 4 apresenta a Metodologia do nosso estudo, começando pela descrição do trabalho de exploração prévio à criação e teste de prompts (Seção 4.1), que incluiu a criação de glossários e memórias de tradução adaptadas aos FI e ainda a anotação de erros presentes na tradução automática de três FI de diferentes farmacêuticas, traduzidos do Inglês para o Português Europeu, que permitiu obter mais informação sobre os tipos e severidades de erros mais comuns na tradução destes documentos; de seguida, descrevemos o processo de avaliação comparativa entre dois sistemas de TA (Google e DeepL) e três LLMs (GPT-3.5, Tower7B e Tower70B) na tradução de folhetos em dois pares de língua, Inglês-Alemão e Inglês-Português Europeu (Secção 4.2); de seguida, descrevemos detalhadamente os diferentes testes com prompts (Secção 4.3), divididos em três fases: a primeira coincide com a descoberta das diferentes técnicas de engenharia de prompts e perceber de que forma os modelos da OpenAI, GPT-4 e GPT-4o, seguem instruções e extraem a informação, concentrando a avaliação em uma única secção de um único FI; na segunda fase, expandimos as experiências para outros FI e para mais secções e introduzimos instruções específicas para testar os modelos na aplicação da Linguagem Clara; a terceira e última fase convergiu no desenvolvimento de duas versões de prompts, v1 e v2, que foram testadas com o GPT-4 e o GPT-4o na criação de dois FI completos. Na secção seguinte (Secção 4.4), submetemos os resultados da terceira fase de experiências a testes de legibilidade, com recurso a fórmulas de legibilidade e a testes de usabilidade, através da criação de uma tarefa de avaliação, feita por 4 anotadores (Secção 4.5). Após obtermos os resultados das duas versões de prompts, realizámos testes adicionais com a v1 no Claude-3.5-Haiku e no Tower-4.0-Sugarloaf (Secção 4.6). De seguida, apresentamos os resultados do trabalho de exploração (Secção 5.1), do processo de avaliação comparativa (Secção 5.2), das três fases de experiências com os prompts (Secção 5.3), dos testes de legibilidade (Secção 5.4) e de usabilidade (Secção 5.5) e dos testes adicionais com os modelos da Anthropic e Unbabel (Secção 5.6). Por fim, apresentamos as principais conclusões do nosso estudo e possíveis direções para o trabalho futuro (Secção 6). Este estudo pretende responder às seguintes questões de investigação: 1) É possível utilizar LLMs na aplicação de Linguagem Clara, adaptada em particular para a criação de FI? 2) A qualidade da simplificação é equiparável com a de um tradutor humano especializado? 3) Qual o melhor modelo para esta tarefa? 4) Qual a melhor técnica/prompt para esta tarefa? Os resultados obtidos demonstram uma aplicação promissora destes modelos na criação automática de FI. Em particular, o GPT-4o mostrou bons resultados em seguir instruções, em extrair informação e em adaptar a terminologia médica para linguagem leiga. No entanto, todos os modelos apresentaram limitações, nomeadamente na extração incompleta de informação e dificuldades na categorização de conteúdo, como os efeitos indesejáveis. Estes resultados sugerem a utilização destes modelos como ferramentas de apoio à elaboração de documentos, que requerem sempre supervisão e especialização humana. Esta abordagem, defendida por autores como Shneiderman (2020) (Human-Centered Artificial Intelligence) e O’Brien (2024) (Human-Centered Augmented Translation), coloca a IA ao serviço dos tradutores profissionais, fortalecendo as suas capacidades, ao invés de os substituir. A possibilidade de utilizar Modelos de Linguagem como ferramentas de apoio na criação de documentos médicos permite não só acelerar o processo de tradução e revisão linguística, como também melhorar a acessibilidade da informação especializada para o público em geral. Como trabalho futuro, propomos a expansão desta metodologia para outros documentos médicos e outros domínios de tradução especializada, a inclusão de outras línguas no estudo e o aperfeiçoamento de estratégias de adaptação da Linguagem Clara. A avaliação da Linguagem Clara deverá incorporar tanto o uso de métricas automáticas como avaliação humana, envolvendo não apenas especialistas em Linguagem Clara, mas também os utilizadores finais, incluindo indivíduos com níveis de literacia mais baixos e que possuem dificuldades de leitura.

Description

Keywords

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License