TowerLLM Guardrails : 
            Assessment and Application

Pandeiro, Patrícia Alexandra Rêgo e David

http://hdl.handle.net/10400.5/116842

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
ulflpardpandeiro_tm.pdf		1.67 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Pandeiro, Patrícia Alexandra Rêgo e David

Resumo(s)

Os modelos de linguagem de grande dimensão vieram revolucionar o mundo da tradução automática com as suas capacidades e têm vindo a substituir os sistemas de tradução automática neuronais. Porém, a complexidade dos sistemas de inteligência artificial complica a compreensão da forma como trabalham e deixa pouco clara a razão de produzirem os resultados que produzem. Dada a propagação destes sistemas no dia a dia do público em geral, é necessário ter a certeza de que o conteúdo que produzem, nomeadamente em resultado de interações com as pessoas, é seguro e não interage com temas ditos prejudiciais, ou nocivos. É necessário ter também em conta os riscos e principais preocupações associados com estes sistemas devido à forma como recolhem e tratam informação, que é extraída da internet sem qualquer critério de seleção, tais como os riscos associados à toxicidade, preconceitos e discriminação presentes nos dados utilizados para treino, questões relacionadas com o sistema em si e o seu funcionamento e questões relacionadas com sustentabilidade e ética. No caso dos sistemas utilizados por empresas dentro dos seus fluxos de trabalho, é essencial que estes estejam em conformidade com normas de proteção de dados, como o Regulamento Geral de Proteção de Dados (RGDP, ou GDPR em inglês). Em consequência, vários governos têm vindo a desenvolver regulamentações para controlar e monitorizar as capacidades e as possíveis utilizações dos sistemas de inteligência artificial. Na Europa, em específico, o Regulamento de Inteligência Artificial, AI Act (Regulation - EU - 2024/1689, 2024), foi implementado em 2024 e pretende estabelecer normas para o desenvolvimento de sistemas que sejam seguros, transparentes e éticos. Para que o desenvolvimento de sistemas de inteligência artificial responsáveis seja possível, é importante submeter os sistemas a avaliações de segurança. Uma das medidas que podem ser tomadas para esse efeito é através de red teaming. Neste contexto, red teaming consiste em imitar comportamentos prejudiciais através de técnicas de engenharia e manipulação de prompts, de forma a avaliar como o modelo responde a conteúdo nocivo e estabelecendo uma percentagem de segurança que pode ser utilizada para comparação com outros modelos. Devido às dimensões dos modelos de linguagem de grande dimensão, é recomendada a utilização de datasets públicos de red teaming, que abranjam uma grande diversidade de tipos de ataque e de temas prejudiciais, para garantir que a análise de segurança é o mais exaustiva possível. Não obstante a sua complementação com datasets proprietários. Red teaming permite, desta forma, testar as guardrails dos sistemas, que são os filtros que detetam a presença de conteúdo prejudicial e dizem ao modelo se pode ou não interagir com o conteúdo que é introduzido pelo utilizador, evidenciando quaisquer falhas que estas possam ter. A Unbabel, a empresa acolhedora do estágio ao longo do qual este trabalho foi desenvolvido, é uma empresa de tradução que tem apostado na inteligência artificial para melhorar as suas traduções automáticas, tendo desenvolvido um modelo de linguagem de grandes dimensões proprietário para esse efeito, o TowerLLM. Dados os domínios de trabalho desta empresa, maioritariamente apoio ao cliente e áreas especializadas de alto risco, como medicina ou o direito, é extremamente importante que o TowerLLM esteja em conformidade com as regulamentações de inteligência artificial e proteção de dados relevantes. Adicionalmente, o TowerLLM alimenta a ferramenta de tradução Widn.AI, que permite afinar o resultado da tradução através de ferramentas como a caixa de instruções ou o Widn Lab, um assistente de linguagem de inteligência artificial com o qual o utilizador pode interagir. Para avaliar a segurança do TowerLLM, foram utilizados dois datasets públicos de red teaming, juntamente com um dataset proprietário complementar, para estabelecer uma percentagem de segurança, permitindo a comparação entre os modelos do TowerLLM e o GPT-4o da OpenAI, um dos modelos mais bem estabelecidos à data de início deste trabalho. Foi também desenvolvida uma metodologia de avaliação para analisar mais detalhadamente as respostas dadas pelos modelos, resultando numa pontuação de segurança passível de ser comparada com os resultados da análise anterior. Adicionalmente, foram testadas duas línguas, inglês e português, para analisar a possibilidade de diferenças de desempenho entre línguas. Ao mesmo tempo, uma amostra dos dados de red teaming foram utilizados para testar prompts de guardrailing e de moderação de conteúdo através de três prompts públicos (um do primeiro tipo e dois do segundo), para compreender se complementam eficazmente as guardrails pré-existentes dos sistemas. De seguida, os três modelos do TowerLLM foram comparados entre si com seis pares de valores específicos de temperatura e de tokens de forma a descobrir se o desempenho dos modelos é afetado por essas definições. Posteriormente, a ferramenta Widn Lab foi testada com outra amostra de dados de red teaming, tal como a caixa de instruções do Widn.AI. Ao longo das várias análises, foram também exploradas as categorias de risco que mais falharam as avaliações de segurança, juntamente com as que obtiveram melhores resultados. Por fim, no decorrer das análises, foi desenvolvido um conjunto de teste para avaliar a performance do TowerLLM no futuro. Os resultados mostram que, dos modelos testados, o Sugarloaf 3.1 do TowerLLM é o modelo mais seguro no geral, tanto em percentagem como em pontuação de segurança, seguido do Vesuvius 4.0, também do TowerLLM, e do GPT-4o da OpenAI. A pontuação de segurança confirmou o resultado do Sugarloaf 3.1 para o inglês, mas concedeu o melhor resultado para o português ao Vesuvius 4.0 (apesar de uma diferença negligível). Relativamente às categorias de risco identificadas para esta análise, as categorias crime_theft, hate_ethnic, hate_religion e sex_other obtiveram os melhores resultados, enquanto que as categorias weapon_radioactive, weapon_other, sex_porn e self_harm_other, obtiveram os piores. Os resultados também mostram uma diferença significativa no desempenho entre línguas, com inglês tendo obtido resultados consistentemente melhores que o português, salvo pequenas exceções. Os testes de guardrailing e moderação de conteúdo revelaram que a prompt de guardrailing é eficaz a reforçar as guardrails, enquanto que as prompts de moderação de conteúdo não são eficazes a identificar as categorias de risco, visto que os modelos interagem com o conteúdo tóxico em vez de seguir as instruções da prompt de moderação de conteúdo. A comparação controlada dos três modelos do TowerLLM evidenciou que os valores atribuídos à temperatura e ao máximo de tokens processáveis pelo modelo têm alguma influência no seu desempenho, sendo que o valor mais seguro de temperatura é 0 e o de tokens é 1000, enquanto que a temperatura 1 e o máximo de 512 tokens têm os piores desempenhos. Relativamente ao Widn Lab, o Vesuvius 4.0 obteve melhores resultados que o Sugarloaf 4.0 em ambas as línguas, tanto em percentagem como em pontuação. Porém, quando comparados com os mesmos dados na análise inicial, estes modelos obtiveram piores resultados neste teste. Finalmente, a análise da caixa de instruções do Widn.AI revelou pouca segurança, podendo vir a ser um grande risco para a Unbabel. Os riscos e preocupações, exploradas ao longo deste trabalho, juntamente com os resultados apresentados demonstram a necessidade de adotar e promover medidas focadas no desenvolvimento de sistemas de inteligência artificial responsáveis, ou seja, que estejam em conformidade com regulamentações relevantes e sejam éticos, transparentes e sustentáveis. É importante, também, que estes sistemas, nomeadamente os sistemas com os quais o público consegue interagir, disponham de estratégias que permitam proteger os utilizadores e evitar a interação com conteúdo tóxico. Neste sentido, a quantidade de informação que é partilhada pelos sistemas deve ter em conta o contexto em que essa pode ser utilizada, apesar de que em certos contextos, como contextos educacionais e médicos, a disponibilização de informação factual é uma mais-valia. Este trabalho inclui-se no âmbito do Center for Responsible AI, um projeto financiado pelo Plano de Recuperação e Resiliência (PRR), com o objetivo de desenvolver produtos de inteligência artificial responsável.

Machine Translation (MT) has been revolutionised by Large Language Models’ (LLMs) Artificial Intelligence (AI), allowing for faster accurate high-quality translations. However, the complexity of these systems makes it hard to understand how they work and predict their outputs. Consequently, governmental entities have begun implementing strict regulations (e.g. AI Act) to set the expectations of what AI systems can and should be able to do, accounting for ethical and sustainability concerns. Responsible AI development is a growing concern as these systems become available to the public. This work was conducted during an internship at Unbabel, a translation company using a proprietary LLM, TowerLLM, in their workflow, which also powers their translation tool Widn.AI. To ensure compliance with relevant AI and data protection regulations, while developing a safe and secure model that does not interact with harmful content, certain security evaluations have to be made. This is primarily done through red teaming, which uses harmful inputs to check model safety. This work attempts to test the boundaries of several TowerLLM models, along with OpenAI’s GPT-4o, with three red teaming datasets, spanning several attack types and harmful themes, to create a safety benchmark, while analysing risk category success, in English and Portuguese. Since LLMs are usually equipped with a set of guardrails, which filter the input for harmful content and tell the model what not to interact with, guardrailing and content moderation prompts will be tested as well. Additionally, the tests will be applied to Widn.AI’s instructions box and Lab features. The results show that TowerLLM models are generally safer than GPT-4o, with some categories performing well in most models, while others perform poorly throughout, showing major differences in performance between languages. Furthermore, the results show that guardrailing prompts slightly increase safety, while content moderation prompts are not effective at identifying the type of harmful content in the prompts. Finally, Widn.AI’s instructions box and Lab features show potential for improvement.

Descrição

Mestrado em Tradução.

URI

http://hdl.handle.net/10400.5/116842

Coleções

Pure > Dspace
PURE > Dspace - Faculdade de Letras

Ver registo completo