Logo do repositório
 
Publicação

Text Categorization for Regulatory Compliance

datacite.subject.fosCiências Naturais::Ciências da Computação e da Informaçãopt_PT
dc.contributor.advisorBranco, António H.
dc.contributor.authorBalata, Duarte Teomóteo
dc.date.accessioned2024-03-11T18:14:35Z
dc.date.available2024-03-11T18:14:35Z
dc.date.issued2024
dc.date.submitted2023
dc.descriptionRelatório de Estágio de Mestrado, Ciência de Dados, 2024, Universidade de Lisboa, Faculdade de Ciênciaspt_PT
dc.description.abstractThis work explores the application of machine learning techniques, specifically Transformer-based models, to the task of legal text classification. The objective was to develop a system capable of classifying legal paragraphs into predefined categories, thus streamlining the legal document review process. This research underscores the critical role of data understanding and preparation, including meticulous preprocessing, the choice of classification granularity, and the formulation of a pertinent label set. A comparative analysis of different Transformer-based models, including BERT, RoBERTa, DistilBERT, and an ensemble model, was conducted. These models were evaluated based on their precision, recall, and F1-score on the classification task, as well as their training time. DistilBERT emerged as the most suitable model due to its balance of strong performance and efficiency. To refine the label set, this work employed a range of text mining tools and approaches to aid legal experts in identifying the main topics within the corpus. Despite the complexities of the legal text and the challenges posed by data imbalance and document format, the research successfully developed an efficient text classification system. This work concludes by discussing potential future directions, primarily related to the advent of large language models (LLMs). The potential of these models for in-context learning and topic proposal was discussed, noting the immense possibilities they bring, despite the substantial computational requirements and ethical considerations. This research contributes valuable insights to the application of machine learning in legal text analysis, and the findings provide a strong foundation for future exploration in this intersection of law and artificial intelligence.pt_PT
dc.description.abstractEsta dissertação de mestrado explora a aplicação de técnicas de Machine Learning, mais especificamente de modelos baseados em Transformers, à tarefa de classificação de texto jurídico. O objetivo consistia em desenvolver um sistema capaz de classificar parágrafos jurídicos em termos de uma de um conjunto de categorias predefinidas, otimizando assim o processo de revisão de documentos legais. Este trabalho coloca em evidência a importância crucial da boa compreensão e preparação dos dados, incluindo a cuidadosa preparação prévia dos mesmos, a escolha da granularidade da classificação e a formulação de um conjunto de etiquetas apropriadas. Foi efetuada uma análise comparativa de diferentes modelos baseados em Transformers, incluindo BERT, RoBERTa, DistilBERT e o modelo de ensemble da library Spacy. Estes modelos foram avaliados com base na sua precisão, recall e F1-Score na tarefa de classificação, bem como o tempo necessário para o seu treino. DistilBERT destacou-se como o modelo mais adequado, devido ao equilíbrio que estabeleceu entre um desempenho robusto e a sua eficiência. Para refinar o conjunto de etiquetas, este trabalho utilizou uma variedade de ferramentas e abordagens de text mining para ajudar os especialistas jurídicos a identificar os principais tópicos no corpus. Apesar das complexidades do texto jurídico e dos desafios colocados pelo desequilíbrio dos dados e formato do documento, a investigação desenvolveu com sucesso um sistema de classificação de texto eficaz e eficiente. Esta tese termina discutindo possíveis direções futuras, principalmente no que diz respeito aos Grande Modelos de Linguagem (GML). Discute-se o potencial destes modelos para a aprendizagem em contexto e a atribuição de tópicos, observando as enormes possibilidades que trazem, apesar das consideráveis necessidades computacionais e considerações éticas. A necessidade de uma boa preparação de dados foi uma lição importante aprendida com este projeto. Foi necessário um grande esforço de preparação dos dados para garantir que o texto extraído dos documentos jurídicos estivesse numa forma que pudesse ser adequadamente tratada pelos modelos de Aprendizagem Automática. Também a definição da granularidade da classificação foi crucial, com a escolha a recair sobre a classificação a nível de parágrafos, em vez de frases. Para além disto, este trabalho destacou a importância de ter um bom conjunto de etiquetas para a tarefa de classificação. Como o conjunto exato de etiquetas não era uma exigência rígida do negócio, tivemos a oportunidade de ajustá-lo de acordo com as nossas necessidades. Para tal, disponibilizámos aos nossos especialistas jurídicos visualizações baseadas em várias ferramentas e abordagens de mineração de texto. Isto sublinhou a importância e versatilidade do processamento de linguagem natural. Embora não tenhamos conseguido automatizar completamente o processo de criação do conjunto de etiquetas e a realização da classificação, a nossa abordagem semi-automatizada pode já contribuir para uma significativa poupança de tempo no futuro. No entanto, apesar destes avanços, o projeto não esteve isento de dificuldades. Um grande desafio foi lidar com o formato dos documentos jurídicos, que foram muitas vezes fornecidos em formato PDF. Outra dificuldade foi o desequilíbrio do conjunto de dados anotados, com algumas etiquetas a serem significativamente mais frequentes do que outras. Em suma, o futuro da classificação de texto jurídico parece promissor. Com a evolução contínua da tecnologia e o advento dos modelos neuronais de linguagem cada vez mais sofisticados, há um enorme potencial para melhorar ainda mais a eficiência da classificação de texto jurídico. Com um planeamento cuidadoso e a utilização responsável da tecnologia, os sistemas de classificação de texto têm o potencial de transformar a forma como os documentos jurídicos são processados e analisados. Esta tese de mestrado contribui com uma valiosa perceção para o crescente campo da aplicação de Aprendizagem Automática aos textos jurídicos e estabelece um sólido fundamento para futuras explorações nesta fascinante intersecção entre o Direito e a Inteligência Artificial.pt_PT
dc.identifier.tid203882865
dc.identifier.urihttp://hdl.handle.net/10451/63356
dc.language.isoengpt_PT
dc.subjectProcessamento de Linguagem Naturalpt_PT
dc.subjectDocumentos Legaispt_PT
dc.subjectMineração de textopt_PT
dc.subjectModelos BERTpt_PT
dc.subjectIA Jurídicapt_PT
dc.subjectTeses de mestrado - 2024pt_PT
dc.titleText Categorization for Regulatory Compliancept_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsclosedAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameMestrado em Ciência de Dadospt_PT

Ficheiros

Principais
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
TM_Duarte_Balata.pdf
Tamanho:
294.87 KB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
1.2 KB
Formato:
Item-specific license agreed upon to submission
Descrição: