Text Categorization for Regulatory Compliance

Balata, Duarte Teomóteo

Publicação

Text Categorization for Regulatory Compliance

2024Dissertação de mestrado

datacite.subject.fos	Ciências Naturais::Ciências da Computação e da Informação	pt_PT
dc.contributor.advisor	Branco, António H.
dc.contributor.author	Balata, Duarte Teomóteo
dc.date.accessioned	2024-03-11T18:14:35Z
dc.date.available	2024-03-11T18:14:35Z
dc.date.issued	2024
dc.date.submitted	2023
dc.description	Relatório de Estágio de Mestrado, Ciência de Dados, 2024, Universidade de Lisboa, Faculdade de Ciências	pt_PT
dc.description.abstract	This work explores the application of machine learning techniques, specifically Transformer-based models, to the task of legal text classification. The objective was to develop a system capable of classifying legal paragraphs into predefined categories, thus streamlining the legal document review process. This research underscores the critical role of data understanding and preparation, including meticulous preprocessing, the choice of classification granularity, and the formulation of a pertinent label set. A comparative analysis of different Transformer-based models, including BERT, RoBERTa, DistilBERT, and an ensemble model, was conducted. These models were evaluated based on their precision, recall, and F1-score on the classification task, as well as their training time. DistilBERT emerged as the most suitable model due to its balance of strong performance and efficiency. To refine the label set, this work employed a range of text mining tools and approaches to aid legal experts in identifying the main topics within the corpus. Despite the complexities of the legal text and the challenges posed by data imbalance and document format, the research successfully developed an efficient text classification system. This work concludes by discussing potential future directions, primarily related to the advent of large language models (LLMs). The potential of these models for in-context learning and topic proposal was discussed, noting the immense possibilities they bring, despite the substantial computational requirements and ethical considerations. This research contributes valuable insights to the application of machine learning in legal text analysis, and the findings provide a strong foundation for future exploration in this intersection of law and artificial intelligence.	pt_PT
dc.description.abstract	Esta dissertação de mestrado explora a aplicação de técnicas de Machine Learning, mais especificamente de modelos baseados em Transformers, à tarefa de classificação de texto jurídico. O objetivo consistia em desenvolver um sistema capaz de classificar parágrafos jurídicos em termos de uma de um conjunto de categorias predefinidas, otimizando assim o processo de revisão de documentos legais. Este trabalho coloca em evidência a importância crucial da boa compreensão e preparação dos dados, incluindo a cuidadosa preparação prévia dos mesmos, a escolha da granularidade da classificação e a formulação de um conjunto de etiquetas apropriadas. Foi efetuada uma análise comparativa de diferentes modelos baseados em Transformers, incluindo BERT, RoBERTa, DistilBERT e o modelo de ensemble da library Spacy. Estes modelos foram avaliados com base na sua precisão, recall e F1-Score na tarefa de classificação, bem como o tempo necessário para o seu treino. DistilBERT destacou-se como o modelo mais adequado, devido ao equilíbrio que estabeleceu entre um desempenho robusto e a sua eficiência. Para refinar o conjunto de etiquetas, este trabalho utilizou uma variedade de ferramentas e abordagens de text mining para ajudar os especialistas jurídicos a identificar os principais tópicos no corpus. Apesar das complexidades do texto jurídico e dos desafios colocados pelo desequilíbrio dos dados e formato do documento, a investigação desenvolveu com sucesso um sistema de classificação de texto eficaz e eficiente. Esta tese termina discutindo possíveis direções futuras, principalmente no que diz respeito aos Grande Modelos de Linguagem (GML). Discute-se o potencial destes modelos para a aprendizagem em contexto e a atribuição de tópicos, observando as enormes possibilidades que trazem, apesar das consideráveis necessidades computacionais e considerações éticas. A necessidade de uma boa preparação de dados foi uma lição importante aprendida com este projeto. Foi necessário um grande esforço de preparação dos dados para garantir que o texto extraído dos documentos jurídicos estivesse numa forma que pudesse ser adequadamente tratada pelos modelos de Aprendizagem Automática. Também a definição da granularidade da classificação foi crucial, com a escolha a recair sobre a classificação a nível de parágrafos, em vez de frases. Para além disto, este trabalho destacou a importância de ter um bom conjunto de etiquetas para a tarefa de classificação. Como o conjunto exato de etiquetas não era uma exigência rígida do negócio, tivemos a oportunidade de ajustá-lo de acordo com as nossas necessidades. Para tal, disponibilizámos aos nossos especialistas jurídicos visualizações baseadas em várias ferramentas e abordagens de mineração de texto. Isto sublinhou a importância e versatilidade do processamento de linguagem natural. Embora não tenhamos conseguido automatizar completamente o processo de criação do conjunto de etiquetas e a realização da classificação, a nossa abordagem semi-automatizada pode já contribuir para uma significativa poupança de tempo no futuro. No entanto, apesar destes avanços, o projeto não esteve isento de dificuldades. Um grande desafio foi lidar com o formato dos documentos jurídicos, que foram muitas vezes fornecidos em formato PDF. Outra dificuldade foi o desequilíbrio do conjunto de dados anotados, com algumas etiquetas a serem significativamente mais frequentes do que outras. Em suma, o futuro da classificação de texto jurídico parece promissor. Com a evolução contínua da tecnologia e o advento dos modelos neuronais de linguagem cada vez mais sofisticados, há um enorme potencial para melhorar ainda mais a eficiência da classificação de texto jurídico. Com um planeamento cuidadoso e a utilização responsável da tecnologia, os sistemas de classificação de texto têm o potencial de transformar a forma como os documentos jurídicos são processados e analisados. Esta tese de mestrado contribui com uma valiosa perceção para o crescente campo da aplicação de Aprendizagem Automática aos textos jurídicos e estabelece um sólido fundamento para futuras explorações nesta fascinante intersecção entre o Direito e a Inteligência Artificial.	pt_PT
dc.identifier.tid	203882865
dc.identifier.uri	http://hdl.handle.net/10451/63356
dc.language.iso	eng	pt_PT
dc.subject	Processamento de Linguagem Natural	pt_PT
dc.subject	Documentos Legais	pt_PT
dc.subject	Mineração de texto	pt_PT
dc.subject	Modelos BERT	pt_PT
dc.subject	IA Jurídica	pt_PT
dc.subject	Teses de mestrado - 2024	pt_PT
dc.title	Text Categorization for Regulatory Compliance	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	closedAccess	pt_PT
rcaap.type	masterThesis	pt_PT
thesis.degree.name	Mestrado em Ciência de Dados	pt_PT

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: TM_Duarte_Balata.pdf
Tamanho:: 294.87 KB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.2 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

FC-DI - Master Thesis (projects)