Soluções de Aprendizagem Automática e Inteligência Artificial para Extração e Reconhecimento de Entidades em Arquivos Históricos

Mano, Diogo Francisco Justino

http://hdl.handle.net/10451/62846

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Diogo_Mano.pdf		2.49 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Mano, Diogo Francisco Justino

Orientador(es)

Barros, Márcia Cristina Afonso

Resumo(s)

In this project, the primary objective is to enhance access to the Digitarq platform, a system that aids in the description and management of archival activities within the Directorate-General for Books, Archives, and Libraries (DGLAB). The project is divided into two distinct phases. The first phase aims to migrate the old Digitarq database to a new set of databases. In the second phase, the goal is to create an API that enables the connection between the new databases and the Digitarq web application. The initial focus to improve the system’s performance will be the migration of a relational database containing Digitarq document metadata to a new graph database. To achieve this, an Entity Recognition Model (NER) will be implemented to label valuable information within these metadata. The development of this model will be based on pre-trained neural models of two architectural types, namely BERT and T5, which will be evaluated and compared. Furthermore, the recognized entities will be imported into a graph database, following the CIDOC-CRM conceptual model. Concurrently, to efficiently respond to document search queries, the metadata from the old databases will be migrated to an Elasticsearch database. The second aspect to be addressed is the development of an API that allows for the creation of necessary requests to connect the new databases (graph and Elasticsearch) with the Digitarq web application. In this context, all the required endpoints for the proper functioning of the web application will be constructed.

Neste projeto, o principal objetivo e facilitar o acesso à plataforma do Digitarq, um sistema que contribui para a descrição e gestão das atividades arquivísticas da Direçã-Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB). O projeto esta dividido em duas fases distintas. Na primeira fase, pretende-se realizar a migração da base de dados antiga do Digitarq para um novo conjunto de bases de dados. Na segunda fase, o objetivo e criar uma API que permita conectar o novo conjunto de bases de dados a aplicação web do Digitarq. O primeiro tópico abordado para melhorar o desempenho deste sistema será a migração de uma base de dados relacional que contém metadados de documentos do Digitarq para uma nova base de dados de grafos. Para isso, será implementado um modelo de extração de entidades (NER) para etiquetar informações úteis presentes nesses metadados. O desenvolvimento deste modelo terá como base modelos neuronais pré-treinados de dois tipos de arquiteturas que serão avaliados e comparados: o BERT e o T5. Alem disso, as entidades reconhecidas serão importadas para uma base de dados de grafos, seguindo o modelo conceptual do CIDOC-CRM. Simultaneamente, para responder de forma eficiente a pedidos de pesquisa de documentos, os metadados dos documentos das bases de dados antigas serão migrados para uma base de dados Elasticsearch. O segundo tópico abordado será o desenvolvimento de uma API que permita a criação dos pedidos necessários para a conexão entre as novas bases de dados (grafos e Elasticsearch) e a aplicação web do Digitarq. Neste tópico, todos os endpoints necessários para o funcionamento da aplicação web serão construídos.

Descrição

Trabalho de projeto de mestrado, Engenharia Informática, 2023, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

extração de entidades BERT T5 base de dados de grafos CIDOC-CRM Trabalhos de projeto de mestrado - 2024

URI

http://hdl.handle.net/10451/62846

Coleções

FC-DI - Master Thesis (projects)

Ver registo completo