| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 2.49 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
In this project, the primary objective is to enhance access to the Digitarq platform, a system
that aids in the description and management of archival activities within the Directorate-General
for Books, Archives, and Libraries (DGLAB).
The project is divided into two distinct phases. The first phase aims to migrate the old Digitarq
database to a new set of databases. In the second phase, the goal is to create an API that enables
the connection between the new databases and the Digitarq web application.
The initial focus to improve the system’s performance will be the migration of a relational
database containing Digitarq document metadata to a new graph database. To achieve this, an
Entity Recognition Model (NER) will be implemented to label valuable information within these
metadata. The development of this model will be based on pre-trained neural models of two architectural types, namely BERT and T5, which will be evaluated and compared. Furthermore, the
recognized entities will be imported into a graph database, following the CIDOC-CRM conceptual
model. Concurrently, to efficiently respond to document search queries, the metadata from the old
databases will be migrated to an Elasticsearch database.
The second aspect to be addressed is the development of an API that allows for the creation
of necessary requests to connect the new databases (graph and Elasticsearch) with the Digitarq
web application. In this context, all the required endpoints for the proper functioning of the web
application will be constructed.
Neste projeto, o principal objetivo e facilitar o acesso à plataforma do Digitarq, um sistema que contribui para a descrição e gestão das atividades arquivísticas da Direçã-Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB). O projeto esta dividido em duas fases distintas. Na primeira fase, pretende-se realizar a migração da base de dados antiga do Digitarq para um novo conjunto de bases de dados. Na segunda fase, o objetivo e criar uma API que permita conectar o novo conjunto de bases de dados a aplicação web do Digitarq. O primeiro tópico abordado para melhorar o desempenho deste sistema será a migração de uma base de dados relacional que contém metadados de documentos do Digitarq para uma nova base de dados de grafos. Para isso, será implementado um modelo de extração de entidades (NER) para etiquetar informações úteis presentes nesses metadados. O desenvolvimento deste modelo terá como base modelos neuronais pré-treinados de dois tipos de arquiteturas que serão avaliados e comparados: o BERT e o T5. Alem disso, as entidades reconhecidas serão importadas para uma base de dados de grafos, seguindo o modelo conceptual do CIDOC-CRM. Simultaneamente, para responder de forma eficiente a pedidos de pesquisa de documentos, os metadados dos documentos das bases de dados antigas serão migrados para uma base de dados Elasticsearch. O segundo tópico abordado será o desenvolvimento de uma API que permita a criação dos pedidos necessários para a conexão entre as novas bases de dados (grafos e Elasticsearch) e a aplicação web do Digitarq. Neste tópico, todos os endpoints necessários para o funcionamento da aplicação web serão construídos.
Neste projeto, o principal objetivo e facilitar o acesso à plataforma do Digitarq, um sistema que contribui para a descrição e gestão das atividades arquivísticas da Direçã-Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB). O projeto esta dividido em duas fases distintas. Na primeira fase, pretende-se realizar a migração da base de dados antiga do Digitarq para um novo conjunto de bases de dados. Na segunda fase, o objetivo e criar uma API que permita conectar o novo conjunto de bases de dados a aplicação web do Digitarq. O primeiro tópico abordado para melhorar o desempenho deste sistema será a migração de uma base de dados relacional que contém metadados de documentos do Digitarq para uma nova base de dados de grafos. Para isso, será implementado um modelo de extração de entidades (NER) para etiquetar informações úteis presentes nesses metadados. O desenvolvimento deste modelo terá como base modelos neuronais pré-treinados de dois tipos de arquiteturas que serão avaliados e comparados: o BERT e o T5. Alem disso, as entidades reconhecidas serão importadas para uma base de dados de grafos, seguindo o modelo conceptual do CIDOC-CRM. Simultaneamente, para responder de forma eficiente a pedidos de pesquisa de documentos, os metadados dos documentos das bases de dados antigas serão migrados para uma base de dados Elasticsearch. O segundo tópico abordado será o desenvolvimento de uma API que permita a criação dos pedidos necessários para a conexão entre as novas bases de dados (grafos e Elasticsearch) e a aplicação web do Digitarq. Neste tópico, todos os endpoints necessários para o funcionamento da aplicação web serão construídos.
Descrição
Trabalho de projeto de mestrado, Engenharia Informática, 2023, Universidade de Lisboa, Faculdade de Ciências
Palavras-chave
extração de entidades BERT T5 base de dados de grafos CIDOC-CRM Trabalhos de projeto de mestrado - 2024
