Preservação da web através de replicação distribuída em larga escala

André, Ricardo Lopes Nogueira

http://hdl.handle.net/10451/3997

Utilize este identificador para referenciar este registo.

Contacte-nos

Autores

André, Ricardo Lopes Nogueira

Orientador(es)

Veiga, Pedro, 1952-

Gomes, Daniel Coelho, 1977-

Resumo(s)

A Web é a maior fonte de informação alguma vez construída. A tendência verificada nos últimos anos indica que a popularidade da Web vai continuar a aumentar no futuro, assim como a quantidade de informação que nela é exclusivamente publicada. No entanto, a informação publicada na Web está disponível durante um período de tempo muito curto, findo o qual, por regra se perde para sempre. Surge assim o interesse na criação de arquivos da Web que permitam preservar esta informação para gerações vindouras. Para preservarem a informação os arquivos da Web requerem sistemas com elevada capacidade de armazenamento. Tradicionalmente, o armazenamento da informação é feito de uma forma centralizada. Contudo, esta aproximação é susceptível a perda de informação, caso ocorram falhas no sistema de armazenamento central. O trabalho apresentado nesta tese enquadra-se no projecto de Arquivo da Web Portuguesa1, em curso na Fundação para a Computação Científica Nacional. Este trabalho tem como objectivo a criação de um sistema de replicação distribuído que permita tolerar falhas nos sistemas de armazenamento de arquivos da Web, através da replicação dos conteúdos arquivados por computadores espalhados pela Internet.

The Web is the largest source of information ever built. The trend in recent years indicates that the popularity of the Web will continue to grow in the future, as well as the amount of information solely published on it. However, the information published on the Web is available for a very short period of time, after which, as a rule, is lost forever. This motivates the creation of web archives that allow the preservation of this information for future generations. To preserve the information, web archives require high storage capacity systems. The storage of information is usually performed in a centralized manner. However, this approach is susceptible to loss of information, if failures in the central storage system occur. The work presented in this thesis is within the scope of the Portuguese Web Archive, a project of the Foundation for National Scienti_c Computing. This work aims at creating a distributed replication system that allows to tolerate failures in the storage systems of web archives, through the replication of the archived contents over computers across the Internet.

Descrição

Tese de mestrado, Engenharia Informática, Universidade de Lisboa, Faculdade de Ciências, 2008

Palavras-chave

Arquivos da Web Bibliotecas digitais Sistemas distribuídos Formato ARC Preservação digital Teses de mestrado - 2008

URI

http://hdl.handle.net/10451/3997

Coleções

FC - Dissertações de Mestrado

Ver registo completo