PandeMedia: an annotated corpus of digital media for issue salience

Almeida, David Campos

http://hdl.handle.net/10451/55576

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_David_Almeida.pdf		2.87 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Almeida, David Campos

Orientador(es)

Sá, Joana Gonçalves de

Pesquita, Cátia, 1980-

Resumo(s)

The ubiquitous sharing of information via the Internet has shifted much of society’s communication and information-seeking to digital spaces, such as news websites and social networks. As the Web represents a massive hub of information dissemination and discussion, it has also made possible the extraction of great amounts of highly detailed data to answer complex questions on human behaviour and preferences. This shift towards online life was exaggerated during the earlier phases of the COVID-19 pandemic, when many countries were in lockdown and in-person contact was severely limited. Therefore, in addition to the ongoing political, economic, and public health crisis, there were, on the one hand, new opportunities to study human behaviour thought digital data, including support for public health measures or trust in science, while, on the other hand, the deluge of new data and the fast-changing nature of the pandemic created new challenges to data science research, particularly the need to build quality pipelines for data extraction, collection, and future analysis. In this thesis, we focus on the important issue of salience of science and scientists during a health crisis and ask how to build a pipeline to select, store, extract and analyse longitudinal digital media data, that might allow for long-term study of media effects on salience. Therefore, this project has two main components: first, we showcase a data pipeline that makes use of media and social media data, available online, to build a media corpus of news and tweets with millions of documents, spanning billions of tokens, corresponding to more than two years of coverage and multiple media sources and topics; second, we show how this corpus can be leveraged to study the problem of salience, and use the visibility of science during the earlier phases of the COVID-19 pandemic as a case-study, comparing between salience in traditional versus social media. Overall, we present both a transparent and scaleable pipeline and a specific application of this approach, to tackle the question of how science visibility changed during this massive crisis. We use different media types and sources to potentiate text mining and other analytical purposes, offering a digital data-centric computational methodology to investigate questions in the social sciences.

Os dados tomam, nos dias de hoje, um papel central no funcionamento das sociedades humanas. Com o desenvolvimento das tecnologias digitais, aliadas à ubíqua conetividade à Internet, em particular à World Wide Web (WWW), vivemos na chamada “era da informação” . Este paradigma da sociedade alicerça-se no fenómeno tipicamente referido como datafication, que se refere ao processo já enraizado e inerente à vida quotidiana através do qual a nossa atividade humana e formas de participação na sociedade são convertidas em dados. Esta produção em larga escala e em tempo real de dados funciona como o combustível para um amplo leque de aplicações nos mais variados domínios, desde a indústria, à investigação científica, à saúde, entre outros. Deste modo, testemunhamos uma crescente procura, e mesmo necessidade, de grandes coleções de dados, para alimentarem os diferentes setores de atividade. A Web representa talvez o maior volume de dados amplamente disponível ao público em geral. É nos websites e nas aplicações online que uma grande parte da população realiza diariamente um conjunto de tarefas e ações, sejam estas de caráter profissional ou lúdico. Os nossos hábitos de consumo de informação são assegurados predominantemente por estes espaços digitais, como as redes sociais ou as plataformas digitais de media tradicionais. Da mesma forma, as nossas interações sociais mediadas por dispositivos digitais são cada vez mais frequentes. A Web é, portanto, um reservatório de potenciais descobertas e de informação valiosa, que pode ser eventualmente extraída através da exploração dos dados que contém. Pela sua própria natureza, a Web levanta grandes desafios relativos às formas de capturar este valor presente nos dados digitais. Enormes volumes de dados podem ser rapidamente e facilmente identificados e extraídos. No entanto, não existe um processo de acréscimo de valor a estes dados sem que passem primeiramente por uma fase de organização. Para que seja possível extrair conhecimento dos dados obtidos, é necessário que estes apresentam a devida organização e qualidade. As maiores dificuldades nas metodologias de colheita e gestão de dados digitais passam por assegurar precisamente esta qualidade. Os dados da Web são naturalmente muito heterogéneos, visto resultarem da convergência de imensas fontes de informação. São também, na sua maioria, não estruturados, nomeadamente em formatos textuais que precisam de ser interpretados computacionalmente e compartimentalizados para facilitar futura análise. Muitas vezes, existem também dados em falta ou que apresentam uma qualidade tão baixa que são inviáveis para as finalidades em mente. Para além destes fatores intrínsecos aos dados em si, as questões que os rodeiam são também cruciais a considerar: a capacidade de detetar e localizar os dados pretendidos, a capacidade de aceder a estes dados, e o grau de disponibilidade destes dados, quando acessíveis. Deve também ter-se em consideração as questões éticas, de privacidade e de direitos de autor associadas aos dados passíveis de serem colecionados. ... automatizar processos de colheita para fontes e tipos de dados tão diversos quanto aqueles que se encontram disponíveis na Web. A pandemia causada pelo SARS-CoV-2, agente da COVID-19, representa uma crise de enormes proporções nas esferas política, económica e de saúde pública. Com a população do mundo restrita nos seus comportamentos e hábitos de modo a prevenir um agravamento da propagação do vírus, as pessoas recorreram ao digital como meio de comunicação e de obtenção e disseminação de informação (e desinformação). Assim, os media e as redes sociais foram relevantes pontos de convergência de uma grande parte da atenção do público, levantando questões importantes sobre a perceção pública dos especialistas científicos e sobre a saliência de certos tópicos de discussão. Num contexto mais alargado, podemos perspetivar a crise pandémica como um desafio no domínio das tecnologias da informação. No desenvolver desta emergência de saúde pública, temos vindo a ser confrontados com vários dos desafios presentes em data science: dados complexos, na escala de populações inteiras, a serem produzidos em tempo real por múltiplas fontes, com diferentes estruturas e formatos, e que sofrem uma rápida desatualização, requerem rápida análise, mas também processos de limpeza e melhoramento robustos. Todos estes fatores nos levam à nossa questão principal: numa crise que evolui tão rapidamente como a pandemia da COVID-19, como podemos construir uma pipeline que nos permita responder aos desafios da coleção e gestão de dados, de modo a criar um dataset de media digital para análise? Para extrair os dados necessários, recorremos a três fontes distintas: a plataforma open-source Media Cloud, a base de dados Internet Archive, e o API da rede social Twitter. Começámos por definir dezoito tópicos distintos, constituídos por palavras-chaves para uso na pesquisa pelos artigos e posts de media. Alguns tópicos são relacionados com a pandemia, enquanto outros funcionam como potenciais controlos positivos e negativos. A coesão semântica de cada tópico foi assegurada através do uso da base de dados léxica WordNet, que fornece significados e relações de palavras. Os metadados inicialmente obtidos foram processados e utilizados para identificar as fontes primárias dos dados de notícias. A partir de Web scraping, obtivemos dados brutos de artigos de media dos Estados Unidos da América disponíveis online, de Janeiro de 2019 a Janeiro de 2021 (inclusive). Estes foram subsequentemente transformados, passando por um processo de filtragem, limpeza e formatação, que é acompanhado de uma análise exploratória dos dados e visualização de dados para efeitos de diagnóstico do processo completo. Os dados da rede social foram extraídos através de um API próprio, especificando parâmetros para restringir resultados aos Estados Unidos e ao intervalo de tempo anteriormente definido. Os dados devidamente tratados foram posteriormente armazenados na base de dados desenhada e contruída para o propósito. A base de dados foi concebida com quatro tabelas, que incluem os dados de notícias, os dados da rede social Twitter, os metadados das pesquisas originais e metadados sobre as fontes das notícias, e feita através do sistema de gestão de bases de dados PostgreSQL. Para otimizar o desempenho das pesquisas no nosso conjunto de dados, procedemos à construção de índices para campos específicos, nomeadamente campos de texto, que são o nosso interesse principal. Utilizando as funcionalidades disponíveis, foram construídas representações vetoriais do texto das notícias, e a partir destas foi contruído um índice apropriado para pesquisa em dados textuais, que reduziu o tempo de pesquisa por um fator nas dezenas de milhares de vezes. Demonstramos ainda a pesquisa preliminar de dados longitudinais para efeitos de estudo da saliência de diferentes tópicos nos meios de comunicação. Foram aplicadas diferentes metodologias estatísticas de análise de séries temporais para responder às questões a abordar. Através do uso de médias móveis, os sinais foram clarificados para melhor visualização. Os testes de estacionaridade serviram de diagnóstico para as transformações a aplicar aos dados de modo a garantir a validade de análises posteriores. Com testes de causalidade de Granger, foi possível estabelecer relações entre séries temporais com base no poder preditivo e assim compreender a dinâmica de interação de diferentes media. Com recurso a técnicas de deteção de pontos de quebra, conseguimos defender a ideia de que existiram períodos de mudança dos padrões observados nos media que coincidem com o despoletar da crise pandémica. Assim, potenciada por uma pipeline customizada, robusta e transparente, conseguimos gerar um corpus de media, contendo milhões de documentos, que albergam milhares de milhões de tokens, correspondendo a um período de tempo superior a dois anos e múltiplas fontes de notícias e tópicos, permitindo assim potenciar finalidades de mineração de texto (text mining) e outros propósitos analíticos, oferecendo uma metodologia computacional centrada nos dados digitais para investigar este tipo de questões nas ciências sociais.

Descrição

Tese de mestrado, Ciência de Dados, 2022, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

ciências sociais computacionais saliência de tópicos pipeline de dados corpora de dados Web Web scraping Teses de mestrado - 2022

URI

http://hdl.handle.net/10451/55576

Coleções

FC-DI - Master Thesis (dissertation)

Ver registo completo