Identifying areas of emotional interest in images through content tags and eye gaze: a study with users

Desidério, Cláudia Gervásio

http://hdl.handle.net/10451/51681

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
TM_Claudia_Desiderio.pdf		8.34 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Desidério, Cláudia Gervásio

Orientador(es)

Fonseca, Manuel João Caneira Monteiro da

Resumo(s)

Ao avaliarem uma imagem, as pessoas tendem a prestar atenção às várias zonas de forma seletiva. Esta atenção, é influenciada pelas propriedades específicas da própria imagem, como por exemplo a cor [17], mas também pela existência de rostos ou até texto [11]. Além disso, como tem vindo a ser constatado em várias pesquisas, esta é também influenciada pela capacidade da imagem conseguir provocar ou não uma reação emocional no seu observador [17]. Tirando partido desta capacidade de priorização da atenção, poder-se-á identificar a área da imagem responsável por determinada reação emocional e proceder-se à identificação do conteúdo que terá provocada essa reação. Tendo isto em conta, procuramos através de este trabalho, tirar partido das reações emocionais experienciadas por um utilizador ao observar um conjunto de imagens, para as conseguir categorizar emocionalmente, e identificar o conteúdo específico responsável por essas reações. De modo a atingirmos estes objetivos, dividimos a nossa investigação em três fases distintas, cada uma das quais correspondentes a um estudo com utilizadores: i) identificação do conteúdo mais relevante em cada imagem; ii) categorização emocional das imagens, tendo em conta as reações emocionais que a sua avaliação provocaria, e também a identificação do conteúdo emocional da mesma; iii) identificação das zonas contendo cada conteúdo emocional registado na imagem. Devido ao contexto pandémico em que nos encontrávamos devido ao coronavírus SARS-COV-2, todos os estudos foram desenvolvidos online. No primeiro estudo, procuramos identificar o conteúdo mais relevante. Para que tal fosse possível, procuramos identificar as cinco tags de conteúdo mais votadas pelos utilizadores. Como tal, de modo a possibilitarmos essa escolha, começámos por selecionar um conjunto de 252 imagens, representativas das seis emoções básicas de Ekman (anger, disgust, fear, happiness, sadness e surprise), através de um processo de seleção, que permitiu criar um dataset com um igual número de imagens para cada emoção e com formatos variados. Estas imagens foram depois avaliadas pelo modelo General da API Clarifai, o qual devolveu um conjunto de 30 conceitos representativos do conteúdo dessas imagens. Esses conceitos, foram depois filtrados por nos, de modo a ficarem apenas os 15 mais prováveis de se encontrarem em cada imagem, e selecionados posteriormente pelos voluntários deste estudo. No final, analisamos o nível de concordância entre utilizadores, cujo valor médio para o conjunto de imagens foi de 0.51, com um desvio padrão de 0.23, indicativo de uma concordância moderada para o conjunto do dataset. Além disso, a análise permitiu ainda averiguar a existência de uma concordância de moderada a muito boa para mais de 50% das imagens do dataset criado. Por fim, procedemos a verificação das tags selecionadas para cada imagem, e a identificação das 5 com maior quantidade de votos. No segundo estudo, tivemos dois objetivos: i) verificar se existia alguma conexão entre as zonas da imagem olhadas durante mais tempo, no momento de visualização das mesmas e as reações emocionais experienciadas pelos utilizadores nesse momento; ii) verificar a existência de uma conexão entre as reações emocionais e o conteúdo da imagem, representado pelas 5 tags identificadas como as mais relevantes no estudo anterior. De modo que tal fosse possível, começámos por apresentar as imagens e respetivos conceitos aos utilizadores, os quais tiveram de realizar uma avaliação emocional de cada uma das imagens. Esta avaliação, incluiu não só a identificação da polaridade e emoção(ções) sentidas durante o momento de visualização, como também a identificação do conteúdo responsável pela(s) emoção(ões) experienciadas, através da seleção da(s) tag(s) de conteúdo adequada(s) as mesmas. Além disso, durante o momento de visualização das imagens, foram ainda retiradas as coordenadas do olhar do utilizador, de modo a perceber qual a zona que registou maior atenção do mesmo. Adicionalmente, foi ainda realizada a avaliação das expressões faciais do utilizador, enquanto visualizava a imagem. No final do estudo, verificámos para cada imagem qual a emoção e polaridades mais votadas, onde percebemos que existiam imagens associadas a cada uma das polaridades emocionais (negativa, neutra e positiva) e que, como esperado, para a maioria das imagens associadas a uma determinada emoção, a emoção mais votada seria aquela a qual se encontravam originalmente associadas. Contudo, verificou-se também a existência de imagens onde não houve concordância nem em relação a polaridade mais adequada, nem em relação a emoção, o que levou a casos com mais do que uma polaridade e emoções associadas. Além disso, verificou-se ainda, que no caso das imagens que se encontravam associadas originalmente a Anger, nenhuma foi associada a esta emoção, e que no caso das imagens de Surprise, apenas uma pequena percentagem de imagens, foi associada a emoção original. Para além disso, em ambos os casos a emoção mais votada para a maioria das imagens foi Happiness. Quanto a verificação das zonas que receberam maior atenção durante a visualização do estímulo, percebemos que para a maioria das imagens de todas as emoções, estas correspondiam ao centro das imagens. Quanto ao conteúdo identificado como o mais relevante emocionalmente, analisámos o mesmo quanto ao tipo, polaridade e emoções mais votadas. Os resultados destas análises, mostraram que a maioria do conteúdo assinalado se tratava de conteúdo generalista, e que os votos para as polaridades e emoções foram um reflexo dos obtidos para as imagens. Adicionalmente, verificámos ainda se a polaridade associada ao conteúdo, era a esperada tendo em conta a emoção mais votada para o mesmo. Os resultados indicaram que na maioria dos casos havia a correspondência esperada, com exceção de dois casos onde a polaridade negativa foi associada à emoção Happiness. Por fim, ao contrário do planeado, as informações resultantes do sistema de reconhecimento de expressões faciais, acabaram por ser descartadas, devido ao facto de o vídeo captado pela webcam dos dispositivos dos utilizadores, não ter permitido fazer uma avaliação desta informação. Por consequência, as informações provenientes deste software, não puderam ser comparadas com: i) os registos do eye tracker, de modo a perceber se a zona olhada mais tempo teria sido ou não a responsável pelas reações emocionais registadas; ii) nem com a emoção mais votada para cada imagem, de modo a perceber se a mesma era de facto a mais adequada. Desta forma, acabou por não nos ser possível completar o primeiro objetivo deste estudo. No último estudo deste trabalho, tivemos como objetivo a identificação da zona emocionalmente mais relevante das imagens avaliadas, e perceber qual a zona com maior carga emocional. Para que nos fosse possível concretizar este objetivo, solicitámos a um grupo de voluntários, que procedesse à seleção das zonas de cada imagem, que melhor representavam cada um dos conteúdos emocionalmente relevantes, que tinham sido identificados no estudo anterior. No fim, os resultados obtidos foram por nós avaliados, de modo a perceber qual a concordância entre os vários utilizadores, em relação às zonas selecionadas. Esta análise, permitiu-nos perceber que existiu bastante variabilidade na escolha das zonas, o que resultou numa concordância fraca e até mesmo pobre, para a maioria das imagens. Além disso, procedemos ainda à identificação das zonas com maior carga emocional, ou seja, aquelas as quais foram atribuídas uma maior quantidade de votos, assim como também as zonas onde existia uma menor carga emocional, por serem as que possuíam menor quantidade de votos atribuídos. Os resultados obtidos desta análise, permitiram-nos perceber, que a zona mais votada para a maioria das imagens da maioria das emoções, ou na maioria das imagens com mais do que uma emoção atribuída, se tratava do centro (zona E5). Contudo, existiram algumas exceções: Anger – em uma imagem era também o centro, e na outra existia um empate entre o canto inferior esquerdo e a zona em baixo ao centro; Surprise – em duas imagens voltava a ser o centro, em outras duas a zona E6, e as restantes quatro imagens eram a zona E1, zona E2, zona E3 e zona E8 respetivamente; anger/disgust/sadness – zona E4. Quanto às que possuíam menor carga emocional, na maioria dos casos associados a maioria das emoções, foi a zona E3. Contudo, existiram novamente exceções: Neutra e Sadness – zona E7; Surprise – zona E3 e zona E9; imagens com mais do que uma emoção associada – zona E3, zona E9 e zona E7. Por fim, fomos ainda verificar se as zonas olhadas durante mais tempo correspondiam às que possuíam maior carga emocional. Ao contrário do que esperávamos, esta correspondência, apenas ocorreu em 64 imagens. Além disso, verificámos ainda a existência de seis imagens onde a zona olhada durante mais tempo, correspondeu a zonas onde não existia qualquer tipo de conteúdo emocional registado. Quanto às restantes, existiu correspondência com zonas onde estava registado conteúdo, mas cujas zonas não eram as que possuíam maior carga emocional. Deste trabalho, acabou por resultar um procedimento para a categorização de uma imagem de acordo com o conjunto de emoções básicas e universais definidas por Ekman e a emoção Neutral. O procedimento criado, permite também, a identificação do conteúdo emocional de cada imagem, e sua anotação tendo em conta o conteúdo considerado emocionalmente relevante para a mesma. Este procedimento, tira partido de informações como: i) avaliação emocional das imagens; ii) identificação do conteúdo emocionalmente relevante, através de uma tag de conteúdo; iii) coordenadas do olhar do utilizador registadas por eye tracking; iv) identificação das zonas da imagem que mais se adequam a cada conteúdo emocional. Adicionalmente, deste trabalho resultou também um dataset composto por 252 imagens, categorizadas emocionalmente, e anotadas com dois tipos de informações: média de coordenadas registadas por eye tracking em cada zona da imagem e conteúdo emocional associado a cada uma das zonas, o qual vem acompanhado pelo número de votos.

The attention of a user on an image is influenced by factors such as its specific proper ties, the existence of faces or text and the ability of the image to provoke an emotional reaction. This work, aimed to take advantage of the emotional reactions of an individual when observing an image, to categorize that image according to emotional reactions, and identify the concrete content responsible for them. Our work was divided in three studies with users, all developed online, due to the pandemic resulting from the appearance of the SARS-COV-2 coronavirus. In the first study, we attempted to understand, for each image, what could be considered the most relevant content. In the second study, we defined two objectives: i) to understand if there was a connection between the areas looked at for longer, and the emotional reactions; and ii) to verify if emotional reactions, were related to the most relevant content. In the last study, we tried to understand if the most emotionally charged zone corresponded to the zone looked at the longest. This work resulted in a procedure that allows us to: i) categorize an image according to the set of basic and universal emotions defined by Ekman and Neutral emotion; ii) identify the most relevant emotional content; and iii) annotate the image according to the most relevant content. This procedure, takes advantage of information such as: i) emotional evaluation of the image; ii) identification of the emotionally relevant content (content tag); iii) coordinates of the user’s gaze registered by eye tracking; and iv) identification of the zones that best suit each emotional content. Additionally, a dataset was created with 252 images, emotionally categorized and annotated with two types of information: average eye tracking coordinates for each zone of the image and emotional content.

Descrição

Trabalho de Projeto de Mestrado, Informática, 2022, Universidade de Lisboa, Faculdade de Ciências

Palavras-chave

Emoções Imagens Eye tracking Tags de conteúdo Reações emocionais Teses de mestrado - 2022

URI

http://hdl.handle.net/10451/51681

Coleções

FC-DI - Master Thesis (projects)

Ver registo completo