Repository logo
 
No Thumbnail Available
Publication

Development of a recommender system based on life and health sciences literature

Use this identifier to reference this record.
Name:Description:Size:Format: 
TM_Maria_Teresa_Cunha.pdf2.35 MBAdobe PDF Download

Abstract(s)

Os sistemas de recomendação têm evoluído rapidamente e transformado o nosso diaa-dia ao usar grandes quantidades de informação para obter recomendações personalizadas em áreas como música, filmes ou vendas online. No entanto, nas ciências da vida e da saúde, apesar da necessidade de novas formas de explorar a crescente quantidade de informação digital, há um obstáculo que tem impedido esta evolução: a privacidade dos dados. É preciso ter acesso às preferências dos utilizadores para testar e evoluir os sistemas de recomendação em saúde. O objetivo deste trabalho é criar um conjunto de dados de acesso aberto com preferências de utilizadores obtidas implicitamente a partir de literatura das ciências da vida e da saúde, e testá-lo utilizando sistemas de recomendação de filtragem colaborativa. Utilizando a metodologia LIBRETTI, criámos um conjunto de dados (DisRM) a partir de artigos científicos do PubMed. O DisRM está no formato <utilizador, item, classificação> onde os utilizadores são autores de artigos e os itens são doenças, tendo um total de 2 309 190 classificações. Foram criados dois conjuntos de dados adicionais, DisRM10 e DisRM20, que incluem apenas os utilizadores que têm um número de classificações igual ou superior a 10 e 20, respetivamente. Ao aplicar um algoritmo de filtragem colaborativa k-vizinhos mais próximos baseado em memória aos conjuntos de dados DisRM10 e DisRM20, o objetivo era otimizar o recall e o ganho cumulativo com desconto normalizado (nDCG) para garantir que a maioria dos itens relevantes eram recomendados e apareciam primeiro na lista de recomendações. Os melhores resultados de recomendações foram alcançados utilizando a medida de similaridade PIP, obtendo um recall de 0.81 e um nDCG de 0.87 para o DisRM10. Comparando o DisRM com outros conjuntos de dados padronizados, este obteve resultados semelhantes ou melhores o que valida a qualidade do nosso conjunto de dados.
Recommender systems are quickly evolving and transforming our daily life by being used to explore large amounts of information and delivering personalized recommendations on several areas like streaming and e-commerce. But in the life and health sciences field, although there is a growing need of new ways to explore information due to the increase of digital information, there is one major issue that is preventing its evolution: the privacy of data. It is necessary to have data about users’ preferences to test and evolve health recommender systems. The main objective of this work is to create an open-source implicit feedback dataset based on life and health sciences literature and test it using a collaborative filtering recommender system. Using the LIBRETTI methodology, we created the dataset, called DisRM, using research articles from PubMed. The dataset is in the format <user, item, rating> where the users are authors of research articles and the items are diseases, and it has 2 309 190 ratings. Two additional datasets were created, DisRM10 and DisRM20, including only the users who have a number of ratings equal to or greater than 10 and 20, respectively. When applying a memory-based CF K-Nearest Neighbors algorithm to DisRM10 and DisRM20 we had the goal of optimizing the recall and the normalized discounted cumulative gain (nDCG), to ensure that most of the relevant items are being recommended and ranked high. We achieved the best recommendation results using the similarity measure PIP, obtaining a recall of 0.81 and a nDCG of 0.87 for DisRM10. When comparing DisRM with other baseline datasets, it performed similarly or better for recall and nDCG. This validates the quality of our dataset.

Description

Tese de Mestrado, Bioinformática e Biologia Computacional , 2022, Universidade de Lisboa, Faculdade de Ciências

Keywords

Sistemas de Recomendação Saúde Conjunto de dados Preferências Implícitas Filtragem Colaborativa Teses de mestrado - 2023

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License