Repository logo
 
Publication

Recommender system to support comprehensive exploration of large scale scientific datasets

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapt_PT
dc.contributor.advisorCouto, Francisco José Moreira
dc.contributor.advisorAlmeida, André Moitinho de
dc.contributor.authorBarros, Márcia
dc.date.accessioned2022-07-06T11:05:32Z
dc.date.available2022-07-06T11:05:32Z
dc.date.issued2022-01
dc.date.submitted2021-08
dc.description.abstractBases de dados de entidades científicas, como compostos químicos, doenças e objetos astronómicos, têm crescido em tamanho e complexidade, chegando a milhares de milhões de itens por base de dados. Os investigadores precisam de ferramentas novas e inovadoras para auxiliar na escolha desses itens. Este trabalho propõe o uso de Sistemas de Recomendação para auxiliar os investigadores a encontrar itens de interesse. Identificamos como um dos maiores desafios para a aplicação de sistemas de recomendação em áreas científicas a falta de conjuntos de dados padronizados e de acesso aberto com informações sobre as preferências dos utilizadores. Para superar esse desafio, desenvolvemos uma metodologia denominada LIBRETTI - Recomendação Baseada em Literatura de Itens Científicos, cujo objetivo é a criação de conjuntos de dados <utilizador, item, classificação>, relacionados com campos científicos. Estes conjuntos de dados são criados com base no principal recurso de conhecimento que a Ciência possui: a literatura científica. A metodologia LIBRETTI permitiu o desenvolvimento de novos algoritmos de recomendação específicos para vários campos científicos. Além do LIBRETTI, as principais contribuições desta tese são conjuntos de dados de recomendação padronizados nas áreas de Astronomia, Química e Saúde (relacionado com a doença COVID-19), um sistema de recomendação semântica híbrido para compostos químicos em conjuntos de dados de grande escala, uma abordagem híbrida baseada no enriquecimento sequencial (SeEn) para recomendações sequenciais, um pipeline baseado em semântica de vários campos para recomendar entidades biomédicas relacionadas com a doença COVID-19.pt_PT
dc.description.abstractDatabases for scientific entities, such as chemical compounds, diseases and astronomical objects, are growing in size and complexity, reaching billions of items per database. Researchers need new and innovative tools for assisting the choice of these items. This work proposes the use of Recommender Systems approaches for helping researchers to find items of interest. We identified as one of the major challenges for applying RS in scientific fields the lack of standard and open-access datasets with information about the preferences of the users. To overcome this challenge, we developed a methodology called LIBRETTI - LIterature Based RecommEndaTion of scienTific Items, whose goal is to create <user,item,rating>datasets related to scientific fields. These datasets are created based on scientific literature, the major resource of knowledge that Science has. LIBRETTI methodology allowed the development and testing of new recommender algorithms specific for each field. Besides LIBRETTI, the main contributions of this thesis are standard and sequence-aware recommendation datasets in the fields of Astronomy, Chemistry, and Health (related to COVID-19 disease), a hybrid semantic recommender system for chemical compounds in large-scale datasets, a hybrid approach based on sequential enrichment (SeEn) for sequence-aware recommendations, a multi-field semantic-based pipeline for recommending biomedical entities related to COVID-19 disease.pt_PT
dc.identifier.tid101579535pt_PT
dc.identifier.urihttp://hdl.handle.net/10451/53679
dc.language.isoengpt_PT
dc.relationLASIGE - Extreme Computing
dc.relationLASIGE - Extreme Computing
dc.relationCenter for Astrophysics and Gravitation
dc.relationRecommender system to support comprehensive exploration of large scale scientific datasets, based on overrepresentation analysis and Linked Data
dc.subjectSistemas de recomendaçãopt_PT
dc.subjectConjunto de Dados de Larga Escalapt_PT
dc.subjectDados Científicospt_PT
dc.subjectFontes Externaspt_PT
dc.subjectOntologiaspt_PT
dc.subjectRecommender systemspt_PT
dc.subjectLarge-scale datasetspt_PT
dc.subjectScientific Datapt_PT
dc.subjectExternal Sourcespt_PT
dc.subjectOntologypt_PT
dc.titleRecommender system to support comprehensive exploration of large scale scientific datasetspt_PT
dc.typedoctoral thesis
dspace.entity.typePublication
oaire.awardTitleLASIGE - Extreme Computing
oaire.awardTitleLASIGE - Extreme Computing
oaire.awardTitleCenter for Astrophysics and Gravitation
oaire.awardTitleRecommender system to support comprehensive exploration of large scale scientific datasets, based on overrepresentation analysis and Linked Data
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/3599-PPCDT/PTDC%2FCCI-BIO%2F28685%2F2017/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F00408%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDP%2F00408%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F00099%2F2020/PT
oaire.awardURIinfo:eu-repo/grantAgreement/FCT/OE/SFRH%2FBD%2F128840%2F2017/PT
oaire.fundingStream3599-PPCDT
oaire.fundingStream6817 - DCRRNI ID
oaire.fundingStream6817 - DCRRNI ID
oaire.fundingStream6817 - DCRRNI ID
oaire.fundingStreamOE
person.familyNameAfonso Barros
person.givenNameMárcia
person.identifier.ciencia-id1B1D-6C61-0B36
person.identifier.orcid0000-0002-9728-9618
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.identifierhttp://doi.org/10.13039/501100001871
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
project.funder.nameFundação para a Ciência e a Tecnologia
rcaap.rightsopenAccesspt_PT
rcaap.typedoctoralThesispt_PT
relation.isAuthorOfPublicationa8c233fa-8cf9-4f63-a320-71758a6cdc5e
relation.isAuthorOfPublication.latestForDiscoverya8c233fa-8cf9-4f63-a320-71758a6cdc5e
relation.isProjectOfPublication3c793792-dc99-4cf3-9669-e2d92c6d03bc
relation.isProjectOfPublicationb429b8f0-500f-4a0b-8e91-33e0a200ad1c
relation.isProjectOfPublication1047b7c0-692c-4e8a-9fb0-ef819e9248a3
relation.isProjectOfPublication253ba979-4204-4952-9267-b2500d0ec1e4
relation.isProjectOfPublicationbb136a92-6daf-499d-a9fc-486d117af46d
relation.isProjectOfPublication.latestForDiscoveryb429b8f0-500f-4a0b-8e91-33e0a200ad1c
thesis.degree.nameTese de doutoramento, Informática, Universidade de Lisboa, Faculdade de Ciências, 2022pt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
ulsd738551_td_Marcia_Barros.pdf
Size:
7.28 MB
Format:
Adobe Portable Document Format