Repository logo
 
Loading...
Project Logo
Research Project

SMiLax: Semantic Mining with Linked Data

Authors

Publications

A benchmark for biomedical knowledge graph based similarity
Publication . Cardoso, Carlota Maria Alegre Branco Ferreira; Pesquita, Cátia,1980-
Os grafos de conhecimento biomédicos são cruciais para sustentar aplicações em grandes quantidades de dados nas ciências da vida e saúde. Uma das aplicações mais comuns dos grafos de conhecimento nas ciências da vida é o apoio à comparação de entidades no grafo por meio das suas descrições ontológicas. Estas descrições suportam o cálculo da semelhança semântica entre duas entidades, e encontrar as suas semelhanças e diferenças é uma técnica fundamental para diversas aplicações, desde a previsão de interações proteína-proteína até à descoberta de associações entre doenças e genes, a previsão da localização celular de proteínas, entre outros. Na última década, houve um esforço considerável no desenvolvimento de medidas de semelhança semântica para grafos de conhecimento biomédico mas, até agora, a investigação nessa área tem-se concentrado na comparação de conjuntos de entidades relativamente pequenos. Dada a diversa gama de aplicações para medidas de semelhança semântica, é essencial apoiar a avaliação em grande escala destas medidas. No entanto, fazê-lo não é trivial, uma vez que não há um padrão ouro para a semelhança de entidades biológicas. Uma solução possível é comparar estas medidas com outras medidas ou proxies de semelhança. As entidades biológicas podem ser comparadas através de diferentes ângulos, por exemplo, a semelhança de sequência e estrutural de duas proteínas ou as vias metabólicas afetadas por duas doenças. Estas medidas estão relacionadas com as características relevantes das entidades, portanto podem ajudar a compreender como é que as abordagens de semelhança semântica capturam a semelhança das entidades. O objetivo deste trabalho é desenvolver um benchmark, composto por data sets e métodos de avaliação automatizados. Este benchmark deve sustentar a avaliação em grande escala de medidas de semelhança semântica para entidades biológicas, com base na sua correlação com diferentes propriedades das entidades. Para atingir este objetivo, uma metodologia para o desenvolvimento de data sets de referência para semelhança semântica foi desenvolvida e aplicada a dois grafos de conhecimento: proteínas anotadas com a Gene Ontology e genes anotados com a Human Phenotype Ontology. Este benchmark explora proxies de semelhança com base na semelhança de sequência, função molecular e interações de proteínas e semelhança de genes baseada em fenótipos, e fornece cálculos de semelhança semântica com medidas representativas do estado da arte, para uma avaliação comparativa. Isto resultou num benchmark composto por uma coleção de 21 data sets de referência com tamanhos variados, cobrindo quatro espécies e diferentes níveis de anotação das entidades, e técnicas de avaliação ajustadas aos data sets.
Understanding ALS patients using Semantic Similarity
Publication . Teixeira, David Carriço; Pesquita, Cátia,1980-; Madeira, Sara Alexandra Cordeiro
As técnicas clássicas de prospecção de dados têm dificuldades a lidar com dados biomédicos não estruturados/ semiestruturados, pois estes contêm um significado semântico profundamente enraizado em palavras e frases que não é detectado através da extracção e análise diretas de recursos. Uma maneira de formalmente contextualizar dados é anotá-los com ontologias biomédicas e usar semelhança semântica sobre essas anotações para encontrar relações ocultas entre instâncias de dados. Deste modo, se os dados puderem ser enriquecidos com conhecimento externo, uma prospecção mais informada poderá, em princípio, retornar resultados mais precisos. Este projeto abordou este desafio desenvolvendo uma metodologia para analisar registos médicos de pacientes por meio da integração com recursos e software semânticos. Uma pipeline de três etapas cria uma rede semântica de ontologias que garante cobertura semântica sobre os dados alvo, calcula a semelhança semântica entre pacientes com a aplicação SML (Semantic Measures Library), e agrupa pacientes usando algoritmos de clustering do módulo Scikit-Learn do Python. Além disso, foi desenvolvida uma ferramenta para elaborar uma descrição resumida do conteúdo semântico de um agrupamento, destacando os seus elementos mais relevantes. Estes métodos foram avaliados usando um conjunto de dados de 1376 pacientes com esclerose lateral aiotrófica (ELA), possuindo uma forte componente textual e uma ampla heterogeneidade de sintomas entre pacientes. Os grupos de pacientes obtidos foram comparados, juntamente com uma baseline não-semântica, com grupos ground-truth de pacientes derivados das suas taxas de progressão de ELA. Foi demonstrado que a eficácia da metodologia proposta era fortemente dependente do número e da qualidade das anotações, mas também que os dados disponíveis não eram suficientes para detectar grupos de progressão. Apesar disso, as descrições de agrupamentos foram aplicadas com êxito em todas as abordagens, e forneceram informações úteis que evidenciaram pontos em comum entre o conteúdo semântico dos agrupamentos teste e da ground-truth. Por fim, esta metodologia pode ser generalizada para quaisquer entidades biomédicas que podem ser anotadas semanticamente com ontologias existentes.

Organizational Units

Description

Keywords

Contributors

Funders

Funding agency

Fundação para a Ciência e a Tecnologia

Funding programme

3599-PPCDT

Funding Award Number

PTDC/EEI-ESS/4633/2014

ID