Repository logo
 
No Thumbnail Available
Publication

MiCRA : a minimal pipeline for functional microbiome information retrieval using Natural Language Processing and Biomedical Ontologies

Use this identifier to reference this record.
Name:Description:Size:Format: 
TM_Maria_Madalena_Canelhas.pdf10.33 MBAdobe PDF Download

Abstract(s)

Stresses abióticos, como seca, salinidade, temperaturas extremas e outros factores ambientais adversos, representam uma ameaça significativa à agricultura moderna. Estes factores não só comprometem directamente a produtividade agrícola, como também exacerbam as desigualdades económicas e sociais, afectando principalmente comunidades que dependem fortemente da agricultura para subsistência. A severidade e a frequência destes eventos têm aumentado devido às alterações climáticas, tornando indispensável o desenvolvimento de estratégias agrícolas mais versáteis e sustentáveis. Além disso, o impacto negativo sobre a qualidade do solo e os recursos hídricos exige soluções que também considerem a regeneração ambiental, indo além do foco exclusivo no aumento da produção. Neste cenário desafiador, as comunidades microbianas emergem como uma abordagem inovadora e promissora, inserindo-se no recente conceito de ”agricultura regenerativa”: um conjunto de práticas agrícolas e gestão de cultivares que visam a regeneração e protecção dos solos, recursos hídricos, e biodiversidade. Microrganismos associados a plantas desempenham papéis fundamentais na promoção do crescimento vegetal, facilitando a absorção de nutrientes, melhorando a estrutura do solo e aumentando a tolerância das plantas a stresses abióticos. A presente dissertação explora esse potencial ao apresentar o MiCRA (Microbial Communities for Regenerative Agriculture), um sistema de processamento de linguagem natural (PLN) desenvolvido para analisar, organizar e disponibilizar conhecimento científico sobre as interacções entre microrganismos e plantas no âmbito da mitigação de stress abiótico. Este sistema foi desenvolvido no âmbito do projecto Microdrygrape, sendo um dos seus objectivos a caracterização do microbioma associado à tolerância à seca em videira O MiCRA é resultado de uma integração inovadora de técnicas de prospecção de texto e a NCBI Organismal Taxonomy Ontology, cuja combinação permite a extracção e análise de grandes volumes de dados científicos. Esta abordagem viabiliza a identificação sistemática de relações entre entidades a partir da literatura biomédica em grande escala. A principal meta deste sistema é capacitar investigadores a aceder e utilizar informações detalhadas sobre microrganismos que podem ser explorados como ferramentas naturais para aumentar a resiliência das plantas a condições adversas. A abordagem adoptada nesta dissertação é abrangente, cobrindo simultaneamente o desenvolvimento de uma pipeline automatizada e a curadoria manual de dados, assegurando altos níveis de qualidade e relevância. O desenvolvimento do MiCRA foi estruturado em várias etapas interligadas. A primeira fase consistiu numa revisão de literatura biomédica no tópico de mitigação do efeitos de stress abiótico em plantas mediada por microorganismos. A análise de 247 publicações, obtidas a partir de quatro artigos de revisão sobre o impacto do microbioma na resiliência de plantas a stress abiótico, resultou num total de 865 instâncias manualmente curadas e validadas. Este conjunto de dados foi considerado uma verdade-base (ground truth dataset, GTD), e não só contribuiu para a familiarização com a terminologia utilizada na literatura e com o próprio tema, como permitiu a optimização do sistema desenvolvido nas suas várias fases. A segunda etapa deste trabalho implicou a construção de uma pipeline de prospecção de texto baseada em Named-Entity Recognition (NER), Named-Entity Linking (NEL), e Relation Extraction (RE), utilizando o Minimal Entity Recognizer (MER) e aplicando uma estratégia de co-ocorrência de entidades para o estabelecimento de relações. Esta pipeline emprega métodos baseados em léxicos para o reconhecimento de entidades, como nomes de microrganismos, plantas e tipos de stress abiótico, em textos científicos extraídos do PubMed Central. Para garantir interoperabilidade e consistência, as entidades microbianas e de plantas foram vinculadas à NCBI Organismal Classification Ontology, um recurso ontológico amplamente reconhecido pela comunidade científica; as entidades de stress foram obtidas a partir do conjunto de instâncias que compõem o GTD. Deste processo de NER, NEL e RE resultou um corpus padrão-prata (i.e. gerado automaticamente) que foi subsequentemente sujeito a um processo de validação manual por nove curadores especializados em Biologia e Bioquímica. Assim surgiu o corpus Microbe-Mediated Plant Abiotic Stress Tolerance (2M-PAST), um conjunto de dados de padrão-ouro (i.e., manualmente validado e anotado) de interacções microrganismo-planta no âmbito da mitigação de stress abiótico. O resultado final é um dataset robusto e específico, composto por 8154 anotações que descrevem 2718 relações entre microrganismos, plantas e factores de stress abiótico, com uma proporção de 55.40% de relações positivas e 44.60% relações negativas. As anotações incorporam 440 entidades microbianas, 20 entidades de stress e 16 entidades de plantas, tornando o corpus 2M-PAST um recurso abrangente e valioso para a investigação científica. A avaliação do corpus 2M-PAST produziu métricas que reflectem a o potencial do sistema MiCRA para a extracção de relações significativas no âmbito do tópico de interesse. Com uma precisão de 55.37%, um F-score de 71.27% e um nível de concordância entre curadores de 88.97%, os resultados demonstram a capacidade da pipeline de capturar interacções microrganismo-stress-planta de maneira sistemática e promissora. Ademais, a incorporação de uma ferramenta de criação de gráficos de conhecimento na pipeline para organização dos dados possibilita a extracção de relações potencialmente significativas entre organismos de interesse. Por fim, a análise dos resultados revelou padrões textuais recorrentes que poderão ser explorados para optimizar futuras versões do sistema, e a exploração dos gráficos de conhecimento produzidos destacou um conjunto de microrganismos potencialmente associados à tolerância à seca em videira (como pretendido), bem como em diversos outros cultivares e tipos de stress. Outro aspecto relevante para este trabalho foi a identificação de lacunas nos recursos ontológicos existentes. Apesar da NCBI Organismal Classification Ontology ser um recurso amplamente utilizado, foram identificadas diversas limitações na representação de interacções planta-microrganismo e nos mecanismos subjacentes à tolerância ao stress abiótico. Essas descobertas destacam a necessidade de actualizações e expansões nas ontologias existentes para apoiar investigações mais detalhadas e precisas. Apesar dessas lacunas, o design simplificado do MiCRA demonstrou ser uma opção prática e eficiente. Ao integrar reconhecimento de entidades baseado em léxicos com extracção de relações ao nível da frase, o sistema apresenta uma alternativa sustentável aos modelos de linguagem de grande escala, como o ChatGPT, que apresentam enormes necessidades computacionais. Este trabalho reforça precisamente a importância de soluções task-specific no processamento de texto biomédico em detrimento de modelos generalistas, como os grandes modelos de linguagem, uma vez que abordagens direccionadas como o MiCRA não só maximizam os recursos computacionais, como também permitem a especialização dos sistemas desenvolvidos. De forma geral, a aplicação do MiCRA representa a possível utilização de métodos baseados em co-ocorrência de entidades para a extracção de relações, destacando-se como uma abordagem auspiciosa, incluindo em termos de sustentabilidade, para a obtenção de conhecimento. A disponibilização pública do MiCRA e do corpus 2M-PAST demonstra o compromisso com a colaboração científica e a transparência. Ao fornecer acesso aberto a esses recursos, esta dissertação incentiva a inovação e permite que outros investigadores construam sobre os avanços apresentados. Este tipo de ferramenta oferece aos investigadores uma plataforma para mapear e analisar interacções biológicas complexas, facilitando o desenvolvimento de estratégias como a selecção de consórcios microbianos específicos ou a manipulação do microbioma para melhorar a resiliência das culturas. Estas abordagens têm o potencial de transformar práticas agrícolas, promovendo maior sustentabilidade e reduzindo a dependência de produtos químicos possivelmente nocivos ou poluentes. Além disso, o foco em soluções baseadas na natureza está alinhado com os objectivos globais de desenvolvimento sustentável, contribuindo para a segurança alimentar e a preservação ambiental. Em síntese, o trabalho apresentado representa um marco significativo na intersecção entre tecnologia, biologia e agricultura. O desenvolvimento do MiCRA e do corpus 2M-PAST não só avança o estado da arte no processamento de texto biomédico, mas também fornece uma base sólida para a expansão de práticas agrícolas regenerativas baseadas em microrganismos. Espera-se que as contribuições desta dissertação inspirem futuras investigações no campo da biotecnologia agrícola, incentivando a integração de métodos baseados em microrganismos para enfrentar desafios críticos impostos pelas mudanças climáticas. Este trabalho reforça a importância da ciência e da inovação na construção de um futuro mais sustentável para a agricultura e a humanidade.
Abiotic stresses, such as drought and salinity, pose significant challenges to modern agriculture, threatening global food security amid increasing climate variability. Microbial communities, particularly those associated with plants and crops, offer a promising approach for mitigating the impacts of these stresses. This dissertation introduces MiCRA (Microbial Communities for Regenerative Agriculture), an innovative natural language processing pipeline designed to extract, process, and organize knowledge about microbe-mediated stress tolerance in plants. The system combines text mining techniques and the NCBI Organismal Taxonomy Ontology to generate robust datasets, capturing relationships between microorganisms, plants, and stresses from biomedical literature. The primary goal is to empower researchers to explore sustainable, microbe-based regenerative agriculture solutions for enhancing plant resilience to various types of abiotic stress. This work resulted in the creation of a comprehensive gold-standard corpus, based on the manual curation of an automatically generated silver-standard corpus. The initial corpus was partially evaluated by nine curators from the fields of Biology and Biochemistry, achieving an accuracy of 55.37% and an F-score of 71.27%, with an inter-curator agreement level of 88.97%. The Microbe-Mediated Plant Abiotic Stress Tolerance (2M-PAST) corpus comprises 2718 relationships derived from 8154 annotations, including 440 microbial entities, 20 stress entities, and 16 plant entities. Key findings include the validation of co-occurrence-based methods for Relation Extraction (RE) and the identification of significant gaps in existing ontological resources. Furthermore, subsequent data analysis revealed textual patterns that can be leveraged to further refine the pipeline and improve methodological strategies. Despite opportunities for improvement, MiCRA’s simplified design, which integrates lexicon-based entity recognition and sentence-level RE, highlights its potential to drive advancements in regenerative agriculture. Moreover, the results aim to promote the development and adoption of task-specific systems in biomedical text processing, establishing them as a viable and more sustainable alternative to large language models, such as ChatGPT. The public availability of this tool, along with the associated corpus, cements its value as a strategic resource for agricultural research and development on a large scale.

Description

Tese de Mestrado, Bioinformática e Biologia Computacional, 2025, Universidade de Lisboa, Faculdade de Ciências

Keywords

Extração de Relações Corpus Padrão-Prata Co-Ocorrência Agricultura regenerativa Análise de dados Teses de mestrado - 2025

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License