Logo do repositório
 
A carregar...
Miniatura
Publicação

Alternative splicing detection across different tissues in cork oak

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
ulfc124342_tm_Pedro_Barros.pdf2.84 MBAdobe PDF Ver/Abrir

Resumo(s)

As florestas de sobreiro (Quercus suber L.) são recursos únicos e emblemáticos em Portugal, com elevado impacto económico, ecológico e social. A disponibilidade recente da sequência do genoma de sobreiro forneceu um importante contributo para revitalizar a pesquisa em temas como desenvolvimento de cortiça e melhoramento da planta, assim como promover a competitividade da indústria da cortiça. No entanto, é ainda necessário adicionar mais detalhe à anotação estrutural do genoma, nomeadamente ao nível dos transcritos, incluindo previsão de eventos de splicing alternativo. O splicing alternativo (AS) é um processo usado durante a expressão génica que origina diferentes variantes de transcritos (isoformas) e produtos proteicos a partir um único gene. No presente estudo, procedemos à análise de dezasseis bibliotecas de RNA-seq, preparadas a partir de quatro tecidos de sobreiro (folhas, felema, entrecasco e xilema), de modo a prever novas formas de AS para genes já previstos e melhorar a anotação estrutural do genoma. Um protocolo bioinformático foi definido para testar o desempenho do software HISAT2 e STAR para mapeamento de reads de RNAseq no genoma de referência, e do software Cufflinks e StringTie para (re)construção de transcritos. O alinhamento de reads no genoma efetuado com STAR resultou em taxas de mapeamento (de 84,22% a 86,86%) superiores aos resultados atingidos com HISAT2 (73,88% a 76,55%). Assim, os resultados de mapeamento com STAR foram utilizados para a (re)construção de transcritos. O uso do StringTie para este processo foi globalmente mais conservador do que com Cufflinks, gerando menos transcritos novos, mas com melhor cobertura de reads por pares de base. Para melhorar a precisão da anotação e reduzir falsos positivos, foi realizado um passo adicional de otimização com StringTie. Desta otimização resultou uma anotação que prevê a ocorrência de 7 958 novos transcritos (8% dos transcritos totais), dos quais 5 453 são novas isoformas para genes previstos na anotação de referência. Esta nova anotação foi utilizada como referência para estimar a abundância dos transcritos em cada um dos tecidos estudados e efetuar a análise de expressão diferencial. Cerca de 16% de todos os genes expressos nos quatro tecidos e que contêm intrões apresentaram splicing alternativo, e os principais eventos de splicing foram alternative acceptor site e intron retention. Grupos de transcritos com expressão diferencial entre os quatro tecidos foram identificados e a análise de enriquecimento funcional confirmou os principais processos biológicos esperados para cada tecido: os transcritos mais expressos nas folhas e no xilema estavam relacionados com a fotossíntese e com transporte, respetivamente; transcritos mais expressos na periderme (felema e entrecasco) mostraram um enriquecimento em categorias funcionais relacionadas com a síntese de suberina e outros componentes de parede celular presentes nas células de cortiça. Estes grupos específicos mostraram também um enriquecimento em transcritos envolvidos na resposta ao stresse (biótico ou abiótico). Nos tecidos que compõem a periderme, este enriquecimento foi observado principalmente no entrecasco, enquanto que no felema foi detetado um enriquecimento em transcritos envolvidos no metabolismo secundário. A presente tese permitiu a definição de um protocolo padrão que poderá ser usado para estudar o splicing alternativo no sobreiro e para uma análise mais aprofundada na nova versão do genoma, que estará disponível em breve.
Cork oak (Quercus suber L.) forests are unique and emblematic resources for Portugal, with high economical, ecological and social significance. The recent availability of the cork oak genome sequence provided an important contribution to reinvigorate research in fundamental topics such as cork development and plant improvement, and to promote the competitiveness of cork industry. Yet, further analysis is required to add detail to genome structure annotation, namely at the transcript level, also taking into account alternative splicing. Alternative splicing (AS) is a process used during gene expression to yield different transcript variants and protein products derived from a single gene. In the present study, we analyzed sixteen RNA-seq libraries prepared from four cork oak tissues (leaf, xylem, phellem and inner bark), in order to predict new AS forms for the already predicted genes and improve genome structural annotation. A bioinformatics pipeline was defined in order to test the performance of HISAT2 and STAR for read mapping against the reference genome, and Cufflinks and StringTie for transcript assembly. STAR yielded higher mapping efficiencies (84.22% to 86.86%) for the cork oak datasets, as compared to HISAT2 (73.88% to 76.55%), and the corresponding mapping data was selected for transcript assembly. The use of StringTie for this step was globally more conservative than Cufflinks, generating less novel transcripts, but with better support by read per base coverage. A further optimization step was performed using StringTie in order to improve annotation precision. The final transcript annotation was selected from this optimization step, predicting 7,958 novel transcripts (8% of total transcripts in the new annotation), 5,453 of which were novel isoforms for genes in reference annotation. This new annotation was used as reference to estimate transcript abundance in each tissue and differential expression analysis. Approximately 16% of all intron-containing genes expressed in the four tissues were alternatively spliced and the main event found in the four cork oak tissues was alternative acceptor site, followed by intron retention. Transcript clusters showing differential expression among the four tissues were identified and functional enrichment analysis confirmed the main biological processes expected for each tissue: transcripts highly expressed in leaves and xylem were mostly related to photosynthesis and transport, respectively; transcripts highly expressed in peridermis (phellem and inner bark) showed an enrichment in functional categories related to the synthesis of suberin and other component of cork cell walls. These tissue-specific clusters also showed an enrichment in transcripts involved in the response to stress (biotic or abiotic). Yet, in peridermis, this enrichment was mostly observed in inner bark samples, while phellem samples showed an enrichment in transcripts related to secondary metabolism. This thesis allowed the definition of a standard workflow that can be used to study alternative splicing in cork oak and used for further analysis on the new improved genome version that will be available soon.

Descrição

Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017

Palavras-chave

Quercus suber Anotação do genoma Transcrição Isoformas Diferenciação da periderme Teses de mestrado - 2017

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo

Editora

Licença CC