Universität zu Köln

Genome re-annotation and DNA motif identification in Brassicaceae species

Rawat, Vimal (2015) Genome re-annotation and DNA motif identification in Brassicaceae species. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
Download (7Mb) | Preview

    Abstract

    The DNA sequence analysis field has experienced a paradigm shift caused by the drastic reduction in the sequencing cost and time. With the availability of several reference genome assemblies, understanding of structural and functional aspects of genomes has started growing. Annotating a reference genome is the first and very crucial step that ensures its efficient usability to serve as a community resource. Unlike coding regions, non–coding regions do not translate into proteins but still play a central role in development and physiology of an organism by regulating gene expression. Identification and annotation of these regions are only initial steps, equally interesting and even more rewarding is to decipher the interplay between these two components of a genome. Identification of cis-regulatory elements (CREs), the functional components of the non-coding genome, is paramount to our understanding regarding the gene expression regulation. The role of CREs in regulating rhythmic (diurnal) expression of thousands of genes has been reported in several plants species (including Arabidopsis thaliana) but still only a few CREs have been reported so far. In the first project, using extensive RNA-sequencing data, I substantially improved the annotation and usability of a Brassicaceae species, Arabidopsis lyrata. Gene model coordinates for over 90% genes are corrected, with improved UTRs (untranslated regions) annotation. Over 2,000 genes are now annotated as transposable element (TE)-related genes and around 8% annotated with alternate transcripts. With hundreds of cases of gene-merge and gene-split, improved annotation also corrects coding space of the genome. Experimentally validated data for several such cases strongly supported updated annotation, highlighting the importance of employing species-specific RNA-sequencing data for genome annotation. In the second project, I compared time-series transcriptomics data for two Brassicaceae species, Arabidopsis thaliana and Arabis alpina. Around 30% genes were found under the control of diurnal regulation in both species. An interesting finding regarding phase-shift of the circadian clock genes and their direct targets was also observed. Gene Ontology term enrichment analysis suggested that diurnal genes associated to carbohydrate metabolism are the most affected by this phase shift while light-signaling associated genes are the least affected. I also demonstrated the usefulness of Phylogenetic shadowing to identify enriched CREs in the diurnal genes. Using several recently assembled Brassicaceae genomes, I analyzed the conservation patterns in promoters of orthologous diurnal genes. In total, I identified 54 and 45 DNA motifs for Arabidopsis thaliana and Arabis alpina respectively. Over 65% motifs were found common for both species including previously reported six motifs. Based on recently published open chromatin data, around 30% of the DNA motifs revealed protected sites from an endonuclease (DNase I), indicating their potential role as protein-binding sites. Several phase-specific co-occurring DNA motifs pairs were found conserved in both species, including previously known Evening Element (EE) and ABA Response Element Like (ABREL) pair, underlining the broad conservation of cis-regulation of diurnal expression.

    Item Type: Thesis (PhD thesis)
    Translated abstract:
    AbstractLanguage
    Das Feld der DNA-Sequenzanalyse hat sich, vor allem durch die drastisch gesunkenen Sequenzierungskosten sowie durch den verminderten Zeitbedarf, stark gewandelt. Mit der Verfügbarkeit mehrerer Referenzgenomassemblierungen hat ein wachsendes Verständnis der strukturellen und funktionellen Aspekte des Genoms begonnen. Die Annotation eines Referenzgenoms ist dem entsprechend ein erster wichtiger Schritt, der einer effizienten Nutzung als gemeinschaftlicher Ressource dient. Im Gegensatz zum codierenden Teil des Genoms wird der nicht-codierende Teil nicht in Proteine übersetzt, spielt aber dennoch eine zentrale Rolle in der Regulierung der Genexpression und damit in der Entwicklung und Physiologie von Organismen. Mit der Identifizierung und Annotation dieser Teile des Genoms ist jedoch nur ein erster Schritt getan. Darüber hinaus ist die Entschlüsselung des Zusammenspiels von codierenden und nicht-codierenden Bereichen eine ebenso interessante wie aufschlussreichere Fragestellung. Die Identifizierung von Cis-Regulatorischen Elementen (CREs) sowie deren Funktion in der Genregulation und Expression ist entscheidend für das Verständnis des nicht-codierenden Teils des Genoms. Für die tagesrhythmische Expression tausender von Genen in verschiedenen Pflanzenarten (einschließlich Arabidopsis thaliana) spielen die CREs eine zentrale Rolle, dennoch sind bis heute nur wenige CREs beschrieben. Im ersten Teil meiner Arbeit wurde durch die Einbeziehung von umfangreichen RNA-Sequenzdaten, ist es mir gelungen die Annotation und deren Benutzerfreundlichkeit für eine Brassicaceae Art, Arabidopsis lyrata, wesentlich zu verbessern. Für mehr als 90 % der Gene haben sich Genmodellkoordinaten aufgrund der verbesserten „Un-Translated Region“-basierten Annotation verändert. Tausende Gene sind dadurch als „Transposable Element“ annotiert worden, zudem ist für rund 8 % der Gene alternative Transkription identifiziert worden. Hunderte Gene wurden entweder mit anderen Genen zu einem Gen verbunden oder voneinander getrennt, so konnte die Annotation des codierten Teils entscheidend verbessert und korrigiert werden. Diese Verbesserung konnte durch experimentelle Daten für mehrere Gene belegt werden, was die Bedeutung von artspezifischen RNA-Sequenzdaten für die Genannotation deutlich macht. Im zweiten Teil dieser Arbeit habe ich Daten aus Transkriptionszeitreihen von zwei Brassicaceae Arten, Arabidopsis thaliana und Arabis alpina, verglichen. Dabei konnte ich zeigen, dass rund 30 % der Gene dieser Arten tagesrhythmisch exprimiert werden. Zwischen den Arten wurde eine interessante Verschiebung der Phase von rhythmisch zirkulierenden Genen beobachtet. Eine ontologische Analyse bezüglich des vermehrten Auftretens von tagesrhythmisch exprimierten Genen zeigt, dass Kohlenhydratstoffwechsel-assoziierte Gene am stärksten in ihrer Phase verschoben, Lichtsignal-assoziierte Gene hingegen am wenigsten beeinflusst sind. Darauf aufbauend wurden mittels „Phylogenetic Shadowing“ CREs gesucht die vermehrt in der tagesrhythmischen Genregulation vorkommen. Dabei war es möglich die Konservierungsmuster in orthologen Promotoren der tagesrhythmischen Gene anhand von mehreren kürzlich assemblierten Brassicaceae Genomen zu analysieren. So wurden 54 beziehungsweise 45 DNA-Motive für Arabidopsis thaliana und Arabis alpina gefunden, wobei die beiden Arten mit über 65 % übereinstimmten - inklusive sechs bekannter Motive. Basierend auf öffentlich zugängliche „Open Chromatin“ Daten wurde festgestellt, dass circa 30 % der DNA-Motive einen Schutz vor Endonuklease (DNase I) zeigen, was eine mögliche Rolle als Proteinbindungsstellen nahelegt. Mehrere zusammen auftretende und phasenspezifische DNA-Motiv-Paare wurden in beiden Arten gefunden, darunter bereits bekannte wie das „Evening Element“ und „ABA-Response-Element“ Paar, denen konservierte tagesrhythmische cis-regulierte Expression zugrunde liegtGerman
    Creators:
    CreatorsEmail
    Rawat, Vimalvimal.biochem@gmail.com
    URN: urn:nbn:de:hbz:38-71468
    Subjects: Natural sciences and mathematics
    Life sciences
    Uncontrolled Keywords:
    KeywordsLanguage
    DiurnalEnglish
    BrassicaceaeEnglish
    DNA motifEnglish
    Faculty: Mathematisch-Naturwissenschaftliche Fakultät
    Divisions: Mathematisch-Naturwissenschaftliche Fakultät > Institut für Genetik
    Language: English
    Date: 14 November 2015
    Date Type: Publication
    Date of oral exam: 19 January 2016
    Full Text Status: Public
    Date Deposited: 24 Jan 2017 16:39:16
    Referee
    NameAcademic Title
    Coupland, GeorgeProf. Dr.
    Wiehe, ThomasProf. Dr.
    URI: http://kups.ub.uni-koeln.de/id/eprint/7146

    Actions (login required)

    View Item