Universität zu Köln

Alternative pre-mRNA Splicing: Signals and Evolution

Vukusic, Ivana (2008) Alternative pre-mRNA Splicing: Signals and Evolution. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
Download (7Mb) | Preview

    Abstract

    Alternative pre-mRNA splicing is a major source of transcriptome and proteome diversity. In humans, aberrant splicing is a cause for genetic disease and cancer. Until recently it was believed that almost 95% of all genes undergo constitutive splicing, where introns are always excised and exons are always included into the mature mRNA transcript. It is now widely accepted that alternative splicing is the rule rather than the exception and that perhaps more than 75% of all human genes are alternatively spliced. Despite its importance and its potential role in causing disease, the molecular basis of alternative splicing is still not fully understood. The incompleteness of our knowledge about the human transcriptome makes ab initio predictions of alternative splicing a recent, but important research area. This thesis investigates different aspects of alternative splicing in humans, based upon computational large-scale analyses. We introduce a genetic programming approach to predict alternative splicing events without using expressed sequence tags (ESTs). In contrast to existing methods, our approach relies on sequence information only, and is therefore independent of the existence of orthologous sequences. We analyzed 27,519 constitutively spliced and 9,641 cassette exons (SCE) together with their neighboring introns; in addition we analyzed 33,316 constitutively spliced introns and 2,712 retained introns (SIR). We find that our tool for classifying yields highly accurate predictions on the SIR data, with a sensitivity of 92.1% and a specificity of 79.2%. Prediction accuracies on the SCE data are lower: 47.3% (sensitivity) and 70.9% (specificity), indicating that alternative splicing of introns can be better captured by sequence properties than that of exons. We critically question these findings and in particular discuss the huge impact of the feature "length" on predictions in retained introns. We find that the number of adenosines in an exon, called "feature A" is a highly prominent feature for classification of exons. Adenosines are especially overrepresented in the most abundant exonic splicing enhancers, found in constitutive exons. Furthermore we comment on inconsistencies of the nomenclature and on problems of handling the splicing data. We make suggestions to improve the terminology. For further in silico exploration of sequence properties of exons, we generated a dataset of synthetic exons. We describe a general rule for creating sequences with similar exonic splicing enhancer and -silencer densities to real exons, as well as similar exonic splicing enhancer networks. We find that exonic splicing enhancer densities are well suited for differentiating real and randomized exons, whereas the densities of SR protein binding sites are largely uninformative. Generally, we find that features described on small scale experimental data are not transferable to computational large-scale analyses, which makes creation of rules for alternative splicing prediction based only upon DNA/RNA sequence, an extraordinarily difficult task. According to our findings, we suggest that in case of the SCE, only 20%, and in case of SIR, only 30% of the whole splicing information is encoded on sequence level. In the last chapter we investigated the question whether alternative splicing may be connected to adaptive evolutionary processes in a species or population. Unfortunately, the currently available population genetical tools are not sensitive enough to identify traces of positive or balancing selection on the scale of a few 100bp. Additional problems are the incomplete SNP databases and SNP ascertainment bias. The evolutionary role of alternative splicing remains, at least for the moment, speculative.

    Item Type: Thesis (PhD thesis)
    Translated abstract:
    AbstractLanguage
    Alternatives pre-mRNA Splicing ist die Hauptquelle für Transkriptom- und Proteomvielfalt. Bei Menschen ist anormales Splicing eine Entstehungsursache für genetisch bedingte Krankheiten und Krebs. Bis vor einigen Jahren wurde angenommen, dass beinahe 95% aller Gene konstitutiv gespleißt werden, wobei Introns grundsätzlich herausgeschnitten und Exons immer in das reife Transkript eingeschlossen werden. Heutzutage ist allgemein akzeptiert, dass alternatives Splicing eher die Regel als die Ausnahme ist, und dass wahrscheinlich mehr als 75% aller menschlichen Gene alternativ gespleißt werden. Trotz seiner herausragenden Bedeutung und der wachsenden Erkenntnis, dass der Mechanismus des alternativen Splicings in Zusammenhang zu einigen Krankheiten steht, wird er noch nicht vollständig verstanden. Die Unvollständigkeit unseres Wissens über das menschliche Transkriptom macht "ab initio" Vorhersagen über alternatives Splicing zu einem innovativen und bedeutenden Forschungsgebiet. Diese Arbeit untersucht die unterschiedlichen Aspekte des alternativen Splicings beim Menschen mit Hilfe von computergestützen Genomanalysen. Wir verwenden die Methode der Genetischen Programmierung, um das Auftreten des alternativen Splicings ohne die Verwendung von Expressed Sequence Tags (ESTs) Information vorauszusagen. Im Gegensatz zu anderen Methoden basiert unser Ansatz nur auf Sequenzinformationen innerhalb der Zelle, und er ist daher unabhängig von orthologen Sequenzen anderer Spezies, oder anderen, der Zelle nicht zugänglichen Informationen. Wir haben 27.519 konstitutiv gespleißte und 9.641 Kassettenexons (SCE) inklusive ihrer Nachbar-Regionen analysiert. Zusätzlich haben wir 33.316 konstitutiv gespleißte Introns mit 2.712 alternativen Introns verglichen. Wir fanden heraus, dass der Klassifikator eine hoch präzise Voraussage mit einer Sensivität von 92,1% und einer Spezifität von 79,2% auf den SIR Daten erzielte. Voraussagegenauigkeiten auf den SCE Daten sind niedriger: 47,3% (Sensivität) und 70,9% (Spezifität). Dies zeigt, dass alternatives Splicing von Introns durch Sequenzeigenschaften besser erfasst werden kann als das von Exons. Wir hinterfragen diese Ergebnisse kritisch und machen den großen Einfluss der Eigenschaft "Länge" in erfassten Introns deutlich. Außerdem haben wir herausgefunden, dass das "Feature A" das wichtigste Merkmal für die Klassifizierung von Exons ist, da es insbesondere in den häufigsten exonischen Spliceverstärkern angreichert ist, die in konstitutiven Exons gefunden wurden. Darüber hinaus heben wir Inkonsistenzen bei den Bezeichnungen sowie im Umgang mit gespleißten Daten hervor und zeigen auf, wie die Terminologie verbessert werden kann. Um Sequenzeigenschaften von Exons zu erforschen, haben wir einen neuen Datensatz, die "synthetischen Exons" generiert. Wir haben zusätzlich eine allgemeine Regel zur Erschaffung von Sequenzen mit ähnlichen Dichten an exonischen Spliceverstärkern und �hemmern wie in realen Exons sowie von exonischen spliceverstärkenden Netzwerken beschrieben. Wir fanden heraus, dass die Dichten der exonischen Spliceverstärker gut geeignet für die Trennung von echten und zufälligen Exonen sind. Dagegen erwiesen sich die Dichten von SR Proteinbindungsstellen zur Lösung dieser Aufgaben als nicht hilfreich. Im Allgemeinen fanden wir heraus, dass Eigenschaften, die in klein angelegten experimentellen Versuchen beschrieben sind, nicht auf computergestützte Genomanalysen übertragbar sind. Dies macht das Aufstellen von Regeln für die Voraussage von alternativem Splicing, die nur aufDNA/RNA-Sequenzen basieren, zu einer sehr schweren Aufgabe. Aufgrund unserer Ergebnisse legen wir nahe, dass im Fall von SCE nur 20% und im Fall von SIR nur 30% der gesamten Splicing Information in der Sequenz codiert sind. Der letzte Teil der Dissertation zeigt die Notwendigkeit der Justierung des "Ascertainment Bias", wenn man sich mit den evolutionären Aspekten des alternativen Splicings im Allgemeinen und mit Hapmap Daten im Speziellen beschäftigt.German
    Creators:
    CreatorsEmail
    Vukusic, IvanaIvana@edv-adams.de
    URN: urn:nbn:de:hbz:38-26068
    Subjects: Life sciences
    Faculty: Mathematisch-Naturwissenschaftliche Fakultät
    Divisions: Mathematisch-Naturwissenschaftliche Fakultät > Institut für Genetik
    Language: English
    Date: 2008
    Date Type: Completion
    Date of oral exam: 17 November 2008
    Full Text Status: Public
    Date Deposited: 18 Feb 2009 11:26:03
    Referee
    NameAcademic Title
    Wiehe, ThomasProf. Dr.
    URI: http://kups.ub.uni-koeln.de/id/eprint/2606

    Actions (login required)

    View Item