Campos Martin, Rafael ORCID: 0000-0002-1395-8571 (2021). Hidden Markov Models for Genomic Segmentation and Annotation. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
Final_withDate.pdf

Download (1MB) | Preview

Abstract

Viele Prozesse auf der Genom- und Epigenomebene sind immer noch nicht vollständig erforscht. Die jüngsten Entwicklungen im Bereich der Hochdurchsatz-Sequenzierung haben zu einer exponentiellen Vergrößerung der Datenmenge geführt. Um aussagekräftige Informationen aus diesen Daten zu erhalten und natürlich vorkommende Muster oder Cluster innerhalb der Datensätze zu finden, entwickeln viele Bioinformatiklabore neue Algorithmen und Pipelines. In genomischen und epigenomischen Daten sind Datenpunkte innerhalb derselben Loci ähnlicher als Datenpunkte, die eine große Distanz auf dem Genom aufweisen. Allerdings führen Regionen mit ähnlichen Funktionen, die über das Genom verstreut sind, ebenfalls zu ähnlichen Datenpunkten. Um diese lineare Abhängigkeit im Locus zu modellieren und ähnliche Cluster im Genom zu finden, werden häufig Hidden Markov-Modelle (HMMs) verwendet. Thema der vorliegenden Doktorarbeit sind die theoretischen Grundlagen von HMMs und die Erweiterung zu bidirektionalen HMMs (bdHMMs). Im Genom kann bei einer Vielzahl von Prozessen wie DNA- Reparatur oder Transkription eine definierte Richtung beobachtet werden. bdHMMs wurden entwickelt, um Prozesse mit intrinsischer Direktionalität zu modellieren. Dies geschieht durch die Definition von Konjugaten, oder Twin, Zuständen. Darüber hinaus wurde eine Methode entwickelt, mit der jedes HMM in ein Clustering-Modell umgewandelt werden kann und umgekehrt. Mit dem Lernalgorithmus für HMMs können so die Parameter für eine Clustering-Methode erlernt und angepasst werden. Das gleiche Verfahren kann für bdHMMs und das Verfahren des bidirektionalen Clusterings verwendet werden. Im zweiten Kapitel der Arbeit findet der bdHMM-Algorithmus seine Anwendung: Der Tri-Methylierungsstatus von Histon drei (H3) wird in drei verschiedenen Lysinen seines Poly(A)-Schwanzes (H3K4me3, H3K36me3 und H3K79me3) zusammen mit seinen mutmaßlichen Methyltransferase-Proteinen (Set1, Set2 und Dot1) und weiteren möglichen Genen untersucht, die diese Modifikationen als Signalzeichen verwenden könnten (Asr1, Ioc4, Nto1, Pdp3, Rad9 und, Set4). Mithilfe einer Metagenanalyze von Transkriptomikdaten konnte die Beziehung zwischen den Marken und der Genexpression genauer bewertet werden. Als weiterer Schritt wurde eine neue Klasse von HMMs mit einer zusätzlichen versteckten Schicht entwickelt, um Haplotypen in Populationen rekombinanter Eltern mittels Low-Coverage-Sequenzierung zu ermitteln. Die zusätzliche Schicht modelliert die hohe Variabilität in der SNP-Erkennung und ermöglicht Aussagen über die Zuverlässigkeit des spezifischen Marker basierend auf den Informationen aller analysierten Proben. Die verwendete Methode untersucht die Wirkung von drei verschiedenen Proteinen (RECQ4A, RECQ4B und FIGL1), von denen bekannt ist, dass sie eine Rolle bei der Lösung rekombinanter Ereignisse während der Meiose I spielen. Insgesamt konnte so die Theorie über HMM in zweifacher Hinsicht erweitert werden: Erstens durch die Einführung von Bidirektionalität und zweitens durch die Überführung von HMMs in Clustering-Modelle. Die entwickelten Modelle wurden auf reale Daten angewendet, um aktuelle Fragen der Molekularbiologie zu untersuchen.

Item Type: Thesis (PhD thesis)
Translated abstract:
AbstractLanguage
There are many processes in the genome and epigenome level that still remain elusive. Recent developments in high-throughput in sequencing have increased the amount of data exponentially. In order to analyze and obtain meaningful information and find natural patterns or clusters within these data sets, many bioinformatics laboratories are developing new algorithms and pipelines to face these challenges. On the genome, genomic and epigenomic data points within the same loci are generally more similar than distant data. Nevertheless, regions with similar functions that are scattered through the genome will as well produce similar data points. In order to model this linear dependency in the locus and find similar clusters throughout the genomic position, Hidden Markov models (HMMs) have been widely used. In this thesis, we will introduce the theory of HMMs and the extended case of bidirectional HMMs (bdHMMs). In the genome context, many processes take place in a specific direction, e.g. DNA repair or DNA transcription. bdHMMs were developed to model processes that have some intrinsic directionality by defining conjugate, or twin, states. In addition, we show a method by which any HMM model can be transformed into a clustering model and vice versa. Thus, the learning algorithm for HMM can be used to learn and fit the parameters for a clustering method. Moreover, the same procedure can be used for bdHMM and what we have named as bidirectional clustering. In the second chapter, we have applied the bdHMM algorithm to study the tri-methylation status of histone three (H3) in three different lysines of its tail (H3K4me3, H3K36me3 and H3K79me3) together with their putative methyltransferase proteins (Set1, Set2 and Dot1 respectively) and new possible candidates that might use these modifications as a signaling mark to carry out their function (Asr1, Ioc4, Nto1, Pdp3, Rad9 and, Set4). Transcriptomics data was used to evaluate more closely the relationship of the marks and the gene expression in a metagene analysis. Finally, we have worked out a new class of HMMs in which an extra hidden layer is added to infer haplotypes in populations of recombinant parents using low coverage sequencing. This extra layer models the high variability in SNP detection and provides a probability of how good is the specific marker based on the information provided by all the samples being analyzed. We use this method to study the effect of three proteins (RECQ4A, RECQ4B, and FIGL1) with known roles in resolving recombinant events during meiosis I. Taken together, we have extended the theory of Hidden Markov models. First by introducing bidirectionality and second by a transformation of HMMs into clustering models. Using these new models in real data, we investigated actual questions that molecular biology is facing.English
Creators:
CreatorsEmailORCIDORCID Put Code
Campos Martin, Rafaelrfael0cm@gmail.comorcid.org/0000-0002-1395-8571UNSPECIFIED
URN: urn:nbn:de:hbz:38-372869
Date: 26 March 2021
Language: English
Faculty: Faculty of Mathematics and Natural Sciences
Divisions: CECAD - Cluster of Excellence Cellular Stress Responses in Aging-Associated Diseases
Subjects: Natural sciences and mathematics
Uncontrolled Keywords:
KeywordsLanguage
Hidden Markov ModelsEnglish
Genomic SegmentationEnglish
Genomic AnnotationEnglish
Date of oral exam: 4 April 2019
Referee:
NameAcademic Title
Tresch, AchimProf. Dr.
Beyer, AndreasProf. Dr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/37286

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item