Goel, Manish ORCID: 0000-0002-6087-6990 (2020). Finding genomic differences from whole-genome assemblies using SyRI. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
Thesis-v3_signed.pdf
Bereitstellung unter der CC-Lizenz: Creative Commons Attribution.

Download (2MB) | Preview

Abstract

Genomic differences can range from single nucleotide differences (SNPs) to large complex structural rearrangements. Current methods typically can annotate sequence differences like SNPs and large indels accurately but do not unravel the full complexity of structural rearrangements that include inversions, translocations, and duplications. Structural rearrangements involve changes in location, orientation, or copy-number between highly similar sequences and have been reported to be associated with several biological differences between organisms. However, they are still scantly studied with sequencing technologies as it is still challenging to identify them accurately. Here I present SyRI, a novel computational method for genome-wide identification of structural differences using the pairwise comparison of whole-genome chromosome-level assemblies. SyRI uses a unique approach where it first identifies all syntenic (structurally conserved) regions between two genomes. Since all non-syntenic regions are structural rearrangements by definition, this transforms the difficult problem of rearrangement identification to a comparatively easier problem of rearrangement classification. SyRI analyses the location, orientation, and copy-number of alignments between rearranged regions and selects alignments that best represent the putative rearrangements and result in the highest total alignment score between the genomes. Next, SyRI searches for sequence differences that are distinguished for residing in syntenic or rearranged regions. This distinction is important, as rearranged regions (and sequence differences within them) do not follow Mendelian Law of Segregation and are therefore inherited differently compared to syntenic regions. Using SyRI, I successfully identified rearrangements in human, A. thaliana, yeast, fruit fly, and maize genomes. Further, I also experimentally validated 92% (108/117) of the predicted translocations in A. thaliana using a genetic approach.

Item Type: Thesis (PhD thesis)
Translated abstract:
AbstractLanguage
Genomische Unterschiede können von Einzelnukleotidunterschieden (SNPs) bis zu großen komplexen strukturellen Variationen reichen. Gegenwärtige Verfahren können typischerweise Sequenzunterschiede wie SNPs und große Indels genau annotieren, aber nicht die volle Komplexität struktureller Umlagerungen aufdecken, die Inversionen, Translokationen und Duplikationen umfassen. Strukturelle Umlagerungen beinhalten Änderungen der Position, Orientierung oder Kopienzahl zwischen sehr ähnlichen Sequenzen und es wurde berichtet, dass sie mit mehreren biologischen Unterschieden zwischen Organismen verbunden sind. Sie werden jedoch immer noch kaum mit Sequenzierungstechnologien untersucht, da es immer noch schwierig ist, sie genau zu identifizieren. Hier präsentiere ich SyRI, eine neuartige Berechnungsmethode zur genomweiten Identifizierung von Strukturunterschieden unter Verwendung des paarweisen Vergleichs von Chromosomen-Level-Assemblies im gesamten Genom. SyRI verwendet einen einzigartigen Ansatz, bei dem zunächst alle syntenischen (strukturell konservierten) Regionen zwischen zwei Genomen identifiziert werden. Da alle nicht syntenischen Regionen per Definition strukturelle Umlagerungen sind, wandelt dies das schwierige Problem der Identifizierung von Umlagerungen in ein vergleichsweise einfacheres Problem der Klassifizierung von Umlagerungen um. SyRI analysiert die Position, Orientierung und Kopienzahl der Alignments zwischen neu angeordneten Regionen und wählt Alignments aus, die die mutmaßlichen Umlagerungen am besten darstellen und zu der höchsten Gesamtausrichtungsbewertung zwischen den Genomen führen. Als nächstes sucht SyRI nach Sequenzunterschieden, die für den Aufenthalt in syntenischen oder neu angeordneten Regionen unterschieden werden. Diese Unterscheidung ist wichtig, da neu angeordnete Regionen (und Sequenzunterschiede innerhalb dieser) nicht dem Mendelschen Segregationsgesetz folgen und daher anders vererbt werden als syntenische Regionen. Mit SyRI konnte ich erfolgreich Umlagerungen in Genomen von Menschen, A. thaliana, Hefen, Fruchtfliegen und Mais identifizieren. Außerdem habe ich 92% (108/117) der vorhergesagten Translokationen in A. thaliana unter Verwendung eines genetischen Ansatzes experimentell validiert.German
Creators:
CreatorsEmailORCIDORCID Put Code
Goel, Manishmnshgl0110@gmail.comorcid.org/0000-0002-6087-6990UNSPECIFIED
URN: urn:nbn:de:hbz:38-113691
Date: 6 June 2020
Language: English
Faculty: Faculty of Mathematics and Natural Sciences
Divisions: Außeruniversitäre Forschungseinrichtungen > MPI for Plant Breeding Research
Subjects: Data processing Computer science
Natural sciences and mathematics
Life sciences
Uncontrolled Keywords:
KeywordsLanguage
Genome comparison, structural rearrangements, structural variations, variant calling, genome alignments, genetics, genome assemblyUNSPECIFIED
Date of oral exam: 26 June 2020
Referee:
NameAcademic Title
Schneeberger, KorbinianProf. Dr.
Tresch, AchimProf. Dr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/11369

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item