Kawalia, Amit
(2015).
Addressing NGS Data Challenges: Efficient High Throughput Processing and Sequencing Error Detection.
PhD thesis, Universität zu Köln.
Abstract
Next generation sequencing (NGS) technologies have facilitated the identification of disease causing mutations, which has significantly improved patient’s diagnosis and treatment. Since its emergence, NGS has been used in many applications like genome sequencing, DNA resequencing, transcriptome sequencing and epigenomics, to unfold the various layers of genome biology. Because of this broad spectrum of applications and recent decrement in cost, usage of NGS has become a routine approach to address many research as well as medical questions. It is producing huge amounts of data, which necessitate highly efficient and accurate computational analysis as well as data management.
This thesis addresses some of the challenges of NGS data analysis, mainly for targeted DNA sequencing data. It describes the various steps required for data analysis including their significance and potential negative effects on consecutive downstream analysis and so on the final variant lists. In order to make the analysis more accurate and efficient, an extensive testing of different bioinformatics tools and algorithms was preformed and a fully automated data analysis workflow was developed. This workflow is implemented and optimized on high performance computing (HPC) systems. I describe different design principles and parallelization strategies that enable proper exploitation of HPC resources to achieve high throughput of data analysis. Besides correcting for known sequencing errors by using existing tools, this work is also aimed at the detection of a new class of systematic sequencing errors called recurrent systematic sequencing errors. I present an approach for the exploration of this class of errors and describe the probable causes and patterns behind them. This includes some known and novel patterns observed during this work. Furthermore, I provide a tool to filter the false variants due to these errors from any variant list. Overall, the work performed during this thesis has been already used (and will be used in future as well), to provide accurate and efficient data analysis, which enables exploration of the genetic background of various diseases.
Item Type: |
Thesis
(PhD thesis)
|
Translated abstract: |
Abstract | Language |
---|
Die Next-Generation-Sequencing-(NGS)-Technologien haben die Identifizierung krankheitsverursachender Mutationen erleichtert, wodurch die Diagnose und Behandlung von Patienten deutlich verbessert wurde. Seit seiner Einführung wird NGS in vielen Anwendungsbereichen, wie Genom-Sequenzierung, DNA-Resequenzierung, Transkriptom-Sequenzierung und Epigenomik, eingesetzt, um die verschiedenen Ebenen der Biologie des Genoms zu entschlüsseln. Aufgrund dieses breiten Anwendungsspektrums und der aktuellen Kostensenkung ist die Verwendung von NGS zu einem Routineverfahren zur Bearbeitung vieler forschungsbezogener und medizinischer Fragestellungen geworden. Dadurch werden große Datenmengen erzeugt, die hoch effiziente und exakte computergestützte Analysen sowie ein entsprechendes Datenmanagement notwendig machen.
Diese Dissertation widmet sich einigen der mit der NGS-Datenanalyse verbundenen Herausforderungen, vor allem in Bezug auf die gezielte DNA-Sequenzierung ausgewählter genomischer Bereiche („targeted sequencing“ genannt). Sie beschreibt die verschiedenen für die Datenanalyse erforderlichen Schritte, ihre Bedeutung und potentiellen negativen Effekte auf anschließende Folgeanalysen und damit auf die finalen Variantenlisten. Um die Analyse exakter und effizienter zu machen, wurden umfassende Tests verschiedener bioinformatischer Tools und Algorithmen durchgeführt und ein vollautomatischer Analyse-Workflow entwickelt. Dieser Workflow ist auf Hochleistungsrechensystemen (HPC Systemen) implementiert und für diese optimiert worden. Ich beschreibe verschiedene Entwurfsprinzipien und Parallelisierungsstrategien, um eine gute Nutzung der Ressourcen eines HPC-Systems und hohen Durchsatz in der Datenanalyse zu erreichen. Neben der Korrektur bekannter Sequenzierungsfehler durch vorhandene Tools, widmet sich diese Arbeit auch der Detektion einer neuen Klasse systematischer Sequenzierungsfehler, „wiederkehrende systematische Fehler“ genannt. Ich präsentiere ein neues Verfahren, um diese Fehlerklasse zu untersuchen und beschreibe die ihr wahrscheinlich zugrundeliegenden Ursachen und Muster. Dabei
beobachtete ich einige bekannte und neue Muster. Weiterhin stelle ich ein Tool zur Verfügung, um von diesen Fehlern verursachte falsche Varianten aus beliebigen Variantenlisten zu filtern. Die während dieser Doktorarbeit durchgeführten und hier präsentierten Arbeiten wurden bereits (und werden weiterhin) verwendet, um exakte und effiziente Datenanalyse durchzuführen, die die Erforschung des genetischen Hintergrundes verschiedenster Krankheiten ermöglicht. | German |
|
Creators: |
Creators | Email | ORCID | ORCID Put Code |
---|
Kawalia, Amit | akawalia@uni-koeln.de | UNSPECIFIED | UNSPECIFIED |
|
URN: |
urn:nbn:de:hbz:38-70283 |
Date: |
November 2015 |
Language: |
English |
Faculty: |
Faculty of Mathematics and Natural Sciences |
Divisions: |
Faculty of Mathematics and Natural Sciences > Department of Biology > Institute for Genetics |
Subjects: |
Life sciences |
Uncontrolled Keywords: |
Keywords | Language |
---|
Next Generation Sequencing, Exome Sequencing, DNA sequencing data analysis, Efficient High Throughput Processing , Sequencing Error Detection, Variant calling, Sequence alignment | English |
|
Date of oral exam: |
18 January 2016 |
Referee: |
Name | Academic Title |
---|
Nürnberg, Peter | Prof. Dr. | Nothnagel, Michael | Prof. Dr. |
|
Refereed: |
Yes |
URI: |
http://kups.ub.uni-koeln.de/id/eprint/7028 |
Downloads per month over past year
Export
Actions (login required)
|
View Item |