Addressing NGS Data Challenges: Efficient High Throughput Processing and Sequencing Error Detection

Kawalia, Amit (2015). Addressing NGS Data Challenges: Efficient High Throughput Processing and Sequencing Error Detection. PhD thesis, Universität zu Köln. Open Access

Preview

PDF
Thesis_AmitKawalia.pdf
Download (23MB)

Abstract

Next generation sequencing (NGS) technologies have facilitated the identification of disease causing mutations, which has significantly improved patient’s diagnosis and treatment. Since its emergence, NGS has been used in many applications like genome sequencing, DNA resequencing, transcriptome sequencing and epigenomics, to unfold the various layers of genome biology. Because of this broad spectrum of applications and recent decrement in cost, usage of NGS has become a routine approach to address many research as well as medical questions. It is producing huge amounts of data, which necessitate highly efficient and accurate computational analysis as well as data management. This thesis addresses some of the challenges of NGS data analysis, mainly for targeted DNA sequencing data. It describes the various steps required for data analysis including their significance and potential negative effects on consecutive downstream analysis and so on the final variant lists. In order to make the analysis more accurate and efficient, an extensive testing of different bioinformatics tools and algorithms was preformed and a fully automated data analysis workflow was developed. This workflow is implemented and optimized on high performance computing (HPC) systems. I describe different design principles and parallelization strategies that enable proper exploitation of HPC resources to achieve high throughput of data analysis. Besides correcting for known sequencing errors by using existing tools, this work is also aimed at the detection of a new class of systematic sequencing errors called recurrent systematic sequencing errors. I present an approach for the exploration of this class of errors and describe the probable causes and patterns behind them. This includes some known and novel patterns observed during this work. Furthermore, I provide a tool to filter the false variants due to these errors from any variant list. Overall, the work performed during this thesis has been already used (and will be used in future as well), to provide accurate and efficient data analysis, which enables exploration of the genetic background of various diseases.

Item Type:

Thesis (PhD thesis)

Translated abstract:

Abstract

Language

Die Next-Generation-Sequencing-(NGS)-Technologien haben die Identifizierung krankheitsverursachender Mutationen erleichtert, wodurch die Diagnose und Behandlung von Patienten deutlich verbessert wurde. Seit seiner Einführung wird NGS in vielen Anwendungsbereichen, wie Genom-Sequenzierung, DNA-Resequenzierung, Transkriptom-Sequenzierung und Epigenomik, eingesetzt, um die verschiedenen Ebenen der Biologie des Genoms zu entschlüsseln. Aufgrund dieses breiten Anwendungsspektrums und der aktuellen Kostensenkung ist die Verwendung von NGS zu einem Routineverfahren zur Bearbeitung vieler forschungsbezogener und medizinischer Fragestellungen geworden. Dadurch werden große Datenmengen erzeugt, die hoch effiziente und exakte computergestützte Analysen sowie ein entsprechendes Datenmanagement notwendig machen. Diese Dissertation widmet sich einigen der mit der NGS-Datenanalyse verbundenen Herausforderungen, vor allem in Bezug auf die gezielte DNA-Sequenzierung ausgewählter genomischer Bereiche („targeted sequencing“ genannt). Sie beschreibt die verschiedenen für die Datenanalyse erforderlichen Schritte, ihre Bedeutung und potentiellen negativen Effekte auf anschließende Folgeanalysen und damit auf die finalen Variantenlisten. Um die Analyse exakter und effizienter zu machen, wurden umfassende Tests verschiedener bioinformatischer Tools und Algorithmen durchgeführt und ein vollautomatischer Analyse-Workflow entwickelt. Dieser Workflow ist auf Hochleistungsrechensystemen (HPC Systemen) implementiert und für diese optimiert worden. Ich beschreibe verschiedene Entwurfsprinzipien und Parallelisierungsstrategien, um eine gute Nutzung der Ressourcen eines HPC-Systems und hohen Durchsatz in der Datenanalyse zu erreichen. Neben der Korrektur bekannter Sequenzierungsfehler durch vorhandene Tools, widmet sich diese Arbeit auch der Detektion einer neuen Klasse systematischer Sequenzierungsfehler, „wiederkehrende systematische Fehler“ genannt. Ich präsentiere ein neues Verfahren, um diese Fehlerklasse zu untersuchen und beschreibe die ihr wahrscheinlich zugrundeliegenden Ursachen und Muster. Dabei beobachtete ich einige bekannte und neue Muster. Weiterhin stelle ich ein Tool zur Verfügung, um von diesen Fehlern verursachte falsche Varianten aus beliebigen Variantenlisten zu filtern. Die während dieser Doktorarbeit durchgeführten und hier präsentierten Arbeiten wurden bereits (und werden weiterhin) verwendet, um exakte und effiziente Datenanalyse durchzuführen, die die Erforschung des genetischen Hintergrundes verschiedenster Krankheiten ermöglicht.

German

Creators:

Creators	Email	ORCID	ORCID Put Code
Kawalia, Amit	akawalia@uni-koeln.de	UNSPECIFIED	UNSPECIFIED

URN:

urn:nbn:de:hbz:38-70283

Date:

November 2015

Language:

English

Faculty:

Faculty of Mathematics and Natural Sciences

Divisions:

Faculty of Mathematics and Natural Sciences > Department of Biology > Institute for Genetics

Subjects:

Life sciences

Uncontrolled Keywords:

Keywords	Language
Next Generation Sequencing, Exome Sequencing, DNA sequencing data analysis, Efficient High Throughput Processing , Sequencing Error Detection, Variant calling, Sequence alignment	English

Date of oral exam:

18 January 2016

Referee:

Name	Academic Title
Nürnberg, Peter	Prof. Dr.
Nothnagel, Michael	Prof. Dr.

Refereed:

Yes

URI:

http://kups.ub.uni-koeln.de/id/eprint/7028

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item