Stephan, Johannes (2015). Understanding complex traits by non-linear mixed models. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
master.pdf - Accepted Version
Bereitstellung unter der CC-Lizenz: Creative Commons Attribution.

Download (1MB)

Abstract

Population structure and other nuisance factors represent a major challenge for the analysis of genomic data. Recent advances in statistical genetics have lead to a new generation of methods for quantitative trait mapping that also account for spurious correlation as caused by population structure. In particular, linear mixed models (LMMs) gained considerable attention as they enable easy black box-like control for population structure in a wide range of genetic designs and analysis settings. The aim of this work is to transfer the advantages of LMMs into a random bagging framework in order to simultaneously address a second pressing challenge: the recovery of complex non-linear genetic effects. Existing methods that allow for identifying such relationships like epistasis typically do not provide any robust and interpretable means to control for population structure and other confounding effects. The method we present here is based on random forests, a bagged variant of the well established decision trees. We show that the proposed method greatly improves over existing methods not only in identifying causal genetic markers but also in the prediction of held out phenotypic data.

Item Type: Thesis (PhD thesis)
Translated abstract:
AbstractLanguage
Populationsstrukturen sowie andere unerwünschte Faktoren erschweren häufig die Analyse genomischer Daten. Aufgrund von Fortschritten in der statistischen Genetik sind neuere Methoden in der Lage, unerwünschte Korrelationen, die z.B. durch Populationsstrukturen entstehen, zu korrigieren. Insbesondere haben lineare Mixed Models stark an Popularität gewonnen. Durch ihre anwenderfreundliche Kontrolle der Populationsstruktur sind sie für viele genetische Strukturen und in vielen Studiendesigns anwendbar. Ziel dieser Arbeit ist es, die Vorteile der linearen Mixed Models mit denen eines Random Bagging Verfahrens zu vereinen, um das Finden komplexer genetischer Effekte, zu erleichtern. Bestehende Methoden, die solche Signale wie Epistasis erkennen, sind bisher nicht in der Lage, Populationsstrukturen und andere Störfaktoren zu berücksichtigen. Die hier vorgestellte Methode ist eine Erweiterung des Random Forests, eines Random Bagging-Verfahrens welches auf Entscheidungsbäumen basiert. Wie auch bei linearen Mixed Models korrigiert es Störfaktoren durch einen Random Effect. Mit Hilfe von simulierten und realen Daten zeigen wir, dass diese neue Methode nicht nur mehr kausale genetische Marker gegenüber bestehenden Ansätzen findet, sondern auch die Vorhersage ungesehener Phenotypen verbessert.German
Creators:
CreatorsEmailORCIDORCID Put Code
Stephan, Johannesjoh.stephan@gmail.comUNSPECIFIEDUNSPECIFIED
URN: urn:nbn:de:hbz:38-63508
Date: 2015
Language: English
Faculty: Faculty of Mathematics and Natural Sciences
Divisions: Faculty of Mathematics and Natural Sciences > Department of Biology > Institute for Genetics
Subjects: Data processing Computer science
Life sciences
Uncontrolled Keywords:
KeywordsLanguage
associattion mappingUNSPECIFIED
random forestsUNSPECIFIED
regressionUNSPECIFIED
Date of oral exam: 14 October 0008
Referee:
NameAcademic Title
Beyer, AndreasProf. Dr.
Tresch, AchimProf. Dr.
Stegle, OliverDr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/6350

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item