Universität zu Köln

Understanding complex traits by non-linear mixed models

Stephan, Johannes (2015) Understanding complex traits by non-linear mixed models. PhD thesis, Universität zu Köln.

[img]
Preview
PDF - Accepted Version
Available under License Creative Commons Attribution.

Download (1706Kb) | Preview

    Abstract

    Population structure and other nuisance factors represent a major challenge for the analysis of genomic data. Recent advances in statistical genetics have lead to a new generation of methods for quantitative trait mapping that also account for spurious correlation as caused by population structure. In particular, linear mixed models (LMMs) gained considerable attention as they enable easy black box-like control for population structure in a wide range of genetic designs and analysis settings. The aim of this work is to transfer the advantages of LMMs into a random bagging framework in order to simultaneously address a second pressing challenge: the recovery of complex non-linear genetic effects. Existing methods that allow for identifying such relationships like epistasis typically do not provide any robust and interpretable means to control for population structure and other confounding effects. The method we present here is based on random forests, a bagged variant of the well established decision trees. We show that the proposed method greatly improves over existing methods not only in identifying causal genetic markers but also in the prediction of held out phenotypic data.

    Item Type: Thesis (PhD thesis)
    Translated abstract:
    AbstractLanguage
    Populationsstrukturen sowie andere unerwünschte Faktoren erschweren häufig die Analyse genomischer Daten. Aufgrund von Fortschritten in der statistischen Genetik sind neuere Methoden in der Lage, unerwünschte Korrelationen, die z.B. durch Populationsstrukturen entstehen, zu korrigieren. Insbesondere haben lineare Mixed Models stark an Popularität gewonnen. Durch ihre anwenderfreundliche Kontrolle der Populationsstruktur sind sie für viele genetische Strukturen und in vielen Studiendesigns anwendbar. Ziel dieser Arbeit ist es, die Vorteile der linearen Mixed Models mit denen eines Random Bagging Verfahrens zu vereinen, um das Finden komplexer genetischer Effekte, zu erleichtern. Bestehende Methoden, die solche Signale wie Epistasis erkennen, sind bisher nicht in der Lage, Populationsstrukturen und andere Störfaktoren zu berücksichtigen. Die hier vorgestellte Methode ist eine Erweiterung des Random Forests, eines Random Bagging-Verfahrens welches auf Entscheidungsbäumen basiert. Wie auch bei linearen Mixed Models korrigiert es Störfaktoren durch einen Random Effect. Mit Hilfe von simulierten und realen Daten zeigen wir, dass diese neue Methode nicht nur mehr kausale genetische Marker gegenüber bestehenden Ansätzen findet, sondern auch die Vorhersage ungesehener Phenotypen verbessert.German
    Creators:
    CreatorsEmail
    Stephan, Johannesjoh.stephan@gmail.com
    URN: urn:nbn:de:hbz:38-63508
    Subjects: Data processing Computer science
    Life sciences
    Uncontrolled Keywords:
    KeywordsLanguage
    associattion mappingUNSPECIFIED
    random forestsUNSPECIFIED
    regressionUNSPECIFIED
    Faculty: Mathematisch-Naturwissenschaftliche Fakultät
    Divisions: Mathematisch-Naturwissenschaftliche Fakultät > Institut für Genetik
    Language: English
    Date: 2015
    Date Type: Publication
    Date of oral exam: 14 October 0008
    Full Text Status: Public
    Date Deposited: 01 Oct 2015 08:41:33
    Referee
    NameAcademic Title
    Beyer, AndreasProf. Dr.
    Tresch, AchimProf. Dr.
    Stegle, OliverDr.
    URI: http://kups.ub.uni-koeln.de/id/eprint/6350

    Actions (login required)

    View Item