Universität zu Köln

Maximum entropy models in the analysis of genome-wide data in cancer research

Nguyen, Hai Chau (2015) Maximum entropy models in the analysis of genome-wide data in cancer research. PhD thesis, Universität zu Köln.

[img]
Preview
PDF - Published Version
Download (8Mb) | Preview

    Abstract

    This thesis studies the maximum entropy principle in statistical modelling. Applications are taken from the emerging field of cancer genomics. We start with a short introduction to the biology of cancer in chapter 1. In chapter 2, we discuss general principles of statistical modelling. We discuss in detail the maximum entropy principle in statistical modelling. In particular, we show that many statistical models can be put in a unified framework based on the principle of maximum entropy, which maps them into problems of statistical mechanics. In chapter 3, we consider a particular maximum entropy model, the Ising model, in the context of the inverse Ising problem. We introduce a Bethe–Peierls approximation to the inverse Ising problem. We then also suggest a modification for the mean-field approximation to work at low temperatures. The following chapters apply maximum entropy models to different problems of cancer genomics. A direct application of the inverse Ising problem to gene copy-number data of cancer cells is described in chapter 4. In chapter 5, we extend the concepts of indirect correlations and direct couplings of the inverse Ising problem to investigate the influence of gene copy-numbers on gene expressions in cancer cells. We show that the correlations in gene expression need not be due to regulatory interactions between genes. Instead, correlations in gene expression of cancer cells can be induced by the correlations in their copy-numbers, which is due to the geometrical organisation of the genome. We show that a simple maximum entropy-model can disentangle copy-number-induced correlations and the so-called “bare-correlations” in gene expression, which capture the effect of regulatory interactions alone. Chapter 6 is devoted to cancer classification. We introduce a simple semi-supervised learning algorithm to train a mixture of paramagnetic models with Ising spins to classify cancer mutation profiles. We show that, with the capability of both learning from unlabelled samples and correcting mislabelled samples, this learning algorithm outperforms both the supervised and unsupervised learning algorithms. The two appendices A and B summarise recent studies on sensitivity and resistance of cancer cells to therapy. The results of chapter 3 were published in H. C. Nguyen and J. Berg (2012a). “Bethe– Peierls approximation and the inverse Ising problem”. J. Stat. Mech. P03004; and H. C. Nguyen and J. Berg (2012b). “Mean-field theory for the inverse Ising problem at low temperatures”. Phys. Rev. Lett. 109, p. 50602. Some results of chapter 6 were published as a part of The Clinical Lung Cancer Genome Project (CLCGP) and Network Genomic Medicine (NGM) (2013). “A genomics-based classification of human lung tumors”. Science Transl. Med. 5.209, 209ra153.

    Item Type: Thesis (PhD thesis)
    Translated abstract:
    AbstractLanguage
    Diese Arbeit beschäftigt sich mit der Maximum-Entropie-Methode im Zusammenhang statistischer Modellierung. Anwendungsbeispiele sind dem aufkommenden Forschungsbereich der Krebsgenomik entnommen. Wir beginnen mit einer kurzen Einführung in die Biologie von Krebserkrankungen in Kapitel 1. In Kapitel 2 diskutieren wir die Grundlagen der statistischen Modellierung, wobei wir eingehend die Maximum-Entropie-Methode besprechen. Insbesondere zeigen wir, dass viele statistische Modelle in einen einheitlichen Rahmen, basierend auf der Maximum-Entropie-Methode, gebracht werden können, der diese auf Probleme der statistischen Mechanik abbildet. In Kapitel 3 befassen wir uns mit einem bestimmten Maximum-Entropie-Modell, dem Ising-Modell, im Kontext des inversen Ising-Problems. Wir führen eine Bethe–Peierls-Näherung für das inverse Ising-Problem ein. Des Weiteren schlagen wir eine modifizierte Version der Molekularfeld-Näherung vor, welche auch für niedrige Temperaturen funktioniert. Die folgenden Kapitel wenden Maximum-Entropie-Modelle auf verschiedene Probleme aus dem Bereich der Krebsgenomik an. Eine direkte Anwendung des inversen Ising-Problems auf Daten zur Anzahl von Genkopien in Krebszellen wird in Kapitel 4 beschrieben. In Kapitel 5 erweitern wir die Konzepte der indirekten Korrelationen und der direkten Kopplungen des inversen Ising-Problems um den Einfluss der Anzahl von Genkopien auf die Expression von Genen in Krebszellen zu untersuchen. Wir zeigen, dass die Korrelationen in der Genexpression nicht unbedingt durch regulatorische Wechselwirkung zwischen Genen hervorgerufen werden müssen. Stattdessen können die Korrelationen in der Genexpression durch die Korrelationen in der Anzahl von Genkopien hervorgerufen werden, was auf der geometrischen Organisation des Genoms beruht. Wir zeigen, dass ein einfaches Maximum-Entropie Modell die Korrelationen in der Anzahl von Genkopien von den sogenannten “blanken Korrelationen” in den Genaktivitäten, welche nur den Effekt der regulatorischen Wechselwirkungen beschreiben, trennen kann. Kapitel 6 ist der Klassifizierung von Krebs gewidmet. Wir führen einen einfachen semi-überwachten Lernalgorithmus ein um eine Mischung aus paramagnetischen Modellen mit Ising-Spins dahingehend zu trainieren, Krebsmutationsprofile zu klassifizieren. Wir zeigen, dass dieser Lernalgorithmus, mit der Möglichkeit sowohl von den nicht zugeordneten Proben zu lernen als auch eine falsche Zuordnung von Proben zu korrigieren, sowohl die überwachten als auch die unüberwachten Lernalgorithmen übertrifft. Die zwei Anhänge A und B fassen die jüngeren Studien über die Sensibilität und die Widerstandsfähigkeit von Krebszellen gegenüber Therapien zusammen. Die Ergebnisse von Kapitel 3 wurden in H. C. Nguyen and J. Berg (2012a). “Bethe– Peierls approximation and the inverse Ising problem”. J. Stat. Mech. P03004; and H. C. Nguyen and J. Berg (2012b). “Mean-field theory for the inverse Ising problem at low tem- peratures”. Phys. Rev. Lett. 109, p. 50602 publiziert. Einige der Resultate aus Kapitel 6 wurden als Teil von The Clinical Lung Cancer Genome Project (CLCGP) and Network Genomic Medicine (NGM) (2013). “A genomics-based classification of human lung tumors”. Science Transl. Med. 5.209, 209ra153 publiziert.UNSPECIFIED
    Creators:
    CreatorsEmail
    Nguyen, Hai Chauchaunguyen2808@gmail.com
    URN: urn:nbn:de:hbz:38-60289
    Subjects: Data processing Computer science
    Physics
    Uncontrolled Keywords:
    KeywordsLanguage
    maximum entropy; model; cancer;English
    Faculty: Mathematisch-Naturwissenschaftliche Fakultät
    Divisions: Mathematisch-Naturwissenschaftliche Fakultät > Institut für Theoretische Physik
    Language: English
    Date: 16 January 2015
    Date Type: Publication
    Date of oral exam: 16 January 2015
    Full Text Status: Public
    Date Deposited: 20 Apr 2015 11:36:26
    Referee
    NameAcademic Title
    Berg, JohannesProf. Dr.
    Krug, JoachimProf. Dr.
    Mirny, LeonidProf. Dr.
    URI: http://kups.ub.uni-koeln.de/id/eprint/6028

    Actions (login required)

    View Item