Erweiterte Identifizierung, automatische Generierung und Analyse von konservierten Sequenzmustern und vergleichende Analyse enzymatischer Reaktionen unter Verwendung von homologen Enzymdomänen

Welfle, Adrian (2008). Erweiterte Identifizierung, automatische Generierung und Analyse von konservierten Sequenzmustern und vergleichende Analyse enzymatischer Reaktionen unter Verwendung von homologen Enzymdomänen. PhD thesis, Universität zu Köln. Open Access

Preview

PDF
DissertationAdrianWelfle.pdf
Download (4MB)

Abstract

Enzyme sind Biomoleküle, die chemische Reaktionen in lebenden Organismen katalysieren. Nahezu alle Reaktionen in einer lebenden Zelle benötigen Enzyme, damit chemische Reaktionen in angemessener Zeit ablaufen. Annähernd alle Enzyme sind Proteine. Obwohl Enzyme in der Lage sind, unterschiedliche Reaktionen zu katalysieren, können sie gleiche Domänen enthalten, die sich während der Evolution konserviert haben. Domänen sind die strukturellen, funktionellen und evolutionären Einheiten von Proteinen. The International Union of Biochemistry and Molecular Biology teilt Enzyme in sechs Klassen ein. Die Einteilung wird anhand der katalysierten Reaktion vorgenommen, nicht anhand gleicher Domänen oder Sequenzen. Da die Anzahl sequenzierter Proteine aufgrund von innovativen Sequenzierungstechnologien schnell wächst, ist die korrekte Annotation von Enzymen anhand reiner Sequenzinformation ein zentrales Problem in der Bioinformatik. In dieser Arbeit wurde die Clusteranalyse als etablierte und häufig genutzte Methode in der Bioinformatik dazu genutzt, Sequenzen anhand ihrer Sequenzähnlichkeit zu bedeutsamen Clustern zu gruppieren. Das Ergebnis dieser Analyse und die Erstellung von Sequenzmustern sollen helfen, die Frage zu beantworten, inwiefern es möglich ist, von Sequenzähnlichkeit auf gleiche Funktion zu schließen. Zunächst wurden alle derzeit verfügbaren Enzymsequenzen, die mindestens eine vollständige EC-Nummer tragen, gesammelt. Das Ergebnis von all-vs-all Alignments wurde dazu genutzt, die Domänenstruktur der analysierten Enzyme zu bestimmen. Abhängig vom E-Wert dieser Alignments, wurden Cluster aus homologen Domänen gebildet. Aus bestimmten Clustern wurden Sequenzen entnommen, um daraus Sequenzmuster zu erstellen. Die Qualität dieser Muster wurde durch Suche nach Richtig-Positiven und Falsch-Positiven Treffern getestet. Ein Treffer wird als Richtig-Positiv definiert, wenn der Treffer die gleiche EC-Nummer enthält, wie das Muster. Die erstellten Muster wurden mit Mustern der PROSITE-Datenbank verglichen. Zusätzlich wurde ein Algorithmus, der die größte gemeinsame Teilstruktur bestimmt, dazu genutzt, um Moleküle, die bei geclusterten Enzymen bei der Katalyse beteiligt sind, miteinander zu vergleichen. Reaktionsmatrizen wurden auf diese Weise erstellt. Schließlich wurde das Ergebnis der Clusteranalyse, die aufgrund Sequenzähnlichkeit basiert, mit dem Ergebnis der Clusteranalyse verglichen, die aufgrund identischer Reaktionsmatrizen basiert. 118947 Sequenzmuster wurden erstellt und deren Qualitäten bestimmt. Der größte Teil der Muster wurde aus bis zu zehn Sequenzen bei hohen E-Werten erstellt. Beispiele zeigten, dass Aminosäuren, die für die katalytische Aktivität oder für die Gewährleistung der korrekten 3D Konformation verantwortlich sind, hochkonserviert sind. Der Vergleich der Moleküle, die bei geclusterten Enzymen beteiligt sind, zeigte, dass die meisten Enzyme identische oder sehr ähnliche Moleküle nutzen. Abhängig vom E-Wert, nimmt die Anzahl von identischen Molekülen bei verglichenen Reaktionen mit ansteigendem E-Wert ab. Zusätzlich konnte bei dem Vergleich des Ergebnisses der Clusteranalyse, die auf Sequenzähnlichkeit basiert, mit dem Ergebnis der Clusteranalyse, die auf gleichen Reaktionsmatrizen basiert, gezeigt werden, dass die Anzahl der Enzyme, die in beiden Clusteranalysen gruppiert wurden, mit steigendem E-Wert abnimmt.

Item Type:

Thesis (PhD thesis)

Translated abstract:

Abstract

Language

Enzymes are biomolecules that catalyze chemical reactions in living organisms. Almost all processes in a biological cell need enzymes in order to occur at significant rates and almost all enzymes are proteins. Although enzymes are able to catalyze different reactions, they may contain similar modular domains conserved throughout evolution. Domains are the structural, functional and evolutionary units of proteins. The International Union of Biochemistry and Molecular Biology (IUBMB) classifies enzymes into six groups. The classification of enzymes is based on their catalyzed reactions and not on similar domains or sequences. As the number of protein sequences in public databases grows rapidly with the progress of experimental technologies in molecular biology, the need for accurate protein annotation from amino acid sequences only is a central problem in computational biology. In this work, the cluster analysis as a widely used method in computational biology was used to group sequences into meaningful clusters according to their sequence similarities. The result of this analysis and the construction of sequence patterns should help in the understanding of the relationship between sequence similarity and similar function. First, all sequences of currently available sequences that contain at least one complete EC-Number were collected. The result of all-vs-all BLAST alignments was used, to assign the domain structure of the analyzed sequences. Depending on the E-value of these alignments, domains that share sequence similarity were classified into groups of homologous proteins. From certain clusters, sequences were taken to construct sequence patterns. The quality of these patterns was tested by searching for True-Positive or False-Positive hits. A hit was defined as True-Positive, if the hit contains the same EC-Number as the pattern. The resulting patterns were also compared to patterns derived from the PROSITE database. Additionally, an algorithm, which determines maximal common substructures of molecules, was used to compare molecules, which were involved during catalytic reactions by the compared enzymes. Finally, the result of the cluster analysis based on sequence similarity was compared with the result of a cluster analysis based on enzymes, which were grouped because of identical reaction matrices. 118947 sequence patterns were constructed and their fitness was tested. Most of these patterns were constructed from up to ten sequences at high E-values. Examples showed, that generally amino acids, which are responsible for the catalytic activity of enzymes or those which are important in assuring a right 3D conformation, are highly conserved. The comparison of molecules, which are involved during catalysis of clustered enzymes showed, that most enzymes use identical or very similar molecules. Depending on the E-value, the occurrence of identical molecules being used during catalysis decreases with ascending E-value. Additionally, the cluster comparison based on sequence similarity with other clusters based on identical reaction matrices, showed, that the number of sequences, which were grouped by both methods, decrease with ascending E-value.

English

Creators: