Efficient comprehensive scoring of docked proteincomplexes - a machine learning approach

Martin, Oliver Sven (2006). Efficient comprehensive scoring of docked proteincomplexes - a machine learning approach. PhD thesis, Universität zu Köln. Open Access

[thumbnail of PhDThesis_OliverMartin.pdf]

Preview

PDF
PhDThesis_OliverMartin.pdf
Download (4MB)

Abstract

Biological systems and processes rely on a complex network of molecular interactions. The association of biological macromolecules is a fundamental biochemical phenomenon and an unsolved theoretical problem crucial for the understanding of complex living systems. The term protein-protein docking describes the computational prediction of the assembly of protein complexes from the individual subunits. Docking algorithms generally produce a large number of putative protein complexes. In most cases, some of these conformations resemble the native complex structure within an acceptable degree of structural similarity. A major challenge in the field of docking is to extract the near-native structure(s) out of this considerably large pool of solutions, the so called scoring or ranking problem. It has been the aim of this work to develop methods for the efficient and accurate detection of near-native conformations in the scoring or ranking process of docked protein-protein complexes. A series of structural, chemical, biological and physical properties are used in this work to score docked protein-protein complexes. These properties include specialised energy functions, evolutionary relationship, class specific residue interface propensities, gap volume, buried surface area, empiric pair potentials on residue and atom level as well as measures for the tightness of fit. Efficient comprehensive scoring functions have been developed using probabilistic Support Vector Machines in combination with this array of properties on the largest currently available protein-protein docking benchmark. The established scoring functions are shown to be specific for certain types of protein-protein complexes and are able to detect near-native complex conformations from large sets of decoys with high sensitivity. The specific complex classes are Enzyme-Inhibitor/Substrate complexes, Antibody-Antigen complexes and a third class denoted as "Other" complexes which holds all test cases not belonging to either of the two previous classes. The three complex class specific scoring functions were tested on the docking results of 99 complexes in their unbound form for the above mentioned categories. Defining success as scoring a 'true' result with a p-value of better than 0.1, the scoring schemes were found to be successful in 93%, 78% and 63% of the examined cases, respectively. The ranking of near-native structures can be drastically improved, leading to a significant enrichment of near-native complex conformations in the top ranks. It could be shown that the developed scoring schemes outperform five other previously published scoring functions.

Item Type:	Thesis (PhD thesis)
Translated title:	Title Language Effiziente Filterfunktionen zur umfassenden Bewertung von Dockinglösungen - ein Ansatz basierend auf maschinellen Lernverfahren German
Translated abstract:	Abstract Language Biologische Systeme beruhen auf komplexen Netzwerken molekularer Interaktionen. Die Interaktion biologischer Makromoleküle stellt ein fundamentales biochemisches Phänomen dar, sowie ein ungelöstes theoretisches Problem von herausragender Bedeutung für das Verständnis komplexer lebender Systeme. Als Protein-Protein Docking wird die computergestütze Vorhersage der Assoziation von Proteinkomplexen aus den individuellen Untereinheiten bezeichnet. Dockingalgorithmen produzieren im Allgemeinen eine sehr hohe Anzahl hypothetischer Komplexanordnungen, von denen meist nur einige wenige der korrekten, nativen Lösung ähnlich sind. Eine der grossen Herausforderungen im Bereich des Dockings besteht im Herausfiltern der wenigen nahe-nativen Strukturen aus der grossen Menge von Lösungsvorschlägen. Dieses wird auch als Scoring- oder Rankingproblem bezeichnet. Ziel dieser Arbeit war es, Methoden zur effizienten und akkuraten Detektion von nahe-nativen Lösungen während der Bewertungsphase von gedockten Proteinkomplexen zu entwickeln. Eine Reihe von strukturellen, chemischen, biologischen und physikalischen Parametern wurde verwendet, um Komplexanordungen, wie sie als Lösungsvorschläge eines Dockingalgorithmus enstehen, zu bewerten. Diese Bewertungsschemata beinhalten spezialisierte Energiefunktionen molekularer Fragmente, evolutionäre Verwandtschaft, komplexklassenspezifische Wahrscheinlichkeitsverteilungen von Residuen, Lückenvolumen, die Grösse der verborgenen Oberfläche, empirische Paarpotentiale auf atomarer und Aminosäurebene sowie ein Mass für die Festigkeit der Bindung. Unter Verwendung des derzeit grössten Datensatzes von Protein-Protein Docking Testfällen wurden Verfahren des überwachten maschinellen Lernens in Form von probabilistischen Support Vector Machines trainiert, um umfassende effiziente Bewertungsfunktionen für drei spezfische Klassen von Proteinkomplexen zu erstellen. Bei diesen Dockingklassen handelt es sich um Enzym-Inhibitor bzw. Enzym-Substrat und Antikörper-Antigen Komplexe sowie eine dritte Klasse, der alle weiteren Testfälle zugeordnet werden, die keiner der beiden bisherigen Kategorien angehören. Die entwickelten Bewertungsfunktionen sind hochspezifisch für die einzelnen Kategorien von Proteinkomplexen und in der Lage, nahe-native Lösungen mit hoher Sensitivität aus einer grossen Anzahl potentieller Komplexanordnungen heraus zu erkennen. Eine Sortierung der Lösungsvorschläge durch Anwendung der Bewertungsfunktionen führt zu einer signifikanten Anreicherung von nahe-nativen Komplexen in den oberen Rängen. Die drei entwickelten spezifischen Bewertungsfunktionen wurden an Dockingergebnissen für 99 Testfälle erprobt, bei denen versucht wird, native Komplexe aus den ungebunden Strukturen der einzelnen Untereinheiten vorherzusagen. Definiert man ein "korrektes" Ergebnis über einen Wahrscheinlichkeitswert (p-value) von 0,1 oder besser, so sind die entwickelten Bewertungsfunktionen in 93%, 78% und 63% der untersuchten Fälle erfolgreich. Ein Vergleich mit fünf publizierten Bewertungsfunktionen für Protein-Protein Docking zeigt, dass die komplexklassenspezifischen Bewertungsfunktionen den jeweils einzelnen Methoden in der Anwendung überlegen sind. German
Creators:	Creators Email ORCID ORCID Put Code Martin, Oliver Sven oliver.martin@uni-koeln.de UNSPECIFIED UNSPECIFIED
URN:	urn:nbn:de:hbz:38-18024
Date:	2006
Language:	English
Faculty:	Faculty of Mathematics and Natural Sciences
Divisions:	Faculty of Mathematics and Natural Sciences > Department of Chemistry > Institute of Biochemistry
Subjects:	Chemistry and allied sciences
Uncontrolled Keywords:	Keywords Language Proteinkomplex, Interaktion, Docking, Filterfunktion, Support Vector Machines German Protein-protein interaction, docking, scoring function, Support Vector Machines, interface English
Date of oral exam:	11 June 2006
Referee:	Name Academic Title Schomburg, Dietmar Prof. Dr.
Refereed:	Yes
URI:	http://kups.ub.uni-koeln.de/id/eprint/1802

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item