Protein Structure Prediction: Knowledge-based Approaches for Loop Prediction and Model Quality Assessment

Benkert, Pascal (2007). Protein Structure Prediction: Knowledge-based Approaches for Loop Prediction and Model Quality Assessment. PhD thesis, Universität zu Köln. Open Access

Preview

PDF
Dissertation_Pascal_Benkert_2007_wo_CV.pdf
Download (6MB)

Abstract

Knowledge of the three-dimensional structure of proteins is of vital importance for understanding their function and for the rational development of new drugs. Homology modelling is currently the most successful method for the prediction of the structure of a protein from its sequence. A structural model is thereby built by incorporating information from experimentally solved proteins showing an evolutionary relationship to the target protein. The accurate prediction of loop regions which frequently contribute to the functional specificity of proteins as well as the assessment of the quality of the models are major determinants of the applicability of the generated models in order to answer biological questions. The modelling pipeline established in the course of this work is able to produce very accurate models as shown in a recent community-wide blind test experiment: From 18 processed protein structure prediction test cases, 3 very good models have been submitted (rank 2, 4 and 6 of over 130 participating groups) and the vast majority of the remaining models was above the community average. The loop modelling routine relies on a comprehensive database of fragments extracted from known protein structures. After the selection of fragments from the database, a variety of filters are applied in order to reduce the number of fragments. In contrast to other knowledge-based loop prediction methods described in the literature, which mostly perform a ranking based on the geometrical fit of the fragments to the anchor groups in the protein, the present method ranks the remaining candidates with an all-atom statistical potential scoring function which investigates the compatibility of the loop including side chains with its structural environment. On a large test set of over 200 loops, the loop prediction method is able to model loops with median root mean square deviation per loop length below 1 angstrom for loops up to a length of 7 residues if all fragments, originating from proteins sharing more than 50% sequence identity to the proteins of the test set, are excluded. On the same data basis, the present method outperforms 3 out of 4 commercial loop modelling programs tested in this work. Furthermore, a composite scoring function consisting of 3 statistical potential terms covering the major aspects of protein stability and two additional terms describing the agreement between prediction features of the sequence and calculated characteristics of the model is presented. The scoring function performs significantly better than five well-established methods in the discrimination of good from bad models based on a comprehensive test set of 22,420 models and represents a valuable tool for the assessment of the quality of protein models.

Item Type:

Thesis (PhD thesis)

Translated abstract:

Abstract

Language

Das Wissen über die dreidimensionale Struktur von Proteinen ist von entscheidender Bedeutung für das Verständnis der biologischer Funktion und ist eine wichtige Voraussetzung für die moderne Arzneimittelforschung. Die Vorhersage der Struktur eines Proteins aus deren Sequenz mit Hilfe von computergestützten Methoden wird deutlich erleichtert, wenn Informationen von experimentell gelösten Proteinen benutzt werden können, welche eine evolutionäre Verwandtschaft zum gesuchten Protein aufweisen (Homologiemodellierung). Dabei spielen die präzise Strukturvorhersage von Loopregionen, welche häufig die funktionelle Spezifität von Proteinen ausmachen, sowie die Fähigkeit, die Qualität der erzeugten Modelle zu bewerten, eine wichtige Rolle für die spätere Verwendbarkeit der Modelle zur Beantwortung biologischer Fragestellungen. Die im Laufe dieser Arbeit entwickelte Modellierungsumgebung wurde kürzlich an einem internationalen Blindversuch zur Proteinstrukturvorhersage getestet und es hat sich gezeigt, dass sehr genaue Vorhersagen erreicht werden können: Von den 18 untersuchten Vorhersagetestfällen wurden 3 sehr gute Modelle eingereicht (Platz 2, 4 und 6 von über 130 teilnehmenden Arbeitsgruppen) und die überwiegende Mehrzahl der restlichen Modelle waren besser als der Durchschnitt. Die intergrierte Loopmodellierungsroutine basiert auf einer umfangreichen Datenbank von Proteinfragmenten extrahiert aus experimentell gelösten Strukturen. Im Vorhersageprozess werden mehrere Qualitätsfilter verwendet, um die Anzahl der Fragmente zu reduzieren. Im Gegensatz zu anderen beschriebenen wissensbasierten Ansätzen, in welchen das Scoring meist über die Passgenauigkeit der Fragmente zu den Ankergruppen im Protein durchgeführt wird, verwendet die hier vorgestellten Methode eine Scoringfunktion basierend auf statistische Potentialen, welche die Kompatibilität der Loops inklusive Seitenketten mit der strukturellen Umgebung bewertet. Die Methode wurde auf einem Datensatz von über 200 Loops getestet. Der Median des RMSD (Wurzel der mittleren quadratischen Abweichung) pro Looplänge liegt dabei unter 1 Angström für Loops bis 7 Residuen. Dabei wurden Fragmente aus Proteinen extrahiert, die weniger als 50% Sequenzidentität zu den Proteinen im Testdatensatz haben. Mit dem gleichen Datensatz liefert dabei die vorliegende Methode genauere Loopstrukturvorhersagen als 3 von 4 untersuchten kommerziellen Loopvorhersage-Programmen. Zusätzlich wurde eine zusammengesetzte Scoringfunktion entwickelt, bestehend aus fünf Termen: Drei statistischen Potentiale erfassen verschiedene Faktoren der Proteinstabilität und zwei zusätzlich Terme beschreiben die Übereinstimmung zwischen aus der Sequenz vorhergesagten Eigenschaften und gemessenen Eigenschaften des Proteinmodells. Eine statistisch signifikante Verbesserung gegenüber fünf etablierten Energiefunktionen bezüglich der Fähigkeit, zwischen guten und schlechten Modellen zu unterscheiden, wird erreicht, basierend auf einem umfangreichen Testdatensatz von 22'420 Modellen und einer Vielzahl von Qualitätsmassen. Die hier vorgestellte Scoringfunktion stellt ein wertvolles Hilfsmittel zur Bewertung der Modellqualität dar.

German

Creators:

Creators	Email	ORCID	ORCID Put Code
Benkert, Pascal	p_benkert@yahoo.com	UNSPECIFIED	UNSPECIFIED

URN:

urn:nbn:de:hbz:38-22126

Date:

2007

Language:

English

Faculty:

Faculty of Mathematics and Natural Sciences

Divisions:

Faculty of Mathematics and Natural Sciences > Department of Chemistry > Institute of Biochemistry

Subjects:

Life sciences

Uncontrolled Keywords:

Keywords	Language
protein structure prediction, model quality assessment, loop prediction, homology modelling	English

Date of oral exam:

29 November 2007

Referee:

Name	Academic Title
Schomburg, Dietmar	Prof. Dr.

Refereed:

Yes

URI:

http://kups.ub.uni-koeln.de/id/eprint/2212

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item