Kuhn, Thomas (2009). Open Source Workflow Engine for Cheminformatics: From Data Curation to Data Analysis. PhD thesis, Universität zu Köln.


The recent release of large open access chemistry databases into the public domain generates a demand for flexible tools to process them so as to discover new knowledge. To support Open Drug Discovery and Open Notebook Science on top of these data resources, is it desirable for the processing tools to be Open Source and available to everyone. The aim of this project was the development of an Open Source workflow engine to solve crucial cheminformatics problems. As a consequence, the CDK-Taverna project developed in the course of this thesis builds a cheminformatics workflow solution through the combination of different Open Source projects such as Taverna (workflow engine), the Chemistry Development Kit (CDK, cheminformatics library) and Pgchem::Tigress (chemistry database cartridge). The work on this project includes the implementation of over 160 different workers, which focus on cheminformatics tasks. The application of the developed methods to real world problems was the final objective of the project. The validation of Open Source software libraries and of chemical data derived from different databases is mandatory to all cheminformatics workflows. Methods to detect the atom types of chemical structures were used to validate the atom typing of the Chemistry Development Kit and to identify curation problems while processing different public databases, including the EBI drug databases ChEBI and ChEMBL as well as the natural products Chapman & Hall Chemical Database. The CDK atom typing shows a lack on atom types of heavier atoms but fits the need of databases containing organic substances including natural products. To support combinatorial chemistry an implementation of a reaction enumeration workflow was realized. It is based on generic reactions with lists of reactants and allows the generation of chemical libraries up to O(1000) molecules. Supervised machine learning techniques (perceptron-type artificial neural networks and support vector machines) were used as a proof of concept for quantitative modelling of adhesive polymer kinetics with the Mathematica GNWI.CIP package. This opens the perspective of an integration of high-level "experimental mathematics" into the CDK-Taverna based scientific pipelining. A chemical diversity analysis based on two different public and one proprietary databases including over 200,000 molecules was a large-scale application of the methods developed. For the chemical diversity analysis different molecular properties are calculated using the Chemistry Development Kit. The analysis of these properties was performed with Adaptive-Resonance-Theory (ART 2-A algorithm) for an automatic unsupervised classification of open categorical problems. The result shows a similar coverage of the chemical space of the two databases containing natural products (one public, one proprietary) whereas the ChEBI database covers a distinctly different chemical space. As a consequence these comparisons reveal interesting white-spots in the proprietary database. The combination of these results with pharmacological annotations of the molecules leads to further research and modelling activities.

Item Type: Thesis (PhD thesis)
Translated title:
Open-Source Workflow Engine für die Chemoinformatik: Von der Datenkurierung zur DatenanalyseGerman
Translated abstract:
In jüngerer Zeit führt die Veröffentlichung von lizenzfreien Open-Access Chemiedatenbanken zu einer erhöhten Nachfrage für flexible Tools zur Verarbeitung der Daten und zur Gewinnung neuen Wissens. Zur Unterstützung der Open Drug Discovery und der Open Notebook Science ist es erstrebenswert, dass zusätzlich zu den Daten, auch die Anwendungen zur Bearbeitung der Daten, Open-Source und somit für jedermann verfügbar sind. Ziel dieser Arbeit war die Entwicklung einer Open-Source Workflow Lösung zur Bearbeitung von Chemoinformatik-Problemen. Das CDK-Taverna-Projekt erstellt eine Chemoinformatik-Workflow-Lösung durch die Kombination verschiedener Open-Source-Projekte wie z.B. Taverna (Workflowumgebung), das Chemistry Development Kit (CDK, Chemoinformatik-Bibliothek) oder Pgchem::Tigress (chemische Datenbankerweiterung). Während der Arbeit an diesem Projekt wurden mehr als 160 verschiedene Prozessoren zur Bearbeitung von Chemoinformtik-Problemen implementiert. Neben der Implementierung von verschiedenen Prozessoren stand die Anwendung der entwickelten Methoden auf reale Probleme im Zentrum dieser Arbeit. Die Validierung von Softwarebibliotheken sowie von Daten verschiedener Datenbanken ist obligatorisch für jede Chemoinformatik-Workflow-Lösung. Die Validierung der Methoden zur Identifizierung von Atomtypen des Chemistry Development Kits erfolgte während der Verarbeitung von Datensätzen verschiedener Datenbanken zur Erkennung von Kurierungsproblemen. Folgende Datenbanken wurden eingesetzt: die pharmakologischen EBI Datenbanken ChEBI und ChEMBL und die Naturstoff Chapman & Hall Chemical Datenbank. Die Validierung zeigte, dass es dem CDK an Atomtypen schwerer Atome mangelt, sich jedoch sehr gut für Naturstoffe sowie organischer Moleküle eignet. Zur Unterstützung der kombinatorischen Chemie wurde eine Implementierung eines Reaktionsenumerator-Workflows umgesetzt. Dieser basiert auf generischen Reaktionen sowie Eduktlisten und ermöglicht die Erstellung von chemischen Bibliotheken mit bis zu O(1000) Molekülen. Methoden des nicht überwachten Maschinen Lernens (Perceptron-Type Artificial Neural Network und Support Vector Machines) wurden als Proof-of-Concept für die quantitative Modellierung der Kinetik von Klebstoffpolymer mittels der Mathematica GNWI.CIP Erweiterung eingesetzt. Diese Perspektive ermöglicht die Integration von "experimenteller Mathematik" in die auf CDK-Taverna basierende wissenschaftliche Workflow-Lösung. Eine chemische Diversitätsanalyse basierend auf den Daten zweier öffentlicher und einer proprietären Datenbank mit zusammen mehr als 200000 Molekülen stellte eine weitere Anwendung der entwickelten Methoden dar, die innerhalb dieser Arbeit erledigt wurden. Für die chemische Diversitätsanalyse wurden verschiedene molekulare Eigenschaften unter Nutzung des Chemistry Development Kits berechnet. Die Analyse der Eigenschaften erfolgte mittels einer Implementierung eines Algorithmus der Adaptiven Resonanztheorie (ART 2-A) zur automatischen nicht überwachten Klassifizierung von offen kategorischen Problemen. Die Analyse zeigte eine ähnliche Abdeckung des chemischen Raums der beiden Naturstoff-Datenbanken. Einzig die ChEBI Datenbank deckte einen anderen chemischen Raum ab. Die Diversitätsanalyse beinhaltete auch die Suche nach White-Spots einzelner Datenbanken. Als Ergebnis dieser Vergleiche wurden interessante White-Spots innerhalb der proprietären Datenbank entdeckt. Die Kombination aus diesen Ergebnissen mit der pharmakologischen Annotation einzelner Moleküle führt zu weiteren Forschungs- und Modellierungaktivitäten.German
Kuhn, Thomastho.kuhn@web.deUNSPECIFIED
URN: urn:nbn:de:hbz:38-26603
Subjects: Chemistry and allied sciences
Uncontrolled Keywords:
Chemoinformatik, Workflow-Engine, Datenanalyse, Open-SourceGerman
Cheminformatics, Workflow-Engine, Data Analysis, Open SourceEnglish
Faculty: Faculty of Mathematics and Natural Sciences
Divisions: Faculty of Mathematics and Natural Sciences > Institute for Biochmemistry
Language: English
Date: 2009
Date of oral exam: 11 February 2009
NameAcademic Title
Schomburg, DietmarProf. Dr.
Full Text Status: Public
Date Deposited: 08 Apr 2009 09:23
URI: http://kups.ub.uni-koeln.de/id/eprint/2660


