Hofmann, Oliver
(2004).
Ermittlung von Zusammenhängen zwischen enzymatischer Aktivität und Krankheiten durch die automatische Analyse wissenschaftlicher Publikationen.
PhD thesis, Universität zu Köln.
Abstract
Aufgrund des schnellen Wachstums biomedizinischer Daten sowie der assoziierten Literatur wird es auch für Experten zunehmend schwierig, den Überblick über den aktuellen Wissensstand zu behalten. Der Aufbau und die manuelle Erweiterung von Datenbanken ist teuer und zeitaufwändig, kann jedoch durch linguistische Methoden unterstützt werden, welche Erkenntnisse automatisch aus der wissenschaftlichen Literatur extrahieren. Die vorliegende Dissertation stellt eine solche Methode zur Annotation von Enzymklassen mit krankheitsrelevanten Informationen vor. Die Enzymnamen von 3901 Enzymklassen der BRENDA, einer Sammlung von qualitativen und quantitativen Enzymdaten, wurden in einem Textkorpus aus über 100000 Kurzzusammenfassungen der PubMed-Datenbank identifiziert. Phrasen der Kurzzusammenfassungen konnten durch das MetaMap-Programm den Konzepten des UMLS (Unified Medical Language Systems) zugewiesen werden, was eine Identifikation der krankheitsrelevanten Begriffe mittels ihrer semantischen Felder in der UMLS-Ontologie erlaubte. Eine Zuordnung von Enzymklassen zu Krankheitskonzepten erfolgte aufgrund der gemeinsamen Nennung innerhalb eines Satzes. Die Zahl falscher Zuordnung konnte durch den Einsatz verschiedener Filter verringert werden. Verwendet wurden unter anderem die Mindestzahl gemeinsamer Nennungen, die Entfernung von Sätzen mit einer Negation sowie die Klassifikation unbekannter Sätze durch eine Support Vector Machine. Eine Überprüfung der Zuordnungen anhand 1500 manuell annotierter Sätze ergab eine Präzision von 95%, was eine direkte Erweiterung der BRENDA-Datenbank mit den gefundenen Zuordnungen erlaubte.
Item Type: |
Thesis
(PhD thesis)
|
Translated title: |
Title | Language |
---|
Determining relationships between enzymes and diseases by automatic evaluation of the scientific literature | English |
|
Translated abstract: |
Abstract | Language |
---|
Given the explosive growth of biomedical data as well as the literature describing results and findings, it is getting increasingly difficult to keep up to date with new information. Keeping databases synchronized with current knowledge is a time-consuming and expensive task, one which can be alleviated by automatically gathering findings from the literature using linguistic approaches. This dissertation describes a method to automatically annotate enzyme classes with disease-related information extracted from the biomedical literature. Enzyme names for the 3901 enzyme classes in the BRENDA database, a repository for quantitative and qualitative enzyme information, were identified in more than 100000 abstracts retrieved from the PubMed literature database. Phrases in the abstracts were assigned to concepts from the UMLS (Unified Medical Language System) utilizing the MetaMap program, allowing for the identification of disease related concepts by their semantic fields in the UMLS ontology. Assignments between enzyme classes and and diseases were created based on their co-occurrence within a single sentence. False positives could be removed by a variety of filters including minimum number of co-occurrences, removal of sentences containing a negation and the classification of sentences based on their semantic fields by a Support Vector Machine. Verification of the assignments with a manually annotated set of 1500 sentences yielded favorable results of 95% precision, sufficient for inclusion in a high-quality database. | English |
|
Creators: |
Creators | Email | ORCID | ORCID Put Code |
---|
Hofmann, Oliver | oliver@fiamh.info | UNSPECIFIED | UNSPECIFIED |
|
URN: |
urn:nbn:de:hbz:38-13503 |
Date: |
2004 |
Language: |
German |
Faculty: |
Faculty of Mathematics and Natural Sciences |
Divisions: |
Faculty of Mathematics and Natural Sciences > Department of Chemistry > Institute of Biochemistry |
Subjects: |
Life sciences |
Uncontrolled Keywords: |
Keywords | Language |
---|
Bioinformatik, Informationsextraktion, Enzymklassen, Krankheiten, Netzwerke | German | Computational biology, Information extraction, Enzymes, Diseases | English |
|
Date of oral exam: |
8 July 2004 |
Referee: |
Name | Academic Title |
---|
Schomburg, Dietmar | Prof. Dr. |
|
Refereed: |
Yes |
URI: |
http://kups.ub.uni-koeln.de/id/eprint/1350 |
Downloads per month over past year
Export
Actions (login required)
|
View Item |