Hofmann, Oliver (2004). Ermittlung von Zusammenhängen zwischen enzymatischer Aktivität und Krankheiten durch die automatische Analyse wissenschaftlicher Publikationen. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
diss_oho_links.pdf

Download (3MB)

Abstract

Aufgrund des schnellen Wachstums biomedizinischer Daten sowie der assoziierten Literatur wird es auch für Experten zunehmend schwierig, den Überblick über den aktuellen Wissensstand zu behalten. Der Aufbau und die manuelle Erweiterung von Datenbanken ist teuer und zeitaufwändig, kann jedoch durch linguistische Methoden unterstützt werden, welche Erkenntnisse automatisch aus der wissenschaftlichen Literatur extrahieren. Die vorliegende Dissertation stellt eine solche Methode zur Annotation von Enzymklassen mit krankheitsrelevanten Informationen vor. Die Enzymnamen von 3901 Enzymklassen der BRENDA, einer Sammlung von qualitativen und quantitativen Enzymdaten, wurden in einem Textkorpus aus über 100000 Kurzzusammenfassungen der PubMed-Datenbank identifiziert. Phrasen der Kurzzusammenfassungen konnten durch das MetaMap-Programm den Konzepten des UMLS (Unified Medical Language Systems) zugewiesen werden, was eine Identifikation der krankheitsrelevanten Begriffe mittels ihrer semantischen Felder in der UMLS-Ontologie erlaubte. Eine Zuordnung von Enzymklassen zu Krankheitskonzepten erfolgte aufgrund der gemeinsamen Nennung innerhalb eines Satzes. Die Zahl falscher Zuordnung konnte durch den Einsatz verschiedener Filter verringert werden. Verwendet wurden unter anderem die Mindestzahl gemeinsamer Nennungen, die Entfernung von Sätzen mit einer Negation sowie die Klassifikation unbekannter Sätze durch eine Support Vector Machine. Eine Überprüfung der Zuordnungen anhand 1500 manuell annotierter Sätze ergab eine Präzision von 95%, was eine direkte Erweiterung der BRENDA-Datenbank mit den gefundenen Zuordnungen erlaubte.

Item Type: Thesis (PhD thesis)
Translated title:
TitleLanguage
Determining relationships between enzymes and diseases by automatic evaluation of the scientific literatureEnglish
Translated abstract:
AbstractLanguage
Given the explosive growth of biomedical data as well as the literature describing results and findings, it is getting increasingly difficult to keep up to date with new information. Keeping databases synchronized with current knowledge is a time-consuming and expensive task, one which can be alleviated by automatically gathering findings from the literature using linguistic approaches. This dissertation describes a method to automatically annotate enzyme classes with disease-related information extracted from the biomedical literature. Enzyme names for the 3901 enzyme classes in the BRENDA database, a repository for quantitative and qualitative enzyme information, were identified in more than 100000 abstracts retrieved from the PubMed literature database. Phrases in the abstracts were assigned to concepts from the UMLS (Unified Medical Language System) utilizing the MetaMap program, allowing for the identification of disease related concepts by their semantic fields in the UMLS ontology. Assignments between enzyme classes and and diseases were created based on their co-occurrence within a single sentence. False positives could be removed by a variety of filters including minimum number of co-occurrences, removal of sentences containing a negation and the classification of sentences based on their semantic fields by a Support Vector Machine. Verification of the assignments with a manually annotated set of 1500 sentences yielded favorable results of 95% precision, sufficient for inclusion in a high-quality database.English
Creators:
CreatorsEmailORCIDORCID Put Code
Hofmann, Oliveroliver@fiamh.infoUNSPECIFIEDUNSPECIFIED
URN: urn:nbn:de:hbz:38-13503
Date: 2004
Language: German
Faculty: Faculty of Mathematics and Natural Sciences
Divisions: Faculty of Mathematics and Natural Sciences > Department of Chemistry > Institute of Biochemistry
Subjects: Life sciences
Uncontrolled Keywords:
KeywordsLanguage
Bioinformatik, Informationsextraktion, Enzymklassen, Krankheiten, NetzwerkeGerman
Computational biology, Information extraction, Enzymes, DiseasesEnglish
Date of oral exam: 8 July 2004
Referee:
NameAcademic Title
Schomburg, DietmarProf. Dr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/1350

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item