Universität zu Köln

Ermittlung von Zusammenhängen zwischen enzymatischer Aktivität und Krankheiten durch die automatische Analyse wissenschaftlicher Publikationen

Hofmann, Oliver (2004) Ermittlung von Zusammenhängen zwischen enzymatischer Aktivität und Krankheiten durch die automatische Analyse wissenschaftlicher Publikationen. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
Download (3140Kb) | Preview

    Abstract

    Aufgrund des schnellen Wachstums biomedizinischer Daten sowie der assoziierten Literatur wird es auch für Experten zunehmend schwierig, den Überblick über den aktuellen Wissensstand zu behalten. Der Aufbau und die manuelle Erweiterung von Datenbanken ist teuer und zeitaufwändig, kann jedoch durch linguistische Methoden unterstützt werden, welche Erkenntnisse automatisch aus der wissenschaftlichen Literatur extrahieren. Die vorliegende Dissertation stellt eine solche Methode zur Annotation von Enzymklassen mit krankheitsrelevanten Informationen vor. Die Enzymnamen von 3901 Enzymklassen der BRENDA, einer Sammlung von qualitativen und quantitativen Enzymdaten, wurden in einem Textkorpus aus über 100000 Kurzzusammenfassungen der PubMed-Datenbank identifiziert. Phrasen der Kurzzusammenfassungen konnten durch das MetaMap-Programm den Konzepten des UMLS (Unified Medical Language Systems) zugewiesen werden, was eine Identifikation der krankheitsrelevanten Begriffe mittels ihrer semantischen Felder in der UMLS-Ontologie erlaubte. Eine Zuordnung von Enzymklassen zu Krankheitskonzepten erfolgte aufgrund der gemeinsamen Nennung innerhalb eines Satzes. Die Zahl falscher Zuordnung konnte durch den Einsatz verschiedener Filter verringert werden. Verwendet wurden unter anderem die Mindestzahl gemeinsamer Nennungen, die Entfernung von Sätzen mit einer Negation sowie die Klassifikation unbekannter Sätze durch eine Support Vector Machine. Eine Überprüfung der Zuordnungen anhand 1500 manuell annotierter Sätze ergab eine Präzision von 95%, was eine direkte Erweiterung der BRENDA-Datenbank mit den gefundenen Zuordnungen erlaubte.

    Item Type: Thesis (PhD thesis)
    Translated abstract:
    AbstractLanguage
    Given the explosive growth of biomedical data as well as the literature describing results and findings, it is getting increasingly difficult to keep up to date with new information. Keeping databases synchronized with current knowledge is a time-consuming and expensive task, one which can be alleviated by automatically gathering findings from the literature using linguistic approaches. This dissertation describes a method to automatically annotate enzyme classes with disease-related information extracted from the biomedical literature. Enzyme names for the 3901 enzyme classes in the BRENDA database, a repository for quantitative and qualitative enzyme information, were identified in more than 100000 abstracts retrieved from the PubMed literature database. Phrases in the abstracts were assigned to concepts from the UMLS (Unified Medical Language System) utilizing the MetaMap program, allowing for the identification of disease related concepts by their semantic fields in the UMLS ontology. Assignments between enzyme classes and and diseases were created based on their co-occurrence within a single sentence. False positives could be removed by a variety of filters including minimum number of co-occurrences, removal of sentences containing a negation and the classification of sentences based on their semantic fields by a Support Vector Machine. Verification of the assignments with a manually annotated set of 1500 sentences yielded favorable results of 95% precision, sufficient for inclusion in a high-quality database.English
    Creators:
    CreatorsEmail
    Hofmann, Oliveroliver@fiamh.info
    URN: urn:nbn:de:hbz:38-13503
    Subjects: Life sciences
    Uncontrolled Keywords:
    KeywordsLanguage
    Bioinformatik, Informationsextraktion, Enzymklassen, Krankheiten, NetzwerkeGerman
    Computational biology, Information extraction, Enzymes, DiseasesEnglish
    Faculty: Mathematisch-Naturwissenschaftliche Fakultät
    Divisions: Mathematisch-Naturwissenschaftliche Fakultät > Institut für Biochemie
    Language: German
    Date: 2004
    Date Type: Completion
    Date of oral exam: 08 July 2004
    Full Text Status: Public
    Date Deposited: 28 Feb 2005 12:25:14
    Referee
    NameAcademic Title
    Schomburg, DietmarProf. Dr.
    URI: http://kups.ub.uni-koeln.de/id/eprint/1350

    Actions (login required)

    View Item