Universität zu Köln

Advances in Handwritten Keyword Indexing and Search Technologies

Vidal, Enrique (2017) Advances in Handwritten Keyword Indexing and Search Technologies. In: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4. Schriften des Instituts für Dokumentologie und Editorik, 11. Books on Demand, Norderstedt, pp. 103-119. ISBN 978-3-7448-3877-1

[img]
Preview
PDF - Published Version
Download (4Mb) | Preview

    Abstract

    Many extensive manuscript collections are available in archives and libraries all over the world, but their textual contents remain practically inaccessible, buried under thousands of terabytes worth of high-resolution images. If perfect or sufficiently accurate text-image transcripts were available, textual content could be indexed directly for plaintext access using conventional information retrieval systems. But the results of fully automated transcriptions generally lack the level of accuracy needed for reliable text indexing and search purposes. Additionally, manual or even computer-assited transcription is entierely unsustainable when dealing with the extensive image collections typically considered for indexing. This paper explains how accurate indexing and search commands can be implemented directly on the digital images themselves without the need to explicitly resort to image transcripts. Results obtained using the proposed techniques on several relevant historical data sets are presented, clearly supporting the considerable potential of these technologies.

    Item Type: Book Section
    Translated abstract:
    AbstractLanguage
    Auf der ganzen Welt halten Archive und Bibliotheken umfangreiche Sammlungen handschriftlicher Dokumente bereit. Doch bleiben deren Inhalte praktisch unzugänglich, verborgen unter tausenden von Terabytes hochaufgelöster Bilder. Gäbe es gute oder halbwegs verlässliche Text-Bild-Trankriptionen, ließen sich die jeweiligen Inhalte über herkömmliche Systeme zur Informationsrückgewinnung direkt indizieren und somit Zugänge zu entsprechenden Plaintext-Fassungen ermöglichen. Leider sind die Ergebnisse voll-automatisierter Transkriptionsverfahren zu ungenau, als dass sie sich für eine zuverlässige Textindizierung und Suche eigneten. Hinzu kommt, dass manuelle oder gar computergestützte Transkriptionsverfahren keine Nachhaltigkeit aufweisen, gerade wenn es sich um Bildsammlungen handelt, die aufgrund ihres großen Umfangs für eine Indizierung in Betracht gezogen werden. Dieser Artikel erläutert, wie verlässliche Indizierungen und Suchfunktionen unmittelbar auf den Bilddigitalisaten implementiert werden können, ohne dass dafür auf Bildtranskriptionen zurückgegriffen werden muss. Es werden Ergebnisse vorgestellt, die unter Anwendung der hier vorgestellten Technologie auf verschiedene historisch bedeutsame Datensätze erzielt worden sind und deren erhebliches Potential klar unter Beweis stellen.German
    Creators:
    CreatorsEmail
    Vidal, Enrique
    Editors:
    EditorsEmail
    Busch, Hannah
    Fischer, Franzfranz.fischer@uni-koeln.de
    Sahle, Patricksahle@uni-koeln.de
    Corporate Creators: Institut für Dokumentologie und Editorik
    URN: urn:nbn:de:hbz:38-77835
    Series Name: Schriften des Instituts für Dokumentologie und Editorik
    Publisher: Books on Demand
    ISBN: 978-3-7448-3877-1
    Volume: 11
    Subjects: Data processing Computer science
    Library and information sciences
    Divisions: Philosophische Fakultät > Cologne Center for eHumanities
    Language: English
    Date: July 2017
    Date Type: Publication
    Full Text Status: Public
    Related URLs:
    Date Deposited: 08 Sep 2017 09:01:49
    URI: http://kups.ub.uni-koeln.de/id/eprint/7783

    Actions (login required)

    View Item