Vidal, Enrique (2017). Advances in Handwritten Keyword Indexing and Search Technologies. In: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4, pp. 103-119. Norderstedt: Books on Demand. ISBN 978-3-7448-3877-1

[img]
Preview
PDF
07_vidal.pdf - Published Version

Download (4MB)

Abstract

Many extensive manuscript collections are available in archives and libraries all over the world, but their textual contents remain practically inaccessible, buried under thousands of terabytes worth of high-resolution images. If perfect or sufficiently accurate text-image transcripts were available, textual content could be indexed directly for plaintext access using conventional information retrieval systems. But the results of fully automated transcriptions generally lack the level of accuracy needed for reliable text indexing and search purposes. Additionally, manual or even computer-assited transcription is entierely unsustainable when dealing with the extensive image collections typically considered for indexing. This paper explains how accurate indexing and search commands can be implemented directly on the digital images themselves without the need to explicitly resort to image transcripts. Results obtained using the proposed techniques on several relevant historical data sets are presented, clearly supporting the considerable potential of these technologies.

Item Type: Book Section, Proceedings Item or annotation in a legal commentary
Translated abstract:
AbstractLanguage
Auf der ganzen Welt halten Archive und Bibliotheken umfangreiche Sammlungen handschriftlicher Dokumente bereit. Doch bleiben deren Inhalte praktisch unzugänglich, verborgen unter tausenden von Terabytes hochaufgelöster Bilder. Gäbe es gute oder halbwegs verlässliche Text-Bild-Trankriptionen, ließen sich die jeweiligen Inhalte über herkömmliche Systeme zur Informationsrückgewinnung direkt indizieren und somit Zugänge zu entsprechenden Plaintext-Fassungen ermöglichen. Leider sind die Ergebnisse voll-automatisierter Transkriptionsverfahren zu ungenau, als dass sie sich für eine zuverlässige Textindizierung und Suche eigneten. Hinzu kommt, dass manuelle oder gar computergestützte Transkriptionsverfahren keine Nachhaltigkeit aufweisen, gerade wenn es sich um Bildsammlungen handelt, die aufgrund ihres großen Umfangs für eine Indizierung in Betracht gezogen werden. Dieser Artikel erläutert, wie verlässliche Indizierungen und Suchfunktionen unmittelbar auf den Bilddigitalisaten implementiert werden können, ohne dass dafür auf Bildtranskriptionen zurückgegriffen werden muss. Es werden Ergebnisse vorgestellt, die unter Anwendung der hier vorgestellten Technologie auf verschiedene historisch bedeutsame Datensätze erzielt worden sind und deren erhebliches Potential klar unter Beweis stellen.German
Creators:
CreatorsEmailORCIDORCID Put Code
Vidal, EnriqueUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Editors:
EditorsEmailORCIDORCID Put Code
Busch, HannahUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Fischer, Franzfranz.fischer@uni-koeln.deUNSPECIFIEDUNSPECIFIED
Sahle, Patricksahle@uni-koeln.deorcid.org/0000-0002-8648-2033UNSPECIFIED
Corporate Creators: Institut für Dokumentologie und Editorik
URN: urn:nbn:de:hbz:38-77835
Title of Book: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4
Series Name at the University of Cologne: Schriften des Instituts für Dokumentologie und Editorik
Volume: 11
Page Range: pp. 103-119
Date: July 2017
Publisher: Books on Demand
Place of Publication: Norderstedt
ISBN: 978-3-7448-3877-1
Language: English
Faculty: Faculty of Arts and Humanities
Divisions: Faculty of Arts and Humanities > Zentrale Forschungseinrichtungen > Cologne Center for eHumanities (CCeH)
Subjects: Data processing Computer science
Library and information sciences
Related URLs:
Funders: Bundesministerium für Bildung und Forschung (BMBF)
Projects: eCodicology
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/7783

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item