Vidal, Enrique Busch, Hannah and Fischer, Franz and Sahle, Patrick, eds (2017). Advances in Handwritten Keyword Indexing and Search Technologies. In: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4. Books on Demand , Norderstedt, pp. 103-119. ISBN 978-3-7448-3877-1

[img]
Preview
PDF
07_vidal.pdf - Published Version

Download (4MB)

Abstract

Many extensive manuscript collections are available in archives and libraries all over the world, but their textual contents remain practically inaccessible, buried under thousands of terabytes worth of high-resolution images. If perfect or sufficiently accurate text-image transcripts were available, textual content could be indexed directly for plaintext access using conventional information retrieval systems. But the results of fully automated transcriptions generally lack the level of accuracy needed for reliable text indexing and search purposes. Additionally, manual or even computer-assited transcription is entierely unsustainable when dealing with the extensive image collections typically considered for indexing. This paper explains how accurate indexing and search commands can be implemented directly on the digital images themselves without the need to explicitly resort to image transcripts. Results obtained using the proposed techniques on several relevant historical data sets are presented, clearly supporting the considerable potential of these technologies.

Item Type: Book Chapter or Proceedings Item
Translated abstract:
AbstractLanguage
Auf der ganzen Welt halten Archive und Bibliotheken umfangreiche Sammlungen handschriftlicher Dokumente bereit. Doch bleiben deren Inhalte praktisch unzugänglich, verborgen unter tausenden von Terabytes hochaufgelöster Bilder. Gäbe es gute oder halbwegs verlässliche Text-Bild-Trankriptionen, ließen sich die jeweiligen Inhalte über herkömmliche Systeme zur Informationsrückgewinnung direkt indizieren und somit Zugänge zu entsprechenden Plaintext-Fassungen ermöglichen. Leider sind die Ergebnisse voll-automatisierter Transkriptionsverfahren zu ungenau, als dass sie sich für eine zuverlässige Textindizierung und Suche eigneten. Hinzu kommt, dass manuelle oder gar computergestützte Transkriptionsverfahren keine Nachhaltigkeit aufweisen, gerade wenn es sich um Bildsammlungen handelt, die aufgrund ihres großen Umfangs für eine Indizierung in Betracht gezogen werden. Dieser Artikel erläutert, wie verlässliche Indizierungen und Suchfunktionen unmittelbar auf den Bilddigitalisaten implementiert werden können, ohne dass dafür auf Bildtranskriptionen zurückgegriffen werden muss. Es werden Ergebnisse vorgestellt, die unter Anwendung der hier vorgestellten Technologie auf verschiedene historisch bedeutsame Datensätze erzielt worden sind und deren erhebliches Potential klar unter Beweis stellen.German
Creators:
CreatorsEmailORCID
Vidal, EnriqueUNSPECIFIEDUNSPECIFIED
Editors:
EditorsEmailORCID
Busch, HannahUNSPECIFIEDUNSPECIFIED
Fischer, Franzfranz.fischer@uni-koeln.deUNSPECIFIED
Sahle, Patricksahle@uni-koeln.deUNSPECIFIED
Corporate Creators: Institut für Dokumentologie und Editorik
URN: urn:nbn:de:hbz:38-77835
Series Name at the University of Cologne: Schriften des Instituts für Dokumentologie und Editorik
Publisher: Books on Demand
ISBN: 978-3-7448-3877-1
Volume: 11
Subjects: Data processing Computer science
Library and information sciences
Divisions: Faculty of Arts and Humanities > Cologne Center for eHumanities (CCeH)
Language: English
Date: July 2017
Full Text Status: Public
Related URLs:
Date Deposited: 08 Sep 2017 07:01
Funders: Bundesministerium für Bildung und Forschung (BMBF)
Projects: eCodicology
Place of Publication: Norderstedt
Refereed: Yes
Status: Published
Page Range: pp. 103-119
Title of Book: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4
URI: http://kups.ub.uni-koeln.de/id/eprint/7783

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item