Diem, Markus, Sablatnig, Robert, Gau, Melanie and Miklas, Heinz (2011). Recognizing Degraded Handwritten Characters. In: Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2, pp. 295-306. Norderstedt: Books on Demand (BoD). ISBN 978-3-8423-5032-8

[img]
Preview
PDF
17_gau.pdf

Download (3MB)

Abstract

In this paper, Slavonic manuscripts from the 11th century written in Glagolitic script are investigated. State-of-the-art optical character recognition methods produce poor results for degraded handwritten document images. This is largely due to a lack of suitable results from basic pre-processing steps such as binarization and image segmentation. Therefore, a new, binarization-free approach will be presented that is independent of pre-processing deficiencies. It additionally incorporates local information in order to recognize also fragmented or faded characters. The proposed algorithm consists of two steps: character classification and character localization. Firstly scale invariant feature transform features are extracted and classified using support vector machines. On this basis interest points are clustered according to their spatial information. Then, characters are localized and eventually recognized by a weighted voting scheme of pre-classified local descriptors. Preliminary results show that the proposed system can handle highly degraded manuscript images with background noise, e.g. stains, tears, and faded characters.

Item Type: Book Section, Proceedings Item or annotation in a legal commentary
Translated abstract:
AbstractLanguage
In diesem Beitrag werden slawische Manuskripte aus dem 11. Jahrhundert analysiert. Herkömmliche Optical Character Recognition (OCR) Systeme erzielen schlechte Resultate auf den beschädigten glagolitischen Schriften, da eine korrekte Buchstabenseg- mentierung nicht möglich ist. Deshalb wird ein segmentierungsfreies OCR-System vorgestellt, welches keiner Vorverarbeitungsschritte bedarf. Da die Klassifikation auf lokaler Information beruht, ist es möglich auch verblasste Buchstaben bzw. Buchstaben- fragmente richtig zu erkennen. Das System besteht aus zwei grundlegenden Methoden: Buchstaben-Klassifizierung und Buchstaben-Lokalisierung. Die Klassifizierung basiert auf lokalen, größeninvarianten Merkmalen, die mit Hilfe von Support Vector Machines klassifiziert werden. Nach diesem Schritt existieren mehrere gekennzeichneteMerkmals- Vektoren pro Buchstabe. Diese werden im zweiten Schritt durch ein Clustering Verfahren zusammengefasst, so dass jedem Buchstaben ein finales Klassenetikett zugewiesen werden kann. Die Ergebnisse zeigen, dass auch beschädigte Dokumente mit diesem System automatisch erfasst werden können.German
Creators:
CreatorsEmailORCIDORCID Put Code
Diem, MarkusUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Sablatnig, RobertUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Gau, MelanieUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Miklas, HeinzUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Editors:
EditorsEmailORCIDORCID Put Code
Fischer, Franzfranz.fischer@uni-koeln.deUNSPECIFIEDUNSPECIFIED
Fritze, Christianechristiane.fritze@sub.uni-goettingen.deUNSPECIFIEDUNSPECIFIED
Vogeler, Georggeorg.vogeler@uni-graz.atUNSPECIFIEDUNSPECIFIED
Corporate Creators: Institut für Dokumentologie und Editorik (IDE)
URN: urn:nbn:de:hbz:38-43559
Title of Book: Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2
Series Name at the University of Cologne: Schriften des Instituts für Dokumentologie und Editorik
Volume: 3
Page Range: pp. 295-306
Number of Pages: 0
Date: 2011
Publisher: Books on Demand (BoD)
Place of Publication: Norderstedt
ISBN: 978-3-8423-5032-8
Language: English
Divisions: Faculty of Arts and Humanities > Fächergruppe 2: Archäologie, Altertumskunde und Kulturen des Mittelmeerraums > Archäologisches Institut > Abteilung für Historisch-kulturwissenschaftliche Informationsverarbeitung
Subjects: Data processing Computer science
Library and information sciences
Other languages
Geography and history
Uncontrolled Keywords:
KeywordsLanguage
Palaeography, Manuscripts, Scripts, Digitization, Character Recognition, Digital Humanities, Medieval StudiesEnglish
Handschriftenkunde, Paläographie, Digitale Geisteswissenschaften, Historische Hilfswissenschaften, Digitalisierung, Schriftbeschreibung, TexterkennungGerman
References: http://www.i-d-e.de [IDE-Homepage] http://www.i-d-e.de/schriften/2-kpdz1 [Presentation of volume 1] http://www.i-d-e.de/schriften/3-kpdz2 [Presentation of volume 2] http://kups.ub.uni-koeln.de/2939/ [KPDZ1 online]
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/4355

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item