Diem, Markus and Sablatnig, Robert and Gau, Melanie and Miklas, Heinz (2011). Recognizing Degraded Handwritten Characters. In: Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2. Books on Demand (BoD), Norderstedt, pp. 295-306. ISBN 978-3-8423-5032-8

[img]
Preview
PDF
17_gau.pdf

Download (3MB)

Abstract

In this paper, Slavonic manuscripts from the 11th century written in Glagolitic script are investigated. State-of-the-art optical character recognition methods produce poor results for degraded handwritten document images. This is largely due to a lack of suitable results from basic pre-processing steps such as binarization and image segmentation. Therefore, a new, binarization-free approach will be presented that is independent of pre-processing deficiencies. It additionally incorporates local information in order to recognize also fragmented or faded characters. The proposed algorithm consists of two steps: character classification and character localization. Firstly scale invariant feature transform features are extracted and classified using support vector machines. On this basis interest points are clustered according to their spatial information. Then, characters are localized and eventually recognized by a weighted voting scheme of pre-classified local descriptors. Preliminary results show that the proposed system can handle highly degraded manuscript images with background noise, e.g. stains, tears, and faded characters.

Item Type: Book Chapter or Proceedings Item
Translated abstract:
AbstractLanguage
In diesem Beitrag werden slawische Manuskripte aus dem 11. Jahrhundert analysiert. Herkömmliche Optical Character Recognition (OCR) Systeme erzielen schlechte Resultate auf den beschädigten glagolitischen Schriften, da eine korrekte Buchstabenseg- mentierung nicht möglich ist. Deshalb wird ein segmentierungsfreies OCR-System vorgestellt, welches keiner Vorverarbeitungsschritte bedarf. Da die Klassifikation auf lokaler Information beruht, ist es möglich auch verblasste Buchstaben bzw. Buchstaben- fragmente richtig zu erkennen. Das System besteht aus zwei grundlegenden Methoden: Buchstaben-Klassifizierung und Buchstaben-Lokalisierung. Die Klassifizierung basiert auf lokalen, größeninvarianten Merkmalen, die mit Hilfe von Support Vector Machines klassifiziert werden. Nach diesem Schritt existieren mehrere gekennzeichneteMerkmals- Vektoren pro Buchstabe. Diese werden im zweiten Schritt durch ein Clustering Verfahren zusammengefasst, so dass jedem Buchstaben ein finales Klassenetikett zugewiesen werden kann. Die Ergebnisse zeigen, dass auch beschädigte Dokumente mit diesem System automatisch erfasst werden können.German
Creators:
CreatorsEmailORCID
Diem, MarkusUNSPECIFIEDUNSPECIFIED
Sablatnig, RobertUNSPECIFIEDUNSPECIFIED
Gau, MelanieUNSPECIFIEDUNSPECIFIED
Miklas, HeinzUNSPECIFIEDUNSPECIFIED
Editors:
EditorsEmailORCID
Fischer, Franzfranz.fischer@uni-koeln.deUNSPECIFIED
Fritze, Christianechristiane.fritze@sub.uni-goettingen.deUNSPECIFIED
Vogeler, Georggeorg.vogeler@uni-graz.atUNSPECIFIED
Corporate Creators: Institut für Dokumentologie und Editorik (IDE)
URN: urn:nbn:de:hbz:38-43559
["eprint_fieldname_local_series" not defined]: Schriften des Instituts für Dokumentologie und Editorik
Publisher: Books on Demand (BoD)
ISBN: 978-3-8423-5032-8
Volume: 3
Subjects: Data processing Computer science
Library and information sciences
Other languages
Geography and history
Uncontrolled Keywords:
KeywordsLanguage
Palaeography, Manuscripts, Scripts, Digitization, Character Recognition, Digital Humanities, Medieval StudiesEnglish
Handschriftenkunde, Paläographie, Digitale Geisteswissenschaften, Historische Hilfswissenschaften, Digitalisierung, Schriftbeschreibung, TexterkennungGerman
Divisions: Faculty of Arts and Humanities > Historisch - Kulturwissenschaftliche Informationsverarbeitung
Language: English
Date: 2011
Full Text Status: Public
Date Deposited: 23 Sep 2011 10:10
References: http://www.i-d-e.de [IDE-Homepage] http://www.i-d-e.de/schriften/2-kpdz1 [Presentation of volume 1] http://www.i-d-e.de/schriften/3-kpdz2 [Presentation of volume 2] http://kups.ub.uni-koeln.de/2939/ [KPDZ1 online]
Place of Publication: Norderstedt
Refereed: Yes
Status: Published
Page Range: pp. 295-306
Number of Pages: 0
Title of Book: Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2
URI: http://kups.ub.uni-koeln.de/id/eprint/4355

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item