Diem, Markus, Sablatnig, Robert, Gau, Melanie and Miklas, Heinz
(2011).
Recognizing Degraded Handwritten Characters.
In:
Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2,
pp. 295-306.
Norderstedt:
Books on Demand (BoD).
ISBN 978-3-8423-5032-8
Preview |
PDF
17_gau.pdf Download (3MB) |
Abstract
In this paper, Slavonic manuscripts from the 11th century written in Glagolitic script are investigated. State-of-the-art optical character recognition methods produce poor results for degraded handwritten document images. This is largely due to a lack of suitable results from basic pre-processing steps such as binarization and image segmentation. Therefore, a new, binarization-free approach will be presented that is independent of pre-processing deficiencies. It additionally incorporates local information in order to recognize also fragmented or faded characters. The proposed algorithm consists of two steps: character classification and character localization. Firstly scale invariant feature transform features are extracted and classified using support vector machines. On this basis interest points are clustered according to their spatial information. Then, characters are localized and eventually recognized by a weighted voting scheme of pre-classified local descriptors. Preliminary results show that the proposed system can handle highly degraded manuscript images with background noise, e.g. stains, tears, and faded characters.
| Item Type: | Book Section |
| Translated abstract: | Abstract Language In diesem Beitrag werden slawische Manuskripte aus dem 11. Jahrhundert analysiert.
Herkömmliche Optical Character Recognition (OCR) Systeme erzielen schlechte
Resultate auf den beschädigten glagolitischen Schriften, da eine korrekte Buchstabenseg-
mentierung nicht möglich ist. Deshalb wird ein segmentierungsfreies OCR-System
vorgestellt, welches keiner Vorverarbeitungsschritte bedarf. Da die Klassifikation auf
lokaler Information beruht, ist es möglich auch verblasste Buchstaben bzw. Buchstaben-
fragmente richtig zu erkennen. Das System besteht aus zwei grundlegenden Methoden:
Buchstaben-Klassifizierung und Buchstaben-Lokalisierung. Die Klassifizierung basiert
auf lokalen, größeninvarianten Merkmalen, die mit Hilfe von Support Vector Machines
klassifiziert werden. Nach diesem Schritt existieren mehrere gekennzeichneteMerkmals-
Vektoren pro Buchstabe. Diese werden im zweiten Schritt durch ein Clustering
Verfahren zusammengefasst, so dass jedem Buchstaben ein finales Klassenetikett
zugewiesen werden kann. Die Ergebnisse zeigen, dass auch beschädigte Dokumente
mit diesem System automatisch erfasst werden können. German |
| Creators: | Creators Email ORCID ORCID Put Code Diem, Markus UNSPECIFIED UNSPECIFIED UNSPECIFIED Sablatnig, Robert UNSPECIFIED UNSPECIFIED UNSPECIFIED Gau, Melanie UNSPECIFIED UNSPECIFIED UNSPECIFIED Miklas, Heinz UNSPECIFIED UNSPECIFIED UNSPECIFIED |
| Editors: | Editors Email ORCID ORCID Put Code Fischer, Franz franz.fischer@uni-koeln.de UNSPECIFIED UNSPECIFIED Fritze, Christiane christiane.fritze@sub.uni-goettingen.de UNSPECIFIED UNSPECIFIED Vogeler, Georg georg.vogeler@uni-graz.at UNSPECIFIED UNSPECIFIED |
| Corporate Creators: | Institut für Dokumentologie und Editorik (IDE) |
| URN: | urn:nbn:de:hbz:38-43559 |
| Title of Book: | Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2 |
| Series Name at the University of Cologne: | Schriften des Instituts für Dokumentologie und Editorik |
| Volume: | 3 |
| Page Range: | pp. 295-306 |
| Number of Pages: | 0 |
| Date: | 2011 |
| Publisher: | Books on Demand (BoD) |
| Place of Publication: | Norderstedt |
| ISBN: | 978-3-8423-5032-8 |
| Language: | English |
| Divisions: | Faculty of Arts and Humanities > Fächergruppe 2: Archäologie, Altertumskunde und Kulturen des Mittelmeerraums > Archäologisches Institut > Abteilung für Historisch-kulturwissenschaftliche Informationsverarbeitung |
| Subjects: | Data processing Computer science Library and information sciences Other languages Geography and history |
| Uncontrolled Keywords: | Keywords Language Palaeography, Manuscripts, Scripts, Digitization, Character Recognition, Digital Humanities, Medieval Studies English Handschriftenkunde, Paläographie, Digitale Geisteswissenschaften, Historische Hilfswissenschaften, Digitalisierung, Schriftbeschreibung, Texterkennung German |
| References: | http://www.i-d-e.de [IDE-Homepage] http://www.i-d-e.de/schriften/2-kpdz1 [Presentation of volume 1] http://www.i-d-e.de/schriften/3-kpdz2 [Presentation of volume 2] http://kups.ub.uni-koeln.de/2939/ [KPDZ1 online] |
| Refereed: | Yes |
| URI: | http://kups.ub.uni-koeln.de/id/eprint/4355 |
Downloads
Downloads per month over past year
Export
Actions (login required)
![]() |
View Item |
