Institut für Dokumentologie und Editorik (IDE) (2011) Recognizing Degraded Handwritten Characters. In: Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2. Schriften des Instituts für Dokumentologie und Editorik, 3. Books on Demand (BoD), Norderstedt, pp. 295-306. ISBN 978-3-8423-5032-8
Abstract
In this paper, Slavonic manuscripts from the 11th century written in Glagolitic script are investigated. State-of-the-art optical character recognition methods produce poor results for degraded handwritten document images. This is largely due to a lack of suitable results from basic pre-processing steps such as binarization and image segmentation. Therefore, a new, binarization-free approach will be presented that is independent of pre-processing deficiencies. It additionally incorporates local information in order to recognize also fragmented or faded characters. The proposed algorithm consists of two steps: character classification and character localization. Firstly scale invariant feature transform features are extracted and classified using support vector machines. On this basis interest points are clustered according to their spatial information. Then, characters are localized and eventually recognized by a weighted voting scheme of pre-classified local descriptors. Preliminary results show that the proposed system can handle highly degraded manuscript images with background noise, e.g. stains, tears, and faded characters.
| Item Type: | Book Section |
| Translated abstract: | | Abstract | Language |
|---|
| In diesem Beitrag werden slawische Manuskripte aus dem 11. Jahrhundert analysiert. Herkömmliche Optical Character Recognition (OCR) Systeme erzielen schlechte Resultate auf den beschädigten glagolitischen Schriften, da eine korrekte Buchstabenseg- mentierung nicht möglich ist. Deshalb wird ein segmentierungsfreies OCR-System vorgestellt, welches keiner Vorverarbeitungsschritte bedarf. Da die Klassifikation auf lokaler Information beruht, ist es möglich auch verblasste Buchstaben bzw. Buchstaben- fragmente richtig zu erkennen. Das System besteht aus zwei grundlegenden Methoden: Buchstaben-Klassifizierung und Buchstaben-Lokalisierung. Die Klassifizierung basiert auf lokalen, größeninvarianten Merkmalen, die mit Hilfe von Support Vector Machines klassifiziert werden. Nach diesem Schritt existieren mehrere gekennzeichneteMerkmals- Vektoren pro Buchstabe. Diese werden im zweiten Schritt durch ein Clustering Verfahren zusammengefasst, so dass jedem Buchstaben ein finales Klassenetikett zugewiesen werden kann. Die Ergebnisse zeigen, dass auch beschädigte Dokumente mit diesem System automatisch erfasst werden können. | German |
|
| Creators: | | Creators | Email |
|---|
| Diem, Markus | | | Sablatnig, Robert | | | Gau, Melanie | | | Miklas, Heinz | |
|
| Editors: | | Editors | Email |
|---|
| Fischer, Franz | franz.fischer@uni-koeln.de | | Fritze, Christiane | christiane.fritze@sub.uni-goettingen.de | | Vogeler, Georg | georg.vogeler@uni-graz.at |
|
| Corporate Creators: | Institut für Dokumentologie und Editorik (IDE) |
| URN: | urn:nbn:de:hbz:38-43559 |
| Series Name: | Schriften des Instituts für Dokumentologie und Editorik |
| Publisher: | Books on Demand (BoD) |
| ISBN: | 978-3-8423-5032-8 |
| Volume: | 3 |
| Subjects: | Data processing Computer science Library and information sciences Other languages Geography and history |
| Uncontrolled Keywords: | | Keywords | Language |
|---|
| Palaeography, Manuscripts, Scripts, Digitization, Character Recognition, Digital Humanities, Medieval Studies | English | | Handschriftenkunde, Paläographie, Digitale Geisteswissenschaften, Historische Hilfswissenschaften, Digitalisierung, Schriftbeschreibung, Texterkennung | German |
|
| Divisions: | Philosophische Fakultät > Historisch - Kulturwissenschaftliche Informationsverarbeitung |
| Language: | English |
| Date: | 2011 |
| Date Type: | Publication |
| Full Text Status: | Public |
| Date Deposited: | 23 Sep 2011 12:10 |
| URI: | http://kups.ub.uni-koeln.de/id/eprint/4355 |
|---|
Actions (login required)