Universität zu Köln

Recognizing Degraded Handwritten Characters

Institut für Dokumentologie und Editorik (IDE) (2011) Recognizing Degraded Handwritten Characters. In: Kodikologie und Paläographie im digitalen Zeitalter 2 - Codicology and Palaeography in the Digital Age 2. Schriften des Instituts für Dokumentologie und Editorik, 3. Books on Demand (BoD), Norderstedt, pp. 295-306. ISBN 978-3-8423-5032-8

[img]
Preview
PDF
Download (3074Kb) | Preview

    Abstract

    In this paper, Slavonic manuscripts from the 11th century written in Glagolitic script are investigated. State-of-the-art optical character recognition methods produce poor results for degraded handwritten document images. This is largely due to a lack of suitable results from basic pre-processing steps such as binarization and image segmentation. Therefore, a new, binarization-free approach will be presented that is independent of pre-processing deficiencies. It additionally incorporates local information in order to recognize also fragmented or faded characters. The proposed algorithm consists of two steps: character classification and character localization. Firstly scale invariant feature transform features are extracted and classified using support vector machines. On this basis interest points are clustered according to their spatial information. Then, characters are localized and eventually recognized by a weighted voting scheme of pre-classified local descriptors. Preliminary results show that the proposed system can handle highly degraded manuscript images with background noise, e.g. stains, tears, and faded characters.

    Item Type: Book Section
    Translated abstract:
    AbstractLanguage
    In diesem Beitrag werden slawische Manuskripte aus dem 11. Jahrhundert analysiert. Herkömmliche Optical Character Recognition (OCR) Systeme erzielen schlechte Resultate auf den beschädigten glagolitischen Schriften, da eine korrekte Buchstabenseg- mentierung nicht möglich ist. Deshalb wird ein segmentierungsfreies OCR-System vorgestellt, welches keiner Vorverarbeitungsschritte bedarf. Da die Klassifikation auf lokaler Information beruht, ist es möglich auch verblasste Buchstaben bzw. Buchstaben- fragmente richtig zu erkennen. Das System besteht aus zwei grundlegenden Methoden: Buchstaben-Klassifizierung und Buchstaben-Lokalisierung. Die Klassifizierung basiert auf lokalen, größeninvarianten Merkmalen, die mit Hilfe von Support Vector Machines klassifiziert werden. Nach diesem Schritt existieren mehrere gekennzeichneteMerkmals- Vektoren pro Buchstabe. Diese werden im zweiten Schritt durch ein Clustering Verfahren zusammengefasst, so dass jedem Buchstaben ein finales Klassenetikett zugewiesen werden kann. Die Ergebnisse zeigen, dass auch beschädigte Dokumente mit diesem System automatisch erfasst werden können.German
    Creators:
    CreatorsEmail
    Diem, Markus
    Sablatnig, Robert
    Gau, Melanie
    Miklas, Heinz
    Editors:
    EditorsEmail
    Fischer, Franzfranz.fischer@uni-koeln.de
    Fritze, Christianechristiane.fritze@sub.uni-goettingen.de
    Vogeler, Georggeorg.vogeler@uni-graz.at
    Corporate Creators: Institut für Dokumentologie und Editorik (IDE)
    URN: urn:nbn:de:hbz:38-43559
    Series Name: Schriften des Instituts für Dokumentologie und Editorik
    Publisher: Books on Demand (BoD)
    ISBN: 978-3-8423-5032-8
    Volume: 3
    Subjects: Data processing Computer science
    Library and information sciences
    Other languages
    Geography and history
    Uncontrolled Keywords:
    KeywordsLanguage
    Palaeography, Manuscripts, Scripts, Digitization, Character Recognition, Digital Humanities, Medieval StudiesEnglish
    Handschriftenkunde, Paläographie, Digitale Geisteswissenschaften, Historische Hilfswissenschaften, Digitalisierung, Schriftbeschreibung, TexterkennungGerman
    Divisions: Philosophische Fakultät > Historisch - Kulturwissenschaftliche Informationsverarbeitung
    Language: English
    Date: 2011
    Date Type: Publication
    Full Text Status: Public
    Date Deposited: 23 Sep 2011 12:10:34
    URI: http://kups.ub.uni-koeln.de/id/eprint/4355

    Actions (login required)

    View Item