Universität zu Köln

Phenetic Approach to Script Evolution

Hosszú, Gábor (2017) Phenetic Approach to Script Evolution. In: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4. Schriften des Instituts für Dokumentologie und Editorik, 11. Books on Demand, Norderstedt, pp. 179-252. ISBN 978-3-7448-3877-1

[img]
Preview
PDF - Published Version
Download (1895Kb) | Preview

    Abstract

    Computational palaeography, as a branch of applied computer science, investigates the evolution of graphemes, explores relationships between scripts, and provides support for deciphering ancient inscriptions, among others. The author applied methods often used to describe evolutionary processes in phylogenetics to analyse the development of scripts. Unlike in the clear evolution of phylogenetics, graphemes used to describe the evolution of scripts are sometimes indistinguishable from their glyph variants. Moreover, the historical background is at times incomplete. In order to reduce uncertainty, the author developed an exploratory data analysis method that combines phenetic analysis methods with a cladistic approach. The paper details the tests the author developed to explore the relationships among 66 different scripts with 186 different features. To extract data for analysis required determining the similarity groups of glyphs and orthographical rules in different scripts; the input is data from humanities-based palaeography. Creation of the similarity groups of the glyphs is based on minimizing the differences between the topological properties of the glyphs and individual decisions in order to avoid homoplasies, as well as the erroneous omission of slightly differing but otherwise related glyphs. For the second purpose, the layered grapheme model and the concept of characteristic transformations of related glyphs were used. Based on the extracted features of the scripts, various machine-learning methods were applied, including multidimensional scaling, k-means partitional clustering, and various hierarchical clustering methods. These algorithms produced similar results, represented in two- and three-dimensional scatter plots and phenograms, which visualize the relationship between the scripts. These results roughly concur with the results of humanities-based palaeography; however, new conclusions can be also derived, including the introduction of the concept of witness scripts, and glyph- and grapheme-level reticulations, which are used to describe the possible relationship of graphemes and scripts. The presented results demonstrate the usefulness of a developed modified phenetic method in exploring the similarities of scripts, and based on the results obtained, some improvements in modelling the distribution of certain historical scripts were also proposed.

    Item Type: Book Section
    Translated abstract:
    AbstractLanguage
    Computergestützte Paläographie als Zweig der angewandten Informatik untersucht unter anderem die Evolution von Graphemen, erforscht die Beziehungen zwischen Schriften und leistet Unterstützung bei der Entzifferung sehr alter Inschriften. Der Autor hat Methoden, die häufig für die Beschreibung evolutionärer Prozesse verwendet werden, angewandt, um die Entwicklung von Schriftsystemen zu untersuchen. Im Gegensatz zu der klaren Evolution in der Phylogenetik, sind Grapheme, die zur Beschreibung der Schriftevolution benutzt werden, manchmal nicht von ihren Glyph-Varianten zu unterscheiden. Zudem ist der historische Hintergrund zuweilen unvollständig. Um die Unsicherheiten zu reduzieren, hat der Autor eine explorative Methode der Datenanalyse entwickelt, die phänetische (numerisch taxonomische) Analysemethoden und einen kladistischen Ansatz kombiniert. Der Beitrag erläutert die Testreihen, die der Autor entwickelt hat, um die Beziehungen zwischen 66 verschiedenen Schriften mit 186 verschiedenen Merkmalen zu erforschen. Die Datenextraktion für die Analyse machte es notwendig, zunächst die Ähnlichkeitsgruppen von Glyphen und die orthographischen Regeln für verschiedene Schriften zu bestimmen; die Ausgangsdaten stammen also aus der traditionellen Paläographie. Die Bestimmung der Ähnlichkeitsgruppen basiert sowohl auf der Minimierung der Unterschiede zwischen den topologischen Eigenschaften der Glyphen und individuellen Entscheidungen zur Vermeidung von Homoplasien (zufälligen Ähnlichkeiten), als auch der falschen Aussonderung von nur leicht unterschiedlichen, ansonsten aber ähnlichen Glyphen. Für die zweite Aufgabe wurden das Graphem-Schichtenmodell und das Konzept der charakteristischen Transformationen verwandter Glyphen benutzt. Auf der Grundlage der bestimmten Merkmale wurden verschiedene Methoden des maschinellen Lernens wie multidimensionale Skalierung, k-Means Partitions- Clusteranalyse und verschiedene hierarchische Clusterverfahren angewandt. Diese Algorithmen haben zu ähnlichen Ergebnissen geführt, die in zwei- und dreidimensionalen Streudiagrammen und Phänogrammen (Kladogrammen) ausgedrückt werden und die Verhältnisse zwischen Schriften sichtbar machen. Die Ergebnisse stimmen grob mit den Resultaten der bisherigen paläographischen Forschung überein, allerdings können aus ihnen auch neue Erkenntnisse gezogen werden. Dazu gehören die Einführung des Konzepts der »Zeugenschriften« und Verbindungen auf der Glyphund Graphemebene, die zur Beschreibung möglicher Beziehungen zwischen Graphemen und Schriften genutzt werden. Die hier vorgestellten Ergebnisse zeigen den Nutzen einer entwickelten phänetischen Methode für die Untersuchung von Schriftähnlichkeiten. Auf der Grundlage der erzielten Resultate werden außerdem Verbesserungsvorschläge für die Modellierung der Verbreitung und Verteilung einiger historischer Schriften gemacht.German
    Creators:
    CreatorsEmail
    Hosszú, Gábor
    Editors:
    EditorsEmail
    Busch, Hannah
    Fischer, Franzfranz.fischer@uni-koeln.de
    Sahle, Patricksahle@uni-koeln.de
    Corporate Creators: Institut für Dokumentologie und Editorik
    Corporate Contributors: Institut für Dokumentologie und Editorik
    URN: urn:nbn:de:hbz:38-77871
    Series Name: Schriften des Instituts für Dokumentologie und Editorik
    Publisher: Books on Demand
    ISBN: 978-3-7448-3877-1
    Volume: 11
    Subjects: Data processing Computer science
    Library and information sciences
    Geography and history
    Divisions: Philosophische Fakultät > Cologne Center for eHumanities
    Language: English
    Date: July 2017
    Date Type: Publication
    Full Text Status: Public
    Related URLs:
    Date Deposited: 08 Sep 2017 09:05:25
    URI: http://kups.ub.uni-koeln.de/id/eprint/7787

    Actions (login required)

    View Item