Phenetic Approach to Script Evolution - Kölner UniversitätsPublikationsServer

Hosszú, Gábor (2017). Phenetic Approach to Script Evolution. In: Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4, pp. 179-252. Norderstedt: Books on Demand. ISBN 978-3-7448-3877-1 Open Access

Preview

PDF
11_hosszu.pdf - Published Version
Download (1MB)

Official URL: http://nbn-resolving.de/urn:nbn:de:hbz:38-77742

Abstract

Computational palaeography, as a branch of applied computer science, investigates the evolution of graphemes, explores relationships between scripts, and provides support for deciphering ancient inscriptions, among others. The author applied methods often used to describe evolutionary processes in phylogenetics to analyse the development of scripts. Unlike in the clear evolution of phylogenetics, graphemes used to describe the evolution of scripts are sometimes indistinguishable from their glyph variants. Moreover, the historical background is at times incomplete. In order to reduce uncertainty, the author developed an exploratory data analysis method that combines phenetic analysis methods with a cladistic approach. The paper details the tests the author developed to explore the relationships among 66 different scripts with 186 different features. To extract data for analysis required determining the similarity groups of glyphs and orthographical rules in different scripts; the input is data from humanities-based palaeography. Creation of the similarity groups of the glyphs is based on minimizing the differences between the topological properties of the glyphs and individual decisions in order to avoid homoplasies, as well as the erroneous omission of slightly differing but otherwise related glyphs. For the second purpose, the layered grapheme model and the concept of characteristic transformations of related glyphs were used. Based on the extracted features of the scripts, various machine-learning methods were applied, including multidimensional scaling, k-means partitional clustering, and various hierarchical clustering methods. These algorithms produced similar results, represented in two- and three-dimensional scatter plots and phenograms, which visualize the relationship between the scripts. These results roughly concur with the results of humanities-based palaeography; however, new conclusions can be also derived, including the introduction of the concept of witness scripts, and glyph- and grapheme-level reticulations, which are used to describe the possible relationship of graphemes and scripts. The presented results demonstrate the usefulness of a developed modified phenetic method in exploring the similarities of scripts, and based on the results obtained, some improvements in modelling the distribution of certain historical scripts were also proposed.

Item Type:	Book Section
Translated abstract:	Abstract Language Computergestützte Paläographie als Zweig der angewandten Informatik untersucht unter anderem die Evolution von Graphemen, erforscht die Beziehungen zwischen Schriften und leistet Unterstützung bei der Entzifferung sehr alter Inschriften. Der Autor hat Methoden, die häufig für die Beschreibung evolutionärer Prozesse verwendet werden, angewandt, um die Entwicklung von Schriftsystemen zu untersuchen. Im Gegensatz zu der klaren Evolution in der Phylogenetik, sind Grapheme, die zur Beschreibung der Schriftevolution benutzt werden, manchmal nicht von ihren Glyph-Varianten zu unterscheiden. Zudem ist der historische Hintergrund zuweilen unvollständig. Um die Unsicherheiten zu reduzieren, hat der Autor eine explorative Methode der Datenanalyse entwickelt, die phänetische (numerisch taxonomische) Analysemethoden und einen kladistischen Ansatz kombiniert. Der Beitrag erläutert die Testreihen, die der Autor entwickelt hat, um die Beziehungen zwischen 66 verschiedenen Schriften mit 186 verschiedenen Merkmalen zu erforschen. Die Datenextraktion für die Analyse machte es notwendig, zunächst die Ähnlichkeitsgruppen von Glyphen und die orthographischen Regeln für verschiedene Schriften zu bestimmen; die Ausgangsdaten stammen also aus der traditionellen Paläographie. Die Bestimmung der Ähnlichkeitsgruppen basiert sowohl auf der Minimierung der Unterschiede zwischen den topologischen Eigenschaften der Glyphen und individuellen Entscheidungen zur Vermeidung von Homoplasien (zufälligen Ähnlichkeiten), als auch der falschen Aussonderung von nur leicht unterschiedlichen, ansonsten aber ähnlichen Glyphen. Für die zweite Aufgabe wurden das Graphem-Schichtenmodell und das Konzept der charakteristischen Transformationen verwandter Glyphen benutzt. Auf der Grundlage der bestimmten Merkmale wurden verschiedene Methoden des maschinellen Lernens wie multidimensionale Skalierung, k-Means Partitions- Clusteranalyse und verschiedene hierarchische Clusterverfahren angewandt. Diese Algorithmen haben zu ähnlichen Ergebnissen geführt, die in zwei- und dreidimensionalen Streudiagrammen und Phänogrammen (Kladogrammen) ausgedrückt werden und die Verhältnisse zwischen Schriften sichtbar machen. Die Ergebnisse stimmen grob mit den Resultaten der bisherigen paläographischen Forschung überein, allerdings können aus ihnen auch neue Erkenntnisse gezogen werden. Dazu gehören die Einführung des Konzepts der »Zeugenschriften« und Verbindungen auf der Glyphund Graphemebene, die zur Beschreibung möglicher Beziehungen zwischen Graphemen und Schriften genutzt werden. Die hier vorgestellten Ergebnisse zeigen den Nutzen einer entwickelten phänetischen Methode für die Untersuchung von Schriftähnlichkeiten. Auf der Grundlage der erzielten Resultate werden außerdem Verbesserungsvorschläge für die Modellierung der Verbreitung und Verteilung einiger historischer Schriften gemacht. German
Creators:	Creators Email ORCID ORCID Put Code Hosszú, Gábor UNSPECIFIED UNSPECIFIED UNSPECIFIED
Editors:	Editors Email ORCID ORCID Put Code Busch, Hannah UNSPECIFIED UNSPECIFIED UNSPECIFIED Fischer, Franz franz.fischer@uni-koeln.de UNSPECIFIED UNSPECIFIED Sahle, Patrick sahle@uni-koeln.de UNSPECIFIED UNSPECIFIED
Corporate Creators:	Institut für Dokumentologie und Editorik
Corporate Contributors:	Institut für Dokumentologie und Editorik
URN:	urn:nbn:de:hbz:38-77871
Title of Book:	Kodikologie und Paläographie im Digitalen Zeitalter 4 – Codicology and Palaeography in the Digital Age 4
Series Name at the University of Cologne:	Schriften des Instituts für Dokumentologie und Editorik
Volume:	11
Page Range:	pp. 179-252
Date:	July 2017
Publisher:	Books on Demand
Place of Publication:	Norderstedt
ISBN:	978-3-7448-3877-1
Language:	English
Divisions:	Faculty of Arts and Humanities > Zentrale Forschungseinrichtungen der Philosophischen Fakultät > Cologne Center for eHumanities (CCeH)
Subjects:	Data processing Computer science Library and information sciences Geography and history
Related URLs:	Organisation ['eprint_fieldopt_related_url_type_publication' not defined] Publisher
Funders:	Bundesministerium für Bildung und Forschung (BMBF)
Projects:	eCodicology
Refereed:	Yes
URI:	http://kups.ub.uni-koeln.de/id/eprint/7787

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item