Saef, Nasrin (2018). Textanalyse mit dem „CollectionExplorer“. Eine Evaluation der Anwendbarkeit computerlinguistischer Methoden zur archivischen Bewertung großer unstrukturierter Textsammlungen. Masters thesis, Universität zu Köln.

[thumbnail of Saef_Masterarbeit_public.pdf]
Preview
PDF
Saef_Masterarbeit_public.pdf - Published Version

Download (1MB) | Preview
[thumbnail of Software (Python)] ZIP (Software (Python))
CollectionExplorer.zip - Published Version

Download (77kB)

Abstract

Die Arbeit deutscher Verwaltungen hat sich in den letzten Jahrzehnten immer weiter ins Digitale verlagert. Anders als von Archivaren zunächst antizipiert findet diese digitale Verwaltungsarbeit häufig in Dateiablagen statt. Da auch aktenrelevante Unterlagen darin verwahrt werden, müssen sie bewertet und gegebenenfalls ins zuständige Archiv übernommen werden. Dies ist aufgrund der Charakteristika von Dateiablagen schwierig: Sie sind häufig sehr groß, wenig strukturiert, redundant und für Außenstehende kaum zu überblicken. Herkömmliche Hilfsmittel zur archivischen Bewertung, wie Aktenpläne oder Abgabelisten, existieren für sie nicht. Es müssen andere Methoden herangezogen werden, um dieser Quellengattung gerecht zu werden. Ein denkbares Werkzeug ist die IT-gestützte inhaltliche Auswertung digitaler Volltexte mit Methoden aus den Feldern Computerlinguistik und Information Retrieval. Die Masterarbeit überprüft mit einer zu diesem Zweck entwickelten prototypischen Softwareanwendung und vier dem Hessischen Hauptstaatsarchiv Wiesbaden angebotenen Dateiablagen, ob dieser Ansatz zielführend ist. Die Textdokumente werden in eine maschinell verarbeitbare Form überführt und mit einer Volltextsuche zugänglich gemacht. Über das Verfahren MinHash können verschiedene Versionen einer Datei sowie Duplikate identifiziert werden. Mit der Analyse von Worthäufigkeiten und N-Grammen (Wortfolgen) sollen dominante Themen im Korpus erkannt und über Named Entity Recognition (NER) Eigennamen identifiziert werden. Der Versuch, Strukturen im Bestand offenzulegen, erfolgt über Clustering. Es wird systematisch untersucht, wieviel jede dieser Methoden zu einem Informationsgewinn beiträgt und auf was für Bestände sie anwendbar ist. Der Prototyp suggeriert, dass die angedachten Methoden zum Erkenntnisgewinn über digitale Bestände beitragen können. Sie nehmen einem Archivar nicht die Arbeit ab, liefern aber ansonsten schwer zu gewinnende Informationen über die verarbeiteten Bestände.

Item Type: Thesis (Masters thesis)
Creators:
Creators
Email
ORCID
ORCID Put Code
Saef, Nasrin
saefnasrin@gmail.com
UNSPECIFIED
UNSPECIFIED
URN: urn:nbn:de:hbz:38-95438
Date: 17 December 2018
Language: German
Faculty: Faculty of Arts and Humanities
Divisions: Faculty of Arts and Humanities > Fächergruppe 1: Kunstgeschichte, Musikwissenschaft, Medienkultur und Theater, Linguistik, IDH > Institut für Digital Humanities (IDH)
Subjects: Data processing Computer science
Public administration
Uncontrolled Keywords:
Keywords
Language
Digital Humanities; Archiv; Archivwissenschaft; Archivische Bewertung; Computerlinguistik; Information Retrieval; Text Mining
UNSPECIFIED
Date of oral exam: 17 December 2018
Referee:
Name
Academic Title
Eide, Øyvind
Prof. Dr.
Hermes, Jürgen
Dr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/9543

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item