Saef, Nasrin (2018). Textanalyse mit dem „CollectionExplorer“. Eine Evaluation der Anwendbarkeit computerlinguistischer Methoden zur archivischen Bewertung großer unstrukturierter Textsammlungen. Masters thesis, Universität zu Köln.

[img]
Preview
PDF
Saef_Masterarbeit_public.pdf - Published Version

Download (1MB) | Preview
[img] ZIP (Software (Python))
CollectionExplorer.zip - Published Version

Download (77kB)

Abstract

Die Arbeit deutscher Verwaltungen hat sich in den letzten Jahrzehnten immer weiter ins Digitale verlagert. Anders als von Archivaren zunächst antizipiert findet diese digitale Verwaltungsarbeit häufig in Dateiablagen statt. Da auch aktenrelevante Unterlagen darin verwahrt werden, müssen sie bewertet und gegebenenfalls ins zuständige Archiv übernommen werden. Dies ist aufgrund der Charakteristika von Dateiablagen schwierig: Sie sind häufig sehr groß, wenig strukturiert, redundant und für Außenstehende kaum zu überblicken. Herkömmliche Hilfsmittel zur archivischen Bewertung, wie Aktenpläne oder Abgabelisten, existieren für sie nicht. Es müssen andere Methoden herangezogen werden, um dieser Quellengattung gerecht zu werden. Ein denkbares Werkzeug ist die IT-gestützte inhaltliche Auswertung digitaler Volltexte mit Methoden aus den Feldern Computerlinguistik und Information Retrieval. Die Masterarbeit überprüft mit einer zu diesem Zweck entwickelten prototypischen Softwareanwendung und vier dem Hessischen Hauptstaatsarchiv Wiesbaden angebotenen Dateiablagen, ob dieser Ansatz zielführend ist. Die Textdokumente werden in eine maschinell verarbeitbare Form überführt und mit einer Volltextsuche zugänglich gemacht. Über das Verfahren MinHash können verschiedene Versionen einer Datei sowie Duplikate identifiziert werden. Mit der Analyse von Worthäufigkeiten und N-Grammen (Wortfolgen) sollen dominante Themen im Korpus erkannt und über Named Entity Recognition (NER) Eigennamen identifiziert werden. Der Versuch, Strukturen im Bestand offenzulegen, erfolgt über Clustering. Es wird systematisch untersucht, wieviel jede dieser Methoden zu einem Informationsgewinn beiträgt und auf was für Bestände sie anwendbar ist. Der Prototyp suggeriert, dass die angedachten Methoden zum Erkenntnisgewinn über digitale Bestände beitragen können. Sie nehmen einem Archivar nicht die Arbeit ab, liefern aber ansonsten schwer zu gewinnende Informationen über die verarbeiteten Bestände.

Item Type: Thesis (Masters thesis)
Creators:
CreatorsEmailORCID
Saef, Nasrinsaefnasrin@gmail.comUNSPECIFIED
URN: urn:nbn:de:hbz:38-95438
Subjects: Data processing Computer science
Public administration
Uncontrolled Keywords:
KeywordsLanguage
Digital Humanities; Archiv; Archivwissenschaft; Archivische Bewertung; Computerlinguistik; Information Retrieval; Text MiningUNSPECIFIED
Faculty: Faculty of Arts and Humanities
Divisions: Faculty of Arts and Humanities > Institut für Digital Humanities
Language: German
Date: 17 December 2018
Date of oral exam: 17 December 2018
Referee:
NameAcademic Title
Eide, ØyvindProf. Dr.
Hermes, JürgenDr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/9543

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item