Textanalyse mit dem „CollectionExplorer“. Eine Evaluation der Anwendbarkeit computerlinguistischer Methoden zur archivischen Bewertung großer unstrukturierter Textsammlungen.

Saef, Nasrin (2018). Textanalyse mit dem „CollectionExplorer“. Eine Evaluation der Anwendbarkeit computerlinguistischer Methoden zur archivischen Bewertung großer unstrukturierter Textsammlungen. Masters thesis, Universität zu Köln. Open Access

Preview	PDF Saef_Masterarbeit_public.pdf - Published Version Download (1MB) \| Preview
	ZIP (Software (Python)) CollectionExplorer.zip - Published Version Download (77kB)

Abstract

Die Arbeit deutscher Verwaltungen hat sich in den letzten Jahrzehnten immer weiter ins Digitale verlagert. Anders als von Archivaren zunächst antizipiert findet diese digitale Verwaltungsarbeit häufig in Dateiablagen statt. Da auch aktenrelevante Unterlagen darin verwahrt werden, müssen sie bewertet und gegebenenfalls ins zuständige Archiv übernommen werden. Dies ist aufgrund der Charakteristika von Dateiablagen schwierig: Sie sind häufig sehr groß, wenig strukturiert, redundant und für Außenstehende kaum zu überblicken. Herkömmliche Hilfsmittel zur archivischen Bewertung, wie Aktenpläne oder Abgabelisten, existieren für sie nicht. Es müssen andere Methoden herangezogen werden, um dieser Quellengattung gerecht zu werden. Ein denkbares Werkzeug ist die IT-gestützte inhaltliche Auswertung digitaler Volltexte mit Methoden aus den Feldern Computerlinguistik und Information Retrieval. Die Masterarbeit überprüft mit einer zu diesem Zweck entwickelten prototypischen Softwareanwendung und vier dem Hessischen Hauptstaatsarchiv Wiesbaden angebotenen Dateiablagen, ob dieser Ansatz zielführend ist. Die Textdokumente werden in eine maschinell verarbeitbare Form überführt und mit einer Volltextsuche zugänglich gemacht. Über das Verfahren MinHash können verschiedene Versionen einer Datei sowie Duplikate identifiziert werden. Mit der Analyse von Worthäufigkeiten und N-Grammen (Wortfolgen) sollen dominante Themen im Korpus erkannt und über Named Entity Recognition (NER) Eigennamen identifiziert werden. Der Versuch, Strukturen im Bestand offenzulegen, erfolgt über Clustering. Es wird systematisch untersucht, wieviel jede dieser Methoden zu einem Informationsgewinn beiträgt und auf was für Bestände sie anwendbar ist. Der Prototyp suggeriert, dass die angedachten Methoden zum Erkenntnisgewinn über digitale Bestände beitragen können. Sie nehmen einem Archivar nicht die Arbeit ab, liefern aber ansonsten schwer zu gewinnende Informationen über die verarbeiteten Bestände.

Item Type:	Thesis (Masters thesis)
Creators:	Creators Email ORCID ORCID Put Code Saef, Nasrin saefnasrin@gmail.com UNSPECIFIED UNSPECIFIED
URN:	urn:nbn:de:hbz:38-95438
Date:	17 December 2018
Language:	German
Faculty:	Faculty of Arts and Humanities
Divisions:	Faculty of Arts and Humanities > Fächergruppe 1: Kunstgeschichte, Musikwissenschaft, Medienkultur und Theater, Linguistik, Digital Humanities > Institut für Digital Humanities (IDH)
Subjects:	Data processing Computer science Public administration
Uncontrolled Keywords:	Keywords Language Digital Humanities; Archiv; Archivwissenschaft; Archivische Bewertung; Computerlinguistik; Information Retrieval; Text Mining UNSPECIFIED
Date of oral exam:	17 December 2018
Referee:	Name Academic Title Eide, Øyvind Prof. Dr. Hermes, Jürgen Dr.
Refereed:	Yes
URI:	http://kups.ub.uni-koeln.de/id/eprint/9543

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item