Nester, Judith ORCID: 0000-0001-9249-2644 (2021). Rassistische Sprache mit BERT erkennen - Eine Untersuchung am Beispiel deutscher Plenarprotokolle. Masters thesis, Universität zu Köln.

[img]
Preview
PDF
NesterJudith_Masterarbeit_Rassismus_mit_BERT_erkennen_shorthead_github.pdf - Updated Version

Download (1MB) | Preview

Abstract

Immer wieder kommt es vor, dass in Plenardebatten des Deutschen Bundestages rassistische Sprache verwendet wird. Gerade vor dem Hintergrund der Black-Lives-Matter-Demonstrationen, des rechtsextremistischen Terroranschlags von Hanau und der islamistischen Terroranschläge in Frankreich und Deutschland im turbulenten Jahr 2020 zeigt sich daher verstärkt die Notwendigkeit einer Auseinandersetzung mit rassistischer politischer Sprache. Plenarsitzungen sind meist sehr lang und unübersichtlich. Kaum jemand verfolgt alle Debatten und Reden. Diese zu überblicken und rassistische Sprache zeitnah zu identifizieren und zu kritisieren, erscheint in Anbetracht der großen Menge an Textdaten in Plenarprotokollen geradezu unmöglich. Es benötigt dementsprechend ein Tool, das den Text in Plenarprotokollen verarbeitet, versteht und automatisch rassistische Sprache erkennt. Eine Möglichkeit für ein solches Tool birgt das Transformer-basierte BERT. Es stellt derzeit den State-of-the-Art im NLP dar. In dieser Arbeit soll evaluiert werden, ob und wie BERT für eine erfolgreiche binäre Textklassifikation zur Identifikation von rassistischer Sprache in Plenarprotokollen eingesetzt werden kann. Dazu erfolgt zunächst eine Auseinandersetzung mit Rassismus und rassistischer politischer Sprache, um jeweils Arbeitsdefinitionen entwickeln zu können. Nach einer Vertiefung in die theoretischen Grundlagen neuronaler Netze über verschiedene Netzarchitekturen wie RNN, LSTM und Transformer hinweg; wird näher auf die Funktionsweisen von BERT eingegangen. Im praktischen Teil der Arbeit werden schließlich auf Basis der festgelegten Arbeitsdefinitionen von Rassismus und rassistischer Sprache zwei möglichst differenzierte Textkorpora erstellt. Mit diesen Korpora werden fünf Experimente durchgeführt, die Aufschluss über die Forschungsfragen geben sollen. Die Resultate zeigen, dass durchaus Potential für ein BERT-Model besteht, das rassistische Sprache in deutschen Plenarprotokollen identifiziert. Dennoch gibt es noch viele Möglichkeiten das Model zu verbessern. Diese sollten vor einem tatsächlichen Einsatz in der Politik auch genutzt werden.

Item Type: Thesis (Masters thesis)
Translated title:
TitleLanguage
Recognizing racist language with BERT - An investigation using the example of German plenary minutesEnglish
Translated abstract:
AbstractLanguage
It happens again and again that racist language is used in plenary debates in the German Bundestag. Against the background of the Black Lives Matter demonstrations, the right-wing extremist terrorist attack in Hanau and the Islamist terrorist attacks in France and Germany in the turbulent year 2020, the need to deal with racist political language is becoming increasingly evident. Plenary sessions are usually very long and confusing. Hardly anyone follows all the debates and speeches. In view of the large amount of text data in plenary minutes, it seems almost impossible to overlook this and to identify and criticize racist language in a timely manner. Accordingly, a tool is required that processes the text in plenary minutes, understands it and automatically recognizes racist language. One possibility for such a tool is the transformer-based BERT. It currently represents the state-of-the-art in NLP. The aim of this work is to evaluate whether and how BERT can be used for a successful binary text classification to identify racist language in plenary minutes. To this end, there is first a discussion of racism and racist political language in order to be able to develop working definitions. After a deepening in the theoretical basics of neural networks across different network architectures such as RNN, LSTM and Transformer; explains how BERT works in more detail. In the practical part of the work, two differentiated text corpora are created based on the established working definitions of racism and racist language. Five experiments are carried out with these corpora, which are intended to provide information about the research questions. The results show that there is definitely potential for a BERT model that identifies racist language in German plenary minutes. However, there are still many ways to improve the model. These should also be used before they are actually used in politics.English
Creators:
CreatorsEmailORCIDORCID Put Code
Nester, Judithjudithnester@gmail.comorcid.org/0000-0001-9249-2644UNSPECIFIED
URN: urn:nbn:de:hbz:38-543011
Date: 2021
Place of Publication: Köln
Language: German
Faculty: Faculty of Arts and Humanities
Divisions: Faculty of Arts and Humanities > Fächergruppe 1: Kunstgeschichte, Musikwissenschaft, Medienkultur und Theater, Linguistik, IDH > Institut für Digital Humanities (IDH)
Subjects: Generalities, Science
Data processing Computer science
Language, Linguistics
Uncontrolled Keywords:
KeywordsLanguage
BERT, NLP, Natural Language Processing, Transformers, Machine Learning, Neural NetworksEnglish
Date of oral exam: 2021
Referee:
NameAcademic Title
Reiter, NilsProf. Dr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/54301

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item