Topic Modeling

Topic Modeling und wie es mein Verständnis von Topics und Themen völlig auf den Kopf gestellt hat!

Ein Beitrag von Celina Thiele

Große Mengen an Texten in einer literaturwissenschaftlichen Analyse berücksichtigen zu können, ohne sie selbst lesen zu müssen, klingt erst einmal zu schön, um wahr zu sein. Mit den Methoden der Digital Humanities haben wir nun die Chance dazu, die digitale Welt mit den „verstaubten“ Büchern aus der Bibliothek in Einklang zu bringen. In den letzten paar Wochen habe ich mich in drei grundlegende Methoden der Digital Humanities einarbeiten können. Diese waren unter anderem Named Entity Recognition, Topic Modeling und die digitale Annotation. Mit diesen Methoden ist es mir möglich, meine Interpretationsansätze mit Zahlen, Berechnungen und Grafiken zu unterstützen. Die Methode, die mich während der Arbeit mit diesen neuen Ansätzen am meisten angesprochen hat und über die ich nun ausführlicher berichten möchte, war das Topic Modeling.

Was sind Topics und warum sind sie eben gerade keine Themen?

Topic Modeling ist ein auf Wahrscheinlichkeitsrechnung basierendes Verfahren zur Exploration größerer Textsammlungen. Das Verfahren erzeugt statistische Modelle (Topics), die abbilden, welche Wörter häufig gemeinsam vorkommen. Die Methode des Topic Modeling ermöglicht es, Textsammlungen explorativ zu erforschen, d.h. herauszufinden, welche Topics besonders häufig aufgegriffen wurden. Dabei geht man davon aus, dass eine Textsammlung aus unterschiedlichen ‚Themen‘ bzw. besser ‚Topics‘ besteht, die in den einzelnen Dokumenten der Sammlung in unterschiedlicher Ausprägung vertreten sind. Unter einem ‚Topic‘ versteht man dabei eine Gruppe von Wörtern (wie zum Beispiel die Wörter „Theater“, „Schauspieler“ und „Stück“), die in einem Text ungewöhnlich – d. h. statistisch auffällig – oft gemeinsam vorkommen. Ein ‚Topic‘ ist also ein statistisches Phänomen und damit zwar eine Entsprechung, aber nicht exakt das Gleiche wie ein (inhaltlich definiertes) Thema. Aus diesem Grund bietet die Methode eine gute Möglichkeit, wenn man zum Beispiel prüfen möchte, welche Topics häufig in einer bestimmten Zeit aufgegriffen wurden oder ob ein Autor in seinen Werken häufig ähnliche Topics ausgewählt hat.

Als ich zum ersten Mal gelesen habe, was diese Methode alles schaffen können soll, war ich doch sehr skeptisch. Es klingt zu schön, dass man aus einer großen Menge an Texten die Themen herausfiltern kann. Meistens ist es in literarischen Texten auch so, dass konkrete Themen wie z.B. Religion oder Gesellschaft nicht explizit mit diesen Wörtern benannt, sondern eher umschrieben werden. Das macht es, für diese Methode natürlich schwierig, ein explizites Topic herauszufiltern. Topics sind daher für sich keine Themen, können jedoch als solche interpretiert werden. Auf diese Weise erhält die Methode den Charakter einer textanalytischen Heuristik. Das heißt aber auch, dass Topic Modeling eben nicht, wie anfangs erwartet, Themen automatisch aus Texten herausfiltern kann. Stattdessen unterstützt es den Interpretationsprozess.

Topic Modeling ist eine DER Trend-Methoden der Digital Humanities. Warum es dir in deiner Hausarbeit helfen kann und wieso es dafür erst einmal dein literatur-Verständnis komplett auf den Kopf stellt, erfährst du hier.

#topicmodeling #studieren #uni #studium

Ein Beispiel

Ich habe diese Methode, mit 13 Texten des Autors Theodor Fontane ausprobiert. Meine Fragestellung war: inwiefern wirkt sich die gesellschaftliche Stellung der Figuren auf ihr berufliches Leben aus. Dahinter steht die Frage, ob die Gesellschaft im Allgemeinen eine übergeordnete Rolle in Fontanes Texten spielt. Um dieser Frage näher zu kommen, habe ich den Dariah Topics Explorer eingesetzt, ein Tool, das sich sehr gut bedienen lässt und mit dem man relativ schnell anfangen kann zu arbeiten. Um erstmal ein Gefühl für die Methode zu bekommen, habe ich mehrere Durchläufe mit verschiedenen Parametern getestet. Ich habe mir am Anfang noch relativ viele Topics (25) anzeigen lassen und die Texte 100-Mal durch das Programm geschickt. Dabei ist leider kein zufriedenstellendes Ergebnis herausgekommen, weil die Anzahl der Topics für mein Korpus zu groß war. Also habe ich die Anzahl der Topics auf 15 runtergesetzt und die Texte 500-Mal durch das Programm laufen lassen. Daraufhin hat sich mein Ergebnis im Gegensatz zu den vorherigen schon etwas gebessert. Ich habe dann, um möglichst noch genauere Ergebnisse zu erhalten, die Anzahl der Topics (15) beibehalten und nur die Zahl der Durchläufe erhöht. Allerdings brachte mich das irgendwann auch nicht mehr weiter.

Eine weitere Möglichkeit, um genauere Ergebnisse zu erzielen, bietet die Stoppwortliste. Mit dieser kann man Wörter wie z.B. „und“ oder „ich“ oder Füllwörter und Pronomen usw. aussortieren, da diese bei der Erkennung eines Topics nicht weiterhelfen. So hat man noch einmal die Chance, seine Ergebnisse zu optimieren. Die Methode hat mich dadurch definitiv näher an meinen Primärtext gebracht. Zwar war das Ergebnis noch immer nicht ganz zufriedenstellend, ich habe aber trotzdem ein Gefühl dafür bekommen, worum es in den Texten geht. Und dass, obwohl ich sie vorher nicht gelesen hatte. So konnte ich herausfinden, dass das Thema „Stellung in der Gesellschaft“ durchaus eine tragende Rolle spielt.

Topic Modeling – eine große Hilfe, um den Themen einer Textsammlung näher zu kommen

Topic Modeling hat mich letztendlich überzeugt. Der Vorteil dieser Methode ist, dass man Themen aus einer großen Menge an Texten herauslesen kann, ohne sie im Detail lesen zu müssen. Natürlich ist einiges an Arbeit erforderlich, bis man überhaupt ein detailliertes, zusammenpassendes Topic benennen kann. Es wäre allerdings noch vielmehr Arbeit, alle diese Texte selbst zu lesen. Außerdem wäre es kaum möglich, sich eine so große Menge an Stoff, ohne digitale Hilfe, zu merken. Topic Modeling ist eine Distant-Reading-Methode, die uns dabei hilft, Texte miteinander zu vergleichen. Abhängig von der Größe der Textsammlung kann man selbst entscheiden, wie viele ‚Topics‘ erstellt werden und wie groß diese Topics sein sollen. Man kann seine Topics so lange modellieren, bis sie aussagekräftig genug sind, um zu untersuchen, welche Topics in welchen Texten besonders oft vertreten sind – oder auch umgekehrt, welche Texte ein gegebenes Topic besonders stark ‚thematisieren‘. Ein Nachteil ist, dass man seine Topics eben auch solange „modellieren“ kann, bis man das Ergebnis hat, welches man bereits erwartet hat. Allerdings sollte dies natürlich vermieden werden, durch einen bewussten und reflektierten Umgang mit der Methode.

Bewusst eingesetzt ist Topic Modeling eine große Hilfe, wenn man sich mit Topics und Themen beschäftigt und wissen möchte, was in bestimmten Texten thematisiert wird. Selbst wenn man kein sofort erkennbares Topic finden kann, so kann man doch grob erahnen, worum es in dem vorliegenden Text geht. So wurden meine Vorüberlegungen zu meiner Fragestellung bestätigt. Ich werde definitiv versuchen, diese Methode im weiteren Verlauf meines Studiums zu integrieren.

Diesen Artikel zitieren: Celina Thiele: „Topic Modeling und wie es mein Verständnis von Topics und Themen völlig auf den Kopf gestellt hat!“ In: DH-Challenge. Juli 17, 2019, https://dhchallenge.mareikeschumacher.de/topic-modeling-und-dariah-topics-explorer-im-einsatz—keine-angst-vor-der-analyse-von-grossen-textsammlungen/

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.