Topic Modeling

Topic Modeling und DARIAH Topics Explorer im Einsatz – Keine Angst vor der Analyse von großen Textsammlungen

Ein Beitrag von Nastassia Shin

200 literarische Texte. Etwa 150 Autoren, 50 Autorinnen und nur ein menschliches Gehirn, das eine Menge von Werken thematisch analysieren und vergleichen soll.  Wird es das alleine schaffen oder soll es sich Unterstützung holen? Wer könnte ihm denn helfen?… Es hat gehört, es gibt in der technischen Computerwelt einige Methoden und Tools, die es unterstützen könnten. Über eine davon berichten die nächsten Zeilen: Topic Modeling.

Topic Modeling mit dem DARIAH Topics Explorer ist so einfach, dass du es sogar ohne technische Vorkenntnisse hinbekommen kannst. Nur beim Interpretieren kann es schon einmal knifflig zugehen. Das und mehr zeigt dieser Erfahrungsbericht. #TopicModeling #Bildung #Wissenschaft #Technik

Was ist eigentlich „Topic Modeling“?

In der Wissenschaft steht Topic Modeling für eine Gruppe von Verfahren, die „es ermöglichen, anhand einer statistischen Analyse des lexikalischen Inventars Rückschlüsse auf die zugrunde liegende thematische Struktur einer Sammlung von Texten zu ziehen“ (Bock u. a. 2016, S. 11, zit. n. Blei 2012). Dabei geht man davon aus, dass die Texte aus verschiedenen „Topics“ bestehen. Als ein Topic wird eine Wörtergruppe in einem jeweiligen Text bezeichnet, die aus Wörtern besteht, die ungewöhnlich oft gemeinsam erscheinen.

An dieser Stelle muss man aber aufpassen: Topics können nicht mit Themen gleichgesetzt werden. Sie können aber als Hinweise auf thematische Schwerpunkte gedeutet werden. Als Experte kann man sich frei entscheiden, wie viele Topics gebildet werden und welche Größe sie haben sollen (vgl. Horstmann 2018). Topic Modeling gehört zu den Distant Reading Verfahren, mit denen eine große Menge an Texten analysiert werden kann. Die Texte müssen dabei nicht selbst gelesen werden. Die während dessen produzierten Themen  könnten z. B. für eine Klassifizierung von Texten benutzt werden, wie z. B. Genre oder Epoche (vgl. Underwood & Goldstone, 2012).

Vor- und Nachteile des Topic Modelings

Die oben genannte Möglichkeit, eine große Textmenge zu analysieren, sowie „schnelle Umsetzbarkeit“ (Renker 2015, S. 12) sind große Vorteile der Methode (vgl. Horstmann 2018). Über dies handelt es sich bei Topic Modeling um einen rein mathematischen Ansatz, was sein sprachunabhängiges Funktionieren bedingt. Deshalb könnte diese Methode verwendet werden, um z. B. thematische Strukturen in mehrsprachigen Korpora zu erforschen (vgl. Baumgardt u. a. 2015, S. 16). Gleichzeitig hat die Methode auch einige Nachteile. Wie bereits erwähnt wurde, können Topics in einem interpretativen Verfahren auf Themen bezogen werden, sodass verschiedene Menschen aus den gleichen Topics unterschiedliche Themen konstruieren können. Das hängt auch mit dem weiteren problematischen Aspekt zusammen, dass die gleichen Topics von sich aus verschiedenen Themen angehören können, wie z. B. das Wort „Spiel“ nicht nur auf das Thema „Sport“, sondern auch auf das Thema „Theater“ bezogen werden kann (vgl. ebd., S. 18).

Topic Modeling leicht gemacht mit dem DARIAH Topics Explorer

Trotz der vorhandenen Problematik war meine persönliche Erfahrung mit der Methode eher positiv. Ich habe mich mit dem Tool DARIAH Topics Explorer auseinandergesetzt. Mit seiner Hilfe habe ich gesehen, wie Topic Modeling in der Praxis funktioniert. Dieses Tool hat eine grafische Nutzoberfläche und verlangt keine Kenntnisse im Coding, sodass die Nutzung vom DARIAH Topics Explorer als selbsterklärend bezeichnet werden kann. Mit Hilfe einer kurzen theoretischen Anleitung kann meiner Meinung nach auch ein unerfahrener Nutzer das Tool erfolgreich nutzen, um eine Antwort auf eigene Fragestellungen zu bekommen.

Mein persönliches Interesse bei der Nutzung des Tools lag darin, zu erfahren, zu welchen Themen die Autoren des 19. Jahrhunderts im Vergleich zu Autorinnen geschrieben haben. Hier sollte betont werden, dass der DARIAH Topics Explorer mich der Antwort auf diese Frage näher gebracht hat. Schon nach einigen Durchläufen haben sich Topics gebildet, die im Laufe der weiteren Analyse interpretierbar waren. Zwar mussten die Ergebnisse anfangs noch verbessert werden, dies war mit Methoden wie der Anpassung der Korpora (z. B. Trennung der Texte von Autoren und Autorinnen voneinander), Verfeinerung der Stopplisten (Ausschließen der für die Analyse nicht relevanten Wörter) oder Erhöhung der Durchläufe, die DARIAH Topics Explorer unternimmt, aber leicht zu erreichen (vgl. Horstmann 2018 & DH-Challenge 2019).

Der DARIAH Topics Explorer ermöglicht Distant Reading ohne technische Vorkenntnisse

Kurz und knapp zum Schluss: Topic Modeling bietet bemerkenswerte Vorteile bei der thematischen Textanalyse, die vor allem darauf zurückgeführt werden können, dass gleichzeitig große Textmengen bearbeitet werden, ohne dass jeder Text gelesen werden muss. Außerdem ist diese Methode gut für die Arbeit mit mehrsprachigen Korpora. Die Schwierigkeiten bei der Nutzung der Methode entstehen hauptsächlich durch die Mehrdeutigkeit der Topics. Trotzdem kann ich mir gut vorstellen, diese Methode in meinem weiteren Studium zu verwenden, da sie sogar den Nutzern mit weniger technischer Erfahrung breite Möglichkeiten bei der Exploration großer Textsammlungen zur Verfügung stellt.  

Diesen Artikel zitieren: Nastassia Shin: „Topic Modeling und DARIAH Topics Explorer im Einsatz – Keine Angst vor der Analyse von großen Textsammlungen.“ In: DH-Challenge. Dezember 2019, https://dhchallenge.mareikeschumacher.de/topic-modeling-und-dariah-topics-explorer-im-einsatz—keine-angst-vor-der-analyse-von-grossen-textsammlungen/

Literaturverzeichnis

Baumgardt, Frederik, Bock, Sina, Du, Keli, Huber, Michael, Munson, Matt, Pernes, Stefan, Pielström, Steffen,  Sünkel, Michael (2015): Der Einsatz quantitativer Textanalyse in den Geisteswissenschaften: Bericht über den Stand der Forschung (R 5.2.3). Würzburg: DARIAH­DE.

Underwood, Ted, Goldstone, Andrew (2012): What can topic models of PMLA teach us about the history of literary scholarship? [Beitrag auf der Webseite]. Zugriff am 22.07.2019 über https://tedunderwood.com/2012/12/14/what-can-topic-models-of-pmla-teach-us-about-the-history-of-literary-scholarship/.

Blei, David M. (2012): Probabilistic topic models. In: Communications of the ACM 55, 4, 77–84.

Bock, Sina, Du, Keli, Huber, Michael, Pernes, Stefan, Pielström, Steffen (2016): Der Einsatz quantitativer Textanalyse in den Geisteswissenschaften. Bericht über den Stand der Forschung. In: DARIAH-DE Working Papers 18, 4-17.

DH-Challenge (2019): Woche 3 – Topic Modeling Theorie [Beitrag auf der Webseite]. Zugriff am 22.07.2019 über https://dhchallenge.mareikeschumacher.de/woche-3-topic-modeling-theorie/.

Horstmann, Jan (2018): Topic Modeling [Beitrag auf der Webseite]. Zugriff am 22.07.2019 über https://fortext.net/routinen/methoden/topic-modeling.

Renker, Lennart (2015): Exploration von Textkorpora. Topic Models als Grundlage der Interaktion. Masterthesis zur Erlangung des akademischen Grades Master of Science (M.Sc.). Köln: Fachhochschule Köln. Fakultät für Informatik und Ingenieurswissenschaften.

Ein Gedanke zu „Topic Modeling und DARIAH Topics Explorer im Einsatz – Keine Angst vor der Analyse von großen Textsammlungen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.