Uncategorized

Ärgernis und Erkenntnis in der Named Entitiy Recognition

Ein Beitrag von Nele Benz 

Die Digital Humanities begründen, mit etwas Pathos ausgedrückt, eine neue Ära der literaturwissen-schaftlichen Forschung. Ein frühes Produkt dieser Forschung ist die Named Entity Recognition. Sie er-möglicht die automatisierte Auswertung von Textkorpora mithilfe von Annotationen und damit die Re-alisierung von Forschungsprojekten, die ohne diese entsprechende Technik sehr zeit- und arbeitsauf-wändig wäre. 

Trotz aller Versprechungen und Vorteile hat auch dieses Tool seine Nachteile und Problematiken. Denn im Bereich der Digital Humanities können nicht nur Denk- und Recherchefehler, sondern auch technische Probleme auftreten. Dies erweitert zwar die Erfahrungen in der Softwareanwendung, kann aber auch den Arbeitsprozess verlangsamen. Ein Verständnis und Gefühl für technische Anwendung und eine eingehende Beschäftigung mit dem entsprechenden Tool der Named Entity Recognition sind eine gute Eingangsvoraussetzung für ein erfolgreiches Projekt. 

Der Stanford Named Entity Recognizer (NER) ist ein Tool der Digital Humanities, mithilfe dessen Text-korpora durchsucht und ausgewertet werden können. 

Das Programm dient dazu, ein individuelles Textkorpus automatisiert zu annotieren. Es ist in Hinblick auf computerlinguistische Anwendung entwickelt worden, weswegen für die Nutzung in der Literatur-wissenschaft Anpassungen erforderlich werden. Um das Tool auf literarische Texte anwenden zu kön-nen, müssen Annotationskategorien von der Benutzer*in in einem Trainingskorpus festgelegt werden. Damit das Vorkommen bestimmter Begriffe, Personen, Orte etc. quantitativ bestimmt werden kann, werden entsprechende Kategorien annotiert. Das Trainingskorpus besteht dementsprechend aus Aus-schnitten des gesamten zu untersuchenden Korpus, und wird nach vorgenommener Annotation in die Software eingespeist. 

Die Perspektiven, die das Programm in der literaturwissenschaftlichen Anwendung eröffnet, sind di-vers. Sowohl quantitative Analysen sind möglich, als auch die Einspeisung der Daten in andere Pro-gramme zur Visualisierung der Ergebnisse. Ein nicht zu vernachlässigender Punkt ist natürlich auch die Zeitersparnis, die mit der Automatisierung eines großen Aufgabenteils einhergeht. 

Das Tool ermöglicht die Beantwortung (oder zumindest die konstruktive Bearbeitung) literaturwis-senschaftlicher Fragen, die ohne die Entwicklungen der Technik und der Digital Humanities nicht mög-lich waren. 

So viele Vorteile das Programm auch bietet, kann es auch zur Herausforderung für die Anwender*in werden. 

Unabhängig von technischen Hardwareproblemen ist die Annotation des Trainingskorpus eine mög-liche Fehlerquelle. Wird das Trainingskorpus zu heterogen annotiert, ist der NER nicht mehr in der Lage, die manuellen tags auf den gesamten Text zu übertragen. Je einheitlicher also die mit tags versehenen Wörter sind, desto treffsicherer kann der NER arbeiten. Die Einheitlichkeit kann sowohl durch überein-stimmende grammatikalische Kategorien, als auch durch Stringenz bei Abweichungen erreicht werden. Sollen beispielsweise im Text auftretende Personen annotiert werden, werden wahrscheinlich Eigenna-men, aber auch Personalpronomen mit tags versehen. Eigennamen und Pronomen gehören zwar nicht der gleichen grammatikalischen Kategorie an. Wird aber das Trainingskorpus sorgfältig annotiert, kann das Programm dennoch die Verbindung zwischen beiden Systemen herstellen und sie dem gleichen tag zuordnen. 

Diese Komplikation wurde mir persönlich erst während der Anwendung des Tools bewusst. 

Die Arbeit mit dem Named Entity Recognizer hat mich bereichert. Sie hat mich auch angestrengt und zu vielen Überarbeitungen gezwungen, aber hauptsächlich habe ich die Arbeit mit dem Tool als Erweite-rung meines methodischen und literaturwissenschaftlichen Horizonts erfahren. 

Die theoretische Einführung während des Seminars ermöglichte direkte Rückfragen und Diskurs im Plenum. Bei dieser ersten praktischen Anwendung und Rücksprache fielen mir viele zukünftige Prob-leme noch nicht auf, weswegen die tiefergehende Arbeit erst begann, als ich das Tool auf mein spezifi-sches Korpus trainierte. 

Um aussagekräftige Ergebnisse generieren zu können, muss das Tool aus dem annotierten Trainings-korpus genug stringente Informationen ziehen können. In diesem Punkt lag in Bezug auf mein konkretes Projekt die Problematik. Die von mir gewählten Begriffe und Kategorien waren nicht klar genug definiert, um dem Programm die Möglichkeit zu geben, ein System zu erkennen und es auf das gesamte Korpus anzuwenden. 

Durch die Arbeit mit dem Tool hatte ich zwar nicht das Gefühl, einzelnen Primärtexten aus dem Kor-pus nähergekommen zu sein, aber ich habe definitiv einen intensiveren Überblick und Einblick über und in das gesamte Korpus bekommen. 

Das Konzept, ein Tool daraufhin zu programmieren, Systeme zu erkennen und zu markieren, ist sehr attraktiv. Es ist nicht nur für rein literaturwissenschaftliche Projekte geeignet, sondern auch für linguis-tische Auswertungen, jegliche quantitative Erhebungen in Verbindung mit Texten und viele ähnliche Projekte. 

Für mich persönlich hat das Programm den Mehrwert der hohen Anwendungsbreite. Der Blick auf Projekte kann mithilfe der Analysen erweitert werden. 

In der Theorie der Anwendung überwiegen eindeutig die Vorteile gegenüber dem notwendigen Ar-beitsaufwand für entsprechende manuelle Erhebungen. Wenn das Programm ohne größere Hindernisse zum Laufen gebracht und dann verwendet werden kann, ist es eine große Bereicherung für wissen-schaftliche Projekte. Da in meinem Projektverlauf vermehrt Probleme bei der Anwendung auftraten, konnte ich den NER nicht in all seiner Effizienz nutzen. Dennoch freue ich mich darauf, mir das Tool weiter zu erschließen, um weitere Projekte damit anreichern zu können. 

Diesen Artikel zitieren: Nele Benz: “ Ärgernis und Erkenntnis in der Named Entitiy Recognition “ In: DH-Challenge. Januar 9, 2019, https://dhchallenge.mareikeschumacher.de/argernis-und-erkenntnis-in-der-named-entitiy-recognition/

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.