Die empirische Arbeit >>RST-basierte Zusammenfassung von Texten<< beschäftigt sich mit der Frage, ob und in welchem Maße das von Daniel Marcu entwickelte RST-Tool zur Generierung von Zusammenfassungen längerer deutscher Texte (ca. 2000 Zeichen) geeignet ist.
Dabei werden zunächst der Begriff der Textzusammenfassung eingegrenzt und einige grundlegende theoretische Ansätze vorgestellt, wie text extraction und fact extraction.
Ausgehend von der Erläuterung der Rhetorical Structure Theory (Mann/Thompson et al. 1983) werden der Ansatz von Marcu und das RST-Tool vorgestellt.
Der textlinguistischen Beschreibung und Einordnung des im empirischen Teil verwendeten Datenmaterials folgt die Erläuterung der Methodik inklusive der Beschreibung und Diskussion des verwendeten Annotationsschemas.
Die Präsentation und Diskussion der Ergebnisse und das Fazit schließen die Arbeit ab.
Inhaltsverzeichnis
1 Einleitung
2 Zusammenfassung von Texten
2.1 Text Extraction
2.2 Fact Extraction
3 Die rhetorische Struktur von Texten
3.1 Rhetorical Structure Theory
3.2 Der Ansatz von Marcu
4 Die Texte
4.1 Text 1: Über eine Hochwasserkatastrophe in Tunesien
4.2 Text 2: Über ein Buch zur nationalen Geschichte
4.3 Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
4.4 Text 4: Über die Römer und die Etrusker
4.5 Text 5: Über Weinkontrolleure und die Rheinpfalz
4.6 Text 6: Über „Spaß im Freien und anderswo“
4.7 Text 7: Über den Energiemarkt und die EWG
4.8 Text 8: Über Befehle aus dem Unbewußten
5 Die Annotationen
6 Die Ergebnisse
6.1 Die rhetorische Struktur der Texte
6.2 Die Zusammenfassungen
6.2.1 Zusammenfassung von Text 1 (25 %)
6.2.2 Zusammenfassung von Text 1 (50 %)
6.2.3 Zusammenfassung von Text 2 (25 %)
6.2.4 Zusammenfassung von Text 3 (25 %)
6.2.5 Zusammenfassung von Text 4 (25 %)
6.2.6 Zusammenfassung von Text 5 (25 %)
6.2.7 Zusammenfassung von Text 7 (25 %)
6.2.8 Zusammenfassung von Text 7 (50 %)
6.2.9 Zusammenfassung von Text 8 (25 %)
6.3 Weitere Diskussion der Ergebnisse
6.4 Kritische Evaluation
7 Fazit
8 Literatur
9 Internet-Adressen
Anhang A Die Texte
Text 1: Über eine Hochwasserkatastrophe in Tunesien
Text 2: Über ein Buch zur nationalen Geschichte
Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
Text 4: Über die Römer und die Etrusker
Text 5: Über Weinkontrolleure und die Rheinpfalz
Text 6: Über „Spaß im Freien und anderswo“
Text 7: Über den Energiemarkt und die EWG
Text 8: Über Befehle aus dem Unbewußten
Anhang B Die wichtigsten Sätze
Text 1: Über eine Hochwasserkatastrophe in Tunesien
Text 2: Über ein Buch zur nationalen Geschichte
Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
Text 4: Über die Römer und die Etrusker
Text 5: Über Weinkontrolleure und die Rheinpfalz
Text 6: Über „Spaß im Freien und anderswo“
Text 7: Über den Energiemarkt und die EWG
Text 8: Über Befehle aus dem Unbewußten
Anhang C Weitere Zusammenfassungen
Zusammenfassung von Text 2 (50 %)
Zusammenfassung von Text 3 (50 %)
Zusammenfassung von Text 4 (50 %)
Zusammenfassung von Text 5 (50 %)
Zusammenfassung von Text 8 (50 %)
Anhang D Das Annotationshandbuch
Das RST-Tool
Elementare Einheiten
Die Relationen
Anhang E Die Einheiten-Tabellen
Text 1: Über eine Hochwasserkatastrophe in Tunesien
Text 2: Über ein Buch zur nationalen Geschichte
Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
Text 4: Über die Römer und die Etrusker
Text 5: Über Weinkontrolleure und die Rheinpfalz
Text 6: Über „Spaß im Freien und anderswo“
Text 7: Über den Energiemarkt und die EWG
Text 8: Über Befehle aus dem Unbewußten
Anhang F SGML-Dateien
Text 1: Über eine Hochwasserkatastrophe in Tunesien
Text 2: Über ein Buch zur nationalen Geschichte
Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
Text 4: Über die Römer und die Etrusker
Text 5: Über Weinkontrolleure und die Rheinpfalz
Text 6: Über „Spaß im Freien und anderswo“
Text 7: Über den Energiemarkt und die EWG
Text 8: Über Befehle aus dem Unbewußten
Anhang G RS-Bäume
Text 1: Über eine Hochwasserkatastrophe in Tunesien
Text 2: Über ein Buch zur nationalen Geschichte
Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
Text 4: Über die Römer und die Etrusker
Text 5: Über Weinkontrolleure und die Rheinpfalz
Text 7: Über den Energiemarkt und die EWG
Text 8: Über Befehle aus dem Unbewußten
Zielsetzung & Themen
Die Arbeit untersucht, ob die Rhetorical Structure Theory (RST), die bisher erfolgreich bei kurzen englischen Texten eingesetzt wurde, auch zur automatischen Zusammenfassung längerer deutscher Texte geeignet ist. Dabei wird geprüft, inwiefern die Methode die inhaltliche Relevanz von Texteinheiten erfassen kann, um eine kohärente Zusammenfassung zu generieren, und ob dieser Ansatz in Wissensmanagement-Systemen nutzbar wäre.
- Anwendung der Rhetorical Structure Theory auf deutsche Sachtexte
- Methodik zur manuellen und automatischen Erstellung von Textzusammenfassungen
- Evaluation der Kohärenz und Informationsgehalts von Zusammenfassungen
- Vergleich von Zusammenfassungen mit unterschiedlichen Reduktionsraten (25% und 50%)
- Kritische Diskussion der RST-basierten Textanalyse bei längeren Dokumenten
Auszug aus dem Buch
3.1 Rhetorical Structure Theory
Die Rhetorical Structure Theory (RST) wurde von William Mann, Sandra Thompson u. a. im Rahmen von Studien zur automatischen Textgenerierung am Information Science Institute der University of Southern California 1983 entwickelt, als sie feststellten: „[...] there was no available theory of discourse structure or function that provided enough detail to guide programming any sort of author.“ (Mann, RST Web Site).
Die RST ist eine deskriptive Theorie, durch welche die hierarchische Struktur eines Textes beschrieben werden kann, wobei dies weniger im Hinblick auf die Prozesse der Produktion und Perzeption geschieht, sondern eher bezüglich der Kohärenz eines Textes und der Frage, welche Funktion die einzelnen Einheiten im Text haben. Denn eine der grundsätzlichen Annahmen der RST ist, daß jeder Teil eines kohärenten Textes eine Funktion hat und daß für seine Existenz im Text plausible Gründe gefunden werden können (vgl. Mann, RST Web Site).
Die Kohärenz eines Textes wird zurückgeführt auf das Vorhandensein sogenannter rhetorischer Relationen, welche zwischen zwei sich nicht überschneidenden Einheiten eines Textes bestehen und funktional definiert sind. Sie beziehen sich auf den Effekt, den der Produzent eines Textes bewirken wollte, indem er die betreffenden Einheiten nebeneinander plazierte; die jeweils bestehende rhetorische Relation ist also abhängig von der Intention des Produzenten und weniger von bestehenden syntaktischen Formen.
Die Länge der Texteinheiten ist nicht festgelegt, aber die Einteilung eines Textes in Einheiten sollte so gewählt sein, daß diese eine eigenständige Funktion haben. Die Autoren wählen in ihren Analysen Sätze bzw. Satzteile und deren Kombinationen - beispielsweise im Falle restriktiver Relativsätze - als kleinste Einheiten eines Textes.
Zusammenfassung der Kapitel
1 Einleitung: Die Arbeit thematisiert die wachsende Bedeutung von Informationen in der Wissensgesellschaft und führt in die Notwendigkeit von Textzusammenfassungen ein.
2 Zusammenfassung von Texten: Hier werden theoretische Grundlagen zur Textzusammenfassung erläutert und zwischen den Methoden der Text Extraction und Fact Extraction unterschieden.
3 Die rhetorische Struktur von Texten: Dieses Kapitel stellt die Rhetorical Structure Theory (RST) sowie den Ansatz von Daniel Marcu zur Textanalyse detailliert vor.
4 Die Texte: Die für die Untersuchung verwendeten acht Texte aus dem LIMAS-Korpus werden inhaltlich und textlinguistisch beschrieben.
5 Die Annotationen: Die Methodik der manuellen Einteilung der Texte in elementare Einheiten sowie die Anwendung des RST-Tools werden ausführlich dargelegt.
6 Die Ergebnisse: In diesem Kapitel werden die erstellten Zusammenfassungen präsentiert, analysiert und hinsichtlich ihrer Kohärenz und Qualität evaluiert.
7 Fazit: Das Fazit fasst die Ergebnisse zusammen und diskutiert das Potenzial sowie die Grenzen der Methode für längere deutsche Texte.
Schlüsselwörter
Textzusammenfassung, Automatische Textverarbeitung, Rhetorical Structure Theory, RST, Kohärenz, Textanalyse, Textlinguistik, Diskursstruktur, Wissensmanagement, Text Extraction, Annotation, Linguistik, Information Retrieval, Zusammenfassung, Strukturbaum.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Magisterarbeit befasst sich mit der automatischen Zusammenfassung von deutschen Sachtexten mittels der Rhetorical Structure Theory (RST).
Was sind die zentralen Themenfelder der Untersuchung?
Die Schwerpunkte liegen auf der Analyse der Diskursstruktur von Texten, der Anwendung der RST zur Identifikation wichtiger Informationseinheiten und der Evaluation der resultierenden Zusammenfassungen.
Was ist das primäre Ziel der Arbeit?
Das Ziel ist zu erforschen, ob die RST-basierte Methode, die bisher vorwiegend für kurze englische Texte erprobt wurde, auch für längere deutsche Texte effizient und hilfreich angewendet werden kann.
Welche wissenschaftliche Methode wird primär verwendet?
Die Arbeit nutzt die Rhetorical Structure Theory und das dazugehörige RST-Tool zur manuellen Annotation der Textstrukturen sowie eine darauf basierende Prozedur zur Ermittlung der Relevanzwerte von Einheiten.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil werden die theoretischen Grundlagen der Textzusammenfassung und der RST dargelegt, eine Auswahl von acht Texten annotiert und die Ergebnisse dieser Annotationen detailliert analysiert und diskutiert.
Welche Schlüsselwörter charakterisieren die Untersuchung?
Die Arbeit lässt sich am besten über Begriffe wie Textzusammenfassung, RST, Kohärenz, Diskursstruktur und Wissensmanagement charakterisieren.
Warum wurden Texte aus dem LIMAS-Korpus für die Analyse gewählt?
Das LIMAS-Korpus wurde aufgrund seiner Verfügbarkeit und der Länge der enthaltenen Texte gewählt, da diese sich gut für die Überprüfung der RST-Methodik auf längeren, deutschen Texten eignen.
Welche Rolle spielt die Länge der Texte für die Qualität der RST-Zusammenfassungen?
Die Arbeit zeigt, dass bei längeren Texten die RST-Analyse komplexer wird und das Fehlen bestimmter Kontexteinheiten die Kohärenz der Zusammenfassung beeinträchtigen kann, was die manuelle oder automatische Nachbearbeitung relevanter macht.
- Citar trabajo
- Tanja Udelhofen (Autor), 2001, RST-basierte Zusammenfassung von Texten, Múnich, GRIN Verlag, https://www.grin.com/document/186664