RST-basierte Zusammenfassung von Texten


Magisterarbeit, 2001

453 Seiten, Note: 1


Leseprobe


Inhaltsverzeichnis

Abkürzungsverzeichnis

Verzeichnis der Abbildungen und Tabellen

1 Einleitung

2 Zusammenfassung von Texten
2.1 Text Extraction
2.2 Fact Extraction

3 Die rhetorische Struktur von Texten
3.1 Rhetorical Structure Theory
3.2 Der Ansatz von Marcu

4 Die Texte
4.1 Text 1: Über eine Hochwasserkatastrophe in Tunesien
4.2 Text 2: Über ein Buch zur nationalen Geschichte
4.3 Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker
4.4 Text 4: Über die Römer und die Etrusker
4.5 Text 5: Über Weinkontrolleure und die Rheinpfalz
4.6 Text 6: Über „Spaß im Freien und anderswo“
4.7 Text 7: Über den Energiemarkt und die EWG
4.8 Text 8: Über Befehle aus dem Unbewußten

5 Die Annotationen

6 Die Ergebnisse
6.1 Die rhetorische Struktur der Texte
6.2 Die Zusammenfassungen
6.2.1 Zusammenfassung von Text 1 (25 %)
6.2.2 Zusammenfassung von Text 1 (50 %)
6.2.3 Zusammenfassung von Text 2 (25 %)
6.2.4 Zusammenfassung von Text 3 (25 %)
6.2.5 Zusammenfassung von Text 4 (25 %)
6.2.6 Zusammenfassung von Text 5 (25 %)
6.2.7 Zusammenfassung von Text 7 (25 %)
6.2.8 Zusammenfassung von Text 7 (50 %)
6.2.9 Zusammenfassung von Text 8 (25 %)
6.3 Weitere Diskussion der Ergebnisse
6.4 Kritische Evaluation

7 Fazit

8 Literatur

9 Internet-Adressen

Anhang A Die Texte

Text 1: Über eine Hochwasserkatastrophe in Tunesien

Text 2: Über ein Buch zur nationalen Geschichte

Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker

Text 4: Über die Römer und die Etrusker

Text 5: Über Weinkontrolleure und die Rheinpfalz

Text 6: Über „Spaß im Freien und anderswo“

Text 7: Über den Energiemarkt und die EWG

Text 8: Über Befehle aus dem Unbewußten

Anhang B Die wichtigsten Sätze

Text 1: Über eine Hochwasserkatastrophe in Tunesien

Text 2: Über ein Buch zur nationalen Geschichte

Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker

Text 4: Über die Römer und die Etrusker

Text 5: Über Weinkontrolleure und die Rheinpfalz

Text 6: Über „Spaß im Freien und anderswo“

Text 7: Über den Energiemarkt und die EWG

Text 8: Über Befehle aus dem Unbewußten

Anhang C Weitere Zusammenfassungen

Zusammenfassung von Text 2 (50 %)

Zusammenfassung von Text 3 (50 %)

Zusammenfassung von Text 4 (50 %)

Zusammenfassung von Text 5 (50 %)

Zusammenfassung von Text 8 (50 %)

Anhang D Das Annotationshandbuch

Das RST-Tool

Elementare Einheiten

Die Relationen

Anhang E Die Einheiten-Tabellen

Text 1: Über eine Hochwasserkatastrophe in Tunesien

Text 2: Über ein Buch zur nationalen Geschichte

Text 3: Über eine Oper nach Albert Camus und ein Konzert der

Berliner Philharmoniker

Text 4: Über die Römer und die Etrusker

Text 5: Über Weinkontrolleure und die Rheinpfalz

Text 6: Über „Spaß im Freien und anderswo“

Text 7: Über den Energiemarkt und die EWG

Text 8: Über Befehle aus dem Unbewußten

Anhang F SGML-Dateien

Text 1: Über eine Hochwasserkatastrophe in Tunesien

Text 2: Über ein Buch zur nationalen Geschichte

Text 3: Über eine Oper nach Albert Camus und ein Konzert der

Berliner Philharmoniker

Text 4: Über die Römer und die Etrusker

Text 5: Über Weinkontrolleure und die Rheinpfalz

Text 6: Über „Spaß im Freien und anderswo“

Text 7: Über den Energiemarkt und die EWG

Text 8: Über Befehle aus dem Unbewußten

Anhang G RS-Bäume

Text 1: Über eine Hochwasserkatastrophe in Tunesien

Text 2: Über ein Buch zur nationalen Geschichte

Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker

Text 4: Über die Römer und die Etrusker

Text 5: Über Weinkontrolleure und die Rheinpfalz

Text 7: Über den Energiemarkt und die EWG

Text 8: Über Befehle aus dem Unbewußten

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Verzeichnis der Abbildungen und Tabellen

Abbildung 1 Schemata

Abbildung 2 Discourse Segement Relations

Abbildung 3 RS-Baum

Abbildung 4 Summarization procedure

Abbildung 5 Beispiel für Einheiten

Abbildung 6 RS-Baum von Text 1

Abbildung 7 Das RST-Tool während der Annotation von Text 1

Abbildung 8 Schalterleiste des RST-Tools

Abbildung 9 Ausschnitt aus Postscript-Datei mit Text

Abbildung 10 Ausschnitt aus Postscript-Datei ohne Text

Tabelle 1 Definition einer Relation (nach Mann/Thompson)

Tabelle 2 Gruppierung der Relationen (nach Mann/Thompson)

Tabelle 3 Beispiel für Relevanzwerte

Tabelle 4 Anzahl von Wörtern und Einheiten je Text

Tabelle 5 Die verwendeten rhetorischen Relationen

Tabelle 6 Die verwendeten Schemata

Tabelle 7 Einheiten und Werte

Tabelle 8 Anzahl der Einheiten je Zusammenfassung und Text

Tabelle 9 Vergleich der Anzahl an Einheiten, 25 %

Tabelle 10 Vergleich der Anzahl an Einheiten, 50 %

1.Einleitung

Wenn man sich die Konzeptionen und Diagnosen der Gegenwartsgesellschaft ansieht, die von Soziologinnen und Soziologen in den letzten Jahren vorgestellt wurden, so wird deutlich, daß dabei oft die Begriffe „Information“ und „Wissen“ eine wichtige Rolle spielen. So hat etwa der Systemtheoretiker Helmut Willke das Konzept der Wissensgesellschaft vorgelegt, in der die Produktion und der Austausch von Wissen und Informationen in einem bisher nicht dagewesenen Maße an Bedeutung für alle Teilsysteme der Gesellschaft zunimmt:

Moderne Organisationen und Gesellschaften befinden sich im Umbruch zu wissensbasierten Systemen. Neben die traditionellen Infrastrukturen der Macht und des Geldes tritt mit zunehmendem Gewicht Wissen als Operationsbedingung und als notwendige Steuerungsressource. [...] Eine entscheidende zusätzliche Voraussetzung der Wissensgesellschaft ist, daß Wissen und Expertise einem Prozeß der kontinuierlichen Revision unterworfen sind und damit Innovationen zum alltäglichen Bestandteil der Wissensarbeit werden.

(Willke 1998b:354 f, Hervorhebung im Original)

Die immer schneller voranschreitende Entwicklung moderner Technologien und die steigende Zahl an Nutzern des World Wide Web ermöglichen den Austausch und die Verknüpfung von Informationen und Wissensbeständen auch über territoriale Grenzen hinweg. Dadurch werden die verfügbaren Bestände an Wissen und Informationen fast ständig neu überdacht, neu verknüpft und somit erweitert und erneuert. In einer Wissensgesellschaft stehen die einzelnen Funktions- systeme, wie etwa das Wissenschaftssystem, dadurch vor der Aufgabe, Zugang zu vorhandenen Wissens- und Informationsbeständen zu bekommen, sie zu nutzen und weiterzugeben.

Gerade im Bereich der Wirtschaft hat diese starke Wissensbasierung beispielsweise die Entwicklung neuer Formen der Arbeit begünstigt, wie etwa das Wissensmanagement, das heute in vielen Firmen die sehr wichtige Aufgabe hat, die immer stärker anwachsende Flut an Informationen zu strukturieren, auf ein überschaubares Maß zu reduzieren und so diese wichtige Ressource nutzbar zu machen.

Ein großer Teil der verfügbaren Informationen liegt wohl in Form von schriftsprachlichen Texten vor, die also auch einen großen Teil des Wissens beinhalten und somit in allen Bereichen, die Wissen und Informationen produzieren und verwerten, eine zentrale Rolle spielen.

Das Zusammenfassen von Texten ist dabei eine Möglichkeit, die immer größer werdende Menge an Texten in den Griff zu bekommen, ohne dabei zuviel an wichtigen Informationen zu verlieren, da gerade Textzusammenfassungen sich im Idealfall dadurch auszeichnen, daß sie die wichtigsten Inhalte des jeweiligen Originaltextes enthalten, dabei aber nur einen Teil von dessen Umfang ausmachen. Das Zusammenfassen von Texten ist daher auch Gegenstand dieser Arbeit.

Die mit Hilfe des RST-Tools von Daniel Marcu erstellten Zusammenfassungen basieren auf einer detaillierten Analyse, welche die rhetorische Struktur des Textes berücksichtigt und sich auf die Rhetorical Structure Theory gründet. Ich habe sie zum einen deshalb ausgewählt, da RST schon seit vielen Jahren erfolgreich in verschiedenen Bereichen der Textanalyse und -verarbeitung an- gewendet wird, wie beispielsweise zur Analyse von Texttypen oder den Bedingungen für Kohärenz und auch im Bereich der Textgenerierung in auto- matischen Systemen (vgl. Rösner/Stede 1994). Zum anderen hat sich das RST- Tool in den letzten Jahren als hilfreich erwiesen bei der Zusammenfassung von kurzen englischen Texten, ist bislang aber nicht auf längere deutsche Texte angewendet worden.

Ich leiste also in zweifacher Hinsicht Pionierarbeit: Zum einen in der Anwendung auf längere Texte (ca. 2000 Wörter je Text) und zum anderen in der Analyse deutschsprachiger Texte, da dafür bisher noch relativ wenig Analysen vorliegen, obwohl es natürlich schon einige Ansätze gibt.

Das Ziel ist also zu erkunden, ob sich diese Methodik auch bei längeren deutschen Texten als hilfreich erweist und ob es denkbar ist, sie in dieser Form im Rahmen eines knowledge management einzusetzen.

Im nachfolgenden Kapitel 2 werde ich zunächst versuchen, den Begriff der Textzusammenfassung mit Hilfe ausgewählter Definitionen einzugrenzen und auf dieser Basis dann einige grundsätzliche theoretische Ansätze vorstellen.

Danach werde ich in Kapitel 3 zunächst die Rhetorical Structure Theory vorstellen und erläutern und dann auf den Ansatz von Daniel Marcu eingehen, der dem empirischen Teil dieser Arbeit zugrunde liegt. In diesem Kapitel werde ich außerdem das RST-Tool vorstellen, das ich zur Anwendung der Methode benutzt habe.

Das vierte Kapitel ist der Beschreibung des Datenmaterials gewidmet, an dem ich die Methodik angewendet habe. Ich werde die Texte einzeln vorstellen und versuchen, sie anhand einiger Kriterien textlinguistisch zu beschreiben und einzuordnen.

Gegenstand des fünften Kapitels ist die Methodik. Hier werde ich auch das von mir benutzte Annotationsschema erläutern und diskutieren.

In Kapitel 6 werde ich dann die Ergebnisse, d. h. die Zusammenfassungen vorstellen und besprechen und schließlich im Fazit (Kapitel 7) den Kreis schließen und versuchen, die eingangs gestellten Fragen zu beantworten.

2.Zusammenfassung von Texten

Das Zusammenfassen eines Textes durch einen Menschen kann vereinfacht dargestellt werden als Prozeß, der drei Stufen umfaßt:

1. Das Verstehen des Inhalts,
2. die Identifizierung der wichtigsten Einheiten und
3. die Generierung eines kürzeren Textes, der die Inhalte der wichtigsten Einheiten transportiert.

Ausgehend von diesem „Basis-Modell” hat es in der Vergangenheit eine Reihe von mehr oder weniger erfolgreichen Versuchen gegeben, automatische Systeme zur Zusammenfassung von Texten bzw. die zugehörigen theoretischen Grundlagen zu entwickeln. Wenngleich diese Arbeit kein solches automatisches System zum Gegenstand hat, sondern eher eine Vorstufe dazu, möchte ich nachfolgend einen kurzen Überblick über einige theoretische Grundlagen im Bereich der automatischen Zusammenfassung von Texten geben.

Karen Spärck Jones definiert „Zusammenfassung“ als eine Transformation, durch die der Originaltext durch die Reduktion des Inhaltes zu einer Zusammenfassung gekürzt wird. Dies kann geschehen durch die Selektion der wichtigsten Inhalte und/oder durch verallgemeinernde Annahmen darüber (vgl. Spärck Jones, in Mani/Maybury 1999)

Hovy und Lin (1997) unterscheiden verschiedene Grade der Vielschichtigkeit von Zusammenfassungen, nämlich „[...] from a simple list of isolated keywords that indicate the major content of the document(s), through a list of independent single sentences that together express the major content, to a coherent, fully planned and generated text that compresses the document(s).“.

Kupiec/Pedersen/Chen (1995) definieren, daß das Zusammenfassen eines Textes eine Reduktion der Komplexität - und dadurch der Länge - ist, wobei die wichtigsten Merkmale (und Inhalte) des Originaltextes erhalten bleiben (vgl. ebd. 1995:68).

Zunächst kann man also feststellen, daß eine Zusammenfassung eine Transformation eines Textes in einen anderen darstellt, deren Komplexität von vielen Faktoren abhängt, wie etwa die Art des Originaltextes oder die gewünschte Form des Zieltextes im Hinblick auf den bzw. die Rezipienten. Je komplexer die

Transformation ist, desto schwieriger ist es, sie in einer von Computern ausführbaren Form zu modellieren.

Weiterhin werden Zusammenfassungen unterschieden nach der Art ihrer Anwendung. So beschreiben indicative oder descriptive abstracts, wovon ein Text handelt und sollen einem Rezipienten so die Entscheidung erleichtern, ob er den gesamten Text lesen muß bzw. will. Informative abstracts dagegen fassen die Inhalte eines Texten so zusammen, daß der Rezipient den Originaltext gar nicht lesen muß. Und critical abstracts schließlich sind das Ergebnis einer Rezension eines Texten und transportieren somit eine individuelle Meinung über den Originaltext.

Diese Unterscheidungen können noch weiter verfeinert werden, wie z. B. durch Hovy und Lin (1997):

Some of the major types of summary that have been identified include indicative (keywords indicating topics) vs. informative (content-laden); generic (author’s perspective) vs. query-oriented (user-specific); background vs. just-the-news; single-document vs. multi-document; neutral vs. evaluative. (in Mani/Maybury 1999:81).

Dies zeigt, daß Zusammenfassungen in unterschiedlichster Art und Weise beschrieben und gruppiert werden können, nicht zuletzt aufgrund der Zielgruppe, für die sie erstellt werden, und der Autoren, die eine solche Einteilung vornehmen. Die Definition bzw. Klassifikation von Zusammenfassungen hat natürlich auch Konsequenzen für Systeme zur automatischen Zusammenfassung und deren Beschreibung. Dies zeigen vor allem die beiden Definitionen von indicative abstracts (siehe oben). Die erste Definition impliziert, daß es sich um eine Zusammenfassung in ganzen Sätzen handelt, also einen mehr oder weniger kohärenten Text, der beschreibt, wovon der Originaltext handelt, also insofern indicative ist, während die zweite Definition restriktiver ist und sich explizit auf eine Menge von keywords bezieht. Ein System, das ganze Sätze aus dem Originaltext herausfinden soll, welche im Idealfall einen kohärenten Text bilden, hat damit eine komplexere Aufgabe zu lösen, als Systeme, die Wortlisten erstellen. Diese Definitionen müssen natürlich auch bei der Evaluation von Systemen

berücksichtigt werden, da die Güte der Ergebnisse immer im Hinblick auf die Anforderungen zu bewerten ist.

In Abhängigkeit von den jeweils verwendeten Methoden werden bei der automatischen Zusammenfassung von Texten jedoch grob zwei Bereiche unterschieden (nach Spärck Jones 1999).

2.1 Text Extraction

Bei der text extraction werden Teile eines Textes - zum Beispiel Sätze oder ganze Abschnitte - mittels statistischer und/oder heuristischer Methoden bezüglich ihrer Wichtigkeit oder Relevanz bewertet. Diese scores of importance dienen als Grundlage für die Entscheidung, welche Teile extrahiert und zu einem kürzen Text zusammengestellt werden, der dann einen Überblick über die Inhalte des OriginalTextes bietet und in der Regel als extract bezeichnet wird.

Nach Spärck Jones (1999) haben die mit dieser Methode produzierten Zusammenfassungen den Nachteil, daß sie zumeist wenig kohärent und somit nur schlecht lesbar und unter Umständen sogar unverständlich sind. Andererseits sind diese Methode und ihre Varianten vermutlich einfacher in automatischen Systemen zu modellieren. Beispiele für diese Methode sind die Systeme von Luhn (1959) und Edmundson (1969) und die Ansätze von Rath et al. (1961) und Brandow et al. (1995)

2.2 Fact Extraction

Anders als bei den text extraction -Methoden basieren die fact extraction -Methoden auf dem Verstehen von Sätzen und Texten mit Hilfe von Techniken aus dem Bereich des Natural Language Processing. Die so gewonnenen Erkenntnisse über die Inhalte eines Textes werden als Grundlage für die Generierung eines neuen, kürzeren Textes genutzt, der dann die Zusammenfassung darstellt, welche zumeist als abstract bezeichnet wird.

Die so produzierten Zusammenfassung sind zwar meist kohärenter, jedoch erfordert dieser Ansatz unter Umständen umfangreiche Wissensbasen und ist in der Regel abhängig von der jeweiligen Textsorte, wie beispielsweise der Ansatz von McKeown et al. (1995).

Da es bislang noch nicht möglich ist, die Stufen 1 und 3 des zu Beginn des Kapitels beschriebenen Prozesses zu automatisieren, liegt der Schwerpunkt der Forschung und Entwicklung im Bereich der automatischen Zusammenfassung zur Zeit auf der zweiten Stufe.

Um die wichtigsten Teile eines Texten identifizieren zu können, sind verschiedene Annahmen getätigt worden:

So stellte Luhn fest, daß wichtige Sätze eines Textes häufig vorkommende Wörter beinhalten, da der Autor im Allgemeinen bestimmte Wörter während der Ausführung seiner Argumentationen, Erläuterungen und Beschreibungen wiederholt (vgl. Luhn 1959:16).

Sein System errechnete Signifikanzfaktoren für jeden Satz, die sich aus der Anzahl bestimmter Wörter und deren relativer Position in den Sätzen ergeben. Um fehlerhafte Werte aufgrund grundsätzlich häufig vorkommender Wörter wie „and“ zu vermeiden, unterschied Luhn solche common words, wie sie auch im Information Retrieval in Form von Stoppwortlisten verwendet werden, von den für die Berechnung relevanten key words, die das System mit Hilfe von Wortlisten identifizierte. Die so mit einem Wert versehenen Sätze wurden in eine Rangfolge gebracht und die Sätze mit dem oder den höchsten Signifikanzfaktor(en) für die Zusammenfassung ausgewählt.

Dieser Annahme fügte Edmundson (1967) weitere hinzu. So stellte er fest, daß die Wichtigkeit eines Satzes durch das Vorhandensein sogenannter pragmatic words indiziert wird, die er unterschied in bonus words, z. B. „significant“, welche eine positive Relevanz, und stigma words, z.B. „hardly“ oder „impossible“, welche eine negative Relevanz anzeigen. Hinzu kommen noch null words, die irrelevant sind. Außerdem stellte er heraus, daß die Position einzelner Sätze im Text ebenfalls ein Indikator für deren Relevanz ist, da zum einen Sätze, die unter bestimmten Überschriften vorkommen, eine positive Relevanz haben und zum anderen Sätze, welche bezüglich des Inhalts relevant sind, tendenziell entweder am Anfang oder am Ende des Textes bzw. seiner Abschnitte vorkommen (vgl. ebd. 1967:31). Diese besonderen Positionen können jedoch je nach Textsorte verschieden sein (vgl. Hovy und Lin 1997).

Überdies wurde die Länge eines Satzes als Indikator für seine Wichtigkeit angenommen, wobei Sätze mit weniger als einer vorher festgelegten Anzahl an Wörter von vorne herein ausgeschlossen wurden (vgl. Kupiec et al. 1995). In weiteren Ansätzen werden zunächst aufgrund von Analysen bestehender Zusammenfassungen bestimmte Muster gebildet, die alle in einer Zusammenfassung nötigen Konzepte abbilden und durch die Analyse eines Textes gefüllt werden. Durch die so gefundenen und den Mustern entsprechenden Einheiten des Originaltextes wird dann die Zusammenfassung generiert.

In neueren Systemen wird zunehmend die Diskurs-Struktur von Texten betrachtet, aus der die Relevanz von Sätzen oder Abschnitten abgeleitet werden kann (vgl. Spärck Jones 1993, Ono/Sumita/Miike 1994). So argumentieren Kurohashi/Nagao (1994:1123):

To understand a text or dialogue, one must track the discourse structure (DS), specifying how sentences are combined and what kind of relations (coherence relations) they have. (Hervorhebung im Original).

Im Gegensatz zu den Ansätzen von Luhn und Edmundson läßt die Analyse der Diskurs-Struktur flexiblere Modelle zur Zusammenfassung von Texten zu, da diese auf eine größere Bandbreite von Texten angewendet werden können und nicht abhängig sind von Elementen, die in vielen Texten unter Umständen nicht vorhanden sind, wie etwa Überschriften oder eine bestimmte Anordnung von Sätzen, Abschnitten und Kapiteln.

Ein Ansatz, der ebenfalls der Gruppe der Diskurs-basierten Methoden zugeordnet werden kann, ist der von Daniel Marcu (1997a). Marcu nutzt die Möglichkeiten der Rhetorical Structure Theory, um die rhetorische Struktur eines Textes zu beschreiben und auf dieser Basis die für eine Zusammenfassung relevanten Einheiten zu identifizieren. Die RST und den Ansatz von Marcu, welcher dem empirischen Teil dieser Arbeit zugrunde liegt, werde ich in nachfolgend näher erläutern.

3.Die rhetorische Struktur von Texten

3.1 Rhetorical Structure Theory

Die Rhetorical Structure Theory (RST) wurde von William Mann, Sandra Thompson u. a. im Rahmen von Studien zur automatischen Textgenerierung am Information Science Institute der University of Southern California 1983 entwickelt, als sie feststellten: „[...] there was no available theory of discourse structure or function that provided enough detail to guide programming any sort of author.“ (Mann, RST Web Site).

Die RST ist eine deskriptive Theorie, durch welche die hierarchische Struktur eines Textes beschrieben werden kann, wobei dies weniger im Hinblick auf die Prozesse der Produktion und Perzeption geschieht, sondern eher bezüglich der Kohärenz eines Textes und der Frage, welche Funktion die einzelnen Einheiten im Text haben. Denn eine der grundsätzlichen Annahmen der RST ist, daß jeder Teil eines kohärenten Textes eine Funktion hat und daß für seine Existenz im Text plausible Gründe gefunden werden können (vgl. Mann, RST Web Site).

Die Kohärenz eines Textes wird zurückgeführt auf das Vorhandensein sogenannter rhetorischer Relationen, welche zwischen zwei sich nicht über- schneidenden Einheiten eines Textes bestehen und funktional definiert sind. Sie beziehen sich auf den Effekt, den der Produzent eines Textes bewirken wollte, indem er die betreffenden Einheiten nebeneinander plazierte; die jeweils bestehende rhetorische Relation ist also abhängig von der Intention des Produzenten und weniger von bestehenden syntaktischen Formen.

Die Länge der Texteinheiten ist nicht festgelegt, aber die Einteilung eines Textes in Einheiten sollte so gewählt sein, daß diese eine eigenständige Funktion haben. Die Autoren wählen in ihren Analysen Sätze bzw. Satzteile und deren Kombinationen - beispielsweise im Falle restriktiver Relativsätze - als kleinste Einheiten eines Textes.

Neben der jeweiligen Beziehung zwischen zwei Einheiten verdeutlichen die rhetorischen Relationen auch, welche der beiden Einheiten bezogen auf die Absicht des Produzenten eine zentralere Rolle spielt. In diesem Konzept der nuclearity gibt es die möglichen Einheiten Nukleus und Satellit. Der Nukleus ist dabei die Texteinheit, welche die Hauptaussage transportiert, also wichtiger ist, während der Satellit eine auf den Nukleus bezogene Information beinhaltet oder Funktion inne hat und vom Nukleus abhängig ist, nicht jedoch umgekehrt. Mann und Thompson gehen davon aus, daß die Mehrheit der natürlich-sprachlichen Texte durch Nukleus-Satellit-Relationen strukturiert ist.

Die rhetorischen Relationen werden definiert durch vier Felder:

1. die Bedingungen für den Nukleus,
2. die Bedingungen für den Satelliten,
3. die Bedingungen für die Kombination von Nukleus und Satellit und
4. den Effekt der Relation.

Hinzu kommt noch der locus of effect, der verdeutlicht, ob der Effekt sich auf den Nukleus oder den Satelliten bezieht.

Jedes dieser Felder definiert spezielle Entscheidungen, die während des Aufbaus der RST-Struktur getroffen werden müssen (vgl. Mann/Thompson 1988:245), wobei sich diese Entscheidungen mehr auf die Plausibilität einer Relation beziehen, da die Intention eines Produzenten zumeist nicht bekannt ist, sondern nur vermutet werden kann. Dabei stellt der zu jeder Relation definierte Effekt die Entscheidungsgrundlage dar, da er dem unangemessenen oder fehlerhaften Gebrauch von Relationen entgegenwirken kann. (vgl. ebd. 1988:258).

Entsprechend diesem Schema wird beispielsweise die Relation EVIDENCE wie folgt definiert:

Abbildung in dieser Leseprobe nicht enthalten

Tab. 1: Definition1 einer Relation (aus: Mann/Thompson 1988:251)

Die RST in ihrer 1988 publizierten Form beinhaltet 23 rhetorische Relationen, die in zwei Klassen unterteilt werden. Diese Klassifizierung basiert auf zwei Aspekten der Textstruktur, welche Mann und Thompson subject matter und presentational nennen und die sie definieren als:

Subject matter relations are those whose intended effect is that the reader recognizes the relation in question; presentational relations are those whose intended effect is to increase inclination in the reader [...] (ebd. 1988:257, Hervorhebung im Original).

Gemäß dieser Unterscheidung ergibt sich folgende Gruppierung der 23 Relationen:

Abbildung in dieser Leseprobe nicht enthalten

Tab. 2: Gruppierung der Relationen (nach Mann/Thompson 1988:257)

Die Relationen werden nicht direkt auf die Texte angewendet, sondern zunächst in Form von Schemata dargestellt, die zu schema applications kombiniert werden, die ihrerseits in einer hierarchischen Anordnung den Strukturbaum formen.

In der RST gibt es fünf Typen von Schemata, welche - basierend auf den Rela- tionen - spezifizieren, in welchen Kombinationen die Texteinheiten vorkommen können.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Schemata (nach Mann/Thompson 1988:247)

In den Diagrammen stellen die horizontalen Linien die Texteinheiten dar. Horizontale Linien mit vertikalen bzw. diagonalen Linien (im Falle von multinuclearen Relationen) stellen die Nuklei dar (N), einfache horizontale Linien die Satelliten (S), während die Bögen die Relationen repräsentieren (R). Durch diese fünf Typen von Schemata können alle RST-Relationen dargestellt werden, wobei die meisten Relationen dem Muster des ersten Diagramms folgen (Typ 1), also aus einem Nukleus und einem zugehörigen Satelliten bestehen. Die nachfolgenden Textbeispiele sollen diese Prinzipien verdeutlichen:

1. Beispiel für Typ 1: EVIDENCE

Abbildung in dieser Leseprobe nicht enthalten

2. Beispiel für Typ 2: CONTRAST

Abbildung in dieser Leseprobe nicht enthalten

3. Beispiel für Typ 3: JOINT

Abbildung in dieser Leseprobe nicht enthalten

Verbindet zwei Nuklei, zwischen denen keine rhetorische Relation besteht, wie beispielsweise zwei Kapitel eines Textes.

4. Beispiel für Typ 4: MOTIVATION und ENABLEMENT

Abbildung in dieser Leseprobe nicht enthalten

5. Beispiel für Typ 5: SEQUENCE

Abbildung in dieser Leseprobe nicht enthalten

Die in den Diagrammen zu Typ 1 und Typ 4 implizierte Anordnung von Nuklei und Satelliten ist nicht bindend, d. h. im Falle von Typ 1 kann der Satellit auch rechts vom Nukleus auftreten und im Falle von Typ 4 können sich beide Satelliten auf einer Seite befinden. Mann und Thompson haben in ihren Analysen jedoch herausgefunden, daß es für eine Reihe von Relationen eine bestimmte, d. h. vorwiegend auftretende Anordnung der Einheiten gibt. So steht beispielsweise in einer BACKGROUND-Relation der Satellit zumeist vor dem Nukleus, während es in einer EVIDENCE-Relation gewöhnlich umgekehrt ist.

Durch die wiederholte Anwendung der Schemata entstehen komplexere Einheiten, bis alle Einheiten zu einer einzigen komplexen Einheit verbunden sind, die dann den Strukturbaum darstellt. Dies bedeutet auch - und ist eine der zentralen Annahmen der RST -, daß nahezu jeder kohärente Text durch einen einzigen RST-Strukturbaum beschrieben werden kann, welcher nur eine Wurzel hat, die alle Einheiten - ob komplex oder einfach - umfaßt, denn kohärente Texte sind typischerweise hierarchisch strukturiert und funktional organisiert (vgl. Mann/Thompson 1988:259). Die Analysen der Autoren und anderer haben jedoch auch ergeben, daß für bestimmte Textsorten, wie Gesetzestexte, Verträge, Poesie u. ä., keine RST-Strukturen erstellt werden können (vgl. ebd.).

Im Laufe der Jahre hat sich die Zahl und Art der rhetorischen Relationen deutlich verändert, wie die folgende Abbildung zeigt. Es handelt sich dabei um eine Aufstellung von möglichen Relationen, wie sie von einer Reihe von Forschern bei der Anwendung der RST festgestellt wurden.

Abb. 2: Discourse Segement Relations (aus: Pereira/Grosz 1994, S. 377)

Abbildung in dieser Leseprobe nicht enthalten

Die Veränderung der Anzahl an Relationen wird auch und vor allem im RST-Tool von Daniel Marcu deutlich, das 49 rhetorische Relationen enthält, davon 48 auch als EMBEDDED-Relationen und 11 Schemata, wie z. B. TITLE und SECTION TEXT. Auch die Art der Relationen hat sich verändert. So kommen im RST-Tool beispielsweise die Relationen JUSTIFY und VOLITIONAL CAUSE von Mann und Thompson nicht mehr vor, wobei die dahinter stehenden rhetorischen Bedeutungen natürlich nicht verschwunden sind, sondern von anderen Relationen getragen werden. Teilweise haben sich sicherlich auch nur die Namen der Relationen verändert bzw. werden u. U. nicht einheitlich benutzt, was die Analyse von Texten möglicherweise erschwert.

3.2 Der Ansatz von Marcu

Daniel Marcu ist als Research Assistent Professor und Project Leader am Information Science Institute der University of Southern California tätig. Seit seiner Dissertation 1997 beschäftigt er sich vor allem mit rhetorischem Parsing, Zusammenfassung von Texten und Generierung, sowie verschiedenen anderen Themen im Bereich des NLP. Insbesondere hat er sich intensiv mit der RST und ihrer Anwendung im Bereich der automatischen Textzusammenfassung ausein- andergesetzt.

Marcus Herangehensweise an die Problematik der automatischen Zusammenfassung von Texten kann dem Bereich des text extraction zugeordnet werden und gehört nach Aone et al. (in Mani/Maybury 1999) zu den discourse-based approaches. In diesen Ansätzen werden Texte aufgrund von Theorien zur Kohäsion und Kohärenz hinsichtlich ihrer internen Struktur analysiert, welche sich aus einer Menge von Relationen ergibt, die zwischen den Einheiten des Textes bestehen. Diese Struktur gibt dann Aufschluß darüber, welche Einheiten zur Erstellung der Zusammenfassung extrahiert werden müssen.

So stellten Miike et al. fest: „The rhetorical structure provides a natural order of importance among sentences in the text, and can be used to determine which sentence should be extracted in the abstract [...].“ (1994:348). Sie erkannten, daß die Analyse der rhetorischen Struktur vor allem vier Vorteile bietet:

1. Die so erstellte Zusammenfassung stimmt mit dem Originaltext insofern überein, als ihr innerer Zusammenhang die Relationen des Originals reflektiert.

2. Nachdem die rhetorische Struktur analysiert wurde und jede Einheit des Textes einen Wert bezüglich ihrer Relevanz erhalten hat, kann die Länge der Zusammenfassung beliebig festgelegt werden bzw. können Zusammenfassungen unterschiedlicher Länge generiert werden, basierend auf den Relevanz-Werten.

3. Das Verfahren benötigt keine vorher festgelegten Muster oder speziell vorbereitetes Wissen und ist somit nicht auf Texte aus bestimmten Gebieten,

wie beispielsweise Sport-Nachrichten, beschränkt, sondern kann auf Texte aus jedem Bereich angewendet werden, solange diese genügend rhetorische Ausdrücke enthalten (vgl. Miike et al. 1994:348).

4. Die Zusammenfassungen enthalten keine Satzfragmente oder Teile, die für sich genommen unverständlich sind. Somit sind sie zumeist kohärent.

Auch Marcu hat gezeigt, daß die Analyse eines Textes gemäß der RST geeignet ist, die wichtigsten Einheiten eines Textes zu erfassen. Er nahm an, daß eine starke Relation besteht zwischen den Nuklei eines RS-Baumes und dem, was Rezipienten für die wichtigsten Einheiten eines Textes halten. Anders aus- gedrückt: Die Nuklei repräsentieren die wichtigsten Einheiten eines Textes. Marcu führte ein psycholinguistisches Experiment durch, um diese Annahme zu verifizieren (vgl. u. a. Marcu 1997a). Er nahm 5 Texte aus Scientific American mit 161 bis 725 Wörtern und teilte sie in kleinste Texteinheiten - zumeist Sätze und Satzteile - ein. Dann ließ er 13 Versuchspersonen - alle mit einem Abschluß in Computerwissenschaften - als independent judges die einzelnen Einheiten hinsichtlich ihrer Relevanz für eine potentielle Zusammenfassung bewerten. Die Versuchspersonen verwendeten dabei eine Skala von 0 bis 2, mit 0 = unwichtig, sollte nicht in einer Zusammenfassung vorkommen, 1 = mäßig wichtig, sollte in einer langen Zusammenfassung vorkommen und 2 = sehr wichtig, sollte auf jeden Fall in einer Zusammenfassung vorkommen.

Marcu instruierte die Versuchspersonen, daß es keine richtigen oder falschen Antworten gibt und die Anzahl der als mäßig wichtig oder sehr wichtig eingestuften Einheiten weder nach unten noch nach oben begrenzt ist (vgl. Marcu 1997a:2). Es gab keine vorherige Einführung, da davon ausgegangen wurde, daß die Studenten genügend Erfahrung im Verstehen und Zusammenfassen von Texten aufwiesen.

Für die gleichen Texte wurden von zwei Computerlinguisten mit umfassenden Kenntnissen der RST die RS-Bäume manuell erstellt. Die Knoten dieser Bäume wurden mit Hilfe eines Formalismus rekursiv mit ihren wichtigsten Einheiten verbunden, wobei gilt:

1. Die wichtigste Einheit eines terminalen Knotens ist dieser selbst und
2. die wichtigsten Einheiten eines internen Knotens sind seine direkt nachfolgenden Nuklei.

In der folgenden Abbildung symbolisieren gestrichelte Rechtecke Satelliten und die anderen Nuklei, gestrichelte Linien zwischen zwei Rechtecken eine Relation zu einem Satelliten und die Pfeile Relationen zu Nuklei.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: RS-Baum (angelehnt an Marcu 1999c:3)

Aus der Abbildung können die wichtigsten Einheiten (salient units) einfach abgelesen werden. Sie werden durch die Zahlen in den Kästchen bezeichnet, welche die internen Knoten repräsentieren. Die Zahlen in den anderen Kästchen sind die fortlaufenden Nummern der jeweiligen Texteinheiten.

Mit Hilfe dieser salient units, die zusammen das promotion set eines Knotens bilden, wurde für jeden Knoten des Baumes ein Wert berechnet, der importance score, dessen Berechnung Marcu in einer Prozedur formalisiert hat (1999a), welche er auf automatisch generierte RS-Bäume anwendet:

Dieser Formalisierung liegt die Annahme zugrunde, daß die salient units, die sich näher an der Wurzel befinden, wichtiger sind, als solche, die näher an den terminalen Knoten vorkommen, woraus folgt: „The larger the score of a unit, the more important that unit is considered to be in a text.“ (Marcu 1999a:3).

Abb. 4: Summarization procedure (nach Marcu 1999 a:4)

Dabei gibt prom(D) das promotion set zurück, paren(D) die parenthetischen Einheiten und C(D) die nachfolgenden Teilbäume des Knotens.

Die Werte für das Beispiel oben lauten wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

Tab. 3: Beispiel für Relevanzwerte

Mit Hilfe dieser Relevanzwerte können die Einheiten eines Textes in eine Rangfolge gebracht werden, die Aufschluß darüber gibt, welche Einheiten in einer Zusammenfassung erhalten sein sollten.

Die Rangfolge für die Einheiten aus obigem Beispiel sieht dann folgendermaßen aus:

Abbildung in dieser Leseprobe nicht enthalten

Eine sehr kurze Zusammenfassung würde so nur aus Texteinheit 2 bestehen, eine etwas ausführlichere aus den Texteinheiten 2 und 8, eine noch ausführlichere aus 2, 8, 3 und 10 usw., wobei die Einheiten dann gemäß ihrer Reihenfolge im Text angeordnet werden, also 2, 3, 8, 10.

Anhand eines RS-Baumes können die Relevanzwerte auch manuell ermittelt werden, indem von unten nach oben einfach ausgezählt wird. Dabei muß beachtet werden, daß von dem Knoten an gezählt wird, in dem die betreffende Texteinheit als erstes im promotion set vorkommt. Betrachtet man etwa die Texteinheit 10, so ist vom internen Knoten mit der Zahl 10 an zu zählen. Dieser Knoten ist zwei Ebenen unter der Wurzel zu finden, d. h. s = d - 2 = 6 - 2 = 4.

Die Texteinheit 5 dagegen ist zuerst im promotion set eines internen Knotens zu finden, der sich drei Ebenen unter der Wurzel befindet, und erhält somit den Wert 3.

Ebenfalls beachtet werden muß, daß bei parenthetischen Texteinheiten 1 abgezogen werden muß, da sie als direkten Nachfolger der Einheit angesehen können, mit der sie verbunden sind (vgl. Marcu 1999a:4).

Marcu fand bei dem Experiment heraus, daß die Probanden bezüglich der sehr wichtigen und unwichtigen Einheiten weitgehend übereinstimmten, die Ergebnisse bei den mäßig wichtigen Einheiten jedoch eher inkonsistent waren. Die Ergebnisse der beiden Computerlinguisten unterschieden sich stärker. Marcu begründet dies mit ihrer unterschiedlichen Interpretation der Texte: „[...] the RStrees of one analyst mirrored the paragraph structure of the texts, while the RStrees of the other mirrored a logical organization of the text, which that analyst believed to be important.“ (Marcu 1997a:4).

Um die Ergebnisse der Studenten mit denen der Computerlinguisten zu vergleichen, wurden für jeden Text zwei Werte berechnet:

1. Wie viele der von den Studenten als wichtig eingestuften Einheiten sind auch auf der Basis der von den Computerlinguisten erstellten RS-Bäume als wichtig eingestuft worden (recall)?

2. Wie viele der Einheiten, die auf der Basis der von den Computerlinguisten erzeugten RS-Bäume als wichtig eingestuft wurden, wurden auch von den Studenten als wichtig eingestuft (precision)?

Dabei gelten die Ergebnisse der Studenten als Richtwerte, da herausgefunden werden sollte, ob die RS-Bäume geeignet sind, um die wichtigsten Einheiten eines Textes zu erkennen, welche in den Strukturen durch die Nuklei repräsentiert werden.

Die so gewonnenen Erkenntnisse beschreibt Marcu wie folgt:

„These results confirm that there exists a strong correlation between the nuclei of the RS-trees that pertain to a text and that readers perceive as being important in that text.“ (1997a:4).2

Um die manuelle Erstellung der RS-Bäume zu erleichtern, hat Marcu ein Programm entwickelt, mit dessen Hilfe Texte im ASCII-Format im Sinne der Rhetorical Structure Theory bearbeitet werden können, d. h. man kann die elementaren Einheiten eines Textes festlegen und mittels einer Menge von vorgegebenen Relationen miteinander verbinden. Ausgangspunkt für das RST- Tool war das discourse annotation tool von O’Donnel (1997, siehe auch RST Web Site), welches sich jedoch bei längeren Texten als problematisch erwiesen hat, da zunächst die elementaren Einheiten festgelegt werden müssen, und diese dann erst in einer bottom-up -Methode zu Bäumen verknüpft werden. Marcu hat dieses Tool vor allem dahingehend modifiziert, daß nun das Festlegen elementarer Einheiten und deren Verknüpfung mittels der rhetorischen Relationen abwechselnd erfolgt, die Einheiten also nacheinander verbunden werden. Dadurch ist die Länge des Textes insgesamt grundsätzlich nicht von Bedeutung. Darüber hinaus hat er die theoretischen Annahmen der RST und die durch ihre Anwendung gewonnen Erkenntnisse in einem Annotationshandbuch zusammengefaßt. Darin gibt er genaue Anweisungen, wie die elementaren Einheiten festgelegt werden können und wie ein Zusammenhang zwischen zwei Einheiten interpretiert werden kann.

Die im Tool verwendeten Relationen sind eine Weiterentwicklung der von Mann und Thompson (1988) vorgestellten Relationen, deren jeweilige Definitionen an die ursprünglichen angelehnt, dabei jedoch vereinfacht sind.

Beispiel: Definition der EVIDENCE-Relation nach Mann/Thompson 1988 (siehe auch Kap. 3.1)

Abbildung in dieser Leseprobe nicht enthalten

Die Definition derselben Relation lautet bei Marcu 1999c:21:

The satellite provides evidence for the situation presented in the nucleus. Usually evidence relations pertain to actions and situations that are independent of the will of an animate object. An evidence is data on which judgement of a conclusion may be based. An evidence satellite increases the chance of the reader accepting the information presented in the nucleus.

Eine genauere Beschreibung des Tools und der Relationen befindet sich im Anhang D.

Das Ziel des nun folgenden empirischen Teils dieser Arbeit ist es, deutsche Texte mit Hilfe des RST-Tools zu annotieren, mit der summarization procedure bzw. ihrer manuellen Variante zusammenzufassen und zu prüfen, ob dabei ebenso gute Ergebnisse erzielt werden können, wie Marcu sie vorgestellt hat.

Die Texte

Die acht Texte, welche ich annotiert habe, stammen aus dem LIMAS-Korpus (Linguistik und Maschinelle Sprachbearbeitung), das 500 Texte aus den Jahren 1970/1971 aus verschiedenen Themenbereichen enthält. Die Texte umfassen alle ca. 2000 Wörter und liegen im ASCII-Format vor, weshalb sie für meine Zwecke geeignet sind. Es handelt sich um Artikel aus täglich oder wöchentlich erscheinenden Zeitungen bzw. Zeitschriften, wie etwa „Der SPIEGEL“, also gedruckte schriftsprachliche Texte. Sie stammen aus verschiedenen Rubriken, unter anderem Geographie, politische Geschichte, Wirtschaft und Populär- wissenschaft und sind aufgrund ihres Erscheinungsortes öffentlich zugänglich (vgl. Glas 1975). Im Rahmen einer vortheoretischen Klassifikation (vgl. Gülich/Raible 1972, Linke/Nussbaumer/Portmann 1991) können die Texte als Pressetexte eingeordnet werden.

Vor der Annotation habe ich vorhandene Fehler in Orthographie und Interpunktion korrigiert, beispielsweise Kleinschreibung am Satzanfang oder von Substantiven wie in:

„Bis zum Jahre 2000, so die bis vor fünf Jahren gültige Lehrmeinung, würden die ölreserven auf der Welt nahezu verbraucht sein.“ (aus Text 7)

Des weiteren habe ich zwei Texte am Ende um zwei bzw. drei Sätze gekürzt, die zu einem neuen Thema gehörten und keinen rechten Sinn ergaben, sowie überschüssige Leerzeichen, etwa zwischen runden Klammern und dem geklammerten Wort, z. B. „[...] ( RWE ) [...]“ (aus Text 7) entfernt.

Wenngleich ich mich in dieser Arbeit mit Texten und deren Struktur befasse, werde ich keine umfassende Analyse der Textsorte vornehmen oder gar ein diesbezügliches Klassifikationsmodell vorstellen und anwenden. Trotzdem werde ich mich bei der Beschreibung der Texte an einige von Linke et al. (1991) und Nussbaumer (1991) vorgestellte Kriterien halten, welche diese Aufgabe zum einem erleichtern und zum anderen eine gleichbleibende Betrachtungsweise ermöglichen. Diese Kriterien werde ich nachfolgend kurz erläutern.

1. Zunächst werde ich alle Texte kurz inhaltlich vorstellen, also beschreiben, um was es darin geht.

2. Nussbaumer (1991) beschreibt eine Differenzierung textueller Grundfunktionen, welche sich auf die Intention des Produzenten beziehen:

a) Informationsfunktion
b) Appellfunktion
c) Obligationsfunktion
d) Kontaktfunktion
e) Deklarationsfunktion

In einer guten Zusammenfassung eines Textes sollte seine Grundfunktion, also die Intention des Autors, natürlich nicht verloren gehen, sondern ebenfalls zum Ausdruck kommen.

3. In Abhängigkeit von den Grundfunktionen können verschiedene Grundformen

thematischer Entfaltung festgestellt werden, also die charakteristischen Strukturen der Komposition, welche in einem Text vorherrschen:

a) deskriptiv
b) narrativ
c) explikativ
d) argumentativ
e) instruktiv
f) normativ.3

Diese Grundformen der thematischen Entfaltung schließen sich nicht gegenseitig aus. So ist es denkbar, daß beispielsweise ein im Grunde deskriptiver Text, wie etwa die Beschreibung eines Bildes, einen explikativen Teil enthält oder auch einen argumentativen.

4. Der Aufbau und die Gliederung eines Textes, beispielsweise in Kapitel, ist für die Analyse im Sinne der RST und vor allem für die Annotation mit dem RST- Tool von nicht geringer Bedeutung. Der RS-Baum eines stark strukturierten Textes im Sinne vieler Kapitel und Unterkapitel wird eine andere Form aufweisen als ein Text, der aus nur einem Kapitel besteht. Da dies letztlich auch die Zusammenfassungen beeinflußt - die Ebene, auf der eine Einheit sich im RS-Baum befindet, entscheidet u. a. darüber, ob diese Einheit in einer Zusammenfassung vorkommt, vgl. Kapitel 3.3 - werde ich die Texte auch in dieser Hinsicht beschreiben.

5. Das letze Kriterium ist die Sprachmittelwahl, d. h. ist ein Text eher fachsprachlich oder umgangssprachlich, weist er deutliche morphosyntaktische Eigenheiten auf, wie etwa der vermehrte Gebrauch von ich im Gegensatz zu man, beinhaltet er Metaphern, Floskeln oder Redewendungen, wird der Rezipient direkt angesprochen, verwendet der Autor verschachtelte Sätze usw.

Alle Versuche, Texte in solche Kategorien zu pressen, sind natürlich sehr problematisch, denn jeder Text beinhaltet auf den verschiedenen Ebenen eine ganze Reihe von Merkmalen und Eigenheiten, wie etwa die der Struktur des gesamten Textes bis hin zur Struktur von Sätzen oder Satzteilen oder morpho- syntaktische Merkmale, die erst in ihrer jeweiligen Kombination und Ausprägung einen bestimmten Text ausmachen und somit nicht mehr problemlos auf andere Texte übertragbar sind.

Nussbaumer (1999) schreibt zu dieser Problematik:

Eine allgemein akzeptierte Textklassifikation und damit einen allgemein akzeptierten Begriff des Texttyps (der Textsorte) gibt es heute noch nicht, geschweige denn eine verbindliche Terminologie. Stattdessen gibt es eine kaum mehr überblickbare Literatur zum generellen Problem der Textklassifikation, mit Klassifizierungsvorschlägen und Vorschlägen der Differenzierung von ’Textklassen“, ’Textsorten‘, ’Texttypen‘, ’Textarten‘, ’Funktionalstilen‘ etc. sowie mit Versuchen der Beschreibung einzelner postulierter Textklassen. (S. 257).

Daher habe ich mich entschlossen, kein Schema zur Beschreibung der Texte zu entwickeln (oder aus der Literatur zu entnehmen), sondern nachfolgend jeden Text einzeln anhand der vorgestellten Kategorien zu beschreiben, diese aber mehr als Richtlinie zu nutzen und weniger als festgelegtes Schema.

Eine Zusammenstellung der Sätze (bzw. Teilen von Sätzen), die mir als die Wichtigsten erscheinen, befindet sich für jeden Text in Anhang B. Bei dieser Zusammenstellung habe ich mir selber keine Beschränkungen bzgl. Anzahl oder Länge der ausgewählten Sätze auferlegt. Auch habe ich nicht bewußt theoretische Erkenntnisse oder Annahmen angewendet, wie ich sie in Kapitel 2 beschrieben habe. Die Entscheidung über die Auswahl der Sätze war rein intuitiv. Diese

„Zusammenfassungen“ werde ich später als Vergleich zu den Ergebnissen nutzen, die ich mit Hilfe des RST-Tools erhalten habe.

4.1 Text 1: Über eine Hochwasserkatastrophe in Tunesien

Bei diesem Text handelt es sich um einen Bericht von Geographen, welche die Auswirkungen der Hochwasserkatastrophe in Tunesien im Jahr 1969 beobachtet und analysiert haben.

Die Autoren geben zunächst einen Überblick über die Auswirkungen des Hochwassers insgesamt, um davon ausgehend die Verbreitung der Überschwemmungen und der dadurch entstandenen Schäden in den einzelnen Regionen zu erläutern. Sie beziehen sich dabei hauptsächlich auf die geographischen und geophysischen Merkmale der Regionen, welche sowohl die Katastrophe begünstigt haben, als auch ihre Auswirkungen sind, wobei sie auch auf die Konsequenzen für die dort lebenden Menschen und die Infrastruktur hinweisen.

Der Text wird durch die Unterteilung in mehrere Unterkapitel strukturiert, innerhalb derer einzelne Punkte des Themas vertiefend behandelt werden, wobei diese sich auch aufeinander beziehen und aufeinander aufbauen. Die Satzstruktur ist überwiegend hypotaktisch mit einer Tendenz zu Nominalisierungen. Die Verfasser verwenden eine Reihe von Fachbegriffen - zum Beispiel „morphodynamische Wirksamkeit“ und „Denudationserscheinungen“ - und Formulierungen, welche eine gewisse Kenntnis der Materie beim Leser voraussetzen, wie etwa „Betrachtet man die Wirksamkeit der Flutwellen und Hochwasser im gesamten Land Tunesien [...], so wird deutlich, daß der Großformenschatz des Reliefs eine leitende Funktion ausübt.“ und „Hierbei kann man drei Bereiche unterscheiden: den erosiven Zerschneidungsbereich des höheren Reliefs, den erosiv-flächenwirksamen Bereich und den Sedimentationsbereich.“.

Insgesamt kann also festgestellt werden, daß es sich bei diesem Text um eine eher wissenschaftliche Beschreibung bzw. Darstellung und Erklärung von durch Beobachtung und Analyse gewonnenen Erkenntnissen handelt.

4.2 Text 2: Über ein Buch zur nationalen Geschichte

Der Autor dieses Textes widmet sich der Rezension eines Buches zur nationalen Geschichte Deutschlands, welches von einem Geschichtslehrer verfaßt wurde. Nach einigen Betrachtungen über die Geschichtswissenschaft im allgemeinen und das Verfassen von Geschichtsbüchern im besonderen, wendet sich der Autor der Frage zu, inwieweit das Buch aufgrund der „Verteilung des Stoffes auf den Gesamtumfang“ zu beurteilen ist und verdeutlicht seinen Standpunkt anhand einiger konkreter Beispiele.

Der Text ist nicht - wie der vorherige - durch Unterkapitel strukturiert und der Autor widmet sich nicht ausschließlich der inhaltlichen Beschreibung des Buches, welches er rezensiert, sondern befaßt sich auch mit „den Aufgaben der Histographie“, der Person des Verfassers des Buches und der Frage, welche Aufgaben ein solches Buch zu erfüllen hat und auf welche Weise dies geschehen kann bzw. soll.

Wenngleich der Autor wenig Fachvokabular benutzt, setzt der Text beim Rezipienten zumindest die ungefähre Kenntnis des Buches voraus, was von Lesern einer Rezension durchaus auch erwartet werden kann. Die Funktion dieses eine hypotaktische Satzstruktur aufweisenden Textes ist es nicht, eine inhaltliche Zusammenfassung des rezensierten Buches zu geben, sondern eine individuelle Meinung zu verdeutlichen, welche der Verfasser mit Belegen, zum Beispiel aus dem Buch selber, untermauert:

„Dem Vf. ist also zuzugestehen, daß er mit der Abbreviatur vereinfacht und sich angesichts des Forschungsstandes so oder so festlegt. Dazu lesen wir nun: `Das Kennzeichen des Germanen war seine Freiheit. Sippe und Stamm waren Zusammenschluß freier Männer.´. Das ist nun eine Kurzformel, die in einer modernen Darstellung so nicht gut stehenbleiben kann [...]“.

4.3 Text 3: Über eine Oper nach Albert Camus und ein Konzert der Berliner Philharmoniker

Der Verfasser des Textes berichtet im ersten Teil über eine Aufführung von Camus‘ „Der Belagerungszustand“ der Hamburger Staatsoper. Er beginnt mit einer Schilderung der Ereignisse, die zu der Inszenierung geführt haben, geht dann auf die Darstellung und das Ensemble ein, und widmet sich schließlich der musikalischen Seite der Aufführung.

Der zweite Teil ist ein Bericht über „Das dritte Programm der PhilharmonikerReihe `Musik des 20. Jahrhunderts´“ in Berlin. Der Autor liefert einen Überblick über das Programm, versehen mit Kommentaren über Komponisten und Musiker, sowie einige Hintergrundinformationen.

Beide Teile des Textes sind nicht weiter durch Unterkapitel gegliedert, beziehen sich aber jeweils auf ein Thema, die Oper und das Konzert, wobei in beiden Fällen Informationen zu Personen und Ereignissen eingeschoben werden, die eine gewisse Kenntnis der „Szene“ beim Rezipienten voraussetzen, zum Beispiel: „Ähnlichkeiten mit dem Chorstil von Luigi Nono hat Kelemen eingeräumt, aber auch Dallapiccola schlägt mitunter durch.“

und „In Zagreb fiel 1967 Alfred Schnittke mit einem expressiven, hochpolyphonen Quartett auf.“

Die Wortwahl ist stark vom Thema „Musik“ beeinflußt, auch wenn es sich nicht in allen Fällen um Fachvokabular handelt. So verwendet der Autor Formulierungen wie „Die Breite der naturhymnischen Einlagen“, „seriell gebundenes Ensemble“ und „allzu ostentativ kubistische Ordnung“, welche ohne Fachkenntnisse kaum zu verstehen sind.

Die Grundfunktion des Textes ist die Information im Sinne einer Beschreibung der Oper bzw. ihrer Entstehung und des Konzertes, angereichert mit Hintergrundinformationen. Der Text ist überwiegend deskriptiv, zum Teil jedoch auch explikativ und produziert für Rezipienten mit gewissen Kenntnissen der Materie.

4.4 Text 4: Über die Römer und die Etrusker

Der Autor des Textes berichtet von einer Schlacht zwischen Römern und Etruskern, welche Rom den entscheidenden Sieg bringt.

Er beginnt seinen Bericht mit einer Beschreibung der Wandgemälde eines etruskischen Grabes - Szenen des Todes und Todesdämonen - und geht von dort über zur Erläuterung der Umstände im Vorfeld besagter Schlacht, um schließlich von der Schlacht selber zu berichten.

Der überwiegend hypotaktische Text ist in zwei Teile gegliedert, wobei nur der zweite durch eine Überschrift eingeleitet wird.

Der erste Teil ist die Beschreibung besagter Grabkammer und dient als Einleitung und Rahmen bzw. Hintergrund für die Beschreibung und Erklärung der Ereignisse, die zu der Schlacht führen, welche im zweiten Teil behandelt wird. Der Autor verwendet kein Fachvokabular und der Stil ist im ersten Teil eher emotional durch die häufige Verwendung von Metaphern, wie: „Schreckeinflößend, einem Schatten gleich, [...]“, durch die der Verfasser die Eindrücke, die er bei der Betrachtung der Gemälde in der Grabkammer gewinnt bzw. gewonnen hat, zu beschreiben versucht.

Der zweite Teil wirkt dagegen nüchterner und ist mehr eine Beschreibung und Erklärung von Ereignissen, welche der Autor durch Zitate aus anderen, möglicherweise historischen, Quellen belegt.

Der überwiegend deskriptive und zum Teil explikative Text mit der Grundfunktion der Information richtet sich offenbar nicht an Rezipienten mit Fachkenntnissen der römischen oder etruskischen Geschichte und Kultur, sondern will die Umstände, die zum Untergang der Etrusker geführt haben, beschreiben und erläutern.

4.5 Text 5: Über Weinkontrolleure und die Rheinpfalz

Der Autor des Textes informiert die Rezipienten im ersten Teil über die Arbeit eines Weinkontrolleurs und beschreibt im zweiten Teil eine „Weinfahrt durch die Rheinpfalz“.

Nach dem Versuch einer Einordnung des Berufes des Weinkontrolleurs und einigen Betrachtungen über das Weingesetz und typische Straftaten in diesem Bereich, beschreibt der Autor einen Arbeitstag eines Weinkontrolleurs, was dessen Vorgehensweise verdeutlichen soll.

Im zweiten Teil beschreibt der Verfasser einige Lagen in der Rheinpfalz sowie die zugehörigen Weinsorten und nimmt darin auch eine kurze Beschreibung der Entwicklung der Weinkultur auf.

Der Text wird durch drei Unterkapitel strukturiert, die je einen anderen Aspekt des Themas „Wein“ beschreiben und erklären, wobei sich das zweite Unterkapitel auf das erste bezieht, das dritte jedoch auch unabhängig von den beiden anderen bestehen kann.

Der Autor verwendet in allen drei Kapitel hypotaktische Satzbaumuster und keine Fachtermini, sowie einige Beispiele, um bestimmte Aussagen zu belegen. Die Grundfunktion des Textes, der sowohl deskriptiv als auch explikativ ist, ist auch hier die Information.

Der Text richtet sich offenbar nicht unbedingt an ein Fachpublikum im Sinne von Weinkennern, sondern möchte interessierten Lesern den Beruf des Weinkontrolleurs und die Weinlagen der Rheinpfalz näherbringen.

4.6 Text 6: Über „Spaß im Freien und anderswo“

Der Verfasser dieses Textes möchte seine Leser offenbar dazu bewegen, sich in ihrer Freizeit mehr sportlicher Betätigung zuzuwenden.

Er beginnt mit einem Vergleich zwischen (berufstätigen) Erwachsenen und Kindern, um zu verdeutlichen, daß erstere im Gegensatz zu letzteren zu wenig Bewegung als Ausgleich zum Berufsleben haben.

Danach folgt eine Aufzählung verschiedener Freizeitaktivitäten, wie etwa Jogging, Krocket oder Angeln, welche der Autor in kurzen Sätzen - fast in Form von Schlagworten - jeweils kurz erläutert.

Das Thema des Textes - „Spaß im Freien und anderswo“ - wird durchgehend behandelt und in einzelnen Punkten vertieft, der Text beinhaltet also viele kurze Unterkapitel, die durch den sprachlichen Stil zwar eher abgehackt wirken, rein thematisch jedoch durchaus zusammenhängend sind.

Der Autor verwendet kein Fachvokabular und der überwiegend parataktische Text ist eher umgangssprachlich, wie z. B. „Nie läßt’s sich übermütiger tollen.“ und „Hier mal was Neues [...]“. Im Rahmen dieser Aneinanderreihung kurzer Sätze und einzelner Wörter wird der Rezipient mehrfach direkt angesprochen, zum Teil in Form von Fragen, wie „Haben Sie Mut zum Spaß?“.

Durch diesen überwiegend deskriptiven Text mit wenigen Explikationen und der Grundfunktion „Information“ sollen die Rezipienten offenbar angeregt werden, die hier vorgestellten Aktivitäten selbst auszuprobieren.

[...]


1 R steht für reader, W für writer, N für nucleus und S für satellite.

2 Die genauen Ergebnisse können in (Marcu 1997a) und (Marcu 1999a) nachgelesen werden.

3 Dies sind natürlich nur einige von vielen möglichen Grundformen. Da sie mir jedoch für die von mir annotierten Texte und meinen Zweck ausreichend erscheinen, beschränke ich mich darauf.

Ende der Leseprobe aus 453 Seiten

Details

Titel
RST-basierte Zusammenfassung von Texten
Hochschule
Rheinische Friedrich-Wilhelms-Universität Bonn
Note
1
Autor
Jahr
2001
Seiten
453
Katalognummer
V186664
ISBN (eBook)
9783869435565
ISBN (Buch)
9783869433509
Dateigröße
5903 KB
Sprache
Deutsch
Schlagworte
rst-basierte, zusammenfassung, texten
Arbeit zitieren
Tanja Udelhofen (Autor:in), 2001, RST-basierte Zusammenfassung von Texten, München, GRIN Verlag, https://www.grin.com/document/186664

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: RST-basierte Zusammenfassung von Texten



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden