Name: Zum Punkt gekommen - Über den Nutzen von Zeichensetzung in einer deutschen HPSG (Head-driven Phrase Structure Grammar)
Price: 0.99 EUR
Availability: InStock
Author: Nicolai Kilian
ISBN: 978-3-640-23516-2

Zeichensetzung wurde bisher in der HPSG-Literatur außer acht gelassen, obwohl schon lange bekannt ist, dass die Integration von Interpunktion in sprachverarbeitende Systeme große Vorteile mit sich bringt: Aus der Sicht der Syntaxanalyse kann die Reduktion von Teilanalysen erhebliche Effizienzgewinne schaffen und einige globale Ambiguitäten auflösen. Aus Generierungssicht ist ebenfalls die Auflösung globaler Ambiguitäten anzuführen, außerdem ist die Interpunktion in der geschriebenen Sprache ein wesentliches Kriterium für die Wohlgeformtheit von Sätzen und Satzteilen. Ich erweitere in dieser Arbeit das deutsche HPSG-Fragment GG um eine Menge von Zeichensetzungsphänomenen und implementiere einige ausgewählte neue Syntagmata. Bei Testläufen mit diesen neuen Konstruktionen auf einem 950 Sätze großen Ausschnitt des TiGer-Korpus ergibt sich bei Verwendung von Interpunktionsconstraints eine Reduktion des Zeit-und Arbeitsspeicherplatzverbrauchs um über 80 Prozent und eine Reduktion der durchschnittlichen Anzahl an Parseanalysen um über den Faktor 24, verglichen mit der gleichen Grammatik ohne Interpunktionsbeschränkungen. Auch die Basis-GG ohne neue Syntaxregeln profitiert von Interpunktionsconstraints: Beim Parsen auf dem Babel-Testkorpus ergibt sich ein um 8,5 % geringerer Platz -und ein um 4,2 % niedrigerer Zeitverbrauch. Erstmals zeige ich, wie Zeichensetzung für das Deutsche integrativ – das heißt, ohne bestehende Syntaxregeln aufzuspalten– und aus generativer Perspektive adäquat bezüglich amtlicher Vorschriften implementiert werden kann. Außerdem diskutiere ich, welche fundamentale Verbesserung die Konsumierung nicht-freistehender Satzzeichen durch lexikalische Regeln verglichen mit der Behandlung als eigenständige Token mit sich bringt. Ein weiterer Aspekt dieser Arbeit ist die Gewährleistung von Robustheit beim Parsen einerseits und Adäquatheit bei der Generierung andererseits. Ich stelle Methoden vor, mit denen es möglich wird, beide Merkmale zugleich in der selben Grammatik zu vereinbaren.[...]

Extrait

Inhaltsverzeichnis

Danksagungen

1 Einleitung

2 Computerlinguistische Arbeiten

3 Die relevanten Interpunktionsvorschriften im Deutschen
3.1 Kennzeichnung des Schlusses von Äußerungen
3.2 Gliederung innerhalb von Äußerungen
3.2.1 Koordination
3.2.2 Nebensätze
3.2.3 Infinitivsätze
3.2.4 Zusätze oder Nachträge gemäß Regelwerk
3.3 Liberalisierung der Interpunktionsregeln seit 1996

4 Technische Rahmenbedingungen

5 Grundkonzepte der Implementation
5.1 Vorüberlegung: Tokenisierung vs. Spelling
5.2 Überblick uber die Implementation
5.3 Platzierung der Interpunktionsfeatures
5.4 Initialisierung der Lexeme
5.5 Einhängung der lexikalischen Interpunktionsregeln

6 Implementation
6.1 Blockieren unlizenzierter Kommata
6.2 Behandlung bestehender Konstruktionen
6.2.1 Kennzeichnung des Schlusses von Ää ußerungen
6.2.2 Neben- und eingeleitete Infinitivsatze
6.2.3 Üneingeleitete Infinitivsätze
6.2.4 Syndetische und rekursive Koordination
6.2.5 Kontaktfragen und Interjektionen im Vorvorfeld
6.3 Einfährung neuer Konstruktionen
6.3.1 Äsyndetische Koordination
6.3.2 Exkurs: Lose Äppositionen
6.3.3 Exkurs: Äbgesonderte V1-Parenthesen
6.3.4 Zeichensetzung bei Einschuäben am Beispiel von losen Äppositionen und V1- Parenthesen
6.3.5 Sonstiges: Kennzeichnung der Wärter bestimmter Gruppen
6.4 Maßnahmen fär robustes Parsing
6.5 Maßnahmen zur Effizienzverbesserung

7 Evaluation
7.1 Adäquatheit bei der Generierung
7.2 Basisperformanz ohne neue Konstruktionen
7.2.1 Performanz bei maximaler Robustheit
7.2.2 Performanz bei strikten Interpunktionsvorgaben
7.3 Performanz mit neuen Konstruktionen
7.3.1 Tests der einzelnen Konstruktionen auf kleinen, känstlichen Korpora
7.3.2 Tests unter realistischen Bedingungen
7.4 Abdeckung mit neuen Konstruktionen

8 Schlussfolgerungen und Ausblicke

Danksagungen

Ich bedanke mich bei ...

... meinem Betreuer PD Dr. Berthold Crysmann, der die Idee für dieses spannende Thema hatte, meine Arbeit des (Öfteren in die richtigen Bahnen lenkte und mir immer wieder wertvolle Hinweise gab.

... Prof. Dr. Hans Uszkoreit, der als Chef des Sprachtechnologiebereichs am DFKI in Saarbrücken diese Arbeit überhaupt erst ermüglicht hat.

... Bernd Kiefer für seine bemerkenswerte Hilfsbereitschaft, für seine klaren Antworten bei technischen Fragen und für den ein oder anderen Literaturtip.

... Dr. Andreas Eisele, ebenfalls für seine Hilfsbereitschaft und für seine gelegentlichen Aufmunterungen.

... Tina Klüwer für ihre Hilfe bei der Installation wichtiger Tools.

... meinem Bruder Andrej Kilian fürs Korrekturlesen.

Zusammenfassung

Ich erweitere in dieser Arbeit das deutsche HPSG-Fragment GG um eine Menge von Zeichensetzungsphänomenen und implementiere einige ausgewählte neue Syntagmata. Bei Testläufen mit diesen neuen Konstruktionen auf einem 950 Sätze großen Ausschnitt des TiGer-Korpus ergibt sich bei Verwendung von Interpunktionsconstraints eine Reduktion des Zeit- und Arbeitsspeicherplatzverbrauchs um über 80 Prozent und eine Reduktion der durchschnittlichen Anzahl an Parseanalysen um uber den Faktor 24, verglichen mit der gleichen Grammatik ohne Interpunktionsbeschränkungen. Auch die Basis-GG ohne neue Syntaxregeln profitiert von Interpunktionsconstraints: Beim Parsen auf dem Babel-Testkorpus ergibt sich ein um 8,5% geringerer Platz- und ein um 4,2% niedrigerer Zeitverbrauch.

Erstmals zeige ich, wie Zeichensetzung fur das Deutsche integrativ - das heißt, ohne bestehende Syntaxregeln aufzuspalten - und aus generativer Perspektive adäquat bezäglich amtlicher Vorschriften implementiert werden kann.

Außerdem diskutiere ich, welche fundamentale Verbesserung die Konsumierung nicht-freistehender Satzzeichen durch lexikalische Regeln verglichen mit der Behandlung als eigenstaändige Token mit sich bringt.

Ein weiterer Aspekt dieser Arbeit ist die Gewäahrleistung von Robustheit beim Parsen einerseits und Adaäquatheit bei der Generierung andererseits. Ich stelle Methoden vor, mit denen es moäglich wird, beide Merkmale zugleich in derselben Grammatik zu vereinbaren.

1 Einleitung

Zeichensetzung wurde bisher in der HPSG-Literatur^[1] außer acht gelassen. Auch die übrige computerlinguistische Literatur hat sich nach den neunziger Jahren kaum noch mit diesem Thema beschaftigt - zu Unrecht, denn die 15 Interpunktionszeichen^[2] (nach Engel, 1988)

, Komma

. Punkt

! Ausrufezeichen

? Fragezeichen

: Doppelpunkt

; Strichpunkt

/ Schrägstrich

— Gedankenstrich

- Bindestrich [/Ergänzungsstrich]

„ “ Anführungszeichen, öffnende und schließende

( ) Klammern, öffnende und schließende

. . . Auslassungspunkte

’ Apostroph

erfüllen in der geschriebenen Sprache wichtige Funktionen. Zum einen gliedern sie den Text und dienen somit der Übersichtlichkeit (vgl. Rat für deutsche Rechtschreibung (2006), S.73), zum anderen fügen sie bestimmte Bedeutungsbestandteile in den Text ein (wie etwa das Fragezeichen). Außerdem können sie einige syntaktische Ambiguitaten auflösen (vgl. Briscoe (1994), S. 3).

So hat der Satz (1a) zwei Lesarten. Diese Mehrdeutigkeit kann mittels eines Kommas auf zwei verschiedene Arten aufgelüost werden (1b und 1c), das Komma legt hier die Grenze zwischen dem Haupt- und dem Infinitivsatz fest.

(1) a. Ich hoffe jeden Tag ein Honorar zu bekommen.

b. Ich hoffe, jeden Tag ein Honorar zu bekommen.

c. Ich hoffe jeden Tag, ein Honorar zu bekommen.^[3]

Es ist zu erwarten, dass ein Parser Nutzen daraus ziehen und beispielsweise bei der Verarbeitung von (1b) nur eine Struktur, nicht etwa diejenige von (1c) analysieren würde. Diese Reduktion der Analyseanzahl würde einerseits die Effizienz beim Parsen fördern und andererseits die Adaquatheit verbessern.

Auch lokale Ambiguitäten sind mit Hilfe der Interpunktion aufhebbar. Hat man den Satz (2a) bis „Mutter“ gelesen, bekommt man die Koordination „seine Frau und seine Mutter“ als eine Analyse, bevor man am finiten Verb „war“ merkt, dass man auf dem Holzweg („garden path“) war. In (2b) dagegen ist diese lokale Ambiguitüat aufgelüost, weil das Komma in der Koordination seine Frau, und seine Mutter“ nicht erlaubt ist.

(2) a. Er entdeckte seine Frau und seine Mutter war beruhigt.

b. Er entdeckte seine Frau, und seine Mutter war beruhigt.

Genau wie einem Menschen würde dies einen interpunktionsverarbeitenden Parser dazu bringen, nicht die NP-Koordination aufzubauen, sodass gar nicht erst der falsch analysierte Satz „Er entdeckte seine Frau und seine Mutter“ lokal entsteht. Auch dieser Effekt ist also für die Verbesserung der Parseeffizienz bedeutsam.

Dies macht die Nutzung der Zeichensetzung in einem Parser noch aus einem dritten Grund interessant: Neue syntaktische Konstruktionen koünnen eingebaut werden, die zuvor unpunktuiert die Kombinatorik,

d. h. die lokale Ambiguitüt in die Hühe getrieben hütten:

(3) a. Peter, meinte sie, schlief.

b. * Peter meinte sie schlief

Im grammatischen Beispiel (3a) markieren die Kommata klar den parenthetischen Einschub „so sagte er“. In (3b) dagegen, wo diese Markierungen fehlen, wurde ein Parser vüllig fehlgeleitet werden und zu lokalen Analysen kommen wie (zum besseren Verstüandnis sind Ergaünzungen in eckigen Klammern eingefügt):

[Er] meinte, sie schlief.

[Was] Peter meinte[, stimmt nicht.]

Peter meinte sie[, nicht ihn.] usw.

Schon an einem so kurzen Satz zeigt sich also, dass bei bestimmten Konstruktionen wie Parenthesen, Appositionen und uneingeleiteten Nebensüatzen, deren einzige Begrenzungsmarkierungen in Interpunktionszeichen bestehen, ein Ignorieren dieser Markierungen zu unnütiger lokaler Ambiguität führt. Bei laüngeren Süatzen ist eine erhebliche Verschlimmerung zu erwarten.

Unter anderen Autoren stellte Doran (2000) fest, dass eine Grammatikimplementation sowohl in der Abdeckung, Akkuratheit als auch in der Effizienz beim Parsen verbessert wird, wenn die Grammatik durch Zeichensetzungsbeschraünkungen erweitert wird.

Ein Ziel der vorliegenden Arbeit ist es, zu zeigen, dass dies auch für eine deutsche HPSG, die GG, gilt. Außerdem werde ich die GG, da sie sich auch zum Generieren eignet, so modifizieren, dass aus ihr Satze mit korrekter Zeichensetzung für verschiedene Interpunktionsklassen generiert werden künnen. Aufgrund der Vielfalt und Komplexitüt interpunktionsrelevanter Phünomene kann es jedoch hier nicht das Ziel sein, Zeichensetzung erschoüpfend zu implementieren. Mein Untersuchungen beschrüanken sich daher auf Punkt, Ausrufezeichen, Fragezeichen, Komma, Semikolon, Klammer, Gedankenstrich und - begrenzt - Binde- und Ergaünzungsstrich.

Bezüglich der Auswahl der Constraints sind zwei Extreme denkbar: Entweder man richtet sich nach praüskriptiven Nachschlagewerken und ist so hinsichtlich der Korrektheit auf der sicheren Seite, oder man sucht in einem geeigneten Korpus selbst nach deskriptiven Regeln, um die Robustheit beim Parsen sicherzustellen. Ich unternehme Schritte, die auf eine Kombination beider Herangehensweisen hinauslaufen: Ich werde zeigen, dass es der HPSG-Formalismus erlaubt, eine Art Schalter zu benutzen, um zwischen mehreren Stufen auf einer imaginüren Robustheit-/Korrektheitsskala hin- und herzuwechseln - eine Methode, die ich in Abschnitt 6.4 beschreibe. Diese Müglichkeit versetzt mich in die Lage, mich zunüchst ganz auf die Umsetzung präskriptiver Interpunktionsregeln zu konzentrieren.

Diese Regeln ergeben sich aus der Wechselwirkung von „genau festgelegten Anteilen“ von Syntax und Semantik (Engel, 1988, S. 820) und sind unter anderem in amtlichen Regelwerken festgehalten. In den Rechtschreibreformen wurden sie teilweise stark vereinfacht; in vielen Fallen, in denen Satzzeichen ehemals obligatorisch gesetzt wurden, werden sie nun optional gesetzt oder entfallen vollständig. Kurz diskutiert wird dieses Thema in Abschnitt 3.3. Das Regelwerk, an dem ich mich in meiner Arbeit vorwiegend orientieren werde, ist das Amtliche Regelwerk 2006 (Rat fär deutsche Rechtschreibung, 2006). Dieses hat den Vorteil, dass es einerseits nach heutigen Maßstaben akkurat ist, andererseits jedoch mindestens gleich permissiv wie die Regeln nach alter Rechtschreibung. Aus diesem Grund werden Sätze nach alter Zeichensetzung genauso erfasst wie solche nach der neuen. Die vorliegende Arbeit konzentriert sich auf die syntaktischen Constraints, die die Interpunktion steuern. Dabei ist mir durchaus bewusst, dass ich dabei andere Ebenen wie Semantik und Pragmatik vernachlassige: Denn keinesfalls wird die Zeichensetzung alleine von Syntax oder Semantik gesteuert (vgl. Briscoe (1994), S. 3). Doch ist sie erst recht keine Transkription von Ausspracheregeln (siehe zum Beispiel Engel (1988, S. 819 f.), Nunberg (1990), S. 11 ff.).

Im naächsten Abschnitt, 2, praäsentiere ich zunäachst die Kernpunkte bisheriger computerlinguistischer Arbeiten zum Thema Interpunktion und orientiere mich dabei vor allem an der Zusammenfassung in Say & Akman (1997). In Abschnitt 3 werden die bei der späteren Implementation berücksichtigten Regeln des Amtlichen Regelwerks beleuchtet. Die Rahmenbedingungen, wie beispielsweise die Parser, mit denen ich die Grammatik verarbeite, stelle ich in Abschnitt 4 vor. In Abschnitt 5 werden die konzeptuellen Grundlagen für die Implementation gelegt, die für das Verstandnis der Details wichtig sind, welche ich im darauffolgenden Abschnitt 6 erlaäutere. Eine Evaluation der resultierenden Grammatik unter verschiedenen Aspekten nehme ich in Abschnitt 7 vor, bevor die Arbeit mit Schlussfolgerungen und Ausblicken in Abschnitt 8 abgeschlossen wird.

2 Computerlinguistische Arbeiten

Einen guten Uberblick äber computerlinguistische Arbeiten im Bereich Interpunktion bis 1997 findet man in „Current Approaches to Punctuation in Computational Linguistics“ von Say & Akman (1997). Besonders Abschnitt 4 (S. 7-11) ist interessant, wo NLP-Systeme aufgezahlt werden, die sich mit Interpunktion mehr als nur am Rande beschaäftigen; in allen sonstigen computerlinguistischen Ansäatzen bis dahin wurden Interpunktionszeichen vällig ignoriert - Beräcksichtigung fand allenfalls die Markierung von Satzgrenzen durch Schlusspunkt, Ausrufe- oder Fragezeichen. Die Uä bersicht von Say und seiner Kollegen sei in gekuärzter Form hier wiedergegeben:

Laut Say & Akman nutzen Garside et al. (1987) fär ihr probabilistisches NLP-System - im Rahmen eines Forschungsprojektes, das von 1976 bis 1986 lief - als eine der ersten systematisch getaggte Interpunktionszeichen im NLP-Kontext, um Wortart-Ambiguitäaten zu reduzieren. Mit der gleichen Absicht berucksichtige Fornell (1988) Satzzeichen in seinem maschinellen Ubersetzungssystem; die geringen Arbeitsspeicherkapazitäten jener Zeit machten dies erforderlich. Jones (1995, 1997) analysiere die Häufigkeiten bestimmter Interpunktionszeichen und vergleiche Komplexitäat und Genre von Texten mit den ermittelten Frequenzen. Bayraktar (1996) untersuche mit computerlinguistischen Methoden den Gebrauch des Kommas im Englischen, indem er 241 Komma-Syntaxmuster, die er aus dem Wall-Street-Journal- Korpus (ACL/DCI, 1991) extrahiere, mit den von Ehrlich (1992) spezifizierten Kategorien abgleiche. Von Ince (1996) werde eine ähnliche Studie am SUSANNE-Korpus (Sampson, 1995) durchgeführt. Die Arbeiten von Srinivasan (1991) beinhalten die Konstruktion eines erweiterten Lexikons für maschinelle Übersetzung. Srinivasan hebe hervor, dass unter anderem Informationen über Interpunktion dabei aus Texten extrahiert werden sollten. Doran (1996) beschaftige sich mit der Zeichensetzung in direkter Rede im Rahmen einer lexikalisierten Baumadjunktionsgrammatik. Douglas & Hurst (1996) konzentrieren sich auf die Rolle der Interpunktion in Tabellen und Listen technischer Dokumente. Min (1996) analysiere die Funktion von Kommata bei verschiedenen Arten von Komposita.

Karlsson et al. (1994), so Say & Akman weiter, arbeiten an einer Constraint-Grammatik, die dazu in der Lage sein sollte, sprachunabhaüngigen, beliebigen Text morphologisch und syntaktisch zu parsen. Eines ihrer Ziele sei es, das Parsen zu vereinfachen, indem sie sich Interpunktion und andere typographische Merkmale zunutze machen, um Gliedsätze und Folgen ahnlicher Kategorien zu erkennen. Satz- und Sonderzeichen wuürden dabei als eigenstaündige Wüorter mit besonderem Status behandelt, die eigene Merkmale aufweisen kännen. Sie zeigten auch, dass sich im Englischen mit hoher Präzision Subjekte identifizieren lassen, wenn man die Tatsache ausnutzt, dass einem Satzzeichen wie Gedankenstrich oder Komma, gefolgt von einem finiten Verb, mit weniger als 5 % Wahrscheinlichkeit ein Subjekt vorangeht.

Die umfassendsten Arbeiten zum Thema Parsen mit dem Schwerpunkt Interpunktion werden von (Jones, 1994-1,-, 1996-3, 1997) sowie von (Briscoe, 1994; Briscoe, Carroll, 1995) geleistet. Sie nehmen hauptsächlich die Theorien von Nunberg (1990) als Grundlage fur die Integration der Interpunktion in ihre Grammatiken. Nunbergs Werk kann als die Standardliteratur äber eine deskriptive Analyse der Interpunktion im Englischen angesehen werden - in so gut wie jeder Publikation zu einem verwandten Thema findet sich ein Verweis darauf, weshalb ich im Folgenden zunäachst auf Nunbergs Konzepte eingehen mächte. Zu betonen ist, dass Nunbergs (Interpunktions-)Grammatiktheorie sich nur auf die englische Sprache bezieht, zumal er ausschließlich englischsprachige Beispiele anfuhrt. Die Grundzäge von Nunbergs Arbeit werden unter anderem ebenfalls von Say & Akman (1997, S. 6 f.) dargestellt.

Nunberg argumentiert fär die Annahme zweier Grammatikebenen, die von ihm entwickelte Textgrammatik und eine lexikalische Grammatik. Die Textgrammatik besteht aus Produktionsregeln, deren Zeichen Textkategorien (wie Paragraph, Textsatz und Parenthese) darstellen. Ein Beispiel fär eine solche Regel ist:

Ct → Pt+ (Ec)^[4]

wobei Ct eine Textklausel, Ec eine Doppelpunkterweiterung und Pt+ eine Folge von Textphrasen bezeichnen. Die genannte Regel beschreibt (zusammen mit den nachfolgenden Produktionsregeln fär Pt und Ec) Sätze wie (4).

(4) a. The ship steered between the buoy and the island: the only course that would avoid the rocky shoals.^[5]

Das Schiff steuerte zwischen die Boje und die Insel: der einzige Kurs, um die felsigen Untiefen zu umgehen.

b. He called the hotel: no answer.^[6]

Er rief beim Hotel an: keine Antwort.

Die Begriffe Textklausel und Textphrase will ich hier nicht erklären; wichtig ist vor allem, dass die Textgrammatik Satzzeichen zwischen den Textkategorien erklart. Den Aufbau letzterer wiederum beschreibt die lexikalische Grammatik, die laut Nunberg dieselbe Art von System darstellt wie das, was üblicherweise als „die Grammatik“ bezeichnet wird: Ein Regelsystem, das die Abhängigkeiten zwischen „lexikalischen“ Einheiten beschreibt (vgl. Nunberg (1990), S. 19 f.). Einige von Nunbergs vorgeschlagenen Regeln wickeln das Zusammenspiel adjazenter Interpunktionszeichen ab. Diese Problematik kann entstehen, wenn mehrere Konstituentengrenzen, auf denen Interpunktionszeichen platziert sind, zusammenfallen. Das erste Beispiel, mit dem Nunberg diesen Sachverhalt veranschaulicht, ist in (5) wiedergegeben.

(5) Hagy, who had resigned in 1985, in fact, protested the policy.^[7]

Hagy, der eigentlich 1985 zurUckgetreten war, protestierte gegen die Richtlinie.

Das unterstrichene Komma ist doppelt lizenziert: Einmal durch den Einschub in fact“ , einmal durch den mit „who“ eingeleiteten Nebensatz. Auch andere Interpunktionszeichen kännen sich gegenseitig „absorbieren“. Nunberg deklariert deshalb „Absorptionsregeln“ (neben anderen „Linearisierungsregeln“), die diese Vorgänge beschreiben.^[8]

Außerdem erwähnt er, dass die Verknüpfung von Textklauseln durch bestimmte Interpunktionszeichen gewisse pragmatische Relationen zwischen den Textklauseln einfuhrt, die aber nur aus dem Kontext abgeleitet werden können. Ein Beispiel ist die Verknupfung zweier Hauptsatze (in Nunbergs Terminologie sind es Textklauseln) mittels Semikolon, wodurch die zweite Textklausel unter anderem eine elaborative Funktion bezäglich der ersten erhalten kann.

Laut Say & Akman (1997) neigt Nunberg zuweilen zum Praskriptivismus; auch Sampson (1992) weise darauf hin, dass Nunbergs Regeln nicht hinreichend auf empirischen Daten beruhen, und bringe einige Gegenbeispiele vor; so sei es, anders als von Nunberg behauptet, im Englischen moäglich, Klammerungen und Doppelpunkterweiterungen jeweils ineinander zu verschachteln.

Nach diesem kurzen Ausflug in die rein linguistische Perspektive auf die Zeichensetzung, die Nunberg einnimmt, fahre ich nun fort mit der Zusammenfassung von Say & Akman (1997) uber computerlinguistische Ansaätze.

Jones integriert Zeichensetzung in eine bestehende Feature-basierte Tag-Grammatik fur das Englische, indem er ein sogenanntes stop-Merkmal deklariert und jeder Kategorie einen entsprechenden Wert zuweist. Seine Regeln basieren zwar auf Nunbergs Theorien, doch erkläart Jones, warum notwendige Interaktionen zwischen den von Nunberg vorgeschlagenen Grammatikebenen in der Praxis nicht handhabbar sind und dass er deshalb nur von einer Ebene ausgeht (Jones, 1994-1, S. 6). Optionalität bestimmter Satzzeichen sowie Nunbergs Absorptionsregeln werden von Jones’ Regeln einbezogen.

Wie Say & Akman schreiben, ergeben seine Tests auf dem Korpus Spoken English Corpus, das Satze unterschiedlicher Lange mit reichhaltiger Interpunktion beinhaltet, für die Anzahl an Parseanalysen der komplexesten Satze eine Reduktion in einer Größenordnung von 102 bei Berücksichtigung der Interpunktion (verglichen mit der gleichen Grammatik, die Interpunktion ignoriert). Außerdem stelle Jones fest, dass ein enger Zusammenhang zwischen der Anzahl an Parseanalysen und der durchschnittlichen Anzahl von Wörtern besteht, die zwischen zwei Interpunktionszeichen stehen. In spöteren Publikationen (Jones, 1996-2,-, 1997) beschreibt er unter anderem die Überarbeitung seiner Implementation. Er leitet, so Say & Akman, 79 generalisierte Interpunktionsregeln aus neun Korpora ab (Jones, 1996-3, S. 365) und zieht daraus Generalisierungen im Rahmen der X-bar-Theorie (Jackendoff, 1977). Weiterhin skizziere Jones eine Interpunktionstheorie, in der er Anwendungen von Interpunktion nach syntaktischen, semantischen und pragmatischen Kriterien klassifiziert.

Noch nöher an Nunbergs Vorschlögen orientieren sich Briscoe (1994); Briscoe, Carroll (1995): Wie Jones behandeln sie Satzzeichen als eigene Token - ein Aspekt, den ich in Abschnitt 5.1 analysieren werde. Das Ziel ihrer Bemühungen, Interpunktion einzubringen, sei erstens - so Say & Akman - Texte zum effizienteren Parsen in handliche Stücke („Chunks“) zu zerlegen, und zweitens die Auflösung struktureller Ambiguitat. Sie konstruierten DCG-Regeln (DCG = Definite Clause Grammar (Pereira & Warren, 1980)), um die von Nunberg entwickelten Textsatz-Constraints zu implementieren, die von einem probabilistischen LR-Parser verarbeitet werden. Danach integrierten sie diese Grammatik in eine andere fur Wortartanalysen. Dadurch, dass Text- und Syntaxkategorien sich uöberschneiden, und durch die Nutzung disjunkter Featuremengen in den beiden Grammatiken erweise sich dieser Ansatz als modularer als die von Jones eingeschlagene Strategie. Ein Test der resultierenden Grammatik auf dem Spoken English Korpus und dem SÜSANNE-Korpus ergebe unter anderem, dass 8% von 2500 Satzen, die beim Parsen mit der resultierenden Grammatik abgedeckt werden, nach Entfernung der Interpunktion aus Performanzgruönden uöberhaupt keine Analyse mehr erhalten, waöhrend ein durchschnittlicher Satz 38% mehr Analysen erhaölt als unter Beruöcksichtigung der Interpunktion.

Lee (1995) erweitere die von Briscoe und Carroll entwickelte Grammatik syntaktisch und semantisch. Im Hinblick auf die Semantik realisiere sie die charakteristischen semantischen Unterschiede zwischen subordinierenden und koordinierenden Strukturen. Ihre Testlaufe auf einem kleinen Korpus ergeben, dass 50% der Saötze, die mit Interpunktion vollstaöndig geparst werden köonnen, ohne Interpunktion uöberhaupt keine Analyse erhalten.

Shiuan & Ann (1996) berichteten von einem Experiment, komplexe Satze anhand von Zeichensetzung und link words“ aufzuspalten, und die so erzeugten Chunks zuerst zu parsen. Das Resultat sei eine Fehlerreduktion von 21% verglichen mit der Korrektheit des Originalparsers.

Osborne (1996) erklare, wie selbst ein vereinfachtes Interpunktionsmodell das Lernen von unifikationsbasierten Grammatiken verbessern kann.

White (1995) untersuche, wie Nunbergs Interpunktionstheorie in Sprachgenerierungssysteme (NLG- Systeme) integriert werden kann. Er zeige, dass einige von Nunbergs Vorschlögen sinnvoll zum Parsen, aber inadaquat zum Generieren sind, sodass es zu Übergenerierungen kommt. Seine Implementation gliedere sich in drei Ebenen: eine syntaktische, eine morphologische und eine graphische. Mit diesem Drei-Schichten-System versuche White, einige Schwöachen in Nunbergs Theorie zu uöberwinden.

Obwohl die Publikation von „Current Approaches to Punctuation in Computational Linguistics“ nun bereits mehr als zehn Jahre zurückliegt, hat sie bis heute kaum an Relevanz verloren, da um die Zeit vor 1997 besonders viele Arbeiten zu dem Thema Interpunktion bei der Syntaxanalyse veröffentlicht wurden, seitdem aber fast keine mehr.^[9]

Als Ausnahme zu erwahnen ist zum einen die Arbeit von Doran (2000). Sie leitet eine Menge von Interpunktionsregeln manuell aus mehreren natürlichen Textkorpora ab und integriert sie in eine XTAG- Grammatik des Englischen. Dabei teilt sie Interpunktionszeichen in drei Klassen ein: „balanciert“ (wie etwa Klammern), „strukturell“ (z. B. Kommata) und ,,terminal“ (wie Schlusspunkte). Aufgrund technischer Hürden führt sie keine Evaluation mit vollem Parsing durch, sondern benutzt die Supertagging-Technik (Srinivas, 1997). Sie trainiert und testet den Tagger einmal auf einem Text ohne, einmal auf einem Text mit Interpunktion und stellt mit Interpunktion eine Reduktion der Fehlerrate um 10,9% fest. Ihr Fazit lautet, dass mit Interpunktion die Abdeckung einer Grammatik verbessert, die Ambiguitaüt bestimmter Wortfolgen reduziert und die Verarbeitung großer Texte vereinfacht werden kann.

Forst & Kaplan (2006) uberarbeiten einen bestehenden Tokenisierer, der der Textvorverabeitung für eine deutsche LFG mit hoher Abdeckung dient. Sie losen dabei einige Probleme, die mit Interpunktion in Verbindung stehen. Die Abdeckung der LFG wird mit dem überarbeiteten Tokenisierer von 68,3% auf 73,4% verbessert. Forst & Kaplan sprechen das ,,Interpunktionszeichen-Haplologie“-Problem an, das ich in Abschnitt 5.1 diskutieren werde.

3 Die relevanten Interpunktionsvorschriften im Deutschen

Zunaüchst moüchte ich die Interpunktionsregeln des aktuellen Amtlichen Regelwerks zusammenfassen, und zwar nur jene Regeln, die ich in der Implementation berücksichtige. Im Hinblick auf die Implementierung ist es sinnvoll, diese Regeln stärker nach syntaktischen Kriterien zu ordnen. Im Regelwerk werden Interpunktionszeichen in folgende funktionale Klassen eingeordnet:

Satzzeichen

- zur Kennzeichnung des Schlusses von Ganzsätzen: Punkt, Ausrufezeichen, Fragezeichen
- zur Gliederung innerhalb von Ganzsätzen [bzw. Außerungen] : Komma, Semikolon, Doppelpunkt, Gedankenstrich, Klammern
- zur Anführung von Äußerungen oder Textstellen bzw. zur Hervorhebung von Wörtern oder Textteilen: Anfuhrungszeichen

Rat für deutsche Rechtschreibung (2006, S. 73)

Zeichen in anderen Funktionen

- zur Markierung von Auslassungen: Apostroph, Erganzungsstrich, Auslassungspunkte
- zur Kennzeichnung der Worter bestimmter Gruppen: Punkt nach Abkurzungen bzw. Ordinalzahlen, Schräagstrich

Rat fuür deutsche Rechtschreibung (2006, S. 73)

Im folgenden beiden Unterabschnitten werde ich nur auf die Regelungen eingehen, die Punkte, Ausrufe- und Fragezeichen, Kommata, Gedankenstriche und Klammern in der Funktion von Satzzeichen betreffen. In Unterabschnitt 3.3 zeige ich zudem kurz auf, dass die heutige Zeichensetzung im Vergleich zur Zeit vor der Rechtschreibreform 1996 tendenziell liberaler geworden ist.

3.1 Kennzeichnung des Schlusses von Äußerungen

Ab hier nenne ich Zeichen, die Aussagen abschließen, Schlusszeichen. Zwischen einem Schlusszeichen und dem letzten Wort eines Satzes steht nie ein Leerzeichen. Im Regelwerk heißt der Titel von Abschnitt 1 „Kennzeichnung des Schlusses von Ganzsatzen“. Die Bezeichnung „Ganzsatz“ kann jedoch irreführend sein, wenn man bei „Satz“ an ein Gebilde denkt, das mindestens ein Subjekt und ein Prüdikat enthült. Dabei können fast alle müglichen Äußerungen durch Schlusszeichen gekennzeichnet sein, solange es sich nicht um einen Fragesatz handelt, wie z. B. „Hilfe!“. Schlusszeichen sind nach dem amtlichen Regelwerk Punkt, Ausrufe- und Fragezeichen (S.73), wobei der Punkt nach §67 das neutrale Schlusszeichen darstellt.

Das Regelwerk weist an dieser Stelle mit Verweis auf §71(1) und §80(1) darauf hin, dass man mehrere selbstündige Sütze auch asyndetisch mit Komma oder Semikolon aneinanderreihen kann, wie in (6). Ob es sich bei den Bestandteilen der so entstandenen Reihung dann noch um Ganzsüatze“ handelt, lasse ich hier offen, da irrelevant. Ickler (2007) stellt fest, dass der Begriff „Ganzsatz“ in praskriptiven Grammatiken sehr verbreitet, aber problematisch ist. Daher will ich den Begriff nicht übernehmen, sondern spreche lieber von Äußerungen.

(6) a. Ich sprach gestern mit ihm; er kommt heute nicht.

b. Ich sprach gestern mit ihm, er kommt heute nicht.

Darauf, dass auch Aufforderungen ohne Emphase mit einem Punkt abgeschlossen werden (siehe (7)), wird in E2 ausdrucklich hingewiesen.

(7) Bitte rufen Sie mich spüter zurück.

Daruüber hinaus listet das Regelwerk einige Faülle auf, in denen keine Schlusszeichen stehen. Ich halte daher fest, dass am Ende einer freistehenden Äußerung ein Schlusszeichen stehen kann, aber nicht muss. Nach eingebetteten Äußerungen, Auslassungspunkten und durch Punkt ausgezeichneten Ordinalzahlen und Abkürzungen darf kein Schlusspunkt stehen, wie aus der Ausnahmeregelung S. 74/E3 hervorgeht. Der einzige funktionale Unterschied zwischen Ausrufezeichen und Schlusspunkt besteht darin, dass das Ausrufezeichen der Äußerung zusatzlich eine Emphase verleiht, wie §69 verdeutlicht:

§69Mit dem Ausrufezeichen gibt man dem Inhalt des Ganzsatzes [der Äußerung] einen besonderen Nachdruck wie etwa bei nachdrücklichen Behauptungen, Aufforderungen, Grüßen, Wünschen und Ausrufen.

Rat für deutsche Rechtschreibung (2006, S. 75)

Ich habe jetzt keine Zeit! Bitte rufen Sie mich spater zurück!

Laut Regelwerk künnen auch emphatische Äußerungen mit Komma verbunden werden, siehe Beispiel

(9) Ich habe jetzt keine Zeit, bitte rufen Sie mich spater zurück!

Während nur anhand des Vorhandenseins eines besonderen Nachdrucks entschieden wird, ob ein Schlusspunkt oder ein Ausrufezeichen steht, unterscheiden sich Schlusspunkt/Ausrufezeichen einerseits und Fragezeichen andererseits viel stärker in ihrer Funktion. Über das Fragezeichen schreibt das Regelwerk:

§70Mit dem Fragezeichen kennzeichnet man den Ganzsatz [die Äußerung] als Frage.

Rat für deutsche Rechtschreibung (2006, S. 76)

(10) Wirst du ihn morgen sehen? Warum kommt er nicht? In welchem Theater?

Die Wahl eines bestimmten Schlusszeichens kann zu einem gewissen Grad als Hinweis dafur dienen, welche Art von .Äußerung abgeschlossen wird. Zumindest kann man vom Schlusszeichen darauf schließen, ob es sich bei der .Äußerung um eine direkte Frage handelt oder nicht. §70 des Regelwerks sagt zwar aus, dass sich „Ganzsatze“ als Frage markieren lassen, nicht jedoch, dass hinter durch ihre Struktur als Frage angelegten Sätzen, also Entscheidungs- und Ergänzungsfragen, ein Fragezeichen stehen muss. Canoo stellt jedoch klar: ,, Ein Fragesatz wird mit einem Fragezeichen abgeschlossen.“ Canoo (2007-1)

Die Beispiele in (11) verdeutlichen, dass ein Fragezeichen einen Satz, der mit Schlusspunkt nicht als Frage verstanden wird (11a), in einen Fragesatz umwandelt (11b).

(11) a. Du kommst morgen.

b. Du kommst morgen?

Die enge Verbindung von Fragesatz und Fragezeichen offenbart sich auch im nächsten Beispiel:

(12) a. * Warum kommst du morgen.

b. Warum kommst du morgen?

Während Satz (12b) strukturell als ein Fragesatz angelegt ist, ist der Satz (12a) mit der gleichen Struktur, aber einem Schlusspunkt ungrammatisch (vgl. auch Engel (1988), S. 825).

Da Schlusspunkte nur komplette .Äußerungen abschließen, kann sich auch ihr Beitrag zur Satzaussage nur auf die komplette Äußerung beziehen, niemals auf eingebettete Konstituenten.

(13) a. Hans sagte, Maria komme morgen?

b. Maria komme morgen, sagte Hans?

Die Beispiele in (13) sollen diesen Gedanken unterstreichen. (13b) entspricht (13a) mit dem topi- kalisierten Nebensatz Maria komme morgen,“. Beide Varianten sind so zu verstehen: Es wird gefragt, ob Hans etwas gesagt hat. Mit anderen Worten, in beiden Fällen wird dieselbe Aussage von Hans in Frage gestellt. Weiterhin wärde wohl niemand auf den Gedanken kommen, das Komma in (13b) auf den topikalisierten Nebensatz zu beziehen. Folglich kann sich das Fragezeichen in (13a) auch nicht auf den angrenzenden Nebensatz beziehen, auch nicht zusaätzlich. Zwar mag diese Feststellung intuitiv leicht verstaändlich oder sogar selbstverstaändlich sein, sie spielt aber bei der Implementierung noch eine wichtige Rolle.

(14) Hast du das gesehen, ist das nicht Wahnsinn?

3.2 Gliederung innerhalb von Äußerungen

Laut Regelwerk S.77 können

- Kommata
- Semikola
- Doppelpunkte
- Gedankenstriche
- und Klammern

eine Äußerung gliedern.

3.2.1 Koordination

Zur Abgrenzung gleichrangiger Syntagmata (Koordination) erlaubt das Regelwerk die Wahl zwischen Komma . . .

§71Gleichrangige (nebengeordnete) Teilsätze, Wortgruppen oder Wörter grenzt man mit Komma voneinander ab.

Rat für deutsche Rechtschreibung (2006, S. 78)

Semikolon:

§80Mit dem Semikolon kann man gleichrangige (nebengeordnete) Teilsätze oder Wortgruppen voneinander abgrenzen. Mit dem Semikolon drückt man einen hoheren Grad der Abgrenzung aus als mit dem Komma und einen geringeren Grad der Abgrenzung als mit dem Punkt

Rat für deutsche Rechtschreibung (2006, S. 89)

In Regel §71 und auf der Grundlage der Beispiele, die folgen, lassen sich keine Einschrünkungen bezüglich der koordinierten Teile ausmachen - „Würter“, „Teilsütze“ und der sehr allgemeine Begriff der „Wortgruppe“ zusammengenommen umfassen schon alle müglichen Syntagmata.

Auffallend ist, dass in §80 keine Würter erwähnt werden, obwohl dies nicht explizit verboten zu sein scheint, wenn man Beispiele wie 15 akzeptiert:

(15) Zu den Parallelogrammen gehören: Rechtecke; Quadrate; Rhomboide und Rhomben.^[10]

Vor allem aus der Formulierung, das Semikolon grenze „vor allem auch langere Hauptsütze“ (Rat fuür deutsche Rechtschreibung, 2006, S. 89) ab, laüsst sich herauslesen, dass das Semikolon nur tendenziell Wortgruppen und langere Konstituenten untergliedert.

Die Formulierung lasst sich als Hinweis darauf deuten, dass die Konstituentenlänge für den Anwender der Regel eine Entscheidungshilfe sein soll, um bei Koordinationen zwischen Komma und Semikolon zu wühlen, dass aber die Phrasenlünge beziehungsweise die Unterscheidung Phrase/Wort kein hartes Kriterium dafür darstellt. Andernfalls würe (15) zwar verboten, der entsprechende Satz mit den Substantiven im Singular und Artikeln (16) dagegen nicht, was wenig nachvollziehbar würe, denn schließlich sind die Artikel unbetont und tragen damit nur sehr wenig zum „Gewicht“ der NP bei. Canoo (2007-3) ist dementsprechend lediglich der Meinung, dass eine Aufzahlung durch ein Semikolon klarer gegliedert wird.

(16) Zu den Parallelogrammen gehüren: das Rechteck; das Quadrat; das Rhomboid und der Rhombus.

Der Vollstündigkeit halber sei hier wiederholt, dass neben der Verbindung durch Komma oder Semikolon nach §67 auch der Punkt zwischen zwei eigenstündigen Äußerungen stehen darf.

Besondere Aufmerksamkeit schenkt das Regelwerk der Unterscheidung zwischen „gleichrangigen“ und „nicht gleichrangigen“ Adjektiven. So stehe zwischen nicht gleichrangigen Adjektiven kein Komma, wie in 17 ...

(17) Er ist ein intelligenter junger Mann. (Der junge Mann ist intelligent.)

... zwischen gleichrangigen hingegen schon:

(18) Er ist ein intelligenter, junger Mann. (Der Mann ist intelligent und jung.)

Formaler erklüart bedeutet gleichrangig“ hier, dass die attributiven Adjektive untereinander koordiniert werden und dann beide Skopus nur uüber das folgende N haben:

((neue, umweltfreundliche) Verfahren)

Gleichrangige Adjektive hingegen sind rechtsklammernd:

(neue (umweltfreundliche Verfahren))

„Neue“ modifiziert dann also „umweltfreundliche Verfahren“, es liegt in dem Fall gar keine Koordination vor.

Bei syndetischen Koordinationen steht vor einer nicht-adversativen Konjunktion wie „und“, „oder“, „beziehungsweise“ nach §72 des Regelwerks dagegen kein Komma. Außerdem musste man sagen, dass dann auch kein Semikolon steht, da dieses ja noch staürker als das Komma abgrenzt.

(19) a. Er kam und er sah und er siegte.

b. Er kam und sah und siegte.

Die Ausnahme §72/E1 besagt jedoch, dass auch vor einer nicht-adversativen Konjunktion in bestimmten Faüllen, etwa zwischen einem Nebensatz und der Konjunktion, ein Komma stehen darf, siehe Beispiel 20. Mit anderen Worten: Wenn ein Komma anderweitig lizenziert ist, setzt sich hier die Regel durch, die das Komma fordert.

(20) Ich freue mich, dass Sie kommen können, und erwarte Sie gegen 10 Uhr.^[11]

Ein Komma vor nicht-adversativen Konjunktionen ist noch in einem weiteren Fall erlaubt, der in §73 geregelt ist. Nach §73 dürfen nämlich auf diese Weise die Bestandteile einer solchen Satzkoordination hervorgehoben werden.

(21) Das Theater öffnete seine Pforten),] und gleich am ersten Tag waren alle Tickets ausverkauft. [... ]

Adversativen („entgegenstellenden“) Konjunktionen, wie „aber“ und „sondern“ muss dagegen nach §72/E2 ein Komma vorausgehen, wie in (22).

(22) Er will noch nicht auswandern, sondern lieber noch ein Jahr in Deutschland verbringen.

Die Regel §72 und die Hauptregel fur Nebensatze §74 sind nicht gleichzeitig anwendbar, wenn Nebensätze koordiniert werden. Dann greift die Ausnahmeregel §74/E2, auf die ich im nachsten Unterabschnitt eingehe.

3.2.2 Nebensätze

Im Deutschen werden grundsätzlich alle Nebensätze mit Komma obligatorisch abgegrenzt:

§74Nebensätze grenzt man mit Komma ab; sind sie eingeschoben, so schließt man sie mit paarigem Komma ein.

Rat für deutsche Rechtschreibung (2006, S. 80)

Das naächste Beispiel zeigt einen von einem Kommapaar eingeschlossenen Nebensatz:

(23) Das Buch, das ich dir mitgebracht habe, liegt auf dem Tisch.

Ist der Nebensatz nicht eingeschoben, so grenzt man ihn mit einfachem Komma ab, und zwar egal, ob der Nebensatz am Anfang einer Äußerung ...

(24) Was er nun tun sollte, wusste er nicht.

. . . oder am Ende steht:

(25) Er wusste nicht, was er nun tun sollte.

Unter anderem diese Tatsache ist wohl der Grund dafür, dass in der Fachliteratur haufig die Rede davon ist, die deutsche Zeichensetzung sei in besonderem Maße syntaktisch „gesteuert“.

Im Englischen etwa wird nicht obligatorisch durch einen Nebensatz ein Komma lizenziert. Von einem englischen Nebensatz wird ein Komma nur durch seine Stellung im Vorfeld oder bei Nachstellung zwecks Vermittlung eines besonderen Kontrasts hervorgerufen. (nach OWL (2004))

Wohlgemerkt impliziert Regel §74 auch, dass das Komma auch zwischen zwei Nebensätzen steht, von denen einer dem anderen untergeordnet ist, wie in (26).

(26) Er wusste nicht, ob er seine Frau wecken sollte, die gerade erst eingeschlafen war.

Im Regelwerk (S. 81) wird anhand einer Reihe von Beispielen demonstriert, dass vor einer aus mehreren Wörtern bestehenden Nebensatzeinleitung das Komma vor der gesamten Einleitung platziert wird. Unproblematisch sind die Fölle, bei denen die Nebensatzeinleitung als ein Mehrwort-Subjunktor aufgefasst werden kann. In diese Klasse fallen nach Engel (1988, S. 710) und Canoo (2007-2) die folgenden Subjunktoren:

Abbildung in dieser Leseprobe nicht enthalten

Es bleiben jedoch noch komplexe Nebensatzeinleitungen öbrig, deren Bestandteile weniger eng verbunden sind und die meines Wissens in keinem grammatischen Lehrbuch als eine Einheit ausgezeichnet sind. So findet sich unter den Regelwerk-Beispielen ,,[...], aber wenn [...]“, ,,[...], gleich als [...]“ und ,,[...], zwei Tage bevor [...]“ wie in den Satzen:

(27) a. Er kam nicht oft, aber wenn er kam, unterhielten wir uns immer ausgiebig.

b. Ich habe ihn am Montag gesehen, zwei Tage bevor er verreiste.

Das „aber“ in (27a) lasst sich als eine adversative koordinierende Konjunktion analysieren. Das heißt, hier handelt es sich um eine echte Ausnahme von der Grundregel §74. „Zwei Tage“ in (27b) dagegen bestimmt den temporalen Subjunktor „bevor“ genauer (ahnlich wie bei der Modifikation von Präpositionen wie beispielsweise „kurz vor Beginn der Sommerferien“). Diese temporalen Modifikatoren lassen sich nicht sinnerhaltend im Satz verschieben, sodass man davon ausgehen muss, dass sie sich fest an den modifizierten Subjunktor binden.

Dass man in einigen Faöllen nur mit einem richtig gesetzten Komma klar machen kann, ob ein Wort zu einer Nebensatzeinleitung gehoört, erlaöutert das Regelwerk auf S. 81:

(28) a. Er ärgerte sich zeitlebens, so dass er schon früh graue Haare bekam.

b. Er ärgerte sich zeitlebens so, dass er schon früh graue Haare bekam.^[12]

Gerade eine Unterscheidung wie zwischen „so dass“ und „so, dass“ ist beim Parsen wichtig; schließlich kommen sowohl der Subjunktor „so dass“ als auch das Adverb „so“ sehr haufig in Texten vor.

Unter der Ausnahme §74/E2 geht das Regelwerk auf Koordinationen mit nicht-adversativen Konjunktionen aus einem Nebensatz und einem semantisch, aber nicht syntaktisch gleichartigen Konstrukt (die Rede ist von Satzkonstituenten und Teilen davon) ein und verlangt, dass innerhalb einer solchen Koordination kein Komma stehen darf. Es föhrt zur Verdeutlichung Sötze folgender Art an:

(29) a. Bei starkem Sturm oder wenn es schneit, sagen wir die Wanderung ab. b. Wenn es schneit oder bei starkem Sturm sagen wir die Wanderung ab.

c. Wir wandern nicht bei starkem Sturm oder wenn es regnet.

d. Wir wandern nicht, wenn es regnet oder bei starkem Sturm.

Wie in (29a) und (29d) zu sehen ist, wird aber, wenn der Obersatz an den Nebensatz angrenzt, an der Stelle weiterhin ein Komma gesetzt.

Eine Konstruktion, die an dieser Stelle unerwahnt bleibt, obwohl sie unter E2 fallen müsste, ist die syndetische Koordination zweier Nebensütze mittels nicht-adversativer Konjunktionen in Satzen wie (30a) - dabei ist diese spezielle Konstruktion, da syntaktisch gleichartige Gebilde koordiniert werden, weitaus regelmüßiger als die oben angeführten Beispiele (29a) bis (29d).

(30) a. Außerordentlich bedauert hat er,/ dass er so ungeschickt war und dass das hier geschehen konnte.

b. * Außerordentlich bedauert hat er,/ dass er so ungeschickt war und,// dass das hier geschehen

konnte.

c. * Außerordentlich bedauert hat er,/ dass er so ungeschickt war,/// und dass das hier gesche hen konnte.

An Position I schließt sich der Nebensatz dem übergeordneten Satz an, weshalb dort ein Komma stehen muss. Dass an den Positionen II und III kein Komma gesetzt werden darf, geht ebenso aus E2 hervor. Der DUDEN^[13] bestätigt dies: „Man setzt aber in der Regel kein Komma, wenn sie [die Nebensätze] durch eine Konjunktion wie ‘und’ oder ‘oder’ verbunden sind.“ und belegt die Aussage durch folgendes Beispiel:

(31) Wir erwarten, dass er die Ware liefert oder dass er das Geld zurückzahlt.^[14]

3.2.3 Infinitivsätze

Die Begriffe „Infinitivsatz“, „Infinitivkonstruktion“ und „Infinitivgruppe“ verweisen alle auf dieselbe Konstruktion: Den Kern bildet ein „zu“-Infinitiv. Vor diesem Kern können Komplemente stehen, die der Infinitiv selegiert, und/oder Adjunkte, die den zu-Infinitiv modifizieren. Der Infinitivsatz heißt dann erweitert. Canoo (2007-4) zufolge handelt es sich bei Infinitivsützen nicht um Nebensütze, auch wenn sie wie diese subordiniert werden künnen. Die Grundregel fur die Zeichensetzung bei Infinitivsatzen lautet im Regelwerk sinngemaüß:

§75^[15] Infinitivsaütze werden dann mit Komma abgegrenzt, wenn sie

a) durch einen der folgenden Subjunktoren eingeleitet werden: um“, ohne“, statt“, anstatt“, außer“ , als“
b) von einem Substantiv selegiert werden
c) abhaüngig sind von einer Katapher, einer Anapher oder einem Korrelat.

Es folgen Beispiele für Fall a):

(32) a. Er öffnete das Gästebuch, um etwas hineinzuschreiben.

b. Das Kind rannte, ohne auf den Verkehr zu achten, über die Straße.^[16]

c. Statt ihm zu helfen, kömmerte er sich lieber um seine eigenen Angelegenheiten.

Ein eingeleiteter Infinitivsatz kann am Satzende (32a), am Satzanfang (32c) oder als Einschub stehen (32b). Hängt der Infinitivsatz von einem Substantiv ab (Fall b), kann er nur eingeschoben sein (vgl. (33a)) oder am Satzende auftreten (vgl. (33b)), da er sich nicht aus seiner Position hinter dem Substantiv ins Vorfeld verschieben lasst.

(33) a. Er wurde beim Versuch, den Tresor zu knacken, vom Nachtwächter überrascht.^[17] b. Er hatte nicht die Absicht, ihm zu schaden.

(34) zeigt Beispiele bei Abhängigkeit von einem ,,es“-Korrelat (34a), von der Katapher „damit“ (34b) und von der Anapher „das“ (34c) (Fall c).

(34) a. Sie liebt es, abends auf der Couch zu faulenzen.

b. René hat nicht damit gerechnet, doch noch zu gewinnen, und strahlte uber das ganze Gesicht.^[18]

c. Abends auf der Couch zu faulenzen, das liebte sie.

Die Kommata in den Fallen b) und c) sind faktisch optional, wenn die Infinitivsätze nicht erweitert sind; denn nach §75/E1 dörfen sie entfallen, wenn dadurch keine Irrtumer entstehen, siehe (35).

(35) Beim Versuch(,) einzuschlafen(,) wurde sie auf unsanfte Weise geweckt.

Wie Nebensätze werden eingeschobene Infinitivsätze von einem paarigen Komma eingeschlossen. Obwohl nicht ausdräcklich in §75 gefordert, ist dies direkt aus den Beispielen (32b), (33a) und (34b) ersichtlich. Wo es gemaß El möglich ist, Kommata auszusparen, muss das Kommapaar somit vollstandig entfallen. Einzelne Kommata bei eingeschobenen Infinitivsätze wie in (36a) und (36b) sind also nicht korrekt.

(36) a. * Beim Versuch, einzuschlafen wurde sie auf unsanfte Weise geweckt. b. * Beim Versuch einzuschlafen, wurde sie auf unsanfte Weise geweckt.

Das Regelwerk verliert kein Wort uber koordinierte Infinitivsätze wie:

(37) Sein Drang, zu redeni undii zu gestikulieren, war immer noch ungebrochen.^[19]

Ich gehe aber davon aus, dass zwischen den koordinierten Infinitivsäatze analog zur Regel §74/E2 kein Komma stehen darf, sodass die Positionen I und II in (38) nicht von Kommata besetzt werden, zumal auch Engel (1988, S. 842) Kommata an diesen Stellen nachdräcklich ausschließt.

(38) a. * Sein Drang, zu reden,i und zu gestikulieren, war immer noch ungebrochen.

b. * Sein Drang, zu reden und,// zu gestikulieren, war immer noch ungebrochen.

§75/E2 folgend, sind in nicht durch §75 a) bis b) geregelten Fällen Kommata optional. Mit diesen nicht geregelten Fallen sind wohl vor allem Infinitivsätze gemeint, die von Kontrollverben abhängen wie in (39).

(39) Wir versuchten·,(,) die Torte mit Sahne zu verzieren.^[20]

Eine wichtige Ausnahme, auf die der Duden hinweist, scheint das Regelwerk nicht zu beachten: Unter den folgenden Umstanden, bei denen ein ,,zu“-Infinitiv von einem Verb selegiert wird, wird der Infinitivsatz nicht von Kommata begrenzt:

1. wenn die Infinitivgruppe von einem Hilfsverb oder von „brauchen“, „pflegen“, „scheinen“ abhängig ist.

2. Wenn die Infinitivgruppe..

(a) mit dem übergeordneten Satz verschränkt ist,
(b) den übergeordneten Satz einschließt,
(c) in der verbalen Klammer steht.

Bibliographisches Institut & F.A. Brockhaus AG (2000, S. 69)

Folgende Beispiele^[21] sollen diesen Umstand illustrieren:

(40) a. (zu 1) Du brauchst morgen nicht zu kommen.

b. (zu 2a) Dieses Problem wollen wir zu läsen versuchen. (Übergeordneter Satz : „wir wollen versuchen“; Infinitivsatz : „dieses Problem zu losen“)

c. (zu 2b) Diese Summe bitte ich ihm bis morgen in Rechnung zu stellen. (Übergeordneter Satz : ich bitte“ )

d. (zu 2c) Er hatte diese Summe zu zahlen beschlossen. (Verbklammer: „hatte .. .beschlossen“; Infinitivsatz: diese Summe zu zahlen“)

3.2.4 Zusätze oder Nachträge gemäß Regelwerk

Eine ganze Reihe unterschiedlicher Phanomene fasst das Regelwerk unter den Begriffen „Zusatze oder Nachträge“ zusammen: „Parenthesen, Appositionen, Orts- Zeit- und Literaturangaben ohne Präposition, Erläuterungen, angekundigte Wörter oder Wortgruppen, nachgetragene Infinitivgruppen und Partizipoder Adjektivgruppen“. (Rat fur deutsche Rechtschreibung, 2006, S.83)

Zusätze oder Nachträge grenzt man mit Komma ab; sind sie eingeschoben, so schließt man sie mit paarigem Komma ein.

Rat für deutsche Rechtschreibung (2006, S. 83)

Es wird jedoch darauf hingewiesen, dass „in bestimmten Fallen auch Gedankenstrich (siehe §84) oder Klammern (siehe §86)“ müglich sind.

3.2.4.1 Appositionen

Das Regelwerk charakterisiert „Substantivgruppen als Nachtrage“ als Appositionen und präsentiert dazu Beispiele wie in (41).

(41) a. Mein Onkel, ein großer Tierfreund, und seine Katzen leben in einer alten Muhle.

b. Walter Gerber, Mannheim, und Anita Busch, Berlin, verlobten sich letzte Woche.

c. Gertrud Patzke, Hebamme des Dorfes, wurde 60 Jahre alt.^[22]

Es deklariert die Ausnahme, dass Titeln und Berufsbenennungen nachgestellte Eigennamen von Kommata abgegrenzt sein dürfen, aber nicht mussen, wie in (42) ...

(42) Der Erfinder der Buchdruckkunst(,) Johannes Gutenberg(,) wurde in Mainz geboren.^[23]

... und stellt unter anderem fest, dass ein komplexer Eigenname wie „Karl der Große“ nicht als Nachtrag gelten kann und somit kein Komma stehen darf.

Wie der DUDEN geht das Regelwerk zu ungenau mit dem Begriff „Apposition“ um. Bei allen mit Komma abgetrennten Beispielen handelt es sich namlich um lockere (oder lose) Appositionen; E2 bezieht sich genauer auf enge Appositionen. Canoo (2007-5) schreibt dazu: „Nachgestellte Beisütze (lockere Appositionen) werden durch Kommata abgetrennt (77.2):“ und „Aber: Wenn der Beisatz Teil des Namens ist (genauer: bei engen Appositionen) schreibt man kein Komma“. Die lockere Apposition bezeichnet Lawrenz (1993, S. 63) auch als „intonatorisch abgesonderte nominale Apposition“. Im Gegensatz zum Regelwerk, das nominale Nachtrüge zu einem Personalpronomen oder einer entsprechenden Gruppe wie etwa

(43) a. Sie, die Gartnerin, weiß das ganz genau. b. Wir beide, du und ich, wissen es genau.^[24]

in der Kategorie angekuündigte Woürter und Wortgruppen“ einordnet, züahlt diese Art von Fuügung fuür Lawrenz ebenfalls zu den lockeren Appositionen:

(44) er, ein erfolgreicher Tennisspieler^[25]

3.3 Liberalisierung der Interpunktionsregeln seit 1996

Im Zuge der Reform der deutschen Rechtschreibung von 1996 gab es umfassende orthographische Änderungen, die nicht nur einzelne Wörter, sondern auch morphologische Regeln und eben die Interpunktion betrafen. Wie bei der Groß-/Klein-, Getrennt- und Zusammenschreibung hatte der Rechtschreibrat eine Vereinfachung bei den Zeichensetzungsregeln im Sinne. Wie ich anhand der Infinitivsötze zeigen werde, sind die Regeln in der Tat seit 1996 tendenziell liberaler geworden. För die Implementation bedeutet das, dass nicht auf die alten Regeln Ruöcksicht genommen werden muss, weil mit den neuen Regeln auch Saötze nach den alten Interpunktionsregeln analysiert und generiert werden können. Es reicht hier aus, nur auf relevante Unterschiede einzugehen. Äls Vergleichsreferenz bietet sich Engel (1988) an, wo sehr detailliert die Regeln aus der Rechtschreiböra vor 1996 wiedergegeben und erklart sind.

Die Kommasetzung bei Infinitivsötzen ist mit am störksten von Vereinfachungen betroffen. So wurden nicht-erweiterte Infinitivsötze (mit „zu“) generell „nicht durch Komma abgetrennt“ (Engel, 1988, S. 841). Gleich sechs Äusnahmefölle werden allein für nicht-erweiterte Infinitivsötze aufgezahlt:

Kommata mussten gesetzt werden, wenn

1. „zu“ eine „finale Bedeutung“ hat (veraltete Verwendung):^[26]

Ich bin nicht gekommen, mitzujammern.^[27]

2. „der Infinitiv mit ‘zu’ noch andere Verbformen regiert“:

Er erinnert sich nicht mehr, gelacht zu haben.

3. der Infinitivsatz von einem Nomen abhöngt und nachgestellt ist:

Der Sinn meines Briefes war, zu warnen.

4. die Infinitivsötze „gehöuft auftreten“ und nachgestellt sind:

Er hatte sich vorgenommen, zu beten und zu fasten.

5. der Infinitivsatz „losgelost vom Satzverband“ ins Vorvorfeld röckt:

Zu pfeifen, darauf wäre er nie gekommen

6. damit „Missverstandnisse“ vermieden werden:

(45) a. Ich bat, ihn anzurufen.

b. Ich bat ihn, anzurufen.

Die Ausnahmen 1, 2 und 4 werden nun im aktuellen Regelwerk nicht mehr erwöhnt. Nach §75/E2 ist ein Komma in all diesen Föllen, nach §75/E1 in den Äusnahmeföllen 3 und 5 optional. Ebenfalls von §75/E2 umfasst wird Ausnahme 6.

Kontraör zur Kommasetzung bei den nicht-erweiterten wurde erweiterte Infinitivsaötze, sofern sie nachgestellt sind, in der Regel durch Komma abgetrennt“. Nun ist dies nach §75(2) und (3) nur noch bei Infinitivsötzen Pflicht, die „von einem Substantiv, einem Korrelat oder Verweiswort abhöngen“. Kommaverbote in bestimmten Situationen, siehe 3.2.3, bleiben weiterhin bestehen.

4 Technische Rahmenbedingungen

Bei der Implementierung dient mir die deutsche HPSG-basierte Grammatik GG (German Grammar) als Grundlage. HPSG steht für „Head-Driven Phrase Structure Grammar“. Die HPSG ist eine bedeutende von Carl Pollard und Ivan Sag 1987 entwickelte Grammatiktheorie aus der Familie der Unifikationsgrammatiken. Heute gilt Pollard und Sags Werk von 1994 als Standard. In der HPSG sind Kategorien getypte komplexe Merkmalsstrukturen (Attribut-Wert-Matrizes, AWMs) (nach Volk, Schneider (1999)). Die HPSG ist nach Pollard & Sag (1994) linguistisch fundiert, lexikalistisch (müglichst viele grammatische Informationen werden auf den Merkmalen der Lexeme gespeichert), monostratal (es wird, im Gegensatz zu Transformationsgrammatiken, nicht zwischen Tiefen- und Oberflüchenstruktur unterschieden, sondern sich nur an letzterer orientiert) und constraintbasiert (eine Phrase ist syntaktisch wohlgeformt, wenn sie bestimmten Beschrankungen genugt). Nach Kiss (1995) gilt zudem das Prinzip der Deklarativitat (so spielt es für die Wohlgeformtheit der Phrasen keine Rolle, in welcher Reihenfolge Constraints appliziert werden) und das Monotoniegebot : Bestehende AWMs können nur mit neuen Informationen angereichert, aber nicht verändert oder gelüscht werden.

An der GG geschrieben haben von 1997 bis 2000 Walter Kasper und Stefan Muller, von 2000 bis 2002 Stefan Muller. Seit 2006 führt Berthold Crysmann das Projekt weiter. Die Version von Juni 2007 wurde am DFKI Language Technology Lab in Saarbruücken entwickelt und steht auf der GG-Website (URL: http://gg.dfki.de/) als Download zur Verfügung, außerdem wird eine Online-Demo angeboten. Als für diese Version relevante Publikationen finden dort Crysmann (2003), Crysmann (2005) und Müller & Kasper (2000) Erwahnung. Ebenfalls HPSG-basiert und eine große Abdeckung linguistischer Phänomene aufweisend ist die englische Grammatik ERG (English Resource Grammar), dessen Hauptentwickler Dan Flickinger ist. Downloadmüglichkeit und Online-Demo gibt es auch für die ERG, unter der URL http://www.delph-in.net/erg/. Als Literatur sind dort Copestake et al. (1999), Copestake & Flickinger (2000) und Flickinger (2002) angegeben. Die ERG kann bereits mit Interpunktionszeichen umgehen und ist daher eine gute Orientierungshilfe fuür die Aufruüstung der GG mit Interpunktion. Beide Grammatiken, GG und ERG, sind in der maschinenlesbaren Sprache TDL (Type Description Language, Krieger & Schüfer (1994-1); Krieger & Schüfer (1994-2)) geschrieben; maßgebend fur die formalen Moglichkeiten, die ein Grammatikschreiber in der TDL hat, sind jedoch die Grammatikentwicklungs/-verarbeitungssysteme LKB (Lexical Knowledge Builder, Copestake (2001)) sowie PET (Callmeier, 2001). Diese verstehen die folgende Teilmenge der TDL-Syntax (der Metaoperator | grenzt alternative Ausdrucke voneinander ab, eckige Klammern umschließen einen optionalen Ausdruck und der Kleene-Stern besagt, dass der voranstehende Ausdruck beliebig oft vorkommen darf; Operatoren sind fettgedruckt, Variablen kursiv):

Abbildung in dieser Leseprobe nicht enthalten

nach Krieger & Schäfer (1994-2, S. 6)

Obwohl TDL deklarativ ist und man AWMs fast so aufschreiben kann, wie man es aus der theoretischen HPSG gewohnt ist, kännen aufgrund von Einschrankungen bei LKB und PET Negationen, Disjunktionen und Mengen nur auf Umwegen beschrieben werden. Um etwa Negation bezäglich eines Typs A auszudräcken, kann ein Typ B konstruiert werden, der nur mit Typ A konfligiert. Die oben zusammengefasste TDL-Syntax basiert auf der Syntax fär Typ- und Instanzdefinition von Krieger & Schäfer (1994-2, S. 6), stimmt aber nicht mit der Originalbeschreibung überein: So waren in der Originalsyntax durchaus Negation und Disjunktion vorgesehen, außerdem sind weniger wichtige Teile hier ausgespart. Weiterhin lassen sich Listen nicht ohne weiteres konkatenieren, weil das Ende der ersten Listen von außen nicht zugänglich ist. Daher wurden Differenzlisten eingefährt, siehe oben. Eine Differenzliste besitzt einen Zeiger auf oberster Ebene, der mit dem Listenrest tokenidentisch ist und diesen somit nach außen hin sichtbar macht.

LKB eignet sich zum einen zum Debugging, so kann man beispielsweise herausfinden, wo Unifikationen fehlschlagen. Zum anderen kann LKB auch aus einer MRS heraus Oberflächenrealisierungen generieren. Außerdem lassen sich mittels der LKB-Benutzeroberfläche Typhierarchien, Parsebäume und MRS-Strukturen in äbersichtlicher Form visualisieren. All diese Vorteile machen LKB bei der Grammatikentwicklung unverzichtbar. Wenn es allerdings um effizientes, Ressourcen sparendes und robustes Parsen vieler Sätze geht, ist PET zurzeit unäbertroffen. Bei meiner Arbeit habe ich PET als Parser-Client fur den „[incr tsdb()] Competence and Performance Profiler“ (Oepen, 2001) verwendet. Mit [incr tsdb()] lassen sich Testlaufe verwalten, Testkorpora organisieren und Ergebnisse aus Testläufen sehr detailliert darstellen. Die Semantikkonstruktion in beiden Grammatiken basiert auf der MRS (Minimal Recursion Semantics, Copestake et al. (1999)).

Die ERG und die GG bestehen nun hauptsächlich aus TDL-Dateien, in denen Typen und Instanzen in der oben gezeigten Syntax definiert sind. Unterschieden werden Dateien mit Syntaxregeln, solche für lexikalische Regeln, fur Lexikoneintrage, fur Startsymbole und fur Typdefinitionen. Instanzen sind vor allem Regeldefinitionen jeglicher Art, Lexikoneintrage und Startsymbole. Diese haben nur genau einen Typ und evtl. eine AWM-Definition im Rumpf ihrer eigenen Definition, siehe TDL-Syntax. Startsymbole legen fest, welche Strukturen von der Grammatik als vollstandige Äußerung akzeptiert werden.

5 Grundkonzepte der Implementation

In diesem Abschnitt betrachte ich generelle Implementierungsaspekte. Damit soll die Basis geschaffen werden für die in Abschnitt 6 beschriebene Behandlung der einzelnen Interpunktionsphünomene. Die zentrale Frage, ob frei stehende Satzzeichen besser als Token oder als Affixe zu betrachten sind, erörtere ich in Unterabschnitt 5.1. Darauf folgt ein Uberblick über die verwendeten grundlegenden Mechanismen (5.2) sowie die allgemeine Positionierung der Interpunktionsfeatures (5.3) und die Initialisierung ihrer Werte (5.4). Schließlich diskutiere ich in Unterabschnitt 5.5, wo in der Kaskade lexikalischer Regeln die Interpunktionsspellingregeln am sinnvollsten eingehüangt werden.

5.1 Vorüberlegung: Tokenisierung vs. Spelling

In der Regel werden in NLP-Systemen Interpunktionszeichen, die nicht von Leerzeichen umgeben sind (z. B. das Komma), vom angrenzenden String (Wort oder Zeichen) abgetrennt und als eigenes Token behandelt. Zu diesen Ansätzen gehürt auch eine deutsche LFG, die aus dem ParGram-Projekt hervorging (Dipper, 2003). Forst & Kaplan (2006) beschreibt, wie dieses große Grammatikfragment und vor allem dessen vorgeschalteter Tokenisierer ursprünglich mit Interpunktionszeichen umgingen, welche Probleme dabei entstanden und wie diese Probleme angegangen wurden. Eine Problemklasse, auf die ich hier eingehen mochte, ist die Interpunktionszeichen-Haplologie. Der Begriff Haplologie meint originür die Verschmelzung zweier gleicher aufeinanderfolgender Silben, wie bei „Zauberin“ statt „Zaubererin“, beschreibt aber im Kontext der Zeichensetzung nach Forst & Kaplan (2006) das Phünomen, dass Zeichen, die satzintern erscheinen wuürden, verschwinden, wenn sie an ein anderes Interpunktionszeichen angrenzen wurden. Nach dieser Vorstellung wird das erste Zeichen dann vom folgenden absorbiert.

Forst & Kaplan (2006) verfolgen die Idee, Satzzeichen wie Kommata erst dann zu konsumieren, wenn Phrasen geparst sind, die diese lizenzieren.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: schematische Beispielstruktur von „Er schnarchte, weil er schlief, obwohl er nicht müde war“

Abbildung 1 illustriert das Problem und zeigt schematisch einen möglichen Syntaxbaum für den Satz „Er schnarchte, weil er schlief, obwohl er nicht mude war“. Fett eingezeichnet sind die Kommata, die die beiden Nebensatze „damit er schnarchte“ und „obwohl er nicht mude war“ lizenzieren. Das Komma, das vom ersten Nebensatz rechts lizenziert wird, überschneidet sich mit dem Komma, das der zweite Nebensatz links von sich lizenziert. Dieses Komma ist zur Veranschaulichung doppelt in die Graphik eingetragen.

Man künnte nun (vorausgesetzt, man bleibt bei binarer Verzweigung) eine Regel schreiben, die ein Komma mit dem Nebensatz verbindet, und eine weitere, die wiederum an das Ergebnis das zweite Komma anfugt, wie in Abbildung 2 skizziert.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: schematische Verarbeitung von umschließenden Kommata bei dem Nebensatz „damit er schnarchte“

Daraus ergibt sich im Beispiel sofort das Problem, dass der erste Nebensatz dem zweiten das Komma „stiehlt“: Der zweite findet dann links neben sich kein Komma mehr. Ebenso wenig funktioniert es, ein Satzzeichen von der lizenzierenden Phrase ausgehend nur in einer Richtung zu konsumieren. Werden Kommata nur nach rechts abgearbeitet, so werden Kommata rechts von nichtlizenzierendem Material (vgl. Bsp. 46a: „Er schnarchte,“) nicht erfasst; dazu analog bleiben bei ausschließlicher Orientierung nach links Kommata links von nichtlizenzierendem Material (vgl. Bsp. 46b: „schnarchte er“) unberücksichtigt.

(46) a. Er schnarchte, obwohl er nicht schlief. b. Obwohl er nicht schlief, schnarchte er.

Der erste von Forst & Kaplan vorgeschlagene mügliche Lüsungsansatz ist, verschiedene kontextabhängige Syntaxregeln zu schreiben, die sich nur hinsichtlich der Zeichensetzung unterscheiden. Dieser Ansatz wird jedoch gleich wieder verworfen, da dies eine Vielzahl fast identischer Regeln erfordern würde, was die Modularitat und Wartungsfreundlichkeit der Grammatik einschrünken würde.

Daher wird eine andere Lüsung bevorzugt: In einem Vorverarbeitungsschritt werden zusützlich optionale Kommata vor sichtbaren Kommata, Schlusspunkten, Frage- und Ausrufezeichen eingefuhrt. Der Tokeni- sierer unterscheidet dabei diese künstlichen Komma-Token (_,) von tatsüchlich gesetzten Kommata (,). Das folgende Beispiel ist Forst & Kaplan (2006, S. 3) entnommen und zeigt die Ausgabe des Tokenisierers („TG“ steht für „Tokengrenze“):

(47) Sie werden enteignet - was manche rundum

sie TG werden TG enteignet TG - TG was TG manche TG rundum TG

ablehnen.

ablehnen TG TG .

Auf Grundlage der Lexikoneinträge

Abbildung in dieser Leseprobe nicht enthalten

Forst & Kaplan (2006, S. 3)

Abbildung in dieser Leseprobe nicht enthalten

kann laut Forst & Kaplan beispielsweise eine Struktur produziert werden, die Abbildung 3 vereinfachend illustriert.

Abbildung in dieser Leseprobe nicht enthalten

Gerade weil die Publikation sehr knapp gehalten ist, lohnt es sich, einen Blick auf die online äber das Parser-Interface XLE^[28] verfägbare Implementation zu werfen. Ohne daräber urteilen zu wollen, wie akkurat die Interpunktionsregeln umgesetzt sind, läasst sich feststellen, dass beim Parsen der Ansatz, zusätzliche „haplologische“ Kommata einzufuhren, durchaus erfolgreich ist. Auch Strukturen mit aufeinander folgenden Nebensätzen wie in Abbildung 1 und ineinander verschachtelte Nebensätze werden korrekt analysiert - und zwar nur dann, wenn Kommata an den richtigen Stellen gesetzt sind. Dass nichtvorhandene Token, gemeint ist das HAP-COMMA, im Parsebaum erscheinen, lässt sich als Schönheitsfehler verschmerzen. Das Manko, das sich aber unter dem Gesichtspunkt der Generierung offenbart, ist Übergenerierung - die LFG gehärt zur Familie der generativen Grammatiken. Es ist nämlich moglich, jedes HAP-COMMA durch ein sichtbares Komma zu ersetzen. Dadurch werden Satze erlaubt wie (48).

(48) Sie werden enteignet - was manche rundum ablehnen,.

Aus Analysesicht mag das zwar zu vernachlassigen sein - unerlaubte Zeichenfolgen wie ,, ,,,

und so weiter käonnten leicht vom Tokenisierer abgefangen werden (was allerdings noch nicht geschieht). Würde man aber versuchen, aus (47) zu generieren, würde auch der Satz (48) dabei herauskommen. Diese Übergenerierung würde mit steigender Anzahl optionaler Kommata n in einem Satz um 2n zunehmen: Bei 2 HAP-COMMAs gibt es 4 Mäglichkeiten, diese durch ein echtes Komma zu ersetzen oder nicht, bei 3 HAP-COMMAs schon 8 und so weiter. Die Anzahl dieser Mäglichkeiten ist zudem mit der Anzahl der Oberflächenrealisierungen zu multiplizieren, die abgesehen von den Unterschieden bei den Kommata generiert werden.

Eine weitere Idee ist, Kommata nur einseitig abzuarbeiten und dies - zweitens - nicht einzig auf der Grundlage von kommalizenzierendem Material. Angenommen, eine binare Syntaxregel verbindet ein Komma links mit einem beliebigen Wort rechts. Die Regel „merkt“ sich das Komma in einem oder mehreren Features und perkoliert ansonsten alles von dem Wort, das sie sich einverleibt hat, sodass sie nach außen hin aussieht wie das Wort. Mit dieser Vorgehensweise konnten erstens alle Kommata in der Eingabe verarbeitet werden: Die Anbindung des Kommas ist nun unabhaängig davon mäoglich, ob es sich bei der Schwesterkonstituente um ein Wort handelt, das zu Komma lizenzierendem Material gehärt oder nicht.

(49) a. [Weil er [schlief ,]][RpuwcTcomma] schnarchte er.

b. Er [schnarchte ,][RPUNCTcomma] [weil er schlief].

Ein Nebensatz etwa sucht nach dieser Idee dann zu seiner Rechten nicht ein Komma, sondern ein Komma als Randmerkmal der Phrase, welches nur vorhanden ist, wenn an dieser Stelle vorher schon einmal ein Komma angebunden wurde, wie in (49a) angedeutet.^[29] Das Merkmal „rechtes Interpunktionszeichen“ nenne ich im Beispiel einfach RPÜNCT. Ist der Nebensatz nicht satzinitial, sucht sich der Nebensatz entsprechend nicht ein Komma zu seiner linken, sondern eine Phrase, die das Merkmal [RPÜNCT comma] aufweist, siehe (49b).^[30]

Zweitens ist das Haplologie-Problem gelost, das entsteht, wenn etwa (wie in den Abbildungen 1 und 4 gezeigt) zwei Nebensaätze ein Komma an derselben Stelle verlangen. Denn das Feature RPÜNCT, so die Idee, ist, anders als ein Token, auf jeder Ebene, von jeder Richtung aus betrachtet und vor allem beliebig oft einseh- und äberprufbar, wenn man das Feature äber die rechte Peripherie perkolieren lasst. In 4 kann der obwohl -Satz auf das RPÜNCT-Merkmal der Schwester-VP „schauen“, gleichzeitig ist es auch vom weil -Satz aus lokal verfugbar.

Der Nachteil ist, dass es diesmal zu Performanzeinbußen beim Parsen kommen wuärde. Denn so wird

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: schematische Beispielstruktur von „Er schnarchte, weil er schlief, obwohl er nicht müde war“ eine Phrase zum einen mit Komma geparst, was am Ende des Parsevorgangs zum Erfolg führt, siehe Abbildung 5. Zum anderen aber auch ohne, sodass es in der Chart zu überflüssigen Teilstrukturen kommen kann, siehe Abbildung 6; denn ein Nebensatz muss auch ohne einleitendes Komma erlaubt sein, z. B. in Koordinationen wie „damit er schnarchte und damit er sich erholen konnte“, wie in Abschnitt 3.2.2 besprochen wurde.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Eingabeüberspannende Struktur bei Strategie „binde Komma immer an das Wort rechts an“

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Überflüssige Struktur „damit er schnarchte“ bei derselben Strategie (Rechtsanbindung)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Eingabeüberspannende Struktur bei Strategie „binde Komma immer an das Wort links an“

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Überflüssige Struktur „damit er schnarchte“ bei derselben Strategie (Linksanbindung)

Gleiches passiert, wenn man ein Komma immer an das links stehende Wort anbindet, siehe Abbildungen 7 und 8. Mit anderen Worten: Ist ein Komma im Eingabestring vorhanden, so ist der Parser nicht gezwungen, es möglichst fruh zu berücksichtigen, indem eine binare Regel das Komma mit dem nebenstehenden Wort verknüpft. Dadurch entstehen unnütige Teilstrukturen ohne Berücksichtigung des Satzzeichens. Wollte man unbedingt an Kommatoken festhalten, wuürde man wohl uüberlegen, die tiefe Anbindung zu erzwingen, indem man zunächst auch das Nicht-Vorhandensein eines Satzzeichens^[31] als spezielles Satzzeichen betrachtet und dann fordert, dass sich jedes Wort zuerst mit einem Satzzeichen verbinden muss, bevor es sich weiter kombinieren kann. Doch es erscheint abwegig und umstandlich, Interpunktionszeichen erst vom Tokenisierer abzutrennen und gleich darauf, noch auf Wortebene, die Zeichen vom Parser wieder anfügen zu lassen, denn damit ist nichts gewonnen. Viel naheliegender ist es, Interpunktionszeichen gerade dort stehen zu lassen, wo sie sind, und die aus Wort und Satzzeichen bzw. aus mehreren Satzzeichen bestehende Zeichenkette von lexikalischen Regeln analysieren zu lassen.

5.2 Überblick über die Implementation

Die Implementation beinhaltet drei grundlegende Mechanismen:

- Konsumierung der Interpunktionszeichen durch lexikalische Regeln und Speicherung in Features
- Perkolation bestimmter Features
- Constraints auf verschiedenen Ebenen

Wie bei der ERG lasse ich in der GG Affix-Satzzeichen wie das Komma aus den genannten Gründen von lexikalischen Regeln konsumieren und in Features abspeichern. Diese Regeln funktionieren im Grunde so wie gewoühnliche Affixregeln.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: Perkolationsprinzip von LPUNCT und RPUNCT

Manche der Interpunktionsmerkmale sind lokal, das heißt, sie brauchen nicht an die dominierende Kategorie übertragen zu werden. Diejenigen Merkmale aber, die von den lexikalischen Interpunktionsregeln direkt spezifiziert werden, müssen, wie in Abschnitt 5.1 angedeutet, perkolieren. Es gibt zwei grundlegende Features, die immer und ohne Einschrünkungen perkolieren und die auch in der ERG existieren: Eines, das das Zeichen speichert, das am rechten Konstituentenrand steht, RPUNCT, und eins fur den linken Rand, LPUNCT. Der allgemeinste Wert von LPUNCT und von RPUNCT soll vorerst basic^puncOmark sein, der selbst weitere Merkmale besitzt, auf die ich spüter zu sprechen komme.

Abbildung 9: Perkolationsprinzip von LPUNCT und RPUNCT

Wie Abbildung 9 zeigt, ist das LPUNCT-Merkmal des Mutterknotens bei Binürverzweigung (dasselbe gilt auch für ternüre Strukturen) immer identisch mit dem LPUNCT der linken Tochter, der eigene RPUNCT-Wert entspricht dagegen jenem der rechten Tochter. Bei unarer Struktur entsprechen LPUNCT und RPUNCT der Mutter denen der einzigen Tochter.

Neben den prinzipiell perkolierenden Features LPUNCT und RPUNCT sowie Hilfsfeatures, die nur lokal eine Rolle spielen, benoütige ich noch eine dritte Art von Feature, die zwischen den beiden erstgenannten liegt. Diese Features perkolieren nicht prinzipiell, stattdessen werden diese nur bei einigen Regeln von der rechten Tochter an die Mutter uübertragen.

Bei den Constraints, die ich verwende, lassen sich vier Arten unterscheiden, zwei auf lexikalischer und zwei auf syntaktischer Ebene. Die Constraints sind ein Mittel, um an bestimmten Stellen Interpunktionszeichen entweder zu fordern oder zu verbieten. Die lexikalischen Constraints waren zwar nicht zwingend erforderlich, um Analysen mit korrekter Zeichensetzung zu erhalten, doch ermoüglichen sie das Finden ungultiger Zeichensetzung bereits vor der syntaktischen Analyse.

-Orthographische Constraints sind auf den lexikalischen Regeln definiert. Es wird eine Menge von Schriftzeichen bestimmt, an die sich ein bestimmtes Interpunktionszeichen anh¨angen darf. So wird beispielsweise eine Sequenz aus mehreren Kommata, ein Punkt neben einem Semikolon usw. ausgeschlossen.
- Lexem-Head-Constraints definiere ich auf den Typen einiger lexikalischer Regeln. Mit diesen Constraints wird die Menge der Lexeme anhand ihres syntaktischen Kopfes eingeschränkt, die als Argument der lexikalischen Regeln fungieren kann. Damit wird zum Beispiel ausgedräckt, dass ein Schlusspunkt hinter einer Konjunktion unsinnig ist, weil eine Konjunktion nicht am Satzende stehen darf.
- Tochterknoten-Constraints: Mit dieser Art Constraint beschränkt eine phrasale Konstituente die (Werte der) bis dahin perkolierten Interpunktionsfeatures auf einem ihrer Argumente.
- Schwesterknoten-Constraints funktionieren nicht so direkt wie die ersten drei Constraintarten: Sie beschraänken die Interpunktionsfeatures der naächsten linken Schwester, die bis dahin perkoliert sind. Abbildung 10 zeigt, wie das Feature LEFT-SISTER-RPUNCT „um die Ecke wirkt“. An diesen Constraints sind immer mindestens zwei Features beteiligt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 10: Ein Schwesterknoten-Constraint

5.3 Platzierung der Interpunktionsfeatures

Die meisten der Interpunktionsfeatures platziere ich, anders als bei der ERG, nicht unter SYNSEM, sondern unterhalb von SIGN, und zwar aus einem bestimmten Grund: Alle Features, die unter SYNSEM stehen, erscheinen auf allen SUBCAT-Listen, da in der HPSG grundsätzlich fär SYNSEM-AWMs subkategorisiert wird. Ein subkategorisiertes SYNSEM enthalt wieder eine unter Umständen nicht leere SUBCAT-Liste. Stuänden nun alle Interpunktionsfeatures unterhalb von SYNSEM, haätte das zur Folge, dass diese auch unter jedem subkategorisierten SYNSEM auftauchen würden. Man mächte jedoch die Gräße der AWMs so gering wie mäglich halten, weil das Kopieren von AWMs durch den Parser mit zunehmender Große auch mehr Zeit kostet. Mächte man jedoch bestimmte Interpunktionsfeatures sele- gieren, so mussen diese weiterhin unter SYNSEM verfägbar sein.

Alle auf der sign-Ebene stehenden Interpunktionsfeatures fasse ich unter dem Merkmal SIGNPUNCT zusammen und deklariere SIGNPUNCT als Feature des obersten sign-Typs, root-or-non-root-sign (siehe Abbildung 11), wo sich auch so grundlegende Merkmale wie SYNSEM und LR (definiert den lexikalischen Status eines Zeichens) befinden. Damit ist sichergestellt, dass SIGNPUNCT bei jedem sign, bei Lexemen wie bei Phrasen, definiert ist.

signpunct ist Subtyp des allgemeinsten AWM-Typs, *avm*, und fährt wie gesagt weitere Merkmale ein, von denen ich jedes einzelne im weiteren Verlauf der Arbeit erklären werde.

Das Haupt-Punktmerkmal unter SYNSEM heißt schlicht PUNCT und kommt direkt in die Definition von synsem, siehe Abbildung 12.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 12: Einführung des Merkmals PUNCT

5.4 Initialisierung der Lexeme

Zunächst ist essentiell, dass alle Lexeme, so wie sie aus dem Lexikon kommen, als nicht Satzzeichen tragend markiert werden, weil andernfalls Constraints auf Satzzeichen wirkungslos wären. Abbildung 13 soll das verdeutlichen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 13: Interpunktionsconstraint bleibt wirkungslos bei uninitialisiertem Lexem

Angenommen, Schema X fordert ein Komma ( cornrna_punct) auf dem RPUNCT-Merkmal der ersten Arguments (der linken Tochter), das hier von Schema Y gebildet wird. Bis dorthin ist aber nur der Basistyp basic-puncEmark perkoliert, vom Wort lexem x ohne Zeichensuffix ausgehend. basic-puncEmark rährt von der Deklaration von RPUNCT her. comma_punct ist zwangslaufig ein Subtyp vom allgemeinsten basic_punct_mark, um äberhaupt ein gältiger Wert von RPUNCT sein zu kännen. Die Unifikation gelingt daher, was nicht beabsichtigt ist. Man konnte in der GG nach einer lexikalischen Regel oder einer Gruppe lexikalischer Regeln suchen, die alle Lexeme durchlaufen mussen, um auf den entsprechenden Merkmalen von deren Regeltyp (darunter auch RPUNCT) einen Typ für das Nicht-Vorhandensein von Affixsatzzeichen (nojpunct) zu spezifizieren. Es gibt jedoch keine solche Regel, denn manche Lexeme wie der Infinitivmarkierer „zu“ sind unveränderliche, feststehende Formen und somit niemals Argument irgendeiner lexikalischen Regel. Als abwegig erscheint es, extra eine neue Regel zu definieren, die gleichwertig ist mit den Satzzeichen konsumierenden Regeln, und die nichts anderes bewirkt, als die Zeichenset- zungsmerkmale jedes Lexems zu initialisieren. Die einzig sinnvolle Losung ist daher, die entsprechenden Merkmale aller Lexeme bis auf solche, die selbst freistehende Interpunktionszeichen sind (wie der Gedankenstrich), auf Werte zu setzen, die sie als nicht Satzzeichen tragend kennzeichnen. Außer LPUNCT und RPUNCT mussen noch weitere Features initialisiert werden, auf die ich zu einem späteren Zeitpunkt eingehen werde. Alle zu initialisierenden Merkmale liegen unter SIGNPUNCT, weshalb ich sie zu einem Paket vom Typ nosignjpunct zusammenfasse, das zum Subtyp von signjpunct wird.

nosignjpunct mässte nun nur noch als Wert des SIGNPUNCT-Merkmals aller Lexeme festgelegt werden. In der GG gibt es zwar keinen Supertyp genau aller (unbearbeiteten, aus dem Lexikon kommenden) Lexeme, doch praktischerweise sind alle Lexikoneinträage von maximalen Typen, die alle unterhalb der Typhierarchie von word oder von stem hängen; word und stem sind außerdem keine Supertypen lexikalischer Regeln. Es sind also nur zwei Stipulationen notwendig. Da ich auch freistehende Interpunktionszeichenlexeme mit unspezifiziertem SIGNPUNCT erlauben will, spalte ich word auf: Der ursprängliche Typ word wird zu basic-word Schließlich f¨uhre ich die Stipulation [Abbildung in dieser Leseprobe nicht enthalten] unter word und unter stem ein.

5.5 Einhangung der lexikalischen Interpunktionsregeln

Wie ich in Abschnitt 5.1 argumentiert habe, werden Affixsatzzeichen von speziellen Spellingregeln^[32] konsumiert und in Features gespeichert. Ein Zeichen kann vorne (als Quasi-Präfix) oder hinten (Suffix) an einem Wort hängen. Fär jedes Satzzeichen deklariere ich eine eigene lexikalische Affixregel^[33], aber sie alle lassen sich auf einen einzigen Regeltyp zurückführen: die punctuation^affix-rule (im Folgenden kurz p-ajr). Dieser bestimmt, auf welcher Ebene der Hierarchie der lexikalischen Regeln die lexikalische Satzzeichenregeln feuern sollen. Urspränglich applizierten die p_ajrs als letzte in einer Kaskade lexikalischer Regeln. Dies war praktisch, weil man so ihr Argument alleine durch den Constraint [Abbildung in dieser Leseprobe nicht enthalten]beschränken konnte.

Beim Experimentieren mit dem PET-Parser stellte ich jedoch fest, das dieser nicht zulässt bzw. nicht damit umgehen kann, dass zwischen zwei Spellingregeln andere lexikalische Regeln feuern. Daher verlagere ich die p_ajrs so weit wie mäglich nach unten, sodass sie nun direkt auf Inflektionsregeln aufsetzt (falls das jeweilige Wort flektiert wird - ansonsten direkt auf dem Lexem). Ließe man das Argument der p_a_rs unbeschraänkt, koännten sich andere lexikalische, nichtflektierende Regeln zwischen ein flektiertes Wort und die p_ajr mogeln, was zu unechter Ambiguitat fähren wärde. Da noch kein geeigneter Marker fär solch eine Beschränkung vorhanden ist, fäge ich ein neues LR-Feature hinzu:[Abbildung in dieser Leseprobe nicht enthalten] mit der Typhierarchie in Abbildung 14.

Dieses bekommt den „negativen“ Wert non-punct-lr-arg auf denjenigen lexikalischen Regeln zugewiesen, die nie als Argument von p_ajrs fungieren därfen.^[34] Diese schließen die p_ajrs als Argument aus, indem

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 14: punct-lr-arg·-Hierarchie

sie den positiven PUNCT-LR-ARG-Typ punct-lr-arg fordern.

PUNCT-LR-ARG tragt aufgrund eines wichtigen Unterschieds zwischen Suffix- und Präfix-p_a_rs keine boolschen Werte: Die lexikalische Regel, die eine Verbpartikel anhängt (particle-lrule), sollte Argument einer Präfix-p_a_r sein kännen, aber nicht Argument einer Suffix-p_a_r, weil ja erst nach dem Hinzufägen des Verbpartikels ein weiteres Präfix in Form eines Satzzeichens angehängt werden kann, vgl. (50):

(50) 1. Schritt : weg + gefahren

2. Schritt : ,, + weggefahren

Aber bereits davor ist die Verbindung mit einem Interpunktionssuffix möglich, vgl. die Alternativen (51a) und (51b):

b. 1. Schritt : weg + gefahren

2. Schritt : weggefahren + .

Daher gilt f¨ur die particle-lrule [Abbildung in dieser Leseprobe nicht enthalten]p_a_rs wird auf suffix-punct-lr-arg festgelegt. Außerdem därfen die p_a_rs selbst Argument von nichtflek-nichtflektierenden lexikalischen Regeln sein. Letztere hatten urspr¨unglich die Restriktion[Abbildung in dieser Leseprobe nicht enthalten]bear beiteten also Wortstämme. Diese Restriktion lockere ich so, dass sie nun auch p_ajrs akzeptieren, durch Einfährung des Typen stem-or-stempunct, von welchem sowohl stem (also Wortstämme) als auch die lexikalischen Interpunktionsregeln erben.

6 Implementation

Unabhängig von der Zeichensetzung bei speziellen Konstruktionen kristallisierte sich wahrend meiner Arbeit die in Unterabschnitt 6.1 untersuchte Fragestellung heraus, wie unlizenzierte Kommata effektiv blockiert werden koännen. Davon abgesehen bringt jedoch fast jede syntaktische Konstruktion eigene Probleme mit sich; dementsprechend machen die Unterabschnitte äber die Behandlung bestehender beziehungsweise die Einfährung neuer Konstruktionen 6.2 und 6.3 den Großteil der gesamten Diplomarbeit aus. Darauf folgt (in 6.4) eine Untersuchung einer Kernfrage dieser Arbeit: Wie ist robustes Parsen mit relaxierter Zeichensetzung mit adäquater Generierung zu vereinbaren? Der letzte Unterabschnitt, 6.5, hat die Effizienzoptimierung beim Parsen zum Thema und bereitet damit schon die Evaluation vor.

6.1 Blockieren unlizenzierter Kommata

Ein nicht-triviales Problem ist das Blockieren von Kommata an Stellen, wo sie nicht erlaubt sind, beispielsweise zwischen dem Artikel und dem Substantiv in (52a) oder zwischen dem Subjekt und dem Prädikat in (52b).

(52) a. * Der, Mann schnarchte.

b. * [Der Mann,]NP schnarchte.

Wichtig ist dies vor allem beim Generieren, um nicht äberall Kommata zu produzieren. Es gibt keine offiziellen Regelungen, die Aussagen daräber treffen, wo keine Satzzeichen stehen dürfen. Ein menschlicher Anwender präskriptiver Zeichensetzungsregeln wärde solche Regelungen wohl nicht vermissen. Muhelos setzt er nirgends ein Komma, wo kein Anlass dazu besteht. Einer HPSG ist dies jedoch nicht so einfach zu vermitteln. Hier mässen an allen Stellen, wo kein Komma erlaubt ist, Constraints aktiv das Komma verbieten.

Auf den ersten Blick lasst sich zum Ausschließen des Kommas in (52a) die einfache Regel formulieren, dass hinter einem Determinierer ein Komma grundsatzlich verboten ist. Doch selbst in diesem scheinbar klaren Fall belegt Pittner (1995) das Gegenteil: Zumindest Parenthesen können hinter einem Determinierer eingeschoben sein und dann mit Komma markiert werden, vgl. (53).

(53) Angesichts der, wie er meint, Vergeblichkeit seiner naturschützenden Aufklärungsarbeit hat sich Horst Stern aufs belletristische Altenteil zurückgezogen.^[35]

Hinsichtlich des Beispiels (52b) reicht gar ein eingeschobener Relativsatz, um das Komma hinter „Mann“ zu lizenzieren, vgl. (54).

(54) [Der Mann, der schlief,]NP schnarchte.

Egal, ob mit oder ohne eingeschobenen Nebensatz - in beiden Fällen bildet in der GG das FILLER- H(EAD)-Schema aus dem Subjekt „Der Mann“ bzw. „Der Mann, der schlief,“ und aus dem Prädikat „schnarchte“ einen Satz. Das bedeutet, dass das erste Argument von FILLER-H sowohl in (52b) als auch in (54) ein Komma aufweist. Ohne weitere Information kann FILLER-H nun nicht unterscheiden, in welchem der beiden Fälle das Komma illegal ist.

Der wesentliche Unterschied ist der, dass in im Fall (54) das zweite Komma zusammen mit dem ersten Komma ein Kommapaar bildet, das den Relativsatz einschließt und von diesem lizenziert wird. Kommata, die nicht an der rechten Grenze eines Kommapaarschemas stehen, bezeichne ich ab hier als unpaarige Kommata.

Einen Beitrag zur Losung des Problems kann die ERG leisten. Dort existiert das Interpunktionsfeature PNCTPR, das anzeigen soll, ob ein lizenziertes Kommapaar gesehen wurde. In der ERG ist PNCTPR ein boolsches Merkmal: Dessen Basistyp pnctpair hat nur die beiden direkten Subtypen ppair und no^ppair, siehe Abbildung 15.

In meiner Arbeit übernimmt das Feature PAIRED die Funktion von PNCTPR in der ERG. Abbildung 16 zeigt anhand von (54) den Mechanismus der Kommapaarmarkierung, wenn man ihn direkt aus der ERG

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 15: pnctpair-Hierarchie in der ERG

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 16: Urspr¨unglicher ERG-Mechanismus der Kommapaarmarkierung, auf die GG ¨ubertragen: mit Kommapaar

in die GG übertragen wurde, bei einem korrekten Kommapaar: PAIRED wird zunächst auf den Lexemen als ppair initialisiert und nimmt auf der lexikalischen Kommaregel PUNCT-COMMA-ORULE den Wert no_ppair an. Da Relativsätze zu den Konstruktionen gehören, die ein Kommapaar lizenzieren, setzt das REL-CLAUSE-Schema PAIRED wiederum auf den Wert ppair.^[36] Die nicht Kommapaar lizenzierenden Schemata, im Beispiel H-ADJUNCT und DET-NBAR, lassen diesen Wert perkolieren. Schließlich verlangt FILLER-H, dass auf dem ersten Argument ein Kommapaar gesehen wurde, was im Beispiel von Abbildung 16 der Fall ist.

Dagegen unterbricht bei der Analyse von (52b) kein Kommapaarschema die Perkolation des von PUNCT- COMMA-ORULE ausgehenden Wertes no_ppair. Deshalb schließt richtigerweise die Beschränkung auf FILLER-H das Komma an dieser Stelle aus, vgl. Abbildung 17. Wichtiger als die Tatsache, dass Lexikoneinträge den PAIRED-Wert ppair tragen, ist, dass sie nicht auf no_ppair festgelegt sind. Damit ist gewährleistet, dass die Nichtexistenz von Kommata wie ein paariges Komma zählt und ein Satz wie „Er schnarchte“ (vgl. Abbildung 18) ebenso von FILLER-H akzeptiert wird wie „Der Mann, der schlief, schnarchte.“ Es werden also nur solche Kommata blockiert, die nicht am rechten Rand eines Kommapaarschemas auftreten.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 17: Ursprünglicher ERG-Mechanismus der Kommapaarmarkierung, auf die GG übertragen: mit einzelnem Komma

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 18: Ursprünglicher ERG-Mechanismus der Kommapaarmarkierung, auf die GG übertragen: ohne Komma

6.2 Behandlung bestehender Konstruktionen

Oberstes Gebot beim Integrieren von Interpunktion in bestehende Konstruktionen soll sein, existierende Syntaxschemata weder aufzuspalten noch neue Syntaxregeln einzuführen. Für diese Herangehensweise gibt es drei gute Gründe. Der erste Grund ist praktischer Art: Der Aufwand, mit GG-Schemata manuell annotierte Korpora abermals von Hand zu reannotieren, ware nicht unerheblich, zumal eine Vielzahl von Schemata von Aufsplittungen betroffen waren. (Es sieht beispielsweise auf den ersten Blick verlockend - weil einfach - aus, zwischen Regeln für Nebensatze im Vorfeld, die kein öffnendes Komma fordern, und anderen Regeln für Nebensätze an anderen Positionen zu unterscheiden.) Der zweite Grund ist der, dass ich eines der Grundprinzipien der HPSG nicht verletzen müchte, welches lautet, dass moglichst viele Informationen und Fallunterscheidungen von den Lexemen ausgehen sollten. Drittens kann solch ein integrierter Ansatz der Wartbarkeit der Grammatik und der Verarbeitungseffizienz nur guttun: Bei Deklaration mehrerer Regeln, die bis auf ein oder zwei Constraints identisch sind, ist zu erwarten, dass beim Parsen die Anzahl aktiver Kanten unnüotigerweise in die Hoühe getrieben wird.

Im Folgenden werde ich erst auf die Implementierung von Schlusszeichen (Abschnitt 6.2.1) eingehen und danach übergehen zur Zeichensetzung bei Nebensützen und eingeleiteten Infinitivsatzen (6.2.2), uneinge- leiteten Infinitivsatzen (6.2.3) und syndetischen sowie rekursiven Koordinationen (6.2.4). Am Rande ist schließlich zu erwahnen, was mit Kontaktfragen und Interjektionen im Vorvorfeld geschieht (6.2.5).

6.2.1 Kennzeichnung des Schlusses von Äußerungen

usw. können nie am Schluss einer Äußerung stehen, daher sollte ihnen auch nie ein Schlusszeichen folgen. Folglich möchte man diese Lexemklassen als „Stamm“ für Schlusszeichen-Suffixregeln ausschließen. Geeignet für diesen Zweck ist das Kopfmerkmal; da keine Negation zur Verfügung steht, definiere ich einen head -Typ, der die Komplementürmenge zu den Konjunktor-, Determinierer- (und so weiter) Kopfen abdeckt: possib-sent-final-head.

Außerdem mochte man Schlusszeichen innerhalb von (Äußerungen blockieren.

Dies ist mit einem allgemeinen Prinzip zu bewerkstelligen, welches für alle binören Regeln gilt. Es besagt, dass das rechte Schriftzeichen einer linken Tochter niemals ein Schlusspunkt sein darf. Konkret werden mittels einer Restriktion mit einem geeigneten puncíjmark-Typ von der Form

[Abbildung in dieser Leseprobe nicht enthalten]Schlusspunkte herausgefiltert, alle anderen Zeichen (im Beispiel

nur Komma, Semikolon und kein Punkt“) duürfen passieren.

Außerdem mochte ich ungrammatische Beispiele wie (12a), hier wiederholt in (55)

(55) * Warum kommst du morgen.

ausschließen und bei Satzen, die durch ihre Syntax auf keine bestimmte (Äußerung festgelegt sind, mit Hilfe des Schlusspunktes die (Äußerungsart disambiguieren. Dazu ziehe ich nicht den Typ von RPUNCT direkt heran, sondern führe nach dem Vorbild der ERG auf RPUNCT das Hilfsfeature MSGPRED (für „message predicate“, im Folgenden nenne ich es „Satzaussage“) ein, welches als Wert rnessage-rrurel aufweist. Die entsprechende Typhierarchie (s. 19) übernehme ich aus der Original-GG.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 19: Teil der ”message m rel“-Hierarchie

Drei Punkte sind zu dieser Hierarchie anzumerken. Der wichtigste ist, dass die Typen, die Proposition und Imperativ subsumieren (punct-prop-imp-m-rel, propArnpjrnjrel mit den Fragerelationen (alles unter abstr-inLm_rel) inkompatibel sind. Zweitens gibt es genau zwei Typen, die als initiale Werte von SIGNPUNCT.RPUNCT.MSGPRED gedacht sind, abgesehen vom allgemeinen rnessage_rn_rel: punct-prop-imp-m^rel und punctJmtjmjrel. Die übrigen Typen beschränken entweder die Satzaussage in bestimmten Konstruktionen, das heißt auf Regeln oder Regeltypen im CONTENT unter dem Pfad SYN- SEM.LOC.CONT.MESSÄGE.PRED, oder kommen durch Unifikation zustande. Drittens werden hier zwei Konzepte vermischt: Die Begriffe „(Äußerung“ und „Frage“ zielen auf Sprechaktarten ab, „Imperativ“ auf eine bestimmte syntaktische Struktur. Beide Konzepte waren in der Grammatik bereits unter dem Basistyp rnessage-rrurel zusammengefasst. Der Einfachheit halber lasse ich die Typhierarchie so bestehen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 20: Vereinfachter Parsebaum des Beispielsatzes „Hans sagte, Maria komme morgen?“

Um nun eine syntaktisch spezifizierte mit der von einem Schlusspunkt eingeführten Satzaussage in Einklang zu bringen, unifiziert man an der richtigen Stelle SYNSEM.LOC.CONT.MESSAGE.PRED mit RPUNCT.MSGPRED (kurz MSGPRED-Koreferenzierung). Wie in Abschnitt 3.1 festgestellt, beeinflussen Schlusspunkte ausschließlich die Satzaussagen vollstündiger (Äußerungen, nicht diejenigen z.B. von Nebensaützen. Es ist aus diesem Grund essentiell, dass die Unifikation erst ganz am Ende eines ParseVorgangs stattfindet.^[37] Eigentlich würen die Root-Conditions die passende Stelle für die Unifikation. Zur Erinnerung: Sie bestimmen in der GG, welche Phrasen als vollstandige (Äußerungen akzeptiert werden. Aktuell gibt es fünf verschiedene dieser Bedingungen, und zwar utterance-v-scnd, die V2-Sütze lizenziert; utterance-non-v (lizenziert nichtverbale vollstandige Phrasen); utterance-int-clause (Interrogativphrasen wie „wann er kommt“); utterance-turn-seq (Kontaktfragen wie „Er kommt morgen, oder?“) und utterance- coord (alle Arten von Koordination).

Ungünstigerweise künnen die Root-Conditions gar keine Unifikationen vornehmen. Sie prüfen lediglich ein paar Features auf ihre Werte hin. Als Alternative bietet sich an, auf all denjenigen Regeln die Unifikation vorzunehmen, die gemaß den Root-Conditions eine vollstandige Außerungsphrase aufbauen. Doch dieser Ansatz fuührt nicht immer zum richtigen Ergebnis. Dazu betrachte man den vereinfachten Parsebaum von Beispielsatz (13a): „Hans sagte, Maria komme morgen?“, siehe Abbildung 20. Die Regel FILLER-H konstruiert gewüohnliche Aussagesüatze, waüre also auf den ersten Blick ein geeigneter Kandidat fuür eine MSGPRED-Koreferenzierung. Wie Abbildung 20 zeigt, gibt es jedoch Satze, wo FILLER-H einen Nebensatz am rechten Rand eines komplexen Satzes zusammensetzt. In diesem Fall mutiert der eingebettete Satz faülschlicherweise zum Fragesatz, wenn wie im Beispiel ein Fragezeichen gesetzt ist, denn MESSA- GE.PRED bekommt dann inLmjrel zugewiesen. Ebenso verhalt es sich mit koordinierten Satzen wie z. B.

(56) , die ebenfalls einerseits eine vollstandige (Äußerung bilden künnen, sich andererseits auf der rechten Seite eines komplexen Satzes einbetten lassen, wie etwa in Form eines uneingeleiteten Objektsatzes (57).

(56) Sie schläft und er schnarcht.

(57) Er sagte, sie schlaft und er schnarcht.

Die Lösung des Problems sind unäre Regeln, deren einzige Aufgabe darin besteht sicherzustellen, dass der Schlusspunkt die Satzaussage der gesamten (Äußerung mitbestimmt; zum Zweck der folgenden Erklärungen fasse ich sie zusammen unter der Bezeichnung GET-RPUNCT-MSGPRED-Regeln. Die unäre Regel, die uber FILLER-H appliziert, nenne ich FILLER-HEAD-GET-RPUNCT-MSGPRED.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 21: Schematischer Parsebaum des Beispielsatzes „Er schläft!“

Abbildung 21 veranschaulicht den Effekt von FILLER-HEAD-GET-RPUNCT-MSGPRED : Die MSGPRED-Unifikation findet erst über FILLER-H statt. Das Argument von FILLER-HEAD-GET- RPUNCT-MSGPRED ist präzise definiert; es ist vom Typ head-filler-rule-type ; die einzige Regel dieses Typs ist FILLER-H, siehe Abbildung 22.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 22: Definition des Typs filler-head-get-rpünct-msgpred-rüle-type

Der entsprechende Regeltyp, der fär Koordinationen zuständig ist, heißt coord-get-rpünct-msgpred- rüle-type (Abbildung 23), dessen Argument vom Typ basic-coordination-rüle-type ist. Hierunter fallt unter anderem das COORD-Schema, das syndetische Koordinationen mit einer Konjunktion wie in Beispielsatz 6.2.1 herstellt. Alle GET-RPUNCT-MSGPRED-Regeln erben zudem vom Typ basic-additional- get-rpünct-msgpred-rüle-type (kurz bgrm-type), der unter anderem das Argument dieser unaren Regeln weiter beschränkt, siehe Abbildung 24.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 23: Definition des Typs coord-get-rpunct-msgpred-rule-type

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 24: Definition des Typs basic-additional-get-rpunct-msgpred-rule-type

Der bgrm-type verlangt vom Argument erstens, dass der Kopf ein initiales, finites Verb ist (ARGS < [...CAT.HEAD head initiaL+fin-verb-head ] > ), zweitens ein komplettes Synsem (complete-synsem) und drittens eine V2-Stellung (...V2 v2). All diese zusätzlichen Beschränkungen sind identisch mit der Root-Condition utterance-v-scnd. Sie sind zwar irrelevant fär FILLER-HEAD-GET-RPUNCT- MSGPRED und COORD-GET-RPUNCT-MSGPRED, da die Argumentrestriktionen letzterer schon maximal genau sind, aber es ist wichtig fär die dritte GET-RPUNCT-MSGPRED-Regel, welche ich gleich für eine Art von Imperativsätzen vorstelle. Daneben perkoliert bgrm-type den SYNSEM- sowie den RPUNCT-Wert. Auf einem der Supertypen von basic-additional-get-rpunct-msgpred-rule-type, namlich auf get-rpunct-msgpred-rule-type, ist die eigentliche Koreferenzierung definiert, siehe Abbildung 25. Auf die Bedeutung der Features GOT-RPUNCT-MSGPRED sowie SPANNING-ONLY komme ich später zu sprechen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 26: Schematischer Parsebaum von ‘Besuchen Sie ihn morgen!’

An eine exakte Argumentrestriktion in der Form, wie ich sie bei FILLER-HEAD-GET-RPUNCT- MSGPRED und COORD-GET-RPUNCT-MSGPRED einsetze, ist bei derartigen Imperativsötzen nicht zu denken, weil sie so mit Komplementen und Adjunkten expandiert werden können, dass H-COMP oder H-ADJUNCT den Wurzelknoten bilden, siehe Abbildung 26. Eine för diese Imperative passende GET-RPUNCT-MSGPRED-Regel - ich gebe ihr den Namen IMP-GET-RPUNCT-MSGPRED - muss die Auswahl ihres Arguments deshalb öber geeignete Featurerestriktionen treffen. Das Feature, das hierför in Frage kommt, ist wieder MESSAGE.PRED. Im aktuellen Beispiel trägt MESSAGE.PRED den Wert impjmjrel und perkoliert von IMPERATIVE-3PL uber H-COMP bis H-ADJUNCT. Zusammen mit den Argumenteinschrankungen des bgrm-types wird die angesprochene Imperativsatzform ausreichend genau spezifiziert. Der letzte GET-RPUNCT-MSGPRED-Regeltyp sieht dann so aus:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 27: Definition des Typs imp-get-rpunct-msgpred-rule-type

Die GG beinhaltet weitere satzabschließende Schemata:

- verschiedene INTERJECTION-RULE-Schemata (bilden Außerungen mit Interjektion, z.B. „Nanu, was ist das denn?“ )
- verschiedene Q-TAG-Schemata (Kontaktfragen, z.B. „Er kommt morgen, oder?“)
- WH-H (Ergöanzungsfragen)
- YES-NO-QUESTION (Entscheidungsfragen)
- zwei TOPIC-DROP -Schemata (Aussagesötze mit Verberststellung wie „Lege ich mich dann mal hin.“)
- IMPERATIVE (echte Imperativsätze wie „Komm endlich!“)

Sie alle sind bezäglich der MSGPRED-Koreferenzierung unproblematisch, denn mit ihnen gebildete Satze lassen sich nicht so in eine äbergeordnete Äußerung integrieren, dass das Schlusszeichen sowohl die unter- als auch die äbergeordnete (Äußerung abschließt, jedoch die beiden Satzaussagen divergieren. So kann ein Teil der mit den oben genannten Schemata gebildeten Sätze koordiniert werden, z. B. Fragesätze: „Wann reist er an, und wann fährt er wieder ab?“; das Koordinationsschema überträgt die vom Schlusszeichen erhaltene Satzaussage ohnehin an die koordinierten Konstituenten^[38] - die koordinierten Fragesäatze ergeben zusammen einen groäßeren Fragesatz.

Daher erben diese Schemata von get-rpunct-msgpred-rule-type ; weitere auf sie aufgesetzte unare Regeln wie FILLER-HEAD-GET-RPUNCT-MSGPRED sind also nicht notwendig.

Die zusätzlichen unären Regeln müssen noch als „spanning-only“-Regeln definiert werden, das heißt Regeln, die ausschließlich den kompletten Eingabestring äberspannende Kanten erzeugen. Abbildung 28 zeigt, dass es andernfalls zu unerwänschten Zwischenschaltungen der zusätzlichen Regeln und damit zu unechter Ambiguitat kommt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 28: Schematischer Parsebaum des Beispielsatzes „Hans sagte, Maria komme morgen?“

Ohne weitere Restriktionen erhält man zwei Parsebäume, einen korrekten ohne den unteren Knoten [FILLER-HEAD-GET-RPUNCT-MSGPRED] und einen uberflussigen mit.

Im PET-Parser ist praktischerweise bereits eine Option eingebaut, um Regeln als spanning- only“ zu markieren. In LKB behelfe ich mir mit dem eigens zu diesem Zweck unter root-or- non-root-sign deklarierten boolschen Feature SPÄNNING-ONLY. Seine Funktion ist denkbar simpel: Alle „spanning-only“-Regeln werden auf [SPANNING-°NLY +] gesetzt. Über Constraints der Form

Abbildung in dieser Leseprobe nicht enthalten

wird dann besagt, dass jegliche Regel keine „spanning-only“-Regeln als Tochter haben darf. Zumindest wird in LKB damit unechte Ambiguität vermieden. Dass die neuen unaren Regeln weiterhin auf der LKB-Chart unnoätige passive Kanten erzeugen, nehme ich in Kauf.

Damit nicht genug: Die Root-Conditions müssen schließlich noch dahingehend angepasst werden, dass sie keine Äußerungen mehr lizenzieren, in denen ein etwaiges Schlusszeichen noch nicht berücksichtigt wurde. Ohne diese Anpassung würde beispielsweise immer noch FILLER-H neben FILLER- HEÄD-GET-RPUNCT-MSGPRED als Wurzelknoten akzeptiert, und zwar in PET wie in LKB. Hier kommt das boolsche Feature GOT-RPUNCT-MSGPRED (ebenfalls unter root-or-non-root-sign deklariert) ins Spiel. get-rpunct-msgpred-rule-type kennzeichne ich mit[Abbildung in dieser Leseprobe nicht enthalten] got-rpunct-msgpred + ; die Komplementärmenge davon, also Regeltypen, die nicht von get-rpunct-msgpred-rule-type erben, werden zu Subtypen von got-no-rpunct-msgpred-rule-type. Letzterer Typ trägt einen entgegengesetzten Constraint:[Abbildung in dieser Leseprobe nicht enthalten] . Erst durch diese Spezifikationen wird es möglich, in den Root-Conditions GET- RPUNCT-MSGPRED-Regeln als Wurzelknoten zu erzwingen.

Für Ausrufe- und Fragezeichen werden leicht andere orthographische Constraints benotigt als für Schlusspunkte. Punkt, Semikolon, Doppelpunkt, Komma, oüffnende Änfuührungszeichen und Klammern sind für alle Schlusszeichen keine gultigen Vorganger. Schlusspunkten dürfen außerdem keine Äusrufe- und Fragezeichen vorangehen.

Es ist aber moglich, Frage- und Ausrufezeichen miteinander zu kombinieren, wenn man Äußerungen kennzeichnen will, die „zwischen Ausruf und Frage“ stehen (Engel, 1988, S. 836), siehe die Beispiele 59 und 60.

(59) Wie war das moglich!?

(60) Mein eigener Bruder?!

Als vernachlassigbar erweist sich der Unterschied zwischen Äußerungen mit Schlusspunkt und mit Ausrufezeichen, denn letzteres tragt nur Information dazu bei, wie eine Äußerung wiedergegeben wird (nümlich emphatisch); es schrünkt jedoch die Art des Sprechaktes nur so weit ein, wie es Schlusspunkte tun: Hinter direkten Fragen steht kein Ausrufezeichen (außer in Kombination mit Fragezeichen).

Der Typ der Spellingregel, die ein Ausrufezeichen dort anhangt, wo noch kein Schlusszeichen vorhanden ist - init_punctuation_excl_rule -, setzt den MSGPRED-Wert von RPUNCT dementsprechend auf punctjpropjimp-mjrel.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 29: Definition von initjpunctuation-excLrule

Ebenso fuhre ich eine Spellingregel für Fragezeichen ein, die für RPUNCT.MSGPRED punctJntjmjreA stipuliert. Eine Moglichkeit, Kombinationen aus Frage- und Ausrufezeichen zu implementieren, ist, sie in der Vorverarbeitung auf ein einzelnes Fragezeichen, reine Serien von Ausrufezeichen wie in Das ist ja allerhand!!!“ auf ein einzelnes Ausrufezeichen zu reduzieren. Zu bevorzugen sind jedoch rekursive Ausrufe- und Fragezeichen-Spellingregeln, weil sie die Oberflüchenform der Eingabe bewahren. RECUR- SIVE_PUNCT_EXCL_ORULE perkoliert einfach RPUNCT.MSGPRED, was zum gewünschten Resultat führt: Sind die Vorgüngerschlusszeichen allesamt Ausrufezeichen, wird puncUprop-imp-nurel vom initialen Ausrufezeichen übernommen, wie Abbildung 31 zeigt. Ist dagegen mindestens einer der Vorgünger ein Fragezeichen, wird punctJmtjmjrel weitergetragen, siehe Abbildung 32. Die rekursive Fragezeichenregel bewirkt das gleiche wie die initiale, man braucht aber beide: Eine zum unbeschraünkten Parsen von Fragezeichenfolgen, die der Generator nicht benutzen darf, und eine zum Generieren eines einzelnen Fragezeichens.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 30: Definition von recursivejpunctuation-excLrule

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 31: Partieller Parsebaum von ”allerhand!!!“

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 32: Partieller Parsebaum von ”m¨oglich!?!“

Wird eine Äußerung von einem Punkt als Wortzeichen beendet, kommt eine spezielle Spellingregel zum Einsatz, die ich im Abschnitt 6.3.5 vorstellen werde.

6.2.2 Neben- und eingeleitete Infinitivsatze

In der GG gibt es nicht nur ein Schema, das alle Nebensatzarten lizenziert, sondern jeweils eins für:

- Konjunktionalsatze, d. h. durch einen Subjunktor eingeleitete Neben- oder Infinitivsütze: COMP-S z. B. dass er kommt / um morgen zu kommen
- Relativsatze: REL-CLAUSE z. B. [der Zug,] der heute abfährt / [der Zug,] mit dem er heute abfährt
- Interrogativsatze, d. h. durch ein Interrogativadverb oder -pronomen eingeleitet: INT-CLAUSE z. B. [Er fragte,] wann er heute kommt. / [Er fragte,] welcher Zug der richtige sei.
- Uneingeleitete Nebensütze in der Funktion von ,,dass“-Sützen: CLAUSE-PROJ z. B. [Er sagte,] er komme morgen spater.

Wie ich in Abschnitt 3.2.2 darlegte, werden Nebensatze grundsatzlich nur von paarigen Kommata umschlossen, wenn sie eingeschoben sind; am linken und am rechten Satzrand dagegen nur mit einfachem Komma abgegrenzt. Ich verzichte darauf, diesen Fallunterscheidungen durch Aufspalten der Schemata fuür die einzelnen Nebensatzarten beizukommen - rein kontextabhangige Unterschiede allein bei der Zeichensetzung rechtfertigen keine solch massive Regelvermehrung. Stattdessen suche ich moüglichst allgemeine Mechanismen, die mit ein paar zusützlichen Features und den bisher bestehenden Regeln auskommen. Im Folgenden widme ich mich zuerst dem schließendem, dann dem einleitenden Komma.

6.2.2.1 Schließende Kommata

In Abschnitt 6.1 deutete ich schon an, dass mit dem Feature PAIRED Kommata am rechten Rand eines Kommapaarschemas vermerkt werden. Wichtig ist, dass dieses Merkmal keine Ruücksicht auf ein eventuell auftretendes „üffnendes“ Komma nimmt - Nebensütze im Vorfeld etwa, bei denen das einfuhrende Komma zwangslüaufig fehlt, und Nebensaütze auf anderen Positionen sollen auf einheitliche Weise als Kommapaar tragend markiert werden künnen. Ebenfalls in Abschnitt 6.1 habe ich erklürt, dass Lexeme ohne Interpunktionszeichen mit der Spezifikation [Abbildung in dieser Leseprobe nicht enthalten]so initialisiert werden m¨ussen, als wiesen sie ein Kommapaar auf, und dass PAIRED die rechte Peripherie entlang von Nicht-Kommapaarregeln nach oben getragen wird. Auf einem Nebensatzschema soll das PAIRED-Merkmal nun auf paired gesetzt werden, wenn das „schließende“ Komma vorhanden ist^[39] ; sonst auf no_ppair. Doch das PAIRED-Merkmal der rechten Tochter trügt in beiden Füllen den entgegengesetzten Wert. Woher nehmen sich die Nebensatzregeln also die „richtigen“ Werte?

Die Lüsung ist das Hilfsfeature PNCTPAIR. PNCTPAIR wird gerade mit dem zu PAIRED entgegengesetzten Typ initialisiert: Auf den Lexikoneintragen bekommt es no_ppair, auf der lexikalischen Kommaregel ppair zugewiesen.

In Abbildung 33 ist außerdem zu sehen, dass PNCTPAIR genau wie PAIRED durch Nicht-Kommapaarregeln von rechts perkoliert. Den aus Abschnitt 6.1 bekannten Constraint

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 33: Funktionsweise des Hilfsfeatures PNCTPAIR am Beispiel ”Als er schlief, schnarchte er.“

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 34: Struktur zweier ineinander verschachtelter Nebensätze

[Abbildung in dieser Leseprobe nicht enthalten]ubernehme ich absichtlich nicht in Abbildung 33: Diese vom Mutterknoten ausgehenden Beschrankungen sind nicht immer korrekt. Dazu vergleiche man den relevanten Teil des schematischen Parsebaums fär den konstruierten, aber grammatischen Satz ,,Obwohl er, als er schlief, schnarchte, [blieb sie ruhig]“ (Abbildung 34) mit der Struktur von „Obwohl er schnarchte, [blieb sie ruhig.]“ (Abbildung 35).

Der Vergleich zeigt, dass in beiden Strukturen das Schema SUBJ-H das Subjekt „er“ an den verbalen Kopf „schnarchte“ anbindet. Die einzige Abweichung im ersten Beispiel ist die Modifikation von „schnarchte“ durch den Temporalsatz „als er schlief“. SUBJ-H muss daher im ersten Fall ein Komma auf der linken Tochter vorfinden, im zweiten Fall darf an der Stelle kein Interpunktionszeichen gesetzt sein. Das Komma neben „er“ ist aber kein „schließendes“ Komma. PAIRED tragt daher dort den Wert no_ppair. Der Einfährung eines einheitlichen Prinzips, das lautet: „Das linke Argument jeglicher Regel[Abbildung in dieser Leseprobe nicht enthalten]muss (also ein paariges oder kein Komma) aufweisen“, ist somit die Grundlage entzogen. Vielmehr ist der rechte Kontext ausschlaggebend. Man mochte formulieren, dass, wenn in der linken Peripherie eines rechten Subbaums kein Kommapaarschema vorkommt, der linke Schwestersubbaum kein

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 35: Ein unverschachtelter Nebensatz

unpaariges Komma enthalten darf[Abbildung in dieser Leseprobe nicht enthalten]Warum die Formulierung so kompliziert ausf¨allt,lässt wiederum Abbildung 34 erkennen: Das Nicht-Kommapaarschema ISECT-V liefert keine Rechtfertigung dafur, ein unpaariges Komma auf dem linken Schwesterknoten auszuschließen, weil es auf seiner linken Peripherie einen Nebensatz einbettet.

Infolgedessen muss der Constraint, auf dem links adjazenten Subbaum[Abbildung in dieser Leseprobe nicht enthalten]zuverlangen, auf die Lexeme heruntergezogen werden. Träger des Constraints ist das Feature[Abbildung in dieser Leseprobe nicht enthalten]unter SIGNPUNCT; zur einfacheren Erkl¨arung f¨uhre ich es zun¨achst mit der bereits bekannten Typpartitionierung als Wert ein:

Abbildung in dieser Leseprobe nicht enthalten

Für das L_S_PAIRED-Merkmal aller Lexemtypen, unter denen keine Subjunktoren eingehängt sind, spezifiziere ich nun - vorerst - ppair. L_S_PAIRED wird von den linken Tochterknoten aus nur von den Nicht-Kommapaarschemata perkoliert. Diese Bedingung ist aufgrund von Fällen notwendig, bei denen einem Subjunktor ein anderes Wort vorausgeht, das zur Nebensatzeinleitung gehäort - beispielsweise bei Kombinationen aus Präposition und Subjunktor, wie in Abbildung 37 gezeigt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 36: Vorläufiges LEFT_SISTER_PAIRED-Prinzip

Was noch fehlt, ist ein Prinzip fur binäre Regeln, welches besagt: Der L_S_PAIRED-Wert des rechten Arguments ist stets tokenidentisch mit dem PAIRED-Wert der linken Tochter, siehe Abbildung 36.^[40]

Abbildung 37 zeigt die Funktionsweise von L_S_PAIRED an den hier interessanten Stellen: REL- CLAUSE lässt im Gegensatz zu den anderen Regeln im Beispiel den L_S_PAIRED-Wert der linken Tochter nicht perkolieren, weil sonst die Präposition „auf“ das unpaarige Komma hinter „Zug“ verhindern wurde. Die Perkolation findet dagegen oberhalb von „verspätet“ ungehindert statt - im Zusammenspiel mit dem Prinzip aus Abbildung 36 wird ein unpaariges Komma im Vorfeld ausgeschlossen. Derselbe Mechanismus verbietet Kommata an den Stellen I bis V.^[41]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 37: Funktionsweise von LEFT_SISTER_PAIRED am Beispiel „Der Zug, auf den er wartet, verspätet sich.“

6.2.2.2 Einleitende Kommata

Offen blieb bisher die Frage, wie Nebensatz einleitende Kommata erzwungen werden. Ich wies bereits darauf hin, dass PAIRED keine Räcksicht auf einfährende Kommata nimmt. Ein geeigneter Kandidat fur diesen Zweck ist aber das in Abschnitt 5.2 eingefährte Merkmal RPUNCT, das die Information daräber trägt, welche Art von Satzzeichen sich am rechten Konstituentenrand befindet.

Ein einfuährendes Komma ist nicht lokal vom Nebensatzschema aus einsehbar: Es ist, wie schon gesehen, am rechten Rand des linken Schwesterbaums angehangt. Der Grundgedanke ist hier ganz analog zum oben vorgestellten Konzept, unpaarige Kommata auszuschließen: Ein Kommapaarschema verlangt, dass die nächste Konstituente, die von links angefägt wird, mit [Abbildung in dieser Leseprobe nicht enthalten] spezifiziert ist.

Um diese Idee zu formalisieren, setze ich das Hilfsfeature LEFT_SISTER_RPUNCT (kurz L-S-RPUNCT) ein - zwecks später notwendiger Subkategorisierung unter SYNSEM.PUNCT. Der Wert von L_S_RPUNCT ist von demselben Typ wie RPUNCT und LPUNCT: basic^punct^mark. Der Feature
bezeichnung ist schon anzusehen, dass es das Gegenstück zu L_S_PAIRED bildet und ganz ähnlich funktioniert; das Prinzip zur Anwendung von L_S_RPUNCT ist, abgesehen von den Featurenamen, identisch mit dem entsprechenden L_S_PAIRED-Prinzip, siehe Abbildung 38.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 38: Vorlüufiges LEFT_SISTER_RPUNCT-Prinzip

Allerdings kann die Forderung [Abbildung in dieser Leseprobe nicht enthalten] nicht - zumindest nicht ausnahmslos - auf den Subjunktorlexemen deklariert werden, sondern wird auf den Kommapaarschemata festgelegt. Ein Grund dafür sind einerseits wieder Subjunktoren vorangeschaltete, zur Nebensatzeinleitung gehürende Würter; andererseits beispielsweise Interrogativadverbien, die auch als Modifikatoren fungieren künnen, wie in Beispiel (61a) „wann“: Hier darf kein Komma gefordert werden - ganz im Gegensatz zu (61b), wo das gleiche Adverb einen Nebensatz einleitet.

(61) a. Er kommt wann zurück?^[42]

b. Er fragte, wann er zuruückkommt.

Abbildung 39 veranschaulicht die Erzwingung eines Kommas nach links: REL-CLAUSE verlangt mit- [Abbildung in dieser Leseprobe nicht enthalten] „Zug,“ feuernde lexikalische Kommaregel (nicht abgebildet) auf RPUNCT comma_punct bereit. Schließlich wird durch das L_S_RPUNCT-Prinzip die Ubereinstimmung der beiden Werte (mittels Unifikation) uberprüft.

Im Abschnitt uber die Vorschriften des Regelwerks bezüglich Nebensätzen (3.2.2) erwähnte ich Mehr- wortsubjunktoren wie „so dass“, „außer wenn“ usw. Diese können, wie alle anderen Subjunktoren auch, direkt in das GG-Lexikon eingetragen werden. Sie erscheinen dann als einzelne Lexeme (mit einem Leerzeichen in der Mitte) in der Grammatik. Die Modifikation von Subjunktoren wie in zwei Tage bevor“ oder „kurz nachdem“ ist noch nicht implementiert. Solche Konstruktionen scheinen parallel zu Modifikationen von Präpositionen wie in „zwei Tage vor [der Feier]“ und „kurz nach [der Feier]“ (ebenfalls noch nicht eingebaut) zu sein und sollten evtl. mit demselben Schema behandelt werden.

6.2.3 Uneingeleitete Infinitivsätze

In der GG verbindet das Schema INF-ZU die Infinitivkonjunktion „zu“ mit dem Infinitiv; es hat ansonsten keine Aufgabe.

Mit uneingeleiteten Infinitivsaützen“ sind solche Infinitivsaütze gemeint, die nicht von Infinitivkonjunktionen wie statt“, anstatt“, ohne“ oder um“ angefuührt werden. Das Fehlen dieser Konjunktionen ist der Grund dafür, dass derartige Formationen nicht genauso wie ihr eingeleitetes Pendant behandelt werden künnen. Ein weiteres Problem ist, dass sie fakultativ von einem Kommapaar eingeschlossen werden.

Im Folgenden werde ich erst die Frage der Kommasetzung an der linken, dann an der rechten Infinitivsatzgrenze erörtern, bevor ich erklüre, wie ich das Problem des fakultativen Kommapaars gelüst habe.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 39: Funktionsweise von LEFT_SISTER_RPUNCT am Beispiel „Der Zug, auf den er wartet,

Schließlich gehe ich auf die obligatorische Kommasetzung bei erweiterten, von einem Substantiv oder Korrelat abhangigen Infinitivsätzen ein.

6.2.3.1 Anbindung nach links

Uneingeleitete ,,zu“-Infinitivsätze werden in der GG als Komplement nach links wie andere Komplemente angebunden: mit den Regeln H-COMP bzw. H-COMP-EXTRAPOSED.

Während links des Infinitivkomplements ein unpaariges Komma stehen darf (62, 63)...

(62) a. Der Mann versuchte, ihn zu sehen.

b. Der Mann versuchte ihn zu sehen.

(63) a. Er hatte die Gelegenheit, auf dem Bett zu schlafen.

b. Er hatte die Gelegenheit zu schlafen.

...ist dies etwa bei NPs (64) und PPs (65) nicht möglich:

(64)

a. * Er sah, ihn.

b. Er sah ihn.

(65)

a. * Er wartet, auf ihn

b. Er wartet auf ihn.

Ob links eines Infinitivsatzes ein unpaariges Komma erlaubt ist, ist also nicht an der Wortart des Komplement initiierenden Lexems festzumachen, vgl. „ihn“ in (62) und (64) bzw. „auf“ in (63) und (65). Dies widerspricht der bisherigen Annahme, links von Nicht-Kommapaarschemata auftretende unpaarige Kommata seien generell unzulaässig. Außerdem gilt: Wann ein uneingeleiteter Infinitivsatz vollstäandig ist,steht erst dann fest, wenn er als Komplement angebunden wird; denn vorher kann er selbst links ein Komplement absattigen (66) oder von links modifiziert werden (67).^[43] In diesen Fällen darf vor „zu“ kein unpaariges Komma stehen (66a, 67a).

(66) a. * Er versuchte ihn, zu sehen.

b. Er versuchte ihn zu sehen.

(67) a. * Er versuchte auf dem Bett, zu schlafen.

b. Er versuchte auf dem Bett zu schlafen.

Die Zulässigkeit eines unpaarigen Kommas entscheidet sich also nicht nur am nachfolgenden Lexem, sondern hängt zudem vom Komplementkopf ab.^[44] Diesen Gedanken setze ich folgendermaßen um:

In der HPSG ist das Feature HEAD, das Informationen uber den syntaktischen Kopf einer Phrase trägt, ein Merkmal von SYNSEM.LOC(AL). Ich nutze aus, dass ein bestimmter SYNSEM-Wert in der GG in der Regel mit seinem HEAD-Wert korreliert, und lege das neue Hilfsfeature INF_PPAIR unter SYN- SEM.PUNCT ab.^[45]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 40: synsem-Partitionierung in inf-verb-synsem und non-inf-verb-synsem

Der SYNSEM-Wert einer uneingeleiteten Infinitivgruppe ist immer ein Subtyp von inf-verb-synsem ; die von ihm abzugrenzenden synsem-Typen sind beispielsweise noun-synsem (vgl. (64)) und prep-synsem (vgl. (65)). Diese definiere ich deshalb zu Subtypen von non-inf-verb-synsem um. INF_PPAIR von non- inf-verb-synsem bekommt den Wert nonJtnf-ppair (Abbildung 40), der sich von pnctpair ableitet.

Den lexikalischen L_S_PAIRED-Constraint relaxiere ich so, dass ein unpaariges Komma nur noch bedingt verhindert wird. Ich nehme im nächsten Schritt - wiederum vorläufig - an, dass L_S_PAIRED auf Nicht-Subjunktoren mit dem pnctpair-Subtyp lexjppair initialisiert wird. Die pnctpair-Hierarchie gestalte ich nun derart, dass das gemeinsame Auftreten eines Nicht-Subjunktors (lex_ppair) und eines NichtInfinitivsatzes (nonJtnf-ppair) zu dem Typ lex-noninf-ppair führt, der mit einem unpaarigen Komma (nojppair) inkompatibel ist, siehe Abbildung 41.

Abbildung in dieser Leseprobe nicht enthalten

Nur H-COMP und H-COMP-EXTRAPOSED haben das Feature INF_PPAIR ihres rechten Arguments zu berücksichtigen: Sie identifizieren es mit dem L_S_PAIRED-Wert derselben Tochter sowie mit dem PAIRED-Wert auf der linken Tochter, wie in den Abbildungen 42 und 43 gezeigt.

Dass korrekterweise Fülle wie (64a: „[Er] sah, ihn[.]“) damit weiterhin nicht akzeptiert werden, geht aus Abbildung 42 hervor.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 42: *,,[Er] sah, ihn[.]“ wird nicht akzeptiert.

Dank der Unterspezifizierung des INF_PPAIR-Wertes auf inf-verb-synsem sind nun jedoch unpaarige Kommata vor uneingeleiteten Infinitivsützen müglich, siehe Abbildung 43: Die Unifikation von lex-ppair mit no_ppair gelingt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 43: ,,[Er] versuchte, ihn zu sehen[.]“ wird akzeptiert.

Unpaarige Kommata auf dem ersten Argument anderer Regeln als H-COMP(-EXTRAPOSED) wie in (66a *,,[Er versuchte] ihn, zu sehen“) schließe ich aus, indem diese Regeln grundsätzlich den PAIRED- Wert der linken Tochter mit nonjinf-ppair identifizieren, weil keine Abhangigkeit vom syntaktischen Kopf des rechten Arguments besteht, vgl. Abbildung 44.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 44: *,,[Er versuchte] ihn, zu sehen[.]“ wird nicht akzeptiert.

6.2.3.2 Anbindung nach rechts

Auch an der rechten Grenze einer uneingeleiteten Infinitivgruppe ist ein Komma fakultativ, siehe (68).

(68) a. Bald zu schlafen, versuchte der Mann.

b. Bald zu schlafen versuchte der Mann.

Sowohl in Beispiel (68a) als auch in (68b) versucht die finite VP - vereinfacht formuliert -, ein unpaariges Komma zu ihrer Linken durch den Constraint [l_s_paired iex-non_inf-ppair] auszuschließen. Der PAIRED-Wert muss daher unabhaängig davon, ob rechts vom Infinitiv ein Komma steht, konstant auf ppair festgelegt sein. Das heißt, dass das Auftreten eines Kommas an dieser Stelle ignoriert wird, was bei eingeschobenen Infinitivsaätzen ein Problem mit sich bringt, auf das ich im folgenden Abschnitt eingehen werde.

6.2.3.3 Einbindung in der Satzmitte

Bei Einschäben sind Infinitivsätze umschließende Kommapaare zwar optional - jedoch nicht einzeln, sondern als Ganzes, wie ich in Abschnitt 3.2.3 feststellte. Das heißt, man darf entweder beide Kommata oder keines setzen, aber nicht bloß eins. Ein einzelnes rechtes Komma geht nur dann, wenn es nichts mit dem Infinitivsatz zu tun hat, sondern anderweitig lizenziert ist, beispielsweise vom rechten Kontext (69a) oder durch rekursive Koordination (69b).

(69) a. Er hat die Gelegenheit zu schlafen, obwohl er arbeitet.

b. Er versucht zu schlafen, zu arbeiten und zu feiern.

Diesem Phaänomen Rechnung zu tragen, erfordert einiges an Aufwand, was ich anhand von Abbildung 45 demonstrieren mochte: Was gebraucht wird, ist eine Möglichkeit, auf der 1. H-COMP-Konstituente die Information zur Verfuägung zu stellen, ob auf einer innerhalb der rechten Peripherie darunter liegenden

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 45: Perkolation der PAIRED- und RPUNCT-Werte über INF-ZU

Kopf-Komplement-Struktur (im Beispiel 2. H-COMP) a) ein paariges Komma bzw. ein paariges „NichtZeichen“ oder b) ein einzelnes Komma vorkommt.

Die Konstellation a) soll vom rechten Kontext (im Beispiel die Adverbialphrase „nur selten“) immer lizenziert sein, b) dagegen nur zum Beispiel durch einen anschließenden Nebensatz. Keines der beiden Merkmale PAIRED und RPUNCT eignet sich zum Ablegen dieser Information. Der PAIRED-Wert über INF-ZU bleibt, wie eingangs erwühnt, unabhüngig von der Existenz eines schließenden Kommas konstant. PAIRED darf zudem aus Gründen, die ich bei meinen Ausfuhrungen uber die Zeichensetzung bei Nebensützen dargelegt habe, üffnende Kommata nicht einbeziehen. RPUNCT wird weiterhin benötigt, um eindeutig das Interpunktionszeichen an der rechten Grenze jeder Konstituente zu bestimmen. Deshalb implementiere ich einen vüllig neuen, Listen nutzenden Mechanismus, den ich unten Schritt für Schritt erkläre. Dieser nutzt die drei neuen Features LEFTJNFCOMMA (kurz LJNFC), I RIGHTJNFCOMMA | (RJNFC) und | TRANSJNFCOMMA | (TRJNFC), die unter SIGN- PUNCT.INFPUNCT gebündelt werden. LJNFC und RJNFC tragen jeweils einen Wert vom Typ ba- sicjpunctjmark, TRJNFC trügt eine Liste.

Initialisierung

Zunüchst merkt man sich fur ein Lexem (unter nosignjpunct) zusatzlich in LJNFC und RJNFC, dass noch kein Komma vorliegt: LJNFC hült diese Information fest für den Fall, dass das Wort sich links von einer Infinitivgruppe befindet^[46] und tragt anfangs den Wert left_inf_no_punct; das Lexem besitzt für den Fall, dass es den rechten Rand eines Infinitivsatzes bildet, auf RJNFC den Initialwert rightJmfjnojpunct. Wenn nun PUNCT_COMMA_RULE ein Komma konsumiert, aktualisiert diese Regel analog zu RPUNCT auch LJNFC (bekommt left-inf.comma) und RJNFC (right-inf-comma). Diese vier Typen bilden vier Dimensionen unterhalb von inf-comma-or.nojpunct, siehe Abbildung 46.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 46: Oberer Teil der ”inf comma“-Hierarchie

b) Registrierung eines Zeichenpaares

Das Aufsammeln eines Zeichenpaars und Abspeichern unter TR INFC geht folgendermaßen vonstatten: Alle Regeln lassen R INFC und TR INFC perkolieren, außer H-COMP. H-COMP identifiziert stattdessen R INFC seines rechten Argumentes mit L INFC seines linken, bildet aus dem Resultat den Kopf der eigenen TR INFC-Liste und identifiziert deren Rest mit der bisher auf dem rechten Argument aufgebauten TR INFC-Liste, wie Abbildung 47 zeigt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 47: Aufsammeln eines tief eingebetteten Kommapaars durch H-COMP und Perkolation

Für nur drei der vier denkbaren Komma-/ Nichtpunktkombinationen gibt es einen Typ (siehe Abbildung 48): Komma- und Nichtpunktpaar (inf-commapair / inf-no-puncLpair) sind immer erlaubt, ein einzelnes linkes Komma bei H-COMP-Anbindung dagegen nie.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 48: Teil der ,,inf_comma“-Hierarchie

c) Restriktion

Endlich macht also auf der ersten Kopf-Komplementstruktur (siehe Abbildung 47) TRJNFC auf dem zweiten Listenelement sichtbar, dass ein Kommapaar eingebettet ist. Aber angenommen, als zweites Element der Liste lage ein einzelnes Komma vor (right_inf_comma+left_inf_no_punct), dann müsste dies vom rechten Kontext ausgeschlossen werden. Durch die Reihenfolge der Listenkonstruktion ist jedoch unklar, auf welcher Listenposition sich die gesuchte Information befindet. Ich identifiziere die TRJNFC-Liste daher mit einer weiteren Liste, um eine All-Aussage zu treffen: Keines der TRJNFC-Listenelemente darf vom Typ right_inf_comma+left_inf_no_punct sein. Diese beschrankende Liste findet Platz auf dem Merkmal L_S.PAIRED. Gültige Werte von L_S_PAIRED sollen also ab jetzt nicht mehr vom Typ ba- sicjpunctjmark, sondern von *list* sein und Nicht-Subjunktorlexeme werden nicht mehr initialisiert mit [l_s_paired lexppair], sondern mit [l_s_paired *iex-ppair-iist*]. *lex-ppair-list* ist eine Liste, deren Elemente allesamt lex-ppair sind. Abbildung 49 zeigt, wie ich die Kompatibilitat von lex_ppair mit paarigem Komma und paarigem Nichtpunkt sicherstelle.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 49: Unterer Teil der ”inf comma“-Hierarchie

Das erste Element von L_S_PAIRED übernimmt nun die ursprüngliche Funktion des Features, PAIRED des linken Schwesterknotens zu beschrüanken, waührend der Rest der Liste sich zur Restriktion von TRJNFC nutzen lasst, siehe Abbildung 50: Die entscheidende Unifikation ist hier lexjppair LI inf_commapair = restr_inf_commapair.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 50: „ [Er] bekommt die Gelegenheit, zu schlafen, nur selten.“ wird akzeptiert.

6.2.3.4 Obligatorische Kommasetzung bei erweiterten und von einem Substantiv oder Korrelat abhängigen Infinitivsätzen

Das amtliche Regelwerk schreibt vor, dass von einem Substantiv oder Korrelat^[47] abhängende Infinitivsätze durch Komma abgetrennt werden. Eine Ausnahmeregelung besteht in diesen Fällen nur fär ,,reine Infinitive“, also nicht-erweiterte Infinitivsatze, wie dem Abschnitt 3.2.3 zu entnehmen ist. Das bedeutet, dass streng genommen bei erweiterten Konstruktionen Kommata obligatorisch sind.

Es ist ausreichend, das einleitende Komma mittels L_S_RPUNCT zu erzwingen, denn bei Einbindung in der Satzmitte sorgt der oben vorgestellte Mechanismus für das schließende Gegenstuck. Die Frage ist nur, wo der entsprechende Constraint unterzubringen ist: Das Problem ist wieder die flexible Erweiterbarkeit von Infinitivsatzen nach links. Die Läsung lautet, dass der L_S_RPUNCT-Wert des kompletten Infinitivsatzes vom selegierenden Lexem aus bestimmbar ist, weil L_S_RPUNCT unter SYNSEM liegt und somit äber die SUBCAT-Liste erreichbar ist. Erweiterte Infinitivsätze sind von nicht-erweiterten daran unterscheidbar, dass erstere mit [lex -] , letztere mit [lex +] gekennzeichnet sind.

Die Idee ist nun, vom Lexem aus nur nichterweiterte Infinitivsaätze zu subkategorisieren. Dann wird eine spezielle lexikalische Regel^[48] darauf angesetzt, die die SUBCAT-Liste bis auf den LEX-Constraint ubernimmt: LEX wird zu -, gleichzeitig wird L-S-RPUNCT mit cornrnajpunct spezifiziert.

Abbildung 51 veranschaulicht diesen Mechanismus: Erst nach dem Applizieren der lexikalischen Regel CNT-N-BARE-INF-EXT-LRULE subkategorisiert „Gelegenheit“ einen erweiterten Infinitivsatz.

Abbildung in dieser Leseprobe nicht enthalten

Mit Hilfe des Subkategorisierungsprinzips wird L-S-RPUNCT auf der SUBCAT-Liste mit comma_punct spezifiziert.^[49]

Abbildung 51: Erzwingung des öffnenden Kommas bei einem vom Nomen abhängenden erweiterten Infinitivsatz

6.2.3.5 Fortbestehende Probleme

Am Ende des Abschnitts 3.2.3 erwöhnte ich Ausnahmen bezüglich der Kommasetzung bei Infini- tivsötzen. Zur Erinnerung seien die entsprechenden Beispiele, in denen kein Komma stehen darf, in (70) wiederholt.

(70) a. Du brauchst morgen nicht zu kommen. (Der Infinitivsatz hangt von dem Anhebungsverb „brauchen“ ab.)

b. Dieses Problem wollen wir zu loösen versuchen. (Der Infinitivsatz ist mit dem uöbergeordneten Satz verschrönkt.)

c. Diese Summe bitte ich ihm bis morgen in Rechnung zu stellen. (Der Infinitivsatz schließt „bitte ich“ ein.)

d. Er hatte diese Summe zu zahlen beschlossen. (Die verbale Klammer schließt den Infinitivsatz ein.)

An den Positionen hinter „brauchst“ in (70a) und hinter „wollen“ in (70b) wird die Blockierung von Kommata dadurch erreicht, dass nicht das H-COMP-Schema die Infinitivsätze „morgen nicht zu kommen“ und „wir zu losen versuchen“ anbindet, sondern V1-S: V1-S wendet den L_S_PAIRED-Constraint, der vom rechten Argument kommt, wie äblich auf PAIRED des linken Arguments an und identifiziert zudem nonjinf-ppair mit diesem PAIRED-Wert, wie in Unterabschnitt 6.2.3.1 erklärt. Genau so verhalt es sich mit Beispiel (70d), bloß ist hier AUX-S fär die Anbindung des Verbalkomplexes zuständig. Dieser Zusammenhang hat jedoch nichts mit den zugrundeliegenden Forderungen zu tun (kein Komma bei Abhängigkeit von Anhebungsverben, Satzverschränkung bzw. Position in der Verbklammer). Zu Tage tritt das Problem, wenn man die ersten beiden Säatze so umstellt, dass die Infinitivsaätze ins Vorfeld rücken: „Zu kommen brauchst du morgen nicht.“ bzw. „Zu läsen versuchen wollen wir dieses Problem.“ Im Moment gibt es in diesen Fällen nichts, was FILLER-H daran hindern wärde, ein Komma an der rechten Vorfeldgrenze zuzulassen. Auch sind zur Zeit keine Mechanismen implementiert, die ein Komma vor der Infinitivgruppe in (70c) verhindern wärden.

Fär den Fall (70a) sind vermutlich Constraints ausreichend, die ein einziges zusätzliches Feature beräck- sichtigen, das auf Anhebungsverben deklariert wird. Die anderen Fälle scheinen komplizierter zu sein; hier wird weitere Arbeit näotig sein.

6.2.4 Syndetische und rekursive Koordination

Die GG beherrscht bislang Koordinationen

- gleichartiger Syntagmata mit entsprechenden Konjunktionen als Bindeglied (symmetrische, syndetische Koordination)^[50], wie in „Er kam herein und bestellte ein Bier.“, mittels COORD-Schema.
- von Syntagmata, die einer aus COORD gebildeten syndetischen Koordination ohne weitere Konjunktionen vorangehen, wie in „Er kam, sah und siegte.“ (rekursive Koordination in einer mehrteiligen monosyndetischen Koordination). Solche Strukturen werden in der GG stets nach rechts geklammert: [(A, [B, ... (C Konj D)])]. Es gibt zwei verschiedene rekursive Koordinationsschemata: Fur NPs (RECURSIVE-NOM-COORD) und fär Ereignisse (RECURSIVE-EV-COORD).
- mit zwei voneinander abhaängenden Konjunktionen wie sowohl . . . als auch“ , entweder . . . oder“ usw., mittels BINARY-COORD.
- mit Subjektluäcke in finiten und vorangestellten Konstruktionen (sogenannte SGF-Koordinationen) wie in „In den Supermarkt ging der Mann und kaufte Bier.“, mittels SGF-COORD.

SGF- sowie binäare“ Koordinationen lasse ich in der folgenden Diskussion außen vor, da sie im Zusammenhang mit der Zeichensetzung keine weiteren Schwierigkeiten mit sich bringen.

Am einfachsten stellt sich das Erzwingen eines Kommas oder Semikolons zwischen zwei rekursiv koordinierten Teilen dar: Es reicht aus, RPUNCT des linken Arguments von RECURSIVE-NOM-COORD und von RECURSIVE-EV-COORD entsprechend zu beschranken, mit dem Typ comma_or_semicol, der zwischen den beiden Satzzeichen unterspezifiziert ist.

Zu den syndetischen Koordinationen ist anzumerken, dass koordinierende Konjunktionen (im Folgenden vereinfacht nur Konjunktion genannt) ein nachfolgendes Komplement selegieren. Je nachdem, ob es sich bei diesem um eine nonverbale Phrase, eine finite oder nicht-finite VP handelt, wird es zuerst durch die ,,COORD-COMP“-Regeln COORD-COMP-NON-V, COORD-COMP-FIN bzw. COORD-COMP- NONFIN abgesattigt. Erst dann bindet COORD oder BINARY-COORD an die daraus entstandene Konjunktion-Konjunkt-Struktur das linke Konjunkt an. Wieder ist das Ziel, bei der Implementation der Interpunktionsregeln mit den bestehenden Syntaxschemata auszukommen.

Während die Zeichensetzung unmittelbar vor einer Konjunktion von mehreren Faktoren abhängt, darf unmittelbar danach kein unpaariges Komma stehen; auch dann nicht, wenn ein Kommapaarschema wie beispielsweise ein Nebensatz anschließt. Dies erreiche ich, indem ich auf dem COORD-COMP-X- Typ [args.signpunct.paired ppair] stipuliere. Außerdem sind Kommaforderungen durch LEFT-SISTER- RPUNCT auf dem rechten Argument zu ignorieren.

Ein Faktor, der das Satzzeichen vor der Konjunktion bestimmt, ist die Unterscheidung zwischen adversativen und nicht-adversativen Konjunktionen. Zunaächst erklaäre ich meine Vorgehensweise bei letzterer Klasse.

6.2.4.1 Syndetische Koordination mit nicht-adversativen Konjunktionen

Eine nicht-adversative Konjunktion verbietet ein vorausgehendes unpaariges Komma oder Semikolon; es sei denn, eigenstandige Satze werden koordiniert. Ich fähre den punct-mark-Typ non_advers-punct ein, der zur weiteren Ausdifferenzierung gedacht ist und lege fär den Lexemtyp nicht-adversativer Konjunktionen [l-S-RPUNCT non-advers-punct] fest.

COORD-COMP-FIN bindet eine Konjunktion an eine beliebige finite VP an, unabhaängig davon, ob es sich um einen selbstandigen Satz handelt. Da bei koordinierten Sätzen das Komma optional ist, suche ich ein Merkmal, an dem dieser Unterschied abzulesen ist. Das boolsche Feature V2 bietet nicht exakt diese Information, sondern dient der Trennung von Verbzweit- von Verberst-VPs. Um kein neues Merkmal deklarieren zu müssen, nutze ich es dennoch, denn es trennt auch finite VPs von V2-Hauptsätzen. Die Werte von V2, + und -, kännen nicht direkt als Typen in die punct-mark-Hierarchie eingebaut werden, weshalb ich fär V2 den Typ v2_or_nonv2 als neuen gältigen Wert definiere, mit der Partitionierung v2 und non_v2.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 52: Zusammenspiel von L-S-RPUNCT, V2 und -PAIRED

Wie Abbildung 52 zeigt, identifiziert COORD-COMP-FIN nun das V2-Merkmal des rechten Arguments mit L-S-RPUNCT der Konjunktion. Falls das rechte Argument kein Satz und die Konjunktion nicht-adversativ ist (wie in der Abbildung), werden non_v2 und non_advers-punct unifiziert. Der resultierende Typ non-adversjnonju‘2jpunct befindet sich nach Perkolation auf L-S-RPUNCT von COORD- COMP-FIN ; COORD identifiziert diesen anschließend mit RPUNCT der linken Tochter. Der Fall [rpunct no.punct] ist unproblematisch, hier ist lediglich die Kompatibilitat von non-adversjnonju‘2jpunct mit no_punct zu gewahrleisten. Wenn RPUNCT des linken COORD-Arguments aber, wie im Beispiel, comma_punct tragt, ist ungewiss, ob das Komma unpaarig ist (nur ein solches soll ja verhindert werden) - einerseits sollen Satze wie „Er schnarchte, als er schlief, und erwachte kurz darauf.“ erlaubt, Konstruktionen wie ,,*Er schnarchte, und erwachte.“ dagegen ausgeschlossen werden.

Ich begegne der Problematik folgendermaßen: Zuerst einmal sorge ich für die Vereinbarkeit von non-adversjnonju‘2jpunct und commajpunct, indem ich den gemeinsamen direkten Subtyp •non-adversjnonju‘2-comma definiere, siehe Abbildung 53.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 53: Teil der ,,non_advers_non_v2_punct“-Hierarchie

non-advers_non_v2-punct müchte ich nun mit auf den Weg geben, dass das Komma des linken Konjunkts schließend sein soll, dass also das linke Konjunkt auf PAIRED ppair aufweisen muss. basic-puncCmark bekommt zu diesem Zweck das neue Hilfsfeature [Abbildung in dieser Leseprobe nicht enthalten]non-advers-non-v2jpunct spezifiziere ich -PAIRED mit ppair. COORD braucht schließlich nur noch L- S-RPUNCT.-PAIRED des rechten mit PAIRED des linken zu identifizieren, siehe Abbildung 52.

Bei Koordination zweier nichtverbaler Phrasen oder nichtfiniter VPs ist ein unpaariges Komma unmittelbar vor einer nichtadversativen Konjunktion stets auszuschließen. Dafür sorge ich, indem auf COORD- COMP-NONFIN und COORD-COMP-NON-V konstant non„v2 in deren L-S-RPUNCT-Merkmal hineinunifiziert wird. Ergibt sich daraus non-advers-nonjv2jpunct, so tritt wieder der oben beschriebene Effekt mit Hilfe des Features -PAIRED ein.

Um auch ein nichtpaariges Komma und daruüber hinaus ein Semikolon vor der Konjunktion in einer Koordination selbststündiger Sütze zu erlauben, konstruiere ich eine entsprechende Typhierarchie aus non-adversjpunct und v2, deren Subtypen -PAIRED unspezifiziert lassen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 54: Teil der ,,non_advers_v2_punct“-Hierarchie

Eine weitere Komplikation entsteht bei beim Koordinieren von Nebensatzen: In Abschnitt 3.2.2 wies ich darauf hin, dass das schließende Komma des Nebensatzes, welcher das erste Konjunkt (I) bildet, entfüllt, wie mit Beispiel 31 belegt wurde: „[Wir erwarten,] [dass er die Ware liefert]/ oder [dass er das Geld zurückzahlt]//.“

Eine solche Koordination wird genauso aufgebaut wie beispielsweise koordinierte NPs: COORD-COMP- NON-V verbindet die Konjunktion mit dem zweiten Konjunkt, bevor COORD das erste Konjunkt anhüngt. Eine nicht-adversative Konjunktion würde nun mit dem oben demonstrierten Mechanismus ein unpaariges Komma auf dem linken Konjunkt verhindern, dort also [paired ppair] erzwingen wollen. PAIRED des linken Nebensatzes ist aber gerade aufgrund des fehlenden schließenden Kommas mit no_ppair spezifiziert, siehe COMP-S in Abbildung 55.

Was gebraucht wird, ist ein Hilfsfeature, das auf Kommapaarschemata den zu PAIRED entgegengesetzten Wert trügt; also ein schließendes Komma anzeigt, wenn keines da ist, und umgekehrt. Dieses Hilfsfeature soll sich ansonsten aber genauso verhalten wie PAIRED. Ich nenne das Feature COORDPAIRED und richte es unter SIGNPUNCT mit dem Wert basic_punctpair ein. Auf der lexikalischen Ebene wird es genauso initialisiert wie PAIRED. Auch auf Nicht-Kommapaarschemata erhalt es durch Koreferenzierung denselben Wert wie PAIRED.

Die einzige Abweichung stipuliere ich auf Kommapaarschemata: Wüahrend PAIRED der Mutter hier den Wert von PNCTPAIR der rechten Tochter übernimmt, identifiziere ich COORDPAIRED mit PAIRED der rechten Tochter. Statt PAIRED beschrankt COORD nun COORDPAIRED der linken Tochter, siehe Abbildung 55.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 55: Zusammenspiel von -PAIRED und COORDPAIRED bei koordinierten Nebensätzen

Als eine besondere nicht-adversative Konjunktion kann der Schrägstrich in Beispielen wie (71) betrachtet werden.

(71) das Semikolon/der Strichpunkt als stilistisches Zeichen^[51]

Zu beachten ist allerdings, dass der Schrägstrich als Konjunktion ein eigenstandiges Token bilden muss und es somit unvermeidlich ist, ihn von den umgebendenen Wörtern in der Vorverarbeitung herauszuläsen.

6.2.4.2 Syndetische Koordination mit adversativen Konjunktionen

Vor einer adversativen Konjunktion muss laut Regelwerk immer ein Komma oder Semikolon stehen. Das halte ich formal auf dem Lexemtyp für adversative Konjunktionen durch die Spezifikation [l-s-rpunct comma_or_semicoi] fest. Weil bei adversativen wie bei nicht-adversative Konjunktionen dieselben COORD-COMP-Schemata feuern und diese, wie oben erwähnt, L-S-RPUNCT der linken mit V2 der rechten Tochter identifizieren, muss die Kompatibilitat von

1. v2 mit comma.punct sowie mit semicoLpunct
2. non_v2 mit comma-punct sowie mit semicoLpunct

gewährleistet werden. Bedingung (1.) ist bereits durch die Hierarchie in Abbildung 54 erfullt: Die sich ergebenden Subtypen sind advers-orjnon-adversju2-comma und advers-orjnon-adversju2semicol.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 56: Teil der ”non advers v2 punct“-Hierarchie

Dadurch, dass die jeweiligen Subtypen unvereinbar mit nojpunct sind, ist das Ziel schon erreicht, ein Nichtsatzzeichen vor der Konjunktion zu blockieren. Das -PAIRED-Merkmal dieser Subtypen lasse ich unspezifiziert, da die Paarigkeit des Kommas hier keine Rolle spielen darf. Abbildung 57 zeigt ein Beispiel adversativ koordinierter Sütze.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 57: Lizenzierung eines unpaarigen Kommas vor einer adversativen Konjunktion

6.2.5 Kontaktfragen und Interjektionen im Vorvorfeld

Bislang existieren in der GG mehrere Schemata, die formelhafte Kontaktfragen (im Gegensatz zu satzfürmigen Kontaktfragen), wie in Beispiel (72) sowie Interjektionen im Vorvorfeld (73a, 73b) lizenzieren: die Q-TAG- bzw. INTERJECTION-Schemata.

(72) Das sollte man öfter machen ,

nicht wahr? / nicht? / ja? / gell?^[52]

Ein Komma zwischen der Proposition und der nachgestellten Kontaktfrage ist obligatorisch; der Fall liegt hier genau so wie bei rekursiven bzw. asyndetischen Koordinationen: Das Komma wird über RPUNCT des ersten Arguments der Q-TAG-Schemata erzwungen, mit [args.first.rpunct comma_punctj.

(73) a. Oh, wie kalt das ist!^[53]

b. Oh wenn sie doch käme!^[54]

Einzeln optionale Kommata, wie sie beispielsweise nach Interjektionen im Vorvorfeld auftauchen, werden auf ganz ahnliche Weise formalisiert: die INTERJECTION-Schemata erhalten den Constraint j^ARGS.FIRST.RPUNCT comma_or_no_ punct]. An der Typbezeichnung lässt sich erkennen, dass es sich um einen Supertyp von commajpunct und nojpunct handelt; Semikola und andere Satzzeichen werden damit ausgeschlossen. Eingeschobene Interjektionen decken die INTERJECTION-Schemata freilich nicht mehr ab. Dazu bedärfte es neuer Regeln, die mit den in Abschnitt 6.3.4 formulierten Constraints arbeiten.

6.3 Einführung neuer Konstruktionen

Konstruktionen, welche die Original-GG noch nicht beherrscht und die obligatorisch bestimmte Satzzeichen erfordern, sind sehr vielfaältig. Ich werde mich daher auf die Implementation einiger Syntagmata beschränken, die hauptsächlich durch Zeichensetzung markiert werden; gemeint sind damit Gebilde, die erstens obligatorisch bestimmte Satzzeichen verlangen und die zweitens kein einleitendes Wort (wie etwa Konjunktionen) aufweisen, welches dem Parser als mehr oder weniger eindeutiges Indiz für die nachfolgende Konstruktion dienen und damit syntaktische Ambiguitaten vermeiden wurde. Der Hintergedanke für diese Auswahl ist der, dass die Evaluation in Abschnitt 7.3 mäglichst deutlich den Effizienzkontrast zwischen dem Parsen mit und ohne Interpunktion verdeutlichen soll, nachdem die neuen Konstruktionen in die GG aufgenommen wurden. Meiner Meinung nach erfällen besonders gut asyndetische Koordination (Abschnitt 6.3.1), lose Appositionen (6.3.2) und abgesonderte Vl-Parenthesen (6.3.3) diesen Zweck. Die Zeichensetzung fär die beiden letztgenannten wird gesondert in Abschnitt 6.3.4 abgehandelt. Mit der Implementation von Konstruktionen bzw. Wortklassen, die späater nicht hinsichtlich der Parseperformanz betrachtet werden, aber fur die Abdeckung von besonderer Bedeutung sind, beschäftigt sich Abschnitt 6.3.5.

6.3.1 Asyndetische Koordination

Asyndetische Koordinationen sind solche Koordinationen, in denen die Konjunkte nur durch Komma oder Semikolon, also ohne Konjunktion verbunden sind. In Abschnitt 6.2.4 erwaähnte ich die Schemata RECURSIVE-NOM-COORD und RECURSIVE-EV-COORD, die bereits solche Konstruktionen aufbauen, allerdings nur „rekursiv“ in mehrteiligen Koordinationen mit einer Konjunktion am Ende, wie in „Er kam, sah und siegte.“. Diese Schemata relaxiere ich mit wenigen Modifikationen so, dass auch das letzte Konjunkt in der Reihung asyndetisch angebunden werden darf, sodass auch Reihungen wie Er kam, er sah, er siegte.“, „Er kam, sah, siegte.“ usw. lizenziert werden. Doch bei steigender Anzahl der Konjunkte explodiert ohne weitere Beschraänkungen die Kombinatorik: Sind bei drei Konjunkten nur zwei Strukturen mäoglich . . .

Konjunktl, (Konjunkt2, Konjunkt3) / (Konjunktl, Konjunkt2,) Konjunkt3

... so kännen fiinf Konjunkte theoretisch schon auf zehn verschiedene Weisen kombiniert werden. Diese kombinatorische Vielfalt mag ihre Berechtigung haben bei syndetischer Koordination, so etwa bei gemischtem Gebrauch von oder“/ und“, also Konjunktionen mit unterschiedlicher Semantik. Dann sollten verschiedene Skopen differenziert werden. Fallt die Konjunktion weg, gibt es aber keinen Grund, unterschiedliche Klammerungen zuzulassen.

Formal gesagt, mochte ich asyndetische Koordination als linke Tochter eines (beliebigen) Koordinationsschemas verbieten. Zwei Stipulationen mit dem neuen boolschen Feature ASYND_COORD sind dafür ausreichend: Dieses spezifiziere ich auf RECURSIVE-NOM-COORD und RECURSIVE-EV-COORD mit +, während alle Koordinationsschemata auf der linken Tochter einen negativen ASYND_COORD-Wert verlangen.

Wie ich schon Abschnitt 6.2.4 erklärt habe, erzwinge ich ein Komma oder Semikolon hier auf direktem Weg äber das RPUNCT-Merkmal der linken Tochter von RECURSIVE-NOM-COORD und RECURSIVE- EV-COORD.

6.3.2 Exkurs: Lose Appositionen

Bevor ich auf die Zeichensetzung bei losen Appositionen (lA) in Abschnitt 6.3.4 eingehe, mochte ich zunaächst beschreiben, welche Theorien ich zugrunde lege und wie ich davon ausgehend lA implementiere.

Uber den kategorialen Status schreibt Lawrenz, dass nominale lA NP- oder N-Status haben, also mit oder ohne Determinierer auftreten können. Sie knupft die Verwendung appositiver N an bestimmte Bedingungen: Bezugs-NPs „referieren“ entweder „auf ein menschliches Wesen“ (Lawrenz, 1993, S. 66) oder die Apposition ist eine Koordination. Lawrenz weist jedoch auf Ausnahmefälle hin, was fur mich der Grund ist, derartige Beschraänkungen nicht zu beruäcksichtigen.

Lawrenz kommt nach ausfuährlichen Diskussionen daruäber, wo lA zu positionieren seien, zu dem Schluss, dass lA an NP zu adjungieren seien. Dies kommt dem kategorialen Status von Personalpronomen in der HPSG sehr entgegen: Personalpronomen haben bereits als Lexem NP-Status. Will man lA an Personalpronomen adjungieren, ist dies folglich nur mäoglich, wenn man die Anbindung an NP zulaässt.

Canoo schlüsselt verschiedene Kasusrestriktionen nach der Form der lA auf (Canoo, 2007-6). Nach Canoo stimmt die Apposition mit dem Bezugswort dann im Kasus uäberein, wenn die lA NP-Status hat, vgl. (74).

(74) a. Es sprach Herr Gruber, der Präsident des Vereins.

b. Kennst du Roland, meinen Bruder?^[55]

Hat die lA N-Status und wird von einer flektierten attributiven AP angeführt, kann Kasuskongruenz zur Bezugs-NP bestehen (75b), nach Canoo steht eine derartige lA aber meistens im Nominativ (75a).

(75) a. ein Brief an Herrn Morgenstern, stellvertretender Direktor

b. ein Brief an Herrn Morgenstern, stellvertretenden Direktor^[56]

Alle anderen lA mit N-Status stehen im Nominativ:

(76) die Worte Herrn Morgensterns, Direktor der Firma^[57]

Die lA muss aber laut Lawrenz weder im Genus noch im Numerus mit der Bezugs-NP übereinstimmen. Entsprechend den oben genannten Fallunterscheidungen formuliere ich zunüchst vier Regeln, die NP bzw. N adjungieren sollen.

Aus dem folgenden technischen Grund spalte ich jede dieser vier Regeln nochmals auf: Für die semantische Konstruktion soll eine neue Relation appos-rel eingeführt werden, deren erster Argumentslot von der Bezugs-NP und deren zweiter Argumentslot von der Apposition ausgefüllt wird. Da lA eine Art Einschub sind, koünnen sie durch Kommata, Klammern oder Gedankenstriche angebunden werden, wie in Abschnitt 6.3.4 beschrieben. Gedankenstriche sind von Leerzeichen umgeben; das bedeutet, dass sie vom Parser als eigene Token behandelt werden. Als Konsequenz hat die Anbindung von lA oder anderen Einschüben mit Gedankenstrichen in zwei Schritten zu erfolgen, wenn man quaternäre Strukturen (also Phrasen mit vier Argumenten: Kopf - Gedankenstrich 1 - Einschub - Gedankenstrich 2) vermeiden müchte: Zuerst werden der oder die Gedankenstriche an den Einschub, dann die so entstandene Struktur an den Kopf bzw. die Bezugsphrase angebunden. Semantisch fuhrt die lA ein zweistelliges Prädikat, appos-rel ein, dessen erstes Argument das Bezugsnomen und dessen zweites Argument die Apposition selbst ist, siehe Abbildung 58.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 58: Vereinfachte MRS der lA „Peter, der Professor“

Angenommen, die semantische Appositionsrelation wuürde erst im zweiten Anbindungsschritt ein- gefuhrt: Der Generator würde versuchen, semantisch leere Gedankenstriche auf beliebige Art und Weise mit NP zu verknupfen. Diese Übergenerierung verhindere ich, indem diese Relation bereits bei der Anbindung der Gedankenstriche eingefuügt wird. Auf diese Weise vermeide ich die semantisch unlizenzierte Generierung von Gedankenstrich - NP - [Gedankenstrich].

Es gibt noch ein paar Ünzulaünglichkeiten:

Erstens: Die starre Anbindung von lA an eine Bezugs-NP hat einen Nachteil: Verschmelzungen von Praüpositionen mit Artikeln wie unterm“, am“, beim“ usw. bilden in der GG zusammen mit Nomina direkt PP, ohne vorherige Ausbildung von NP. Deshalb sind Appositionen wie Beim Mindestlohn, einem großen Streitthema,“ nicht müglich. Man künnte versuchen, einen synsem-Typ zu formulieren, der sowohl NP als auch derartige PP subsumiert und die Applikation von Appositionsregeln an diesem synsem-Typ festmachen. Zweitens: Wie Lawrenz (1993, S. 67 f.) ausführt, sind lA in einigen Fallen extraponierbar, vgl. Beispiel (77). Extraposition von Appositionen ist noch nicht implementiert.

(77) Die Jury hat sich für Hans-Peter Kempowski entschieden, einen bekannten Rechtsanwalt aus Solingen.^[58]

Drittens: Appositionen aus koordinierten N, die von unterschiedlichem Genus und/oder Numerus sind, wie in Beispiel (78), sind noch nicht möglich, weil bisher in Koordinationen Genus- und Numeruskongruenz gefordert ist. Ansonsten wäre das Genus- und das Numerusmerkmal der Koordination unklar - diese Merkmale mässen jedoch eindeutig sein, damit beispielsweise die Kongruenz mit einem Artikel gewahrleistet werden kann: „der Arzt und Lehrer Peter Maier“.

(78) Die Bauern und Kleinbärger, ... Ruhm und Stärke Böhmens, waren immer indifferent.^[59]

Trotz dieser Schwierigkeiten erfällt meine Implementation der lA fur mich ihren Zweck, namlich die passende Interpunktion auszuarbeiten und Experimente damit durchzufähren.

6.3.3 Exkurs: Abgesonderte V1-Parenthesen

Mit der Bezeichnung ,,Vl-Parenthese“ sind „Sprecherangaben oder Autorkommentare in Redewiedergaben“ (Bassarak, 1987, S. 173) wie in Beispiel (79) gemeint.

(79) Hans, sagte er, kommt morgen nicht.^[60]

Ich behandele hier nur unintegrierte V1-Parenthesen, die sich intonatorisch vom Matrixsatz abheben und, wenn sie in der Satzmitte auftreten, mit paarigen Satzzeichen abgegrenzt sind. Zu unterscheiden sind sie von integrierten Vl-Parenthesen wie in (80), deren syntaktischer Status umstritten ist.^[61]

(80) Wen glaubst du, kann Maria nicht leiden?^[62]

Laut Pittner (1993, S. 4) liegt innerhalb solcher Parenthesen nur scheinbar eine Verberststellung vor. Stattdessen argumentiert sie, dem Parenthese-initialen Verb koännten immer sinnerhaltend Anaphern wie so“ oder das“ vorangeschaltet werden. Daher käonne man von einer Parenthese-internen Verbzweitstel- lung mit leerem Vorfeld ausgehen.

Über die Stellung von Vl-Parenthesen relativ zum Matrixsatz schreibt Pittner, dass sie „an einer Vielzahl von Positionen in beliebigen Satztypen“ (Pittner, 1993, S. 4) vorkommen, und fährt als Beleg folgendes Beispiel an:

(81) Über Dinge [, sagte mein Großvater], die man nicht andern kann, [sagte mein Großvater,] ist es sinnlos, [sagte mein Großvater,] zu jammern [, sagte mein Großvater].^[63]

Pittner beobachtet zwar, dass „so“-Parenthesen gehäuft dem finiten Verb im Vorfeld vorangehen, belegt aber, dass sie an „beinahe“ beliebigen Stellen vorkommen, was fär Parenthesen allgemein gelte.^[64]

Die einzige Position, die als Parenthesennische grundsatzlich nicht in Frage komme, sei das Vorfeld. Dieses darf also nicht vollständig von einer (V1-)Parenthese besetzt werden, und zwar aus einem einfachen Grund: Es sei ein grundlegendes Merkmal von Parenthesen, dass ihre Tilgung die Grammatikalitäat des einbettenden Satzes nicht verändert; ließe man eine Parenthese im Vorfeld weg, entstunde dabei ein ungrammatischer Satz. Man kann auch eine etwas schwächere Formulierung wählen und konstatieren, dass das resultierende Gebilde zumindest elliptisch ware. Pittner betont, dass „wie“- und „so“- (und demzufolge auch V1-) Parenthesen sogar unmittelbar auf Determinierern und Präpositionen folgen kann, wie sie unter anderem anhand von Beispiel (82) verdeutlicht.

(82) Es ist schon erstaunlich, wie aus dem katholischen Mänchen die - so der Spiegel - „Hauptstadt eines schweigenden Volksbegehrens nach ganzheitlicher Besonnung“ wurde.^[65]

Dieses liberale Stellungsverhalten kann laut Pittner darauf zuruäckgefuährt werden, dass sich Parenthesen semantisch auf eine einzelne angrenzende Konstituente (im Gegensatz zum ganzen Matrixsatz) beziehen können : Intendiert der Autor eine solche Lesart, so verdeutlicht er den Skopus der Parenthese durch ihre entsprechende Positionierung.

Die richtige Positionierung der (Vl-)Parenthesen gewahrleiste ich durch ihre monotone Einhängung an das vorangehende Wort. Dadurch werden zwei Fliegen mit einer Klappe geschlagen: Erstens werden vorfeldfällende Parenthesen ausgeschlossen, da jeder Satz separat verarbeitet wird und somit dem Satzanfang keine Wörter vorangehen; zweitens wird der Tatsache Rechnung getragen, dass Parenthesen Phrasengrenzen durchbrechen kännen.

Wärter sind in der GG an dem Merkmal [lex +] identifizierbar; zusätzlich vermeide ich unechte Ambi- guitaät (zu der es kommen wuärde, wenn eine entsprechende Regel die Parenthese an ein Wort aus der Klasse der offenen Wortarten anfügt) durch Beschränkung des „Parenthesenankers“ auf vollständige Worter, im Wesentlichen äber die Spezifikation [lex-complete +].

Von Interesse ist außerdem, aus welchen Prädikaten abgesonderte Vl-Parenthesen gebildet werden kännen. Kiziak (2004, S. 13-15) untersucht diese Frage, allerdings im Bezug auf integrierte Vl- Parenthesen. Das Resultat der Untersuchung lautet, dass die Prädikate, die Vl-Parenthesen konstituieren, nicht bloß auf verba dicendi und sentiendi beschräankt, sondern identisch mit V2-Satz einbettenden Praädikaten sind; V1-Parenthese-Praädikate unterliegen demnach lediglich zusäatzlichen Restriktionen in den Bereichen Prosodie und Korrelatstruktur, auf die Kiziak jedoch nicht näher eingeht.

Ich nehme dieses Ergebnis als Anhaltspunkt fär Prädikatsrestriktion bei abgesonderten Vl-Parenthesen - eine weiter reichende Untersuchung wuärde hier zu weit fuähren. Hinweisen moächte ich jedoch auf die Tatsache, dass tatsachlich die Form des kompletten Prädikats und nicht unbedingt nur der Verbtyp ausschlaggebend fär die Mäglichkeit der Bildung einer Vl-Parenthese ist. So konnen auch Kopula-PrädikativKomplexe wie in (83) als Vl-Parenthesen fungieren.

(83) Vor allen Dingen sei es notwendig, war der Tenor der Aussprache, energisch um einen bezahlten Schwangerschaftsurlaub als Teil des Tarifvertrages zu käampfen.^[66]

In der GG lässt sich die syntaktische Struktur der Vl-Parenthesen wie folgt beschreiben: Der syntaktische Kopf der Phrase ist ein finites Verb in initialer Position; die Phrase subkategorisiert noch fär einen V2- oder einen mit „ob“ oder „dass“ eingeleiteten Objektsatz (v2-comp-or-comp-synsem); das Subjekt wurde weder bereits abgesättigt noch auf die SLASH-Liste verschoben, vgl. Abbildung 59.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 59: Syntaktische Beschreibung von Vl-Parenthesen in der GG

Eine akkurate Semantikmodellierung von (V1-)Parenthesen würde sich in der MRS-Umgebung voraussichtlich sehr kompliziert gestalten: Die komplette Proposition müsste den semantischen Argumentslot der Vl-Parenthese füllen. Um dies zu erreichen, konnte man diesen Argumentslot bei der Analyse solange „durchfädeln“, bis eine Proposition gefunden ist, und das Argument erst dann binden. Bei der Generierung von langen parenthesehaltigen Sätzen wäre diese theoretisch akkurate Modellierung eher von Nachteil, zum einen wegen schlechterer Performanz, weil an fast jeder Position die Parenthese erstellt würde; zum anderen brächte dies unter Umständen falsche Lesarten hervor, falls der Urheber des Originalsatzes einen engen Parentheseskopus intendiert (und es ist meiner Meinung nach nicht sicher, wie weit und in welche Richtung sich der Skopus erstreckt). Eine Möglichkeit wäre, zwischen „skopenden“ und intersektiven Vl- (und ahnlichen) Parenthesen zu differenzieren.

Da Parenthesen hier nur ein Randthema und eher Mittel zum Zweck sind, habe mich jedoch fur eine pragmatische Losung entschieden: Ich fähre eine spezielle Relation mit dem Prädikat v1-parenthesis-rel ein, deren einziges Argument der Index des Parenthesehauptverbs ist. Nach außen verhält sich die gesamte Konstruktion wie intersektive Adverben in der GG: Das Label der Parenthese wird einfach mit dem Label der vorangehenden Konstituente (hier: des vorangehenden Wortes) identifiziert, siehe die vereinfachte^[67] MRS des Satzes „Das, sagte er, stimmt.“ in Abbildung 60. Auf diese Weise werden Vl-Parenthesen ausschließlich dort erzeugt, wo sie analysiert wurden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 60: Vereinfachte MRS des Satzes „Das, sagte er, stimmt.“

6.3.4 Zeichensetzung bei Einschüben am Beispiel von losen Appositionen und Vl- Parenthesen

Lose Appositionen (lA, siehe 3.2.4.1) und V1-Parenthesen geh¨oren zu denjenigen Konstruktionen, die entweder von Kommata, Klammern oder Gedankenstrichen eingeschlossen oder – am Satzende – voneinem einfachen Gedankenstrich abgetrennt werden.

Gedankenstriche behandele ich gesondert, da sie freistehende Zeichen sind. Im Folgenden konzentriere ich mich auf Kommata und Klammern. Ich möchte zwischen Kommata stehende (84a) und eingeklammerte Einschübe (84b) mit denselben Regeln beschreiben.

a. Kennst du Roland, meinen Bruder, nicht?
b. Kennst du Roland (meinen Bruder) nicht?
c. * Kennst du Roland, (meinen Bruder) nicht?
d. die Südfrucht, die ich am liebsten mag, die Apfelsine^[68]
e. Die Südfrucht, die ich am liebsten mag, (die Apfelsine) habe ich heute gekauft.

Eine Herausforderung besteht darin, dass Einschöbe nicht gleichzeitig mit öffnendem Komma und öffnender Klammer eingeleitet werden können (84c), sich die beiden Satzzeichen aber an verschiedenen Stellen befinden; die öffnende Klammer hangt, anders als das Komma, am folgenden Wort. Da beispielsweise der lA ein Relativsatz vorangehen kann, vgl. (84d), spricht jedoch nichts dagegen, ein Kommapaar vor der öffnenden Klammer zu erlauben (84e). Unpaarige Kommata vor einer öffnenden Klammer schließe ich folgendermaßen aus:

Eine lexikalische Prafixregel konsumiert die öffnende Klammer und spezifiziert LPUNCT mit parenjpunct. Bei der Anbindung der lA wird nun LPUNCT der Apposition mit RPUNCT der Bezugs-NP koreferenziert. Ich wende eine ahnliche Methode an wie bei den nicht-adversativen Koordinationen von Nicht-Sötzen, siehe Abschnitt 6.2.4.1. parenjpunct und commajpunct bekommen einen gemeinsamen Subtyp, dem ich jedoch die zusatzliche Information [-paired ppair] mitgebe (siehe Abbildung 61).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 61: Teil der ,,paren_punct“-Hierarchie

Wie Abbildung 62 am Beispiel von lA zeigt, identifiziert schließlich das Schema L-APPO-1-NODASH beim Adjungieren der lA (die Apfelsine) -PAIRED mit PAIRED und gewahrleistet damit die Paarigkeit des vorausgehenden Kommas. Dieser Mechanismus funktioniert nicht bei Parenthesen wie beispielsweise Vl-Parenthesen, die an das vorangehende Wort angehangt werden (siehe Abschnitt 6.3.3): Auf einem Wort mit Komma ist PAIRED immer auf no_ppair gesetzt - auf dieser Ebene kann logischerweise noch kein Kommapaarschema gefeuert und demzufolge auch nicht PAIRED auf ppair gesetzt haben. Dieses Problem scheint jedoch vernachlaössigbar zu sein, wie eine kurze Anfrage auf dem TIGER-Korpus ergibt: In gerade mal sechs von 50474 Sötzen kommt die Folge Komma - öffnende Klammer vor^[69], in zwei Satzen davon scheint die Korrektheit der Zeichensetzung fraglich zu sein.

Wenn der Einschub nicht geklammert und nicht durch Gedankenstriche abgetrennt ist, soll mit demselben Mechanismus ein oöffnendes Komma erzwungen werden. Ich behelfe mir mit dem Trick, LPUNCT auf

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 62: Einsatz des Features -PAIRED bei lockerer Apposition

Lexemen mit comma_punct zu initialisieren.^[70]

Weiterhin muss dafür Sorge getragen werden, dass das schließende zum öffnenden Satzzeichen passt. So sollten Beispiele wie (85a) bis (85d) nicht generiert werden.

a. * Kennst du Roland (meinen Bruder, nicht?
b. * Kennst du Roland (meinen Bruder nicht?
c. * Kennst du Roland, meinen Bruder) nicht?
d. * Kennst du Roland, meinen Bruder nicht?
e. Kennst du Roland (meinen Bruder), den ich gestern besuchte?
f. Kennst du Roland (meinen Bruder)?

Bei diesem Vorhaben kann man nicht ohne Weiteres auf das RPUNCT-Merkmal des Einschubs zuröck- greifen. Wie (85e) illustriert, muss der schließenden Klammer ein Komma folgen, wenn der Kontext es fordert, oder gegebenenfalls ein Schlusszeichen stehen (85f). Ich erachte es daher för notwendig, ein weiteres Hilfsfeature einzufuhren: PAREN mit dem Wert bascpunct-mark. Der Anfangswert von PAREN auf Lexemebene ist commajpunct. PAREN wird von der lexikalischen Standardkommaregel perkoliert; die Regel, die die schließende Klammer konsumiert, spezifiziert PAREN indes mit parenjpunct. Die Per- kolation durch binöare Strukturen ist analog zu der von RPUNCT, sie verlaöuft rechtsperipher.

Nun sind die Voraussetzungen daför geschaffen, die ungöltige Interpunktion in (85a) bis (85d) durch folgendes Prinzip zu verhindern, das auf den Schemata zur Anbindung von Einschuben (ohne Gedankenstriche) zum Einsatz kommt:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 63: Interpunktionsprinzip zur Anbindung von Einschuben ohne Gedankenstriche

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 64: *,,Roland (mein Bruder“ wird verworfen

Abbildung 64 illustriert exemplarisch, wie (85b) ausgeschlossen wird: paren+comma_punct ist inkompatibel mit no-punct.

Was bleibt, ist die Frage, wie ein Einschub-abschließendes Komma bei Abwesenheit von Klammern und Gedankenstrichen erzwungen wird. Wie immer soll dieses Komma vom rechten Kontext über L-S-PAIRED gefordert werden. In Abschnitt 6.2.2 beschrieb ich, wie mit Hilfe des Features PNCTPAIR Nebensatze als rechts mit einem Komma begrenzt markiert werden (PAIRED ppair ). Ebenjenen Mechanismus setze ich auch hier ein.

Was schließende Klammern betrifft, spezifiziert wie PUNCT_COMMA_ORULE auch die schließende Klammern konsumierende Regel PUNCT_RPAREN_ORULE mit [pnctpair ppair], sodass Beispiele wie (84b), unten wiederholt in (86), lizenziert werden.

(86) Kennst du Roland (meinen Bruder) nicht?

Es gibt jedoch noch einen Haken: Nach einer schließenden Klammer muss durchaus noch ein Komma stehen, wenn etwa ein nachfolgender Nebensatz dies verlangt, siehe (87a); sonst ist es jedoch überflüssig (87b).

(87) a. Kennst du Roland (meinen Bruder), den ich gestern besuchte? b. * Kennst du Roland (meinen Bruder), nicht?

Ich lüse das Problem, indem ich PUNCT_COMMA_ORULE aufspalte. Diese lexikalische Regel bleibt erhalten, appliziert aber nicht mehr auf Lexemen mit schließender Klammer. Die neue Regel, PUNCT-RPAREN-COMMA-ORULE feuert dagegen nur bei schließenden Klammern und bekommt die Spezifikation [pnctpair n^ppaiA.. Wie in Abbildung 65 zu sehen ist, läuft die anschließende Disqualifikation des unpaarigen Kommas nach dem altbekannten Prinzip ab: Die Regel für die Anbindung des Einschubs, hier L-APPO-1-NODASH für eine Form von Appositionen, nimmt zunachst den PNCTPAIR- Wert des rechten Arguments als ihren eigenen PAIRED-Wert an, welcher nun rechtsperipher perkoliert.

Durch den dann von rechts applizierenden Constraint [l_s_paired lex-nonjnf-ppair] kommt es schließlich aufgrund des Typenkonflikts zwischen no-ppair und lex-nonAnf-ppair zu einem Unifikationsfehlschlag.

Wie oben erwähnt, ist es aufgrund der eingeschlagenen Strategien - Satzzeichen an Ort und Stelle zu verarbeiten (und nicht mit einem benachbarten Token zu verschmelzen bzw. abzutrennen), maximal ternär verzweigende Strukturen anzunehmen und Gedankenstriche mit einer eigenen Semantik auszustatten - nicht mäglich, Einschäbe in Gedankenstrichen mit denselben Regeln zu verarbeiten wie Einschäbe in Klammern und Kommata. Gedankenstriche fähren je nach Art des Einschubs ein anderes semantisches Prädikat ein, deshalb muss es mehrere Regeln fur den ersten Verarbeitungsschritt - die Verknupfung der Gedankenstriche mit dem Einschub - geben.

Eine weitere Unterscheidung ist zu treffen zwischen mit einem einfachen Gedankenstrich abgetrennten ”Einschub am Satzende“ (was besser als ”Nachtrag“ bezeichnet werden sollte) und ”echten“ Einsch¨uben in der Satzmitte, die von einem Gedankenstrichpaar umgeben sind. Denn wegen der orthographischen Eigenst¨andigkeit entstehen im ersten Fall bin¨are, im zweiten tern¨are Verzweigungen.

Im zweiten Schritt wird der mit den Gedankenstrichen verkn¨upfte Einschub angebunden, und zwar wieder von einer anderen Regel als derjenigen, die f¨ur die Anbindung von geklammerten oder durch Kommata abgetrennten Einsch¨ube verantwortlich ist; der Grund f¨ur diese eigenst¨andige Verarbeitung ist die unter schiedliche semantische Komposition.

Die Vielzahl der Regeln, die durch diese Fallunterscheidungen entsteht, erscheint auf den ersten Blick kompliziert - doch genau das Gegenteil ist der Fall. Das Ausmultiplizieren der Regeln schlägt sich positiv in der Komplexitat der Hierarchie fär Punktuationstypen nieder, weil keine neuen Interpunktionssubtypen fär die Interaktion von Gedankenstrichen mit anderen Satzzeichen gebastelt zu werden brauchen. Doch der Reihe nach. Zunächst sei die Definition des Lexemtyps fär Gedankenstriche gegeben, siehe Abbildung 66: Der Supertyp punct-dummy und das Merkmal MCLASS kodieren im Wesentlichen die morphologische Unveränderlichkeit durch Flexionsregeln. Ein spezielles syntaktisches Kopfmerkmal (LOC.CAT.HEAD dash-head) ist notwendig, damit Regeln dieses Lexem auch dann noch eindeutig erkennen, nachdem ein Komma oder Semikolon durch eine entsprechende lexikalische Regel angehangt wurde.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 66: Definition des Lexemtyps fur Gedankenstriche

Die Spezifikationen mit dashpunct dienen einzig und allein der Abgrenzung von anderen Satzzeichentypen; dashjpunct ist zu diesem Zweck mit keinem anderen Satzzeichentyp kompatibel. Die Informationen uber Satzzeichenpaarigkeit, die durch PAIRED und PNCTPAIR ausgedrückt werden, sind identisch mit jenen eines frisch hinzugefägten Kommas.

Bei der Verknuäpfung von Gedankenstrichen mit dem Einschub stellt sich zunaächst die Frage, welche Satzzeichen direkt rechts neben dem oäffnenden und direkt links neben dem schließenden Gedankenstrich (bei paarigen Gedankenstrichen) erlaubt sind. Das amtliche Regelwerk gibt auf das letztere Teilproblem nur eine sehr unzureichende Antwort, dass naämlich Ausrufe- und Fragezeichen, die zum Einschub gehären, bestehen bleiben, während Schlusspunkte an derselben Stelle entfallen (siehe Rat fär deutsche Rechtschreibung (2006, S. 93); vgl. Beispiel (88)). Was mit anderen Satzzeichen vor einem schließenden Gedankenstrich passiert, bleibt in der Literatur uber Interpunktion im Deutschen undiskutiert.

(88) Er behauptete - so eine Frechheit! -, dass er im Kino gewesen ware.^[71]

Intuitiv scheint klar, dass unpaarige Kommata und Semikola an dieser Stelle gaänzlich unmotiviert sind und daher verworfen werden sollten, siehe Beispiele (89).

(89) a. * Er behauptete - so eine Frechheit, -, dass er im Kino gewesen wäre.

b. * Er behauptete - so eine Frechheit; -, dass er im Kino gewesen wäre.

Im Prinzip spricht kein objektives Argument dagegen, ein abschließendes paariges Komma (90a) oder eine schließende Klammer (90b) vor einem schließenden Gedankenstrich zu erlauben, obwohl meinsubjektiver Eindruck ist, dass sich das Beispiel (90a) etwas „holprig“ liest. Im TIGER-Korpus habe ich 15 Exemplare der Abfolge Komma - Gedankenstrich gefunden, die teilweise kaum nachvollziehbar sind. Diese Beobachtung spricht im Endeffekt jedoch weder fur noch gegen die Gultigkeit dieser Abfolge.

(90) a. ? Er - ein Mann, den ich von früher kannte, - behauptete, dass er im Kino gewesen wäre.

b. Er - Peter Maier (ein berühmter Professor) - behauptete, dass er im Kino gewesen wäre.

Im Hinblick auf die Position unmittelbar rechts neben einem üffnenden Gedankenstrich machen die präskriptiven Regelwerke überhaupt keine Aussagen; an der Position scheint von den untersuchten Satzzeichen nur eines in Frage zu kommen, nämlich die äffnende Klammer. Dies hatte jedoch unter Umstanden eine äberflässige Doppelmarkierung des Einschubs zur Folge, siehe Beispiel (91), weshalb ich jegliche Satzzeichen an der Stelle ausschließe.^[72]

(91) a. ? Er behauptete - (so eine Frechheit) -, dass er im Kino gewesen wäre.

Die Interpunktionsconstraints innerhalb eines Einschubs sind anhand der Typdefinition fur Regeln in Abbildung 67 illustriert, die paarige Gedankenstriche mit einem Einschub verknäpfen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 67: paren-twodash-punct-rule-type definiert die Interpunktionsconstraints fär die Verknupfung paariger Gedankenstriche mit einem Einschub

Eine Regel, die von paren-twodash-punct-rule-type erbt, nimmt drei Argumente: Erstens ein unverändertes Gedankenstrichlexem (dash-le); zweitens einen Einschub wie beispielsweise eine Apposition oder eine V1-Parenthese und drittens einen Gedankenstrich, an den eventuell ein weiteres Satzzeichen angehängt wurde und der deshalb äber das perkolierte HEAD-Merkmal identifiziert wird. Die Paarigkeit parentheseninterner Satzzeichen wird direkt äber [paired ppair] stipuliert. Satzzeichen an der linken Parenthesengrenze werden mit [lpunct comma_punct] vermieden (Zur Erinnerung: Dieser Constraint bewirkt, anders, als es den Anschein hat, die Ausschließung von wortinitialer Interpunktion). Uber RPUNCT des zweiten Arguments werden lediglich Komma, schließende Klammer oder kein Satzzeichen erlaubt, also keine Ausrufe- oder Fragezeichen. Letztere sind bei V1-Parenthesen unüblich. Will man sie miteinbeziehen, wäre die Integration einer Aussagerelation in die Semantik notig - eine Aufgabe, die in meiner Implementation noch aussteht. Darüber hinaus wird die übliche Perkolation einiger SIGNPUNCT-Merkmale, wie sie auch auf anderen nicht-unären Regeln stattfindet, über entsprechende Koreferenzen sichergestellt. Regeln, die einen einzelnen Gedankenstrich mit einem Nachtrag (einem „Einschub am Satzende“) verbinden, erben demgegenüber von paren-onedash-punct-rule-type, siehe Abbildung 68. paren-onedash-punct- rule-type unterscheidet sich von paren-twodash-punct-rule-type offensichtlich darin, dass das dritte Argument, der schließende Gedankenstrich, entfallt und dafür ein Schlusszeichen (clausejpunct) an der rechten Grenze des Nachtrags verlangt wird.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 68: paren-onedash-punct-rule-type definiert die Interpunktionsconstraints fuür die Verknuüpfung eines Gedankenstriches mit einem Nachtrag

Unmittelbar links neben einem üffnenden Gedankenstrich sollte die Müglichkeit für schließende paarige Satzzeichen bestehen, allerdings mit einer Ausnahme: Obwohl ich kein explizites Verbot gefunden habe, ist es wahrscheinlich, dass zwei Gedankenstriche nicht aufeinander folgen duürfen. Eine Abfrage im TIGER-Korpus ergab kein einziges Vorkommen von zwei nebeneinander stehenden Gedankenstrichen. Moüglicherweise wird dies intuitiv vom Schreiber vermieden, etwa, weil sonst ein unschoünes Schriftbild oder beim Lesen eine zu lange (gedachte) Pause entstuünde.

Regeln, die einen Einschub anbinden, der durch einen Gedankenstrich abgetrennt oder von zwei Gedankenstrichen umgeben ist, erben von head-paren-dash-punct-rule-type, siehe Abbildung 69. Dieser Typ beschrüankt die Interpunktionsmerkmale des Kopfes.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 69: head-paren-dash-punct-rule-type definiert die Interpunktionsconstraints fuür die Anbindung eines durch Gedankenstrich(e) abgetrennten Einschubs

Diese Constraints entsprechen exakt denen, die ich oben fuür Satzzeichen unmittelbar vor einem schlie ßenden Gedankenstrich deklariert habe.

6.3.5 Sonstiges: Kennzeichnung der Wörter bestimmter Gruppen

Zur Verbesserung der Abdeckung ist es interessant, interpunktionszeichenhaltige Wörter wie bestimmte häufige Abkörzungen zu implementieren, was ohne die Behandlung von Schlusspunkten eine recht einfache Aufgabe wäre.

Wie bereits erwahnt, fallen Schlusspunkte aber mit Wortpunkten zusammen, gleichgöltig, ob die Wortpunkte zu Abkörzungen oder zu Ordinalzahlen am Satzende gehören. För die Implementierung bedeutet das: Am Satzende soll ihr RPUNCT zu einem Schlusspunkt (clausejpunct) werden. Als (indirekte) Subtypen von word sind jedoch sowohl Abkörzungen als auch Ordinalzahlen im Merkmal RPUNCT auf nojpunct festgelegt, wenn sie aus dem Lexikon kommen, und nojpunct und clausejpunct sind inkompatibel. Einen Ausweg aus dem Dilemma konnte eine spezielle Suffixregel bieten, die nach Wörtern mit [rpunct no_punct] und einem Punkt am Ende schaut, dieses Punktsuffix durch einen Punkt ersetzt (das Suffix im Endeffekt also unberöhrt lasst) und als RPUNCT clausejpunct festlegt. Wegen einer Einschränkung in LKB scheitert dieser Ansatz jedoch - LKB appliziert eine solche Regel in einer Endlosschleife.

Es gibt aber einen Trick, wie man den gleichen Effekt mit einer nicht-suffigierenden lexikalischen Regel erzielt: Ich höange alle Abkuörzungen nicht unter dem lexikalischen Typ ihrer Vollformen ein (sofern ein derartiger Typ existiert), sondern unter Subtypen dieser Vollformen. Diese Subtypen erben zudem von einem Typ, der punktuierte Lexeme kennzeichnet (dottedsign). Die RPUNCT- umwandelnde lexikalische Regel, word-doEto-period-puncUorule, wahlt nun dotted-sign und damit genau die gewunschte Lexemklasse als Argument. Genau wie bei der „normalen“ lexikalischen Schlusspunktregel PUNCTUATION_PERIOD_RULE wird RPUNCT unter basic_punctuation_period_rule spezifiziert. Im Unterschied zu den suffigierenden Regeln wird die Morphologie unter MORPH unverändert perkoliert. Abbildung 71 zeigt anhand des Beispiel „Er wöhlte eine andere Abk.“, in dem die WORDjDOTjTOjPERIODjPUNCTjORULE-Regel zum Einsatz kommt, den Effekt der Regel auf RPUNCT und auf MSGPRED (dessen Wert am Ende zu prpstn_m_rel unifiziert wird). Zunöchst widme ich mich nun den Abkurzungen mit Punkt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 70: Definition des Regeltyps word-doEto-period-puncErule

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 71: Parsebaum des Satzes „Er wählte eine andere Abk.“

6.3.5.1 Punktuierte Abkürzungen

Per Konvention tragen bestimmte Abkärzungen einen Punkt am Ende. Interessant ist ihr Flexionsverhalten: Laut einem Duden-Newsletter (Bibliographisches Institut & F.A. Brockhaus AG, 2007) „verwendet man Deklinationsendungen [bei punktuierten Abkärzungen] kaum. Gelegentlich treten aber solche Endungen doch auf.“ Weiter wird darin gezeigt, dass Nomenabkurzungen nur in Ausnahmefällen dekliniert werden, und wenn, dann auch noch auf unregelmaßige, uneinheitliche Art und Weise. Über die Konjugation von Verbabkärzungen werden keine Aussagen gemacht, Abkärzungen finiter Verben sind ohnehin eher selten. Ich nehme daher an, dass abgekärzte finite Verben grundsätzlich nicht konjugiert werden und unveraändert bleiben.

Insgesamt hat man es also mit relativ festen Verbindungen zu tun, die für gewähnlich ins Lexikon aufgenommen werden - eine Spellingregel, die Abkärzungspunkte anfugt, ergabe keinen Sinn; ebensowenig Deklinationsregeln, aufgrund der angesprochenen Ünregelmaäßigkeiten.

Listen gebräuchlicher Abkärzungen finden sich im Internet. Ich nutze eine Seite der Wikipedia, wo punktuierte Abkärzungen gesondert aufgefährt sind (Wikimedia, 2007-1). Viele dieser Beispiele sind ab- gekärzte Substantive wie „Abk.“ (fur „Abkärzung“) und „Forts.“ (fur „Fortsetzung).

Die morphologischen Klassen der Substantive in der GG entsprechen den zehn Deklinationsklassen im Duden (Bibliographisches Institut & F.A. Brockhaus AG, 1998, S. 236-237). Üm zu verhindern, dass Deklinationsregeln bei abgekuärzten Nomina feuern, weise ich nun ihren Lexikoneintraägen eine andere morphologische Klasse zu als den Einträgen ihrer Vollformen: n-form-class. Sie ist ein Subtyp von n-or-a- class und trägt die Spezifikation [lr_inflected +]. Substantive werden so schon im Lexikon als flektiert gekennzeichnet, sodass das Anhängen von Deklinationsendungen durch Spellingregeln blockiert ist. Wie bereits erklärt, hänge ich außerdem abgekärzte Substantive unter Subtypen ihrer Vollformlexemtypen ein.

Auch Adjektive werden häufig abgekürzt. Genau wie abgekürzte Substantive markiere ich sie als flektiert. Adverben künnen ebenfalls am Satzende Vorkommen, auch sie benütigen daher separate Lexemtypen. Sie gehören jedoch schon in ausgeschriebener Form zu den unflektierbaren Wortarten, weshalb man abgekürzten Adverben die gleiche morphologische Klasse wie ihren Vollformen zuweisen kann. Konjunktionen stehen niemals am Satzende und bilden somit eine Sonderklasse. Fur manche von ihnen, wie „und“ und „beziehungsweise“, gibt es standardisierte Abkürzungen („u.“, „bzw.“). Ihre Lexikonein- trüage unterscheiden sich von den Vollformen nur orthographisch.

In eine weitere Kategorie fallen schließlich wichtige - weil haufige - Abkurzungen, die ganze Wortgruppen ersetzen, beispielsweise „usw.“ (Abkürzung von „und so weiter“) und die meistens nicht ausgeschrieben werden. „Usw.“ deutet an, dass eine Folge sinngemüß fortgesetzt wird, wobei offen bleibt, auf welches Antezedens sich „so“ und damit der ganze Ausdruck „usw.“ bezieht. Das folgende Beispiel verdeutlicht dies:

(92) Karl schlaft, Max isst .Apfel, Birnen, Trauben usw.

Ersetzt man „usw.“ in (92) durch „und“ und ein spezifisches Konjunkt, so erhalt man, abhüngig von der Art des Konjunktes, Koordinationen auf verschiedenen Ebenen: Im Beispiel auf NP- (93), VP- (94) und Satzebene (95).

(93) Karl schlaft, Max isst Apfel, Birnen, (Trauben und andere Früchte).

(94) Karl schlaft, Max (isst Apfel, Birnen, Trauben und trinkt dazu auch noch Fruchsafte).

(95) Karl schlaft, (Max isst Apfel, Birnen, Trauben und Ulla sieht wahrenddessen fern).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 72: Definition von usw-nom-coord-le

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 73: Definition von usw-ev-coord-le

Für Lexeme wie ,,usw.“ und das synonyme „etc.“ („et cetera“) stelle ich zwei Typen zur Verfügung, einen für die Koordination mit NPs (usw-nom-coord-le, siehe Abbildung 72 und einen für koordinierte Ereignisse (usw-ev-coord-le, Abbildung 73).

Syntaktisch sollen sich usw-nom-coord-le und usw-ev-coord-le wie Phrasen verhalten, deren Kopf eine Konjunktion ist (1. Constraint), und zwar die Konjunktion „und“ (2. Constraint), und deren rechtes Komplement abgesattigt ist (3. Constraint). Der erste Constraint wird im Typ realisiert durch [head coord-headj, der zweite durch den Lexikoneintrag [lkeys.coord und-coord], der dritte wieder im Typ durch eine leere SUBCAT-Liste.

Etwas komplizierter gestaltet sich die Semantikkonstruktion unter CONT. Der verwendete MRS-Typ coord-conjunction-sem-type stellt mittels L-HNDL und L-INDEX die Beziehung zum links stehenden Konjunkt her, mittels R-HNDL und R-INDEX zum rechten.^[73] Im Wesentlichen tritt im Gegensatz zu Koordinationen mit gewoühnlicher Konjunktion im Fall der nominalen Koordination (durch usw-nom- coord-le) an die Stelle eines sonst von einem syntaktisch realisierten, auf der rechten Seite stehenden Nomen eingeführten Prädikats (bspw. _obstjn-rel) das Pseudo-Nomenprädikat „-dummyjnjrel“, das in der Relation dummy-nom-rel definiert ist. dummy-nom-rel verfugt - abgesehen vom Prädikat - nur über einen Index (ARGO), ansonsten uber keine weiteren Argumentpositionen. Bei der Koordination von Ereignissen durch usw-ev-coord-le heißt die Platzhalterrelation vacuous-event-rel. Sie weist neben dem Pseu- doprüdikat „-dummy„evjrel“ lediglich einen Index und ein Label auf, welche mit R-INDEX und R-HNDL koreferenziert werden. Die semantische Einbindung des linken Konjunkts erfolgt sowohl bei usw-nom- coord-le als auch bei usw-ev-coord-le wie ublich uber die Identifizierung von L-INDEX und L-HNDL mit INDEX und LTOP des Spezifizierers (SPEC).

Die Abkürzung „et al.“ (lat. et alii - „und andere“) kann als Spezialfall von usw-nom-coord-le aufgefasst werden, denn sie kann nur Personennamen ersetzen. In der MRS ist die Sorte eines Individuums unter INDEX.SORT bestimmbar - für Eigennamen gibt es eine passende Relation, nümlich named_rel. Beide Merkmale sind vom koordinierenden Element wiederum uber SPEC.LOC.CONT erreichbar. Der Lexemtyp für et-al-coord-le hat also wie folgt auszusehen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 74: Definition von et-al-coord-le

6.3.5.2 Numerisch geschriebene Ordinalzahlen

Um numerisch geschriebene Ordinalzahlen implementieren zu künnen, sind folgende Eigenschaften wichtig: Erstens küonnen sie am Satzende stehen:

(96) Der Künig von Preußen hieß Friedrich II.

Der Lexemtyp fuür diese Ordinalzahlen muss deshalb wie die punktuierten Abkuürzungen ein Subtyp von dottedsign sein.

Zweitens: Wie die Menge der Kardinalzahlen ist ihre Menge unendlich groß - ein Umstand, der ihre direkte Aufnahme ins Lexikon unmüglich macht. Abhilfe schafft hier die Vorverarbeitung der Token im Präprozessor nach dem Vorbild der ERG. Dabei mache ich mir zunutze, dass eine numerische Ordinalzahl sich orthographisch betrachtet zusammensetzt aus einer numerischen Kardinalzahl und einem Punkt am Ende. Der GG-Praprozessor ersetzt Ziffernfolgen gleicher Lünge mit einem einzigen String. Beispielsweise wird aus „23“ „TwoDigitErsatz“, ebenso aus „43“; „432“ wird umgewandelt in „ThreeDigitErsatz“ usw. Die Information uber die genaue Zahl geht jedoch nicht verloren, sondern wird in Features gespeichert. Die Lexikoneintrage haben dann die Form „TwoDigitErsatz.“, „ThreeDigitErsatz.“ und so weiter.

Drittens: Numerische Ordinalzahlen verhalten sich syntaktisch meist wie Ordinalzahlwüorter, dann stellen sie lediglich eine orthographische Variation von Ordinalzahlwürtern dar.^[74]

Abbildung 75 zeigt die Definition des Lexemtyps numerischer Ordinalzahlen. Wie zu sehen, wird der SYNSEM-Typ ordinal-number-synsem verwendet, welcher dem der Ordinalzahlwürter entspricht. Anders als letztere sind numerische Ordinalzahlen außerdem unveränderlich, d. h. eine feste unflektierbare Wortform (form). Die ursprüngliche Orthographie der Zahl (als Ziffern) gelangt durch Koreferenzierung von KEYTAG mit CARG in die Hauptrelation (KEY) des Wortes.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 75: Definition von numeric-ordinal-number-le

6.3.5.3 Gegliederte große Zahlen und Dezimalzahlen

Große in Ziffern geschriebene Zahlen werden gelegentlich in Dreierblöcke unterteilt, um ihre Lesbarkeit zu verbessern. Es handelt sich dabei um eine rein orthographische Veränderung, alle anderen Eigenschaften, etwa syntaktischer, semantischer oder morphologischer Natur, bleiben davon unberührt.

Es genügt hier, den Präprozessor gegliederte Zahlen durch die gleichen Strings ersetzen zu lassen wie ungegliederte. Dabei kommen einfache regulare Ausdrücke zum Einsatz wie zum Beispiel

(97) [0-9]{3}.[0-9]{3}

Der reguläre Ausdruck in Beispiel (97) erkennt Strings aus drei Ziffern, gefolgt von einem Punkt, wiederum gefolgt von drei Ziffern; also sechsstellige Zahlen wie „100.000“.

Dezimalzahlen wie „1,2“, „32,456“ und so weiter kann man wie Kardinalzahlen analysieren, weil sie sich syntaktisch gleich verhalten: Der Lexemtyp bleibt derselbe, in dem semantischen Hilfsfeature CARG wird jedoch die Zeichenkette inklusive Komma vermerkt, sodass der Unterschied zu Kardinalzahlen erkennbar bleibt.

6.3.5.4 Punktuierte, numerische Uhrzeitangaben

Numerische Uhrzeitangaben ohne Minuten und „Uhr“ (z. B. „19 Uhr“) syntaktischen Paradigma wie Uhrzeitangaben mit Minuten und optional (Uhr)“).

(98) Er kommt [um] 19 Uhr.

(99) Er kommt [um] 19.30 [Uhr].

Dem wird Rechnung getragen, indem ein einheitlicher Lexemtyp fuür Uhrzeiten mit und ohne Minutenangabe zugewiesen wird. Den Rest erledigt abermals der Prüaprozessor mittels eines regulaüren Ausdrucks:

([0-1]?[0-9]|2[0-3]).([0-5][0-9]) (Uhr)?

Mit diesem Ausdruck wird zunaüchst eine einstellige Zahl zwischen 0 und 9, eine zweistellige Zahl zwischen 00 und 19 oder eine zweistellige Zahl zwischen 20 und 23 abgearbeitet, danach ein Punkt, gefolgt von einer zweistelligen Zahl zwischen 00 und 59, optional mit „Uhr“ am Ende. Es werden damit alle Uhrzeiten von 0.00 Uhr bis 23.59 Uhr abgedeckt.

6.3.5.5 Bindestrichkomposita und Nomina-Koordinationen mit Ergänzungsstrichen

Ziemlich am Ende dieser Arbeit wurde mir bewusst, dass Bindestrichkomposita des Typs ,,EU- Ausweise“ und koordinierte Nomina mit Erganzungsstrich vom Typ „EU- und US-Ausweise“ den Parser besonders häufig zum Stolpern bringen; mir wurde klar, dass wenigstens ein erster Schritt in Richtung ihrer Implementation gegangen werden muss, auch wenn diese zunachst provisorisch sein wärde. Komposita mit Bindestrich scheinen die gleichen Fugenelemente aufzuweisen wie ihre Pendants ohne Bindestrich. Diese Fugenelemente kännen Fugen-s sein oder Elemente, die auch als Flexionsendungen auftreten, wie -e, -er, -en und so weiter. Die Idee ist daher, solche Komposita nach dem Bindestrich aufzuspalten und die erste Konstituente mit einer von zwei Suffixregeln abzuleiten, nämlich entweder mit punct-right-hyphen-no-s-orule, die einen Bindestrich an ein flektiertes Nomen anhängt, oder mit punct-righLhyphens-orule, die zusätzlich ein Fugen-s einfugt, also ,,s-“. Durch diese Suffixregeln eine semantische Relation hinzufügen zu lassen ist sinnvoll, damit der Generator bei der Erzeugung normaler Nomina nicht optional Bindestriche beifägt. Ich entscheide mich hier - recht beliebig - fär eine nullstellige Relation mit dem Prädikat rightJiyphen_rel, deren Index und Label schlicht mit denen der Nomenrelation identifiziert werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 76: Typ von COMPLEX-NN (gekurzte Darstellung)

Für das Syntaxschema, das das Bindestrichkompositum nun zusammenbaut (COMPLEX-NN, siehe Abbildung 76), ist diese Relation ein geeigneter Angriffspunkt: Es selegiert das erste Argument über das semantische Pradikat, eine Spezifizierung des RPUNCT-Merkmals durch die Bindestrichaffixregeln ist somit überflüssig. Als zweites Argument wühlt COMPLEX-NN ebenfalls ein lexikalisches ([lex +]) Nomen, allerdings ohne Beschränkung des Prädikats. Alle für die externe Kombinatorik wichtigen Merkmale (etwa UNIAGR für Kongruenz und CAT) werden vom zweiten Argument perkoliert, wegen der Rechtsküpfigkeit bei Komposita.

Im Hinblick auf Koordinationen mit Erganzungsstrichen ist klar, dass eine müchtigere morphologische Vorverarbeitung, als sie mir bisher zur Verfiigung steht, nütig würe, um mit bestimmten voneinander getrennten Wortbestandteilen in Koordinationen wie in (100a, 100b) umgehen zu künnen: Es ist noch vorstellbar, Bestandteile wie „Haupt“ ins Lexikon aufzunehmen, aber Wortstücke wie „Textilgroß“ müssten automatisch erstellt werden.

(100) a. Haupt- und Nebeneingang

b. Textilgroß- und -einzelhandel

c. Eisenbahn-, Straßen-, Luft- und Schiffsverkehr^[75]

Nichtsdestotrotz ist auf Anhieb zu bewerkstelligen, wortinitiale Ergüanzungsstriche bei Nomina wie in Beispiel 100b ( -einzelhandel“ ) durch eine Praüfixregel zu konsumieren, die so funktioniert wie die oben genannten Suffixregeln, außer dass sie ein abweichendes Pradikat einbringen (leftJiyphen-rel). Die Koordination bewültigen schließlich die üblichen Regeln wie COORD.

Dieser Ansatz fuür Binde- und Ergaünzungsstriche ist hinsichtlich praüziser Semantik und damit akkurater Generierung als noch provisorisch zu betrachten; ohne Flexionsendungen in den MRS-Strukturen zu vermerken, kommt es zu Ubergenerierungen: Aus „Computer-Dienstleister“ wird neben eben dieser Form auch zum Beispiel „Computers-Dienstleister“ erzeugt. Natürlich spielt das aus Parsing-Sicht keine Rolle, sodass man immerhin eine bessere Abdeckung gewinnt.

6.4 Maßnahmen für robustes Parsing

Beim Implementieren hielt ich mich bisher strikt an die Vorgaben des amtlichen Regelwerks, um mit LKB müglichst adüquat generieren zu können. Fur das Parsen bedeuten (zu) strenge Vorgaben jedoch, dass im Falle eines einzigen falsch gesetzten Interpunktionszeichens der ganze Satz nicht mehr analysiert wird. Wuünschenswert ist eine einzige Version der GG, die beides leistet: Robustes Parsen und adaüquates Generieren. In diesem Abschnitt werde ich eine Methode vorstellen, die es erlaubt, mittels entsprechender Spezifizierung eines einzigen Features zwischen mehreren Robustheitsgraden umherzuschalten.

Auf der robustesten Stufe soll sich die von mir erweiterte Grammatik so wie die Original-GG ohne Interpunktion verhalten, naümlich alle Interpunktionszeichen ignorieren. Dabei ist es nicht damit getan, einfach alle Zeichen vom Prüprozessor entfernen zu lassen. So tragt ein Wort ohne Satzzeichensuffix immer noch unter anderem die Spezifikation [rpunct no_punct]; alle anderen Constraints bleiben ebenfalls erhalten. Ein Nebensatz wird weiterhin ein Komma fordern, aber keines mehr vorfinden.

Eine reichlich unelegante Lösung bestünde darin, mit lexikalischen Regeln samtliche Interpunktionsfestlegungen der Lexeme zu entfernen, denn diese Regeln müssten auf jedem Wort eines Satzes feuern. Stattdessen ist der Plan, für Typen, die eigentlich zueinander inkompatibel sein sollen, gemeinsame Subtypen zu schreiben - jedoch auf diesen die Inkompatibilitöt zu vermerken. Und zwar auf dem anfangs angeköndigten Feature: PUNCTACCURACY (kurz PNCTACC), ein Merkmal von basic^punct-mark, mit dem Wert punctaccuracy. punctaccuracy soll zunachst nur in zwei Subtypen partitioniert sein: Mit wrongpunct und strictpunct. Mit ersterem werden Subtypen von miteinander inkompatiblen Interpunktionstypen markiert.

Beispielsweise erhalten advers_comma_punct und nojpunct einen gemeinsamen Subtyp wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 77: Gemeinsamer Subtyp von advers-commajpunct und nojpunct : advers-comma+nojpunct

Ein öquivalentes Merkmal wird fur basic_punctpair benötigt, PPAIRACCURACY (kurz PPAIRACC). Damit lassen sich ppair und no_ppair vereinbaren: Ohne weitere Modifikationen würden nun auf diese

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 78: Gemeinsamer Subtyp von ppair und no_ppair: ppair+no_ppair

Weise schon alle Interpunktionsconstraints ignoriert. Doch wie kommt man wieder zurück zur strikten Beachtung der Vorgaben? Meine erste Uberlegung war, grob formuliert, PNCTACC und PPAIRACC aller Regeltüchter nach oben zu tragen und erst auf den Root-Conditions mit strictpunct unerfüllte Interpunktionsbedingungen auszuschließen, die auf irgendeiner Ebene der Baumstruktur auftraten. Dies hatte jedoch zwei klare Nachteile: Fur den Benutzer wäre es zum einen unkomfortabel, alle Root-Conditions zu veraündern, um den Robustheitsgrad zu wechseln. Was schwerer wiegt: Erst am Ende einer Analyse würde ein Satz mit falscher Zeichensetzung verworfen, obwohl womüglich schon lange vorher eine inkorrekte Interpunktion „erkannt“ wurde. Ich siedele daher den „Robustheitsschalter“ ganz unten an, auf den Lexemen.

Konkret schalte ich punctswitch hierarchisch zwischen signpunct und nosign^punct.76 Die einzige Funktion von punctswitch ist die (Nicht-)Spezifikation von RPUNCT.PNCTACC.

Abbildung 79 illustriert, wie mit Hilfe von PNCTACC inkorrekte Zeichensetzung ausgeschlossen wird: Der Benutzer hat in punctswitch strikte Zeichensetzung eingestellt. PNCTACC mit dem Wert strictpunct perkoliert nun auf dem Ruücken“ von RPUNCT. Die adversative Konjunktion verlangt ein vorangehendes Komma; Die Unifikation von nojpunct mit advers_comma_punct gelingt zwar, doch der PNCTACC-Wert^[76]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 79: Funktionsweise des Robustheitsfeatures PNCTACC

des entstandenen Typs advers_comma+no_punct, wrongpunct, ist nicht mit strictpunct vereinbar.Ein Nachteil der vorgestellten Methodik für die Handhabung der Grammatik ist, dass die Vereinbarkeit zweier Typen unter Umstünden nicht mehr direkt erschlossen werden kann. Zur Erklarung ein Beispiel: Bisher konnte ein Schema an einer bestimmten Stelle durch den Constraint [rpunct comma_punct] ein Komma erzwingen. Denn so wurde unter anderem ein fehlendes Satzzeichen (no_punct) wegen des tatsächlichen Typenkonfliktes zwischen comma_punct und no-punct ausgeschlossen. Mit der Simulation dieses Typenkonfliktes über PNCTACC andert sich die Situation: Die beiden entsprechenden min- Typen, comma^puncGmin und nojpwnctjmvn (mehr dazu im nachsten Abschnitt), unifizieren zu einem automatisch generierten glb-Typ^[77] mit einem unterspezifizierten PNCTACC-Wert, wie aus der folgenden Teilhierarchie zu ersehen ist:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 80: Ausschnitt aus der punct_mark-Hierarchie mit glb-Typ

Auf solche automatisch erzeugten Typen hat der Grammatikschreiber keinen direkten Einfluss. Es ist also hier nicht möglich, glbtype216 ebenfalls mit dem Merkmal [punctaccuracy wrongpunct] auszustatten. Dem Problem begegne ich, indem ich fuür die betroffenen Constraints ausreichend spezifische Typen einsetze, zum Beispiel advers^comma^punct anstelle von comma^punct.

In vielen Fällen wird der Nutzer der Grammatik die Vorteile nutzen wollen, die ihm Zeichensetzung beim Parsen bietet, nämlich Reduzierung von Ambiguitat. Andererseits wird er einen gewissen Grad von Robustheit wänschen - in Texten mit nicht durchgehend korrekter Interpunktion sollte der Parser nicht bei jedem kleinen Fehler aussteigen. Typische Fehler wie das Weglassen von Kommata, die den Nebensatz abschließen, sollen auf einer mittleren Robustheitsstufe selektiv ignoriert werden.

Diese Robustheitsstufe markiere ich mittels des punctaccuracy-Typs partialpunct, die punctaccuracy- Hierarchie sieht dann folgendermaßen aus:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 81: Die ”punctaccuracy“-Hierarchie

Nun kännen gezielt interpunktionsrelaxierende Syntaxregeln angesetzt werden, die nur bei [pnctacc partialpunct] feuern. Um beispielsweise die Forderung eines Kommapaarschemas nach einem schließenden Komma (bei Einbettung) zu entschärfen, kann eine unäre Regel (RELAX-RIGHT-COMMA) formuliert werden, welche bewirkt, dass der Constraint [paired no_ppair] „vergessen“ wird (siehe Abbildung 82).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 82: Relaxierung des Constraints für schließende Kommata auf der Robustheitsstufe partialpunct

Gleichzeitig will man aus einer Analyse eines Satzes mit (partiell) fehlerhafter Zeichensetzung nur korrekte Sätze generieren. Dies ist der Grund, weshalb punktuelle Constraintrelaxierung fär Interpunktion mittels spezieller Regeln wie RELAX-RIGHT-COMMA vorgenommen werden sollte: Der Generator wird einfach angewiesen, diese Regeln nicht zu verwenden.

Ganz so einfach ist es nicht, eine relaxierende Syntaxregel wie RELAX-RIGHT-COMMA unter Kontrolle zu bekommen. Ohne weitere Maßnahmen kommt es zu unechten Ambiguitaten, wenn die rechten Grenzen zweier Nebensätze zusammenfallen, wie Abbildung 83 illustriert: RELAX-RIGHT-COMMA kann auf dem Relativsatz oder dem ,,dass“-Satz oder auf beiden Nebensatzen feuern. Dies ist offensichtlich kein unlösbares Problem, doch werde ich es hier nicht weiter verfolgen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 83: Ansatzstellen von RELAX-RIGHT-COMMA bei zusammenfallenden Nebensatzgrenzen

Vielversprechender, weil einfacher, ist ein Ansatz, der aus der entgegengesetzten Richtung kommt: Eine lexikalische Pseudo-Kommaregel, MAL-COMMA-ORULE, „vermutet“ auf einem beliebigen Lexem im Eingabestring ein Komma. Das bedeutet, sie setzt die Interpunktionsfeatures auf Kommawerte, wie beispielsweise [rpunct comma_punct]. Da sie keine Orthographie verändert, ist sie die erste lexikalische Regel uberhaupt, die appliziert; sie setzt unmittelbar auf den Lexemen auf. Nun muss ihre Applikation mindestens in zwei kritischen Situationen unterbunden werden: Erstens darf uöber ihr keine echte“ lexikalische Interpunktionsregel mehr feuern, wegen unechter Ambiguitöt; zweitens - und das ist der Grund, warum ein weiteres Feature föllig wird - ist sie an Stellen zu blockieren, wo sie in puncto Per- formanz zu „teuer“ wurde, wie etwa bei Einschüben und asyndetischer Koordination. Das erwahnte Feature,

6.5 Maßnahmen zur Effizienzverbesserung

Um beim Parsen die Performanz, also Platzverbrauch und Geschwindigkeit zu verbessern, gibt es zwei grundlegende Ansatzpunkte. Zum einen kann man mit technischen Mitteln den Parser selbst zu effizienterem Verhalten bringen. Einige geeignete Techniken wie beispielsweise Unification Quickcheck sind in Kiefer et al. (1999) zusammengefasst. Regelmößig zum Einsatz kommt die in Gerdemann & King (1993) beschriebene Unfilling-Technik sowie Local Ambiguity Packing (Earley, 1970; Tomita, 1987). Bei der Verwendung von Packing kommt es in der revidierten GG mit Interpunktionsfeatures zu einem dramatischen Einbruch der Packraten. Das bedeutet, dass viele Syntaxknoten nach der Erweiterung durch Interpunktionsmerkmale von außen betrachtet“ nicht mehr gleich sind und folglich beim Packen nicht mehr durch einen einzigen Stellvertreter ersetzt werden können. Dies wird durch Restringieren der InterpunktionsSuperfeatures SIGNPUNCT und PUNCT im Packing-Restrictor (Shieber, 1985) vollstöndig vermieden. Die reduzierte Anzahl der Constraints im gepackten Zustand fallt dabei nicht ins Gewicht.

Abbildung 84: Funktionsweise von MAL-COMMA-ORULE am Beispiel *,,Der Zug auf den er wartet

Doch auch der Grammatikschreiber kann durch geschickte Strukturierung der Grammatik zur Per- formanzverbesserung beitragen. Eine wichtige Maßnahme ist die Vermeidung von unechter (globaler und lokaler) Ambiguitat. Unechte Ambiguität bedeutet eine erhöhte Anzahl passiver Kanten in der Chart und damit Vergeudung von Ressourcen.

Ein weitere Belastung stellt die Menge zusatzlicher Features dar, die ich im Laufe meiner Arbeit zu unterschiedlichen Zwecken hinzufugte. Große AWMs verursachen nicht nur einen hohen Platzverbrauch; der Parser braucht zum Kopieren großer Strukturen auch mehr Zeit. Zwar versuchte ich schon, unnotige Features zu vermeiden und neuen Anforderungen mit schon bestehenden Merkmalen gerecht zu werden, doch kann man AWMs auch ohne eine Reduktion der Featureanzahl verschlanken: Von Flickinger (2002) stammt die Methode, unterspezifizierte Merkmale in Typen ,,einzuklappen“, sodass diese Merkmale in den AWMs unsichtbar sind. Angewendet auf basic_puncLmark funktioniert dies folgendermaßen: Ich definiere fär basic_puncLmark einen Supertyp^[78], der keine Features enthält: basic-puncEmarUmin. Die Features PNCTACCURACY, -PAIRED und MSGPRED werden erst auf basic^puncUmark deklariert. Greift nun ein Constraint auf eines dieser drei Features zu, expandiert basic-puncEmarUmin zu seinem Subtypen und offenbart eben jene Merkmale. Dies funktioniert nur zuverlässig, wenn jeder Typ aus der ursprängli- chen Typhierarchie unter basic^puncUmark systematisch ebenfalls auf diese Weise aufgespalten wird. Die ursprüngliche Definition von comma_punct beispielsweise:

comma_punct := comma_or_clause_punct & comma_or_no_punct & comma_orjsemicol_punct. wird (hier vereinfacht) ersetzt durch:

comma_punct_min := comma_or_clause_punct_min & comma_or_no_punct_min & comma_orjsemicol_min. comma_punct := comma_punct_min & basic_punct_mark.

7 Evaluation

Mit einigen Tests werde ich zunächst versuchen festzustellen, inwiefern die modifizierte GG die angestrebte adäquate Interpunktionsgenerierung einhalt (Abschnitt 7.1) und welche Effizienzverbesserungen beim Parsen sich ergeben (7.3). In Abschnitt 7.4 prüfe ich, um wie viel sich die Abdeckung durch die neu implementierten Konstruktionen verbessert und welches zukänftiges Verbesserungspotential fär die Abdeckung mit weiteren interpunktionsbezogenen Konstruktionen besteht.

7.1 Adäquatheit bei der Generierung

Ein Ziel dieser Arbeit war, herauszuarbeiten, wie Zeichensetzung adäquat implementiert werden kann. Das bedeutet: Erstens soll uberall dort, wo bestimmte Satzzeichen gefordert sind, diese (und nur diese) generiert werden. Zweitens soll an denjenigen Stellen, wo jegliche Satzzeichen verboten sind, keine generiert werden. Aufgrund der unendlichen Anzahl an syntaktischen Kombinationsmöglichkeiten in natärlichen Sprachen kann nicht ermittelt werden, wie oft die Interpunktionsgenerierung korrekte Ergebnisse liefert; wohl aber kann anhand der folgenden Tests an einigen interessanten Satzen verdeutlicht werden, dass die Generierung prinzipiell funktioniert. Mit „>“ sind die Eingabesätze gekennzeichnet, aus denen der Parser ein oder mehrere MRS-Strukturen, je nach Anzahl der Lesarten, konstruiert. ,,<“ markiert unter jeder dieser Eingaben die vom LKB-Generator daraus produzierten Oberflachenrealisierungen. Letztere sind hier verkürzt wiedergegeben; in geschweiften Klammern stehen Mengen von Zeichen oder (durch ,,|“ voneinander getrennten) Wärtern. Eine Ausgabe mit {.!} am Schluss bedeutet zum Beispiel, dass der Satz einmal mit Schlusspunkt und einmal mit finalem Ausrufezeichen generiert wird. Ansonsten sollten die Testergebnisse selbsterklärend sein, es entstehen weder Uber- noch Untergenerierungen. Besondere Beachtung verdient Test Nummer 7: Selbst bei drei beliebig verschachtelten Nebensätzen werden Kommata ausschließlich an den korrekten Stellen generiert.

(1) > Er wollte, dass er schläft.

< Er wollte, dass er schlaft{.!}

(2) > Er wollte das, damit er einschläft.

< Er wollte {das | dies}, damit er einschläft{.!}

< Er wollte, damit er einschlaft, {das dies}{.!}

(3) > Der Mann schnarchte, der schlief.

< Der Mann, der schlief, schnarchte{.!}

(4) > Der Mann schlief, um zu schnarchen.

< Der Mann schlief, um zu schnarchen{.!}

(5) > Dass er schlief, sagte er.

< Dass er schlief, sagte er{.!}

(6) > Wann er schlief, fragte er.

< Wann er schlief, fragte er{.!}

(7) > Er lehnte ab, obwohl er schnarchte, damit der Mann, der dort wohnte, sich ärgert.

< Er lehnte ab, obwohl er, damit sich der Mann, der dort wohnte, ärgert, schnarchte{.!}

< Er lehnte ab, obwohl er, damit der Mann, der dort wohnte, sich ärgert, schnarchte{.!}

< Er lehnte ab, obwohl er schnarchte, damit sich der Mann, der dort wohnte, argert{.!}

< Er lehnte ab, obwohl er schnarchte, damit der Mann, der dort wohnte, sich argert{.!}

< Er lehnte ab, obwohl, damit sich der Mann, der dort wohnte, ärgert, er schnarchte{.!}

< Er lehnte ab, obwohl, damit der Mann, der dort wohnte, sich ärgert, er schnarchte{.!}

< Er lehnte, obwohl er, damit sich der Mann, der dort wohnte, ärgert, schnarchte, ab{.!}

< Er lehnte, obwohl er, damit der Mann, der dort wohnte, sich ärgert, schnarchte, ab{.!}

< Er lehnte, obwohl er schnarchte, damit sich der Mann, der dort wohnte, ärgert, ab{.!}

< Er lehnte, obwohl er schnarchte, damit der Mann, der dort wohnte, sich argert, ab{.!}

< Er lehnte, obwohl, damit sich der Mann, der dort wohnte, ärgert, er schnarchte, ab{.!}

< Er lehnte, obwohl, damit der Mann, der dort wohnte, sich ärgert, er schnarchte, ab{.!}

(8) > Er versuchte, zu schlafen.

< Er versuchte zu schlafen{.!}

< Er versuchte, zu schlafen{.!}

(9) > Er schlief, und wenn er schlief, schnarchte er.

< Er schlief{,;} und wenn er schlief, schnarchte er{.!}

< Er schlief und wenn er schlief, schnarchte er{.!}

(10) > Zu schlafen, versuchte er.

< Zu schlafen, versuchte er{.!}

< Zu schlafen versuchte er{.!}

(11) > Er versprach morgens, zu arbeiten.

< Er versprach morgens, zu arbeiten{.!}

< Er versprach morgens zu arbeiten{.!}

< Er versprach, zu arbeiten, morgens{.!}

< Er versprach zu arbeiten morgens{.!}

(12) > Er versprach, morgens zu arbeiten.

< Er versprach, morgens zu arbeiten{.!}

< Er versprach morgens zu arbeiten{.!}

(13) > Er wurde von ihr geschlagen.

< Er wurde {von ihr | durch sie} geschlagen{.!}

< Er wurde geschlagen, {von ihr | durch sie}{.!}

< Er wurde geschlagen {von ihr | durch sie}{.!}

(14) > Gab er ihm das Buch?

< Gab {er ihm das Buch | ihm er das Buch | das Buch er ihm | er das Buch ihm}?

< Ob {er ihm das Buch | ihm er das Buch | das Buch er ihm | er das Buch ihm} gab{;?!;.}

(15) > Wann schlief er?

< Wann schlief er?

< Wann er schlief{;?!;.}

(16) > Er schlief, aber er schnarchte nicht.

< Er schlief{,;} aber er schnarchte nicht{.!}

(17) > Er schlief und schnarchte nicht.

< Er schlief und schnarchte nicht{.!}

(18) > Wenn die Nacht begann und wenn er schlief, schnarchte er.

< Wenn die Nacht begann und wenn er schlief, schnarchte er{.!}

(19) > Wenn die Nacht begann und wenn er schlief, schnarchte er.

< Wenn die Nacht begann und wenn er schlief, schnarchte er{.!}

(20) > Er sagte, er gibt das Buch ihm.

< Er sagte, er gibt {das Buch ihm | ihm das Buch}{.!}

(21) > Er sah einen Mann, der schlief, und eine Frau.

< Er sah einen Mann, der schlief, und eine Frau{.!}

(22) > Er sah einen Mann, der sagte, dass er geschlafen hatte, und eine Frau.

< Er sah einen Mann, der sagte, dass er geschlafen hatte, und eine Frau{.!}

(23) > Am Anfang war das Wort, oder?

< { Am | An dem } Anfang war das Wort, oder?

(24) > Er sah ihn (den Mann), bevor er schlief.

< Er sah ihn (den Mann), bevor er schlief{.!}

< Er sah ihn, den Mann, bevor er schlief{.!}

< Er sah, bevor er schlief, ihn, den Mann{.!}

< Er sah, bevor er schlief, ihn (den Mann){.!}

(25) > Er sah ihn — den Mann —, bevor er schlief.

< Er sah ihn — den Mann —, bevor er schlief{.!}

< Er sah, bevor er schlief, ihn — den Mann{.!}

(26) > Er sah ihn — den Mann (einen Studenten) — nicht.

< Er sah ihn — den Mann (einen Studenten) — nicht{.!}

< Er sah ihn — den Mann, einen Studenten — nicht{.!}

< Er sah nicht ihn — den Mann, einen Studenten{.!}

< Er sah nicht ihn — den Mann (einen Studenten){.!}

(27) > Er (der Mann) — ein Student — schlief.

> Er (der Mann) — ein Student — schlief{.!}

> Er, der Mann, — ein Student — schlief{.!}

(28) > Er kaufte Obst, Gemilse, Fleisch usw.

< Er kaufte Obst{,;} Gemüse{,;} Fleisch usw.

< Er kaufte Obst{,;} Gemüse{,;} Fleisch usw.!

7.2 Basisperformanz ohne neue Konstruktionen

Bevor ich Performanztests mit eingeschalteter Zeichensetzung starte, mochte ich zwei Dinge klaren: Erstens sollte sich auf der maximalen Robustheitsstufe dieselbe Analyseanzahl ergeben wie bei der Originalgrammatik, wenn die Regeln für neue Konstruktionen ausgespart werden; im Idealfall sollte die Anzahl aktiver und passiver Kanten konstant bleiben. Wenn dies der Fall ist, stimmt die Funktionalitüt der beiden GG-Versionen überein (abgesehen von der Interpunktion); ich kann dann sicher sein, nicht versehentlich falsche Ambiguitüten implementiert zu haben. Zweitens geht es darum herauszufinden, in welchem Ausmaß Performanzeinbußen allein durch die erhöhte Featurezahl (und die damit verbundenen größeren Strukturen) entstehen.

Das Babel-Korpus scheint mir für diese Zwecke geeignet. Es besteht aus 758 konstruierten Beispielen und enthült keine der von mir neu implementierten Konstruktionen, dafür ein Menge Neben- und Infi- nitivsütze. Die durchschnittliche Satzlange ist mit 6,2 Wortern sehr gering, das Korpus ist nicht nach Satzlänge balanciert. Damit ist das Korpus nicht dazu geeignet, das volle Potential zur Performanzverbes- serung durch Interpunktion zu zeigen. Vielmehr geht es darum, dass selbst bei solch geringen Satzlüangen der Effizienzgewinn durch die hühere Restriktivitat nicht aufgebraucht wird vom Effizienzverlust durch die lexikalischen Interpunktionsregeln sowie grüßere AWMs. Ein wichtiger Vorteil des Korpus ist zudem, dass die Interpunktion „korrekt“ ist, also den offiziellen Vorgaben folgt.

Alle Performanztestlaüufe finden unter den folgenden Bedingungen statt:

- CPU: Intel® XeonTMMP CPU 2.50GHz
- Arbeitsspeicher: ca. 4,5 GB verfügbar
- kein Unfilling^[79]
- kein Local Ambiguity Packing^[80]
- Unification Quickcheck mit den besten 40 Quickcheck-Pfaden

7.2.1 Performanz bei maximaler Robustheit

Beim ersten Vergleichstest ist PNCTACC auf ignorepunct eingestellt. Tatsüchlich ergibt ein Kompetenzvergleich auf dem Babel-Korpus, wie erwartet, exakt die gleiche Analysezahl, siehe Abbildung 85. Im (g)old-Block stehen die Ergebnisse der Original-GG, unter new die der Interpunktions-GG.

Die ,,in“-Spalten geben Auskunft über die Abdeckung, das heißt den Anteil der grammatischen Sütze, die mindestens eine Analyse erhalten; unter „out“ lasst sich die Ubergenerierung ablesen: 28.2 Prozent der ungrammatischen Satze wurden (fülschlicherweise) analysiert. Sowohl die „in“ als auch die „out“-Werte stimmen uüberein; eine geringe Abweichung lüasst sich bei der durchschnittlichen Anzahl an Lexemanalysen ausmachen. Dies ist kaum verwunderlich, da ich aufgrund neuer Lexemtypen fuür die beiden GG-Versionen nicht dasselbe Lexikon verwenden kann.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 85: Babel-Korpus: Kompetenz vergleich zwischen Original-GG und Basis-Interpunktions-GG bei maximaler Robustheit (ignorepunct)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 86: Babel-Korpus: Performanzvergleich zwischen Original-GG und Basis-Interpunktions-GG bei maximaler Robustheit (ignorepunct)

Der direkte Performanzvergleich (Abbildung 86) zeigt, dass die Anzahl der durchschnittlich ausgeführten Parseroperationen (tasks) nur minimal divergiert - dies ist auf einen leichten Anstieg der Anzahl passiver Kanten (der Durchschnittswert steigt von 913 auf 916) zurnckzuführen, der Grund dafur liegt sehr wahrscheinlich in der geringfügigen Differenz der Lexika. Erwartungsgemaß steigen Zeit- und Platzverbrauch an; wie man sieht, benütigen die mit Interpunktionsfeatures angereicherten AWMs ungefähr 6,7 % mehr Platz. Der Zeitverlust lässt sich nicht so genau bestimmten: Die Messgenauigkeit liegt bei ca. 2 %.

7.2.2 Performanz bei strikten Interpunktionsvorgaben

Performanztests mit eingeschalteter strikter Zeichensetzung sind nur dann aussagekraüftig, wenn die Interpunktionsfehlerrate im Testkorpus möglichst gegen null tendiert und somit die gleiche Abdeckung wie mit der Original-GG erreicht werden kann. Den nachste Testlauf fuhre ich, bis auf die aktivierte Zeichensetzung, unter denselben Bedingungen aus wie oben.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 87: Babel-Korpus: Kompetenzvergleich zwischen Original-GG und Basis-Interpunktions-GG bei maximaler Restriktivität (strictpunct)

Wie in Abbildung 87 zu sehen, sinkt die durchschnittliche Analysezahl merklich. In absoluten Zahlen reduziert sich die Anzahl der Lesarten bei 43 Satzen, und zwar von 202 auf 98. Glücklicherweise reduziert sich der Wert für die Übergenerierung („out“), allerdings verringert sich scheinbar auch die Abdeckung ein wenig. Bei genauerer Betrachtung stellt sich jedoch heraus, dass der Fehler nicht in den Interpunktionsmechanismen liegt. Im einzelnen werden die folgenden als grammatisch annotierten Sütze nicht mehr analysiert:

1. Ich kenne den Mann, den zu lieben, Maria versucht.
2. Die Frau, die zu lieben, ich versucht habe, schläft.
3. Er zwingt ihn, vor der Präfung zu grauen.

Die ersten beiden Satze werden ohne Interpunktion nur deshalb erfolgreich analysiert, weil die Infinitive „zu lieben“ gar nicht als solche analysiert werden, sondern als PP aus ,,zu“-Präposition und Pluralnomen „Lieben“. Derartige Verschränkungen von Relativ- und Infinitivsatzen beherrscht die GG noch nicht. Ähnliches passiert bei dritten Satz: Hier kann aus „vor der Präfung zu grauen.“ aber einfach deshalb keine VP konstruiert werden, weil „grauen“ nur als Nomen im Lexikon steht (zwischen Groß- und Kleinschreibung wird nicht unterschieden).

Äuch bei der genaueren Durchsicht der Analysen der restlichen Beispiele offenbaren sich keine fehlschlagenden Änalysen aufgrund von Fehlern in der Systematik der Interpunktionsconstraints.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 88: Babel-Korpus: Performanzvergleich zwischen Original-GG und Basis-Interpunktions-GG bei maximaler Restriktivitat (strictpunct)

Äbbildung 88 zeigt in der Summe eine deutliche Performanzsteigerung mit strikter Interpunktion im Vergleich zur Original-GG, bedingt durch eine Reduktion der tasks um knapp 10 Prozent. Die Auf- schlässelung nach Satzlänge liefert jedoch unerwartete Ergebnisse: Insbesondere die Reduktion der tasks um mehr als 20 Prozent bei den Sätzen bis zur Wortlange von 5 bedarf einer Erklärung: Die Ursache liegt darin, dass weniger Wärter abgeleitet werden. Die punktuierte GG kommt auf durchschnittlich ungefähr 244 abgeleitete Wärter pro Satz, die Original-GG auf knapp 288. Erklaren lasst sich dies anhand einer LKB-Token-/Spellingchart nach Eingabe von „regnet.“. Vergleicht man diejenigen Charts von GG- Versionen mit ab- und angeschalteter Interpunktion, so ist die letztere deutlich kleiner (vgl. Abbildung 89) - Man betrachte die Fälle, bei denen erst ein ,,e“ an den Stamm „regn“ und dann mit der ZU_ORD- Regel ein ,,t“ angehangt wird (1a bis 9a). ZU-ORD ist für die Ableitung von Ordinalzahlen bestimmt (fünf-> fänft) und wird hier falschlicherweise an einem Verb ausprobiert. „regnet.“ kann dagegen nicht auf diese Weise abgeleitet werden, da PUNCT_PERIOD_ORULE nur komplette Wärter um einen Punkt ergäanzt.

Der gräßte Performanz einbruch gegenäber der Original-GG, namlich 74 Prozent mehr passive Kanten und 10 Prozent Platzverlust, ist bei der (ungrammatischen) Eingabe „Er wurde kommen.“ festzustellen. Dies liegt zum einen daran, dass viele Eintrage (derzeit neun) mit der Form „kommen“ im Lexikon stehen;

0-1 [1a] REGNET => (regnet) [] <0 c 6>

0-1 [2a] REGN+VX-PRES-SG-CONJ-3_SUFFIX ZU_ORD => (regnet) [1]

0-1 [3a] REGN+VX-PRES-SG-1_SUFFIX ZU_ORD => (regnet) [1]

0-1 [4a] REGN+VX-PRES-SG-IMP-2_SUFFIX ZU_ORD => (regnet) [1]

0-1 [5a] REGN+AX-POS-E ZU_ORD => (regnet) [1]

0-1 [6a] REGN+VX-SUP-PERFJSUFFIX => (regnet) [1]

0-1 [7a] REGN+VX-PRES-CONJ-PL-2_SUFFIX => (regnet) [1]

0-1 [8a] REGN+VX-PRES-IND-SG-3-PL-2_SUFFIX => (regnet) [1]

0-1 [9a] REGN+VX-IMP-PL-2_SUFFIX => (regnet) [1]

0-1 [1b] REGNET. => (regnet.) [] <0 c 7>

0-1 [2b] REGN+VX-SUP-PERFSUFFIX PUNCT_PERIOD_ORULE => (regnet.) [1]

0-1 [3b] REGN+VX-PRES-CONJ-PL-2_SUFFIX PUNCT_PERIOD_ORULE => (regnet.) [1]

0-1 [4b] REGN+VX-PRES-IND-SG-3-PL-2_SUFFIX PUNCT_PERIOD_ORULE => (regnet.) [1]

0-1 [5b] REGN+VX-IMP-PL-2_SUFFIX PUNCT_PERIOD_ORULE => (regnet.) [1]

Abbildung 89: Token-/Spellingchart von „Regnet.“ bei abgeschalteter (oben) und angeschalteter Interpunktion (unten)

bei jedem dieser Lexeme feuert die PUNCT-PERIOD-ORULE. Stärker fallt jedoch ins Gewicht, dass zunächst auch ein Punkt an den Verbstamm „kommen“ von entsprechenden Verben mit abtrennbarem Präfix angehangt wird, wie „nachkommen“, „Vorkommen“ usw. Das PET-System äberpräft erst nach diesem Vorgang, ob auch ein passendes Prafix in der Eingabe vorhanden ist und filtert dann falsche Hypothesen. Naturlich ist dies nicht nur ein verbspezifisches Problem, sondern tritt auch bei ähnlich kombinationsfreudigen Verben auf. Bei derart kleinen Satzen, wo die Interpunktionsconstraints keine disambiguierende Wirkung haben, kann sich dies so stark bemerkbar machen. Beim Filterverhalten von PET gibt es hier Verbesserungspotential. Performanzeinbruche in dieser Größenordnung bilden jedoch selbst im Babelkorpus die Ausnahme.

Fazit: Sogar unter unguänstigen Umstaänden, näamlich bei kurzen Saätzen, wo beim Parsen mit restriktiver Interpunktion nicht zu erwarten ist, dass viele lokale Ambiguitaäten aufgeläost werden und dadurch die Anzahl passiver Kanten in der Chart reduziert wird, ist im Hinblick auf die Performanz die Interpunktions- GG der urspruänglichen GG vorzuziehen.

7.3 Performanz mit neuen Konstruktionen

Sinn und Zweck der folgenden Testlaäufe ist es zu ermitteln, welches Potential fuär Performanzspruänge mit Interpunktion zu erwarten ist, wenn Konstruktionen geparst werden, die abgesehen von den Satzzeichen relativ unmarkiert sind - bei denen also anzunehmen ist, dass sie sich ohne Berücksichtigung der Interpunktion oft kombinieren lassen. Ich teste die bereits im Implementationsteil vorgestellten Konstruktionen: Lockere Appositionen, V1-Parenthesen und asyndetische Koordinationen. Die folgenden Tests werden erst einmal auf kleinen, kuänstlichen Testkorpora durchgefuährt, um die Auswirkung jeder einzelnen neuen Konstruktion auf die Performanz separat zu testen. Anschließend soll untersucht werden, ob diese Ergebnisse auch unter realistischen Bedingungen zu erreichen sind.

7.3.1 Tests der einzelnen Konstruktionen auf kleinen, künstlichen Korpora

Die Ergebnisse der folgenden Tests sollen Aufschluss darüber geben, welches Ausmaß die Ineffizienz durch Abschaltung der Interpunktion im Extremfall bei jedem einzelnen neuen Syntagma annehmen kann. Dazu sollen zunüchst nur Sütze geparst werden, die die neuen Syntagmata beinhalten; außerdem dienen mir so diese Testsatze gleichzeitig zum Uberprüfen der Funktionalitüt. Benütigt werden zudem Testsütze, die erfolgreich geparst werden, also mindestens eine Analyse erhalten. Als undurchfuührbar erweist es sich, entsprechende Satze aus einem Korpus zu extrahieren und in unveründertem Zustand zu parsen - beinahe in jedem etwas langerem Satz befinden sich für die GG noch unbekannte Konstruktionen wie etwa Ellipsen, bestimmte Arten von Einschuben, artikellose Substantive im Singular etc. Selbst wenn die GG alle vorliegenden Konstruktionen kennt, scheitert die Analyse meist an unbekannten Lexemen. Daher begnuge ich mich damit, geeignete Sätze aus dem Zeitungskorpus TiGer (Brants et al., 2002) herauszuziehen und gerade soweit zu modifizieren, dass sie geparst werden können. Teilweise werden die Sütze dabei so stark veraündert, dass sie nur noch als von den Ursprungssaützen inspiriert bezeichnet werden koünnen. Allerdings achte ich darauf, keine allzu großen Kuürzungen vorzunehmen, sodass - anders als bei dem Babel-Korpus, siehe oben - passable Satzlaüngen erhalten bleiben.

Das TiGer-Korpus, das mir in der Version 2-051221b vorliegt, umfasst 50474 Sütze mit manuell annotierter Syntax. Korpusanfragen lassen sich bequem mittels des Suchwerkzeugs TiGer-Search (Lezius, 2002) vornehmen. Ich erstelle lediglich jeweils ein Subkorpus mit lockeren Appositionen sowie eins mit Vl-Parenthesen und verzichte auf eine eigene Zusammenstellung von Satzen mit asyndetischen Koordinationen, da einige von letzteren auch in den Parenthesensatzen vorkommen.

Das Subkorpus für lockere Apposition baue ich auf aus jeweils 20 Sützen mit durch Gedankenstrichen, Klammern und Kommata umgrenzten Appositionen, also insgesamt aus 60 Satzen. Lockere Appositionen sind in TiGer denkbar einfach zu finden, da sie durch einen speziellen Marker gekennzeichnet sind. Einige Appositionen, die noch Probleme bereiten, wie appositive Nomina, die artikellos und zudem koordiniert sind, passe ich an.

V1-Parenthesen sind in TiGer nicht besonders gekennzeichnet. Ich beschrüanke meine Suchanfragen daher auf die 3. Person Singular Prüsens und Imperfekt der in TiGer am haufigsten auftretenden verba dicendi, „sagen“ und „meinen“, denen ein Komma, Gedankenstrich oder eine Klammer vorangeht; Resultate liefern dabei nur die Anfragen mit Komma. Von diesen wahle ich von Hand diejenigen Sütze aus, bei denen tatsachlich Einschube vorliegen - Ubrig bleiben 81 Sütze.

Jeden Satz beider Subkorpora analysiere und bearbeite ich zum Schluss einzeln mit LKB und füge einige unbekannte Lexeme dem GG-Lexikon hinzu, um den Satz parsebar“ zu machen; die Zeichensetzung bleibt jedoch unberuührt. Das fertige Appositionen-Subkorpus weist eine durchschnittliche Satzlüange von 19,2 auf, im Parenthesen-Korpus sind die Satze durchschnittlich 17,7 Würter lang.

Einen dritten Testsatz fuür asyndetische Koordinationen schließlich gewinne ich aus dem AppositionenKorpus: Appositionen wandele ich in Konjunkte um, indem ich gegebenenfalls das schließende Komma entferne und die Subjekt-Verb-Kongruenz anpasse. So wird beispielsweise aus dem Appositionssatz „Peter Maier, ein ehemaliger Mitarbeiter, sah uns.“ die asyndetische Koordination in „Peter Maier, ein ehemaliger Mitarbeiter sahen uns.“

Bei den Tests auf den einzelnen Korpora sind nicht alle neuen Syntaxregeln aktiviert: Die ersten Testlaufe auf dem Appositionenkorpus fuühre ich durch mit aktivierten Regeln fuür lockere Appositionen und deaktivierten Regeln für Vl-Parenthesen und asyndetische Koordinationen - einmal ohne und einmal mit Interpunktionsconstraints. Bei den Tests auf dem Parenthesenkorpus gehe ich analog vor - von den neuen Syntaxregeln werden nur jene für Vl-Parenthesen verwendet -, und entsprechendes gilt schließlich auch für die Tests auf dem Koordinationenkorpus. Zusammengefasst gibt es die folgenden sechs Konfigurationskombinationen für sechs Testläufe:

Abbildung in dieser Leseprobe nicht enthalten

7.3.1.1 Testläufe 1a und 1b

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 90: Appositionen-Korpus: Kompetenz vergleich zwischen Interpunktions-GG bei maximaler Robustheit (ignorepunct) und Interpunktions-GG bei maximaler Restriktivität (strictpunct)

Zunächst zeigt der tsdb-Kompetenzvergleich (Abbildung 90) zwei wesentliche Ergebnisse: Die Analyseanzahl ohne Interpunktion (gold-Spalte) explodiert regelrecht gegenüber der punktuierten Grammatik

- auf das über 23-fache. Und das, obwohl die Abdeckung von 95 auf 73,3 Prozent sinkt. Den Grund dafür liefern die naüchsten beiden Diagramme.

Die beiden Abbildungen 9l und 92 zeigen die Anzahl passiver Kanten in Abhüangigkeit von der Satzlaünge

- Abbildung 91 bei eingeschalteten, Abbildung 92 bei ausgeschalteten Interpunktionsconstraints. Mit den durch Ignorieren der Interpunktionsconstraints gestiegenen Kombinationsmoüglichkeiten steigt auch die Anzahl passiver Kanten in der Chart rapide, und zwar so sehr, dass viele Sütze nicht zu Ende geparst werden, weil die Kantenzahl das voreingestellte Limit von 100000 ubersteigt; es bildet sich der sogenannte Ceiling-Effekt (die Werte sammeln sich an der „Decke“ des Diagramms). Dies bedeutet eine Reduktion des Zeit- und Platzverbrauchs um ungefahr 80 Prozent, siehe Abbildung 93.

Abbildung in dieser Leseprobe nicht enthalten

7.3.1.2 Testläufe 2a und 2b

Der Ceiling-Effekt auf dem Testkorpus für Vl-Parenthesen ist nicht ganz so beeindruckend; auch mit restriktiven Interpunktionsconstraints gibt es hier einige Ausreißer, die an das Kantenlimit stoßen (vgl. Abbildung 94).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 94: V1-Parenthesen-Korpus: Anzahl der passiven Kanten bei maximaler Restriktivit¨at(strictpunct)

Der Unterschied mit abgeschalteter Interpunktion ist dennoch deutlich im Graphen zu sehen (Abbildung 95). Interpunktion bringt bei den V1-Parenthesen eine Ressourcenersparnis von um die 50 Prozent, wie aus Abbildung 96 ersichtlich wird.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 96: Vl-Parenthesen-Korpus: Performanzvergleich zwischen Interpunktions-GG bei maximaler Robustheit (ignorepunct)

7.3.1.3 Testlaufe 3a und 3b

Irgendwo zwischen den Performanzgewinnen durch Interpunktion bei lockeren Appositionen und Vl- Parenthesen ist die Steigerungsrate um die 65 Prozent bei ayndetischen Koordinationen angesiedelt, siehe Abbildung 97.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 97: Koordinationen-Korpus: Performanzvergleich zwischen Interpunktions-GG bei maximaler Robustheit (ignorepunct) und Interpunktions-GG bei maximaler Restriktivität (strictpunct)

Man vergleiche abermals die Anzahl passiver Kanten auf strictpunct (Abbildung 98) und auf ignorepunct (Abbildung 99).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 98: Koordinationen-Korpus: Anzahl der passiven Kanten bei maximaler Restriktivit¨at(strictpunct)

Fazit: Bei allen drei getesteten neuen Konstruktionen - lockere Appositionen, Vl-Parenthesen, ayn- detische Koordinationen - ist der Performanzeinbruch beziehungsweise der Ressourcenverbrauch bei Abschaltung der Interpunktionsconstraints so groß, dass bei dem äblichen Limit von 100.000 passiven Chartkanten viele Saätze nicht vollstäandig geparst werden koännen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 99: Koordinationen-Korpus: Anzahl der passiven Kanten bei maximaler Robustheit(ignorepunct)

Der größte Performanzgewinn durch Einschalten der Interpunktion ist bei lockeren Appositionen festzustellen (81,1 Prozent weniger Platzverbrauch); daraus lasst sich schlussfolgern, dass diese Konstruktionen besonders kombinationsfreudig sind. Dies ist wenig verwunderlich, wenn man sich klar macht, dass sogar die Wortfolge „dieser Student aus Saarbröcken“ mit entsprechender Kommasetzung mit den Regeln der GG richtigerweise als Apposition interpretiert werden kann: „Dieser, Student aus Saarbröcken, kam gestern zu Besuch.“ Es ist davon auszugehen, dass nach Implementierung der Möglichkeit, Appositionen zu extraponieren, die Abgrenzung durch Satzzeichen sogar noch mehr an Bedeutung gewinnt.

7.3.2 Tests unter realistischen Bedingungen

Um der Frage nachzugehen, ob die im vorangegangen Abschnitt erzielten Ergebnisse auch unter realistischen Bedingungen zu erwarten sind, ziehe ich in einem ersten Schritt die ersten 10.000 TiGer-Satze mit einer jeweiligen Lönge zwischen fönf und 25 Token heran und extrahiere daraus nur die auf Anhieb vollstöndig parsebaren Exemplare. Es erfolgt diesmal keine manuelle Bearbeitung einzelner Sätze; so wird die Authentizitat der spöteren Ergebnisse gewöhrleistet. Genau 974 aus den 10.000 TiGer-Sötzen sind parsebar, die letzten 24 Sötze entferne ich, um mit 950 auf eine einigermaßen runde Zahl zu kommen. Die durchschnittliche Satzlönge in diesem Subkorpus betrögt rund 10,76 Token. Nun parse ich dieses TiGer-Fragment, wie gehabt, einmal mit strictpunct, einmal mit ignorepunct, und zwar wieder unter denselben konstanten technischen Bedingungen wie bisher: Ohne Ambiguity Packing, ohne Unfilling und auf demselben Rechner. In beiden Testlöufen bleiben diesmal jedoch sämtliche neuen Syntaxregeln aktiviert.

Abbildung in dieser Leseprobe nicht enthalten

Ein Blick auf den Kompetenzvergleich (über 24 mal mehr Analysen ohne Interpunktionsrestriktionen, siehe Abbildung 100) verrüt schon, dass wieder große Performanzunterschiede zu erwarten sind. Und in der Tat: Vergleicht man die Effizienzkriterien Tasks, Speicherplatz- und Parsezeitverbrauch, sind sogar noch grüßere Unterschiede festzustellen als bei den Testlaufen auf dem künstlichen Appositionskorpus: jeweils über 80%, siehe Abbildung 101. Die Satzlünge spielt dabei keine große Rolle. Ein Vergleich der Anzahl passiver Kanten bei eingeschalteter (Abbildung 102) und ausgeschalteter (Abbildung 103) Interpunktion ergibt wieder das gewohnte Bild: Der Ceiling-Effekt im zweiten Schaubild hebt sich sehr deutlich ab von den durchgängig niedrigen Mittelwerten im ersten.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 102: TiGer-Fragment: Anzahl der passiven Kanten bei maximaler Restriktivitüt (strictpunct)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 103: TiGer-Fragment: Anzahl der passiven Kanten bei maximaler Robustheit (ignorepunct)

Schließlich soll der Frage nachgegangen werden, wie viel die einzelnen Konstruktionen zur Ineffizienz bei abgeschalteter Interpunktion beisteuern. Zu diesem Zweck lasse ich den PET-Parser auf dem demselben 950-Sätze-Korpus laufen, und zwar sechs mal, mit den folgenden Konfigurationen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 104: TiGer-Fragment: Performanz vergleich zwischen den Tests Ia und Ib (Appositionen)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 105: TiGer-Fragment: Performanzvergleich zwischen den Tests IIa und IIb (Koordinationen)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 106: TiGer-Fragment: Performanzvergleich zwischen den Tests Ilia und IlIb (Vl-Parenthesen)

In den Einzeltests unter realistischen Bedingungen sind zu den jeweiligen Performanzvergleichen zwischen aus- und eingeschalteter Interpunktion (Abbildungen 104, 105 und 106) zwei wesentliche Ergebnisse festzuhalten. Erstens: Die einzelnen Performanzunterschiede fallen - hinsichtlich der Tasks - nicht so groß aus wie bei den Tests auf den künstlichen Korpora. Alles andere wäre sehr überraschend gewesen, da die kunstlichen Korpora ja gerade so zusammengestellt wurden, um Extremfälle zu simulieren. Zweitens: Der Vergleich der V1-Parenthesen-Tests (Abbildung 106) hebt sich deutlich von den anderen beiden Vergleichen ab. Das bedeutet, dass unter realistischen Umstanden V1-Parenthesen ohne Inter- punktionsconstraints relativ wenig zur Gesamt-Ineffizienz beitragen. Der Grund dafür ist, dass selbst ohne Interpunktion fur den Parser die Anzahl an Mäglichkeiten, in einem „normalen“ Fließtext lokal eine V1-Parenthese zu analysieren, noch relativ gering ist; benötigt wird ein Verb einer bestimmten Verbklasse (nämlich ein Verb, das noch fur einen Komplementsatz subkategorisiert), gefolgt von einer NP im Nominativ. Zudem müssen das Verb und die NP im Numerus kongruent sein. Warum dagegen NP ohne Interpunktion recht oft als lockere Appositionen analysiert werden konnen, erwähnte ich bereits: Schuld daran ist wohl vor allem die Moüglichkeit, Demonstrativpronomen als Bezugswort fuür Appositionen zuzulassen. Die Vielzahl von Mäglichkeiten schließlich, ohne die Markierung durch Kommata und Semikola asyndetische Koordinationen zu analysieren, hat wahrscheinlich eine ganz ähnliche Ursache: „die Leute“ beispielsweise kann vom Parser als Koordination „die, Leute“ interpretiert werden, wobei „die“ dann als Demonstrativpronomen und - auf Phrasenebene - als NP fungiert. Auch abgesehen davon findet man oft adjazente Konstituenten, die hinreichend ähnlich sind, um koordiniert werden zu konnen.

7.4 Abdeckung mit neuen Konstruktionen

In Abschnitt 7.3 zeigte ich, dass bestimmte syntaktische Strukturen nur unter Beräcksichtigung der Zeichensetzung effizient zu implementierten sind. Um nun herauszufinden, um wie viel die neu implementierten Konstruktionen schon gegenwaärtig die Abdeckung verbessern, parse ich die schon oben betrachteten 950 Sätze aus dem TiGer-Korpus, die mit den neuen Konstruktionen komplett abgedeckt werden, noch einmal ohne die neuen Syntaxregeln und mit der Einstellung ignorepunct. Das Ergebnis lautet: Ohne die Verwendung der neuen Syntaxregeln werden nur 94,5% statt 100% dieses TiGer-Fragmentes abgedeckt. Dieser relativ geringfuägige Unterschied ist darauf zuruäckzufuähren, dass noch nicht alle Arten von lockerer Apposition und erst ein Bruchteil an Parenthesenformen implementiert sind. Es ist jedoch mäoglich, anhand des TiGer-Korpus abzuschätzen, in welchem Rahmen sich die Abdeckung auf Zeitungskorpora durch die Einfährung der neuen Konstruktionen verbessern lässt.

Das TiGer-Korpus umfasst, wie gesagt, 50474 Säatze. Lockere Appositionen sind dort recht verlaässlich markiert; eine Abfrage ergibt 3575 Saätze, die diese Konstruktion beinhalten. Als Parenthesen gekenn- zeichnet sind Gebilde in 2313 Sätzen. Dies Zahl sollte als Minimum betrachtet werden, da beispielsweise Vl-Parenthesen nicht als Parenthesen etikettiert sind. Etwas schwieriger zu filtern sind asyndetische Koordinationen; ich suche nach Mustern, wo eine Koordinationskategorie mehrere Kategorien direkt dominiert und der vorletzte dieser dominierten Knoten keine Konjunktion ist (Satzzeichen werden im TiGer-Korpus direkt vom Wurzelknoten dominiert). Insgesamt werden so 4115 Sätze mit asyndetischen Koordinationen gefunden.

Prozentual bedeutet dies unter der Annahme, dass alle anderen unbekannten Konstruktionen implementiert werden, ein Steigerungspotential fär die Abdeckung mit lockeren Appositionen um rund 7,1%; mit Parenthesen um mindestens rund 4,6% und mit asyndetischen Koordinationen um rund 8,2%. Diese Zahlen lassen sich nicht einfach aufaddieren, da mehrere dieser drei Konstruktionen gemeinsam in einem Satz vorkommen kännen; in der Summe sollten jedoch dank der Implementation der genannten Konstruktionen äber 10% mehr Sätze mit der Hilfe von Zeichensetzung effizient geparst werden kännen.

In diesem Zusammenhang mächte ich noch Haufigkeiten einiger Phanomene mit „morphologischer Interpunktion“ in TiGer angeben, die nicht in die Evaluation eingeflossen sind: Bindestriche (nicht nur Bindestrichkomposita) treten in 8672 (Gesamtanteil am TiGer-Korpus rund 17,2%), Ergänzungsstriche in 1321 (~ 2, 6%), Wärter mit finalem Punkt wie Abkürzungen und numerische Ordinalzahlen in 2625 (~ 5, 2%) und Dezimalzahlen in 1044 (~ 2,1%) Sätzen auf.

8 Schlussfolgerungen und Ausblicke

In dieser Arbeit wurden drei wesentliche Erfolge erzielt:

Erstens habe ich gezeigt, wie Zeichensetzung integrativ, das heißt, ohne Ausmultiplizieren existierender Syntaxregeln, in eine bestehende deutsche HPSG so implementiert werden kann, dass eine adaquate Generierung bezäglich präskriptiver Vorgaben gewährleistet ist. In Abschnitt 5.1 argumentierte ich, warum es zu diesem Zweck besser ist, auch nicht freistehende Satzzeichen wie das Komma mittels Spellingregeln zu konsumieren und nicht - wie alle anderen computerlinguistischen Ansätze bis auf die ERG - sie als Token zu behandeln. Die adaäquate Behandlung des Kommas stellte eine besondere Herausforderung dar, da dieses in vielfaltigen Konstellationen auftritt, sodass ich mich sogar dazu gezwungen sah, speziell fär uneingeleitete Infinitivsätze gleich drei Hilfsfeatures einzufähren (siehe Abschnitt 6.2.3). In der ERG wird zur Zeit unter anderem die Generierung von Klammern und Gedankenstrichen komplett blockiert - und zwar nicht nur aus Effizienz-, sondern auch aus Ubergenerierungsgränden. Dass es auch anders geht und wie Klammern und Gedankenstriche so integriert werden koännen, dass es auch ohne ihre Blockade im Generator zumindest nicht zu Ubergenerierungen kommt, zeigte ich in Abschnitt 6.3.4.

Zweitens bestatigten sich in meinen Performanztests (Abschnitte 7.2 und 7.3) frähere Beobachtungen anderer Autoren (Abschnitt 2), dass die Beräcksichtigung von Interpunktion beim Parsen nätzlich ist, um syntaktische Ambiguitaäten zu reduzieren und somit die Effizienz beim Parsen zu erhoähen. Der Effizienzunterschied mit und ohne Interpunktion erwies sich bei anderweitig unmarkierten“ Konstruktionen wie asyndetischen Koordinationen, losen Appositionen und Parenthesen als so groß, dass deren Implementierung ohne Interpunktionsconstraints nicht sinnvoll ware.^[81]

Drittens habe ich ein Verfahren entwickelt, welches es einerseits erlaubt, Zeichensetzung „auf Knopfdruck“ abzuschalten, ohne dass dafür neue Regeln notwendig werden, und welches andererseits um beliebig viele „Robustheitsgrade“ erweiterbar ist, siehe Abschnitt 6.4.

Die Ergebnisse dieser Arbeit bieten eine gute Arbeitsgrundlage für die Implementierung weiterer interpunktionsrelevanter Phünomene. Der nüchste naheliegende Schritt ware die Erweiterung um „so“- und ,,wie“-Parenthesen, deren theoretische Grundlagen in konzentrierter Form von Pittner (1993) ausgearbeitet wurden; die Grundlagen für die ,,so“-Parenthesen legte ich bereits durch den Einbau der davon abgeleiteten abgesonderten Vl-Parenthesen (Abschnitt 6.3.3). Ganz ahnlich zu realisieren sein sollten Einschübe eigenständiger Sätze. Spatestens dann stellt sich jedoch die Frage, wie parentheseninterne Schlusszeichen in Constraints berücksichtigt werden künnen, denn dann gibt es Konstellationen mit drei Satzzeichensuffixen hintereinander, wie in Beispiel (101a) dargestellt; bezieht man zusatzlich noch Anführungszeichen mit ein, kommt man bereits auf Ketten mit vier solcher Suffixe (101b).

(101) a. Eines Tages hagelte es (es war mitten im Sommer?).^[82]

b. Eines Tages hagelte es (es war mitten im „Sommer“!).

Dies adüquat einzubeziehen wird keine fundamental neuen Mechanismen erfordern; was die schließenden Anfuhrungszeichen betrifft, konnte analog zu dem Feature für schließende Klammern PAREN ein neues Interpunktionsfeature für die rechte Wort-/ Phrasengrenze deklariert werden. Demgegenüber wird man meiner Meinung nach bei mehreren Schlusszeichen an derselben Wort-/ Phrasengrenze mit Listen hantieren müssen, damit die MSGPRED-Koreferenzierungen (siehe Abschnitt 6.2.1) korrekt funktionieren: So appliziert das FILLER-H-Schema für Beispiel 101a zweimal; einmal lizenziert es den Einschub, einmal den Trügersatz. Für den Einschub muss es das Fragezeichen zur Bestimmung des Aussageprüdi- kates heranziehen, fuür den Traügersatz dagegen den Schlusspunkt.

Von „echten“, also vom Trügersatz strukturell unabhangigen Parenthesen zu unterscheiden sind in situ hervorgehobene Satzteile, oder anders herum formuliert - nach Pittner (1995, S. 2) - Einschübe, die syntaktisch in den Tragersatz integriert sind. Dazu gehüren^[83] „parenthetisch eingeschobene Satzglieder“ (Beispiel 102a), „Attribute“ (102b) und „Partikeln“ (102c).

(102) a. Wir haben fur diesen Bereich der Strukturbildung - im Anschluss an Bierwisch (1980) - die Bezeichnung Äußerungsbedeutungsstruktur gewahlt.

b. Diese - durch zahlreiche Forschungsansüatze gesicherte - Erkenntnis nimmt auch dort einen zentralen Platz ein.

c. Denn nicht zuletzt liegt es - auch - daran, wie wir Sachen anpacken, wie wir mit unserem Leben umgehen.^[84]

Trotz ihrer Integriertheit ist es fast zwingend erforderlich, dass diese Parenthesen eine eigene Semantik beisteuern. Ansonsten wird der Generator unter anderem jeden Nebensatz, jedes Attribut und jede Partikel optional in Klammern oder Gedankenstriche setzen.

Eine weitere Klasse von Einschuüben, die auf der Grundlage dieser Arbeit wird eingebaut werden koünnen, sind „nachgestellte Erläuterungen, die häufig mit also, besonders, das heißt (d. h.), das ist (d. i.), genauer, insbesondere, nämlich, und das, und zwar, vor allem, zum Beispiel (z. B.) oder dergleichen eingeleitet werden“ (Rat fär deutsche Rechtschreibung, 2006, S. 93).

Ein Satzzeichen, das einerseits eine besondere Vielfalt an semantischen und pragmatischen Funktionen aufweist und andererseits kaum mit syntaktischen Beschrankungen verbunden ist, ist der Doppelpunkt. Ein umfangreiches Werk, das alle nätigen theoretischen Grundlagen bereithalten sollte, ist Karhiaho (2003).

Das zweite noch fehlende wichtige Satzzeichen, für deren Implementierung noch gräßere Anstrengungen erforderlich sein konnten, sind die Anfährungszeichen. Vor allem werden neue Ideen fär das Problem gebraucht, wie semantisch zusammenhaängende, aber syntaktisch diskontinuierliche direkte Rede wie in Beispiel (103) modelliert werden kann.

(103) „Du siehst“, sagte die Mutter, „recht gut aus.“^[85]

Gegenwärtig werden Anfährungszeichen einfach ignoriert. Dadurch können Sätze wie oben zwar geparst werden, dafär wird mindestens die Analyse von appositiven Titeln wie in Beispiel (104) aus Effizi- enzgruänden unmäoglich.

(104) Kennst du den Roman „Wo warst du, Adam?“?^[86]

Interpunktionszeichen auf morphologischer Ebene außer Punkt und Komma sind bisher bestenfalls rudimentär implementiert. Es geht um Apostrophe, Ergänzungs- beziehungsweise Bindestriche und Auslassungspunkte.

Während der reguläre Einsatz von Apostrophen als Genitivmarkierung wie in (105a) unproblematisch ist und mittels derselben Suffixregel behandelt werden kann, die auch Genitiv-s anhängt, ist fär die Verarbeitung arbiträrer Auslassungen wie in (105b, 105c) eine etwas ausgeklugeltere morphologische Vorverarbeitung erforderlich.

(105) a. Aristoteles’ Schriften^[87]

b. In wen’gen Augenblicken

c. Das Wasser rauscht’, das Wasser schwoll.

(106) Du bist ein E... !^[88]

Ein ganz ähnliches Problem stellen auch Wortauslassungen durch Auslassungspunkte dar (siehe (106)).Auch bei den Bindestrichkomposita und Koordinationen mit Erganzungsstrichen ist noch viel zu erledigen; einige Probleme sprach ich in Abschnitt 6.3.5.5 an.

Ein Effizienzproblem bei der Generierung von Satzzeichenaffixen schließlich bedarf noch der Kläarung. Besonders „teuer“ ist derzeit die Generierung von Klammern: Alle Worter werden zunächst mit allen mäglichen Kombinationen von Satzzeichen generiert; die Generatorchart fällt sich dementsprechend; unlizenzierte Zeichen werden erst bei der spateren Analyse durch die entsprechenden syntaktischen Beschränkungen verworfen. Um unerwänschte Zeichengenerierung zu verhindern, scheint es unvermeidlich, semantische Relationen von den lexikalischen Interpunktionsregeln einführen zu lassen, sodass diese bei der Generierung nur noch feuern, wenn sie semantisch „getriggert“ werden, das heißt, wenn die Semantik sie dazu berechtigt. Die Frage ist nur, welche Semantik. Eine einzige semantische Relation für die lexikalischen Kommaregeln etwa scheidet allein schon aufgrund der Optionalitatsproblematik aus. Dagegen ist eine durch Klammern eingeführte Relation denkbar, die erst unspezifisch ist und erst spüter je nach Kontext beispielsweise zu einer Appositions- oder Parentheserelation ausspezifiziert wird. Dann wiederum wird es schwierig, ein Prinzip beizubehalten, welches sowohl die Anbindung von Einschüben beziehungsweise Nachträgen mit Klammern als auch die Anbindung mit Kommata erklärt.

Literatur

ACL/DCI (1991): Wall Street Journal Corpus Association for Computational Linguistics Data Collection Initiative, CD-ROM 1. URL: http://www.ldc.upenn.edu (28.12.2007)

Bassarak (1987): Parenthesen als illukotive Handlungen Bassarak, Armin. In: Wolfgang Motsch (Hg.): Satz, Text, sprachliche Handlung. Akademie-Verlag, Berlin. S. 163-178. (Studia grammatica XXV)

Bayraktar (1996): Computer-Aided Analysis of English Punctuation on a Parsed Corpus: The Special Case of Comma. Bayraktar, Murat. Masterarbeit. Department of Computer Engineering and Information Science, Universität Bilkent, Ankara, Tärkei.

Bayraktar et al. (1998): An Analysis of English Punctuation: The Special Case of Comma. Bayraktar, Murat; Say, Bilge; Akman, Varol. International Journal of Corpus Linguistics 3(1), S. 33-57.

Bibliographisches Institut & F.A. Brockhaus AG (2006): DUDEN - Die deutsche Rechtschreibung Bibliographisches Institut & F.A. Brockhaus AG., Band 1, CDROM-Version.

Bibliographisches Institut & F.A. Brockhaus AG (2007): Newsletter vom 03.05.2002 Bibliographisches Institut & F.A. Brockhaus AG, Duden-Newsletterarchiv. URL: http://www.duden.de/deutschejsprache/newsletter/archiv.php?id=54 (28.12.2007)

Bibliographisches Institut & F.A. Brockhaus AG (1998): DUDEN - Die Grammatik Bibliographisches Institut & F.A. Brockhaus AG., Band 4. Bibliographisches Institut & F.A. Brockhaus AG (2000): DUDEN - Die deutsche Rechtschreibung Bibliographisches Institut & F.A. Brockhaus AG., Band 1.

Brants et al. (2002): The TIGER Treebank Brants, Sabine; Dipper, Stefanie; Hansen, Silvia; Lezius, Wolfgang; Smith, George. Computerlinguistik, Universität des Saarlandes, Saarbräcken; Institut fär Maschinelle Sprachverarbeitung (IMS), Universität Stuttgart; Institut für Germanistik, Universitat Potsdam.

Briscoe (1994): Parsing (with) Punctuation etc. Briscoe, Ted. Rank Xerox Research Laboratory, Grenoble, MLTT-TR-002.

Briscoe, Carroll (1995): Developing and evaluating a probabilistic LR parser of part-of-speech and punctuation labels Briscoe, Ted; Carroll, John. In: Proceedings of the ACL/SIGPARSE 4th International Workshop on Parsing Technologies, S. 48-58. Prag/Karlovy Vary, Tschechische Republik.

Callmeier (2001): Efficient parsing with large-scale unification grammars Callmeier, Ulrich. Diplomarbeit, Universitaät des Saarlandes, Informatik, Saarbruäcken.

Canoo (2007-1): Die Ergänzungsfrage Canoo Engineering AG. URL: http://www.canoo.net/services/OnlineGrammar/Satz/Satzart/Frage/Ergaenzung.html (28.12.2007)

Canoo (2007-2): Unterordnende Konjunktionen - Subordinierende Konjunktionen Canoo Engineering AG. URL: http://www.canoo.net/services/OnlineGrammar/Wort/Konjunktion/Gebrauch/subord.html (28.12.2007)

Canoo (2007-3): Der Strichpunkt Canoo Engineering AG. URL: http://www.canoo.net/services/GermanSpelling/Regeln/Interpunktion/Strichpunkt.html (28.12.2007)

Canoo (2007-4): Die Infinitivkonstruktion Canoo Engineering AG. URL: http://www.canoo.net/services/OnlineGrammar/Satz/Komplex/Form/Infinitiv.html (28.12.2007)

Canoo (2007-5): Das Komma bei Zusätzen und Nachträgen Canoo Engineering AG. URL: http://www.canoo.net/services/GermanSpelling/Regeln/Interpunktion/Komma/Zusatz.html (28.12.2007)

Canoo (2007-6): Die Apposition Canoo Engineering AG.

URL: http://www.canoo.net/services/OnlineGrammar/Satz/Satzgliedbau/Nomen/Apposition.html (28.12.2007)

Copestake et al. (1999): Minimal Recursion Semantics: An Introduction Copestake, Ann; Flickinger, Dan.; Sag, Ivan A.; Pollard, Carl J..

Copestake & Flickinger (2000): An open-source grammar development environment and broad-coverage English grammar using HPSG Copestake, Ann; Flickinger, Dan. In: Proceedings of the Second conference on Language Resources and Evaluation (LREC-2000), Athen, Griechenland.

Copestake (2001): Implementing typed feature structure grammars Copestake, Ann. CSLI.

Copestake et al. (2006): Minimal Recursion Semantics: an Introduction. Copestake, Ann, Dan Flickinger, Carl Pollard, and Ivan A. Sag. In: Research on Language and Computation 3.4: 281-332.

Crysmann (2003): On the Efficient Implementation of German Verb Placement in HPSG Crysmann, Berthold. In: Research on Language and Computation, S. 61-82. Borovets, Bulgarien.

Crysmann (2005): Relative Clause Extraposition in German: An Efficient and Portable Implementation Crysmann, Berthold. In: Proceedings of RANLP 2003, S. 112-116.

Crysmann (2006): Coordination Crysmann, Berthold; K. Brown (ed.). Encyclopedia of Language and Linguistics, Elsevier, Oxford.

Dale (1991): The Role of Punctuation in Discourse Structure Dale, Robert. In Working Notes for the AAAI Fall Symposium on Discourse Structure in Natural Language Understanding and Generation, Asilomar, S. 13-14.

Dipper (2003) Implementing and Documenting Large-scale Grammars - German LFG PH.D. thesis, IMS, Universität Stuttgart. Arbeitspapiere des Instituts für maschinelle Sprachverarbei- tung (AIMS), Band 9, Nummer 1.

Doran (1996): Punctuation in Quoted Speech Doran, Christine. In: Jones (1996-1, S. 9-18). Doran (2000): Punctuation in a Lexicalized Grammar

Doran, Christine. In: Proceedings of the Workshop TAG+5, Paris.

Douglas & Hurst (1996): Layout and Language: List and Tables in Technical Documents Douglas, Shona; Hurst, Matthew. In: Jones (1996-1).

Earley (1970): An Efficient Context-free Parsing Algorithm Earley, Jay. In: Communications of the ACM 13, 2, S. 94-102.

Ebert (2005): Formale Methoden III: Grundlagen der Unifikationsgrammatik Ebert, Christian. Vorlesungsfolien. Universität Bielefeld, Bielefeld. URL: http://www.uni-bielefeld.de/lili/personen/cebert/teaching/05fm3/folien.pdf (28.12.2007)

Ehrlich (1992): Theory and Problems of Punctuation, Capitalization, and Spelling Ehrlich, Eugene. McGraw-Hill, Hongkong.

Engel (1988): Deutsche Grammatik Engel, Ulrich. Julius Groos, Heidelberg.

Flickinger (2002): On building a more efficient grammar by exploiting types Flickinger, Dan. In Stephan Oepen, Dan Flickinger, Jun’ichi Tsujii und Hans Uszkoreit (Hg.): Collaborative Language Engineering, Stanford: CSLI Publications, S. 1-17.

Fornell (1988): Punctuation in the Bravice English-to-Japanese Machine Translation System Fornell, Jan. S. 25-32. In (Jones, 1996a).

Forst & Kaplan (2006) The importance of precise tokenizing for deep grammars Forst, Martin; Kaplan, Ronald M. IMS, Universitat Stuttgart und NLTT/ISL, Palo Alto Research Center, Palo Alto.

Garside et al. (1987): The Computational Analysis of English Garside, Roger; Leech, Geoffrey; Sampson, Geoffrey. Longman, London.

Gerdemann & King (1993): Typed Feature Structures for Expressing and Computationally Implementing Feature Cooccurence Restrictions Gerdemann, Dale; King, John Paul. In: Proceedings of 4. Fachtagung der Sektion Computerlinguistik der Deutschen Gesellschaft für Sprachwissenschaft, S. 33-39.

Holler (2004): Der Formalismus Holler, Anke. Vorlesungsfolien. Seminar für Computerlinguistik, Ruprecht-Karls-Universitat Heidelberg, Heidelberg. URL: http://www.cl.uni-heidelberg.de/kurs/ws04/hpsg/ws04_hpsg_2Formalismus.pdf (28.12.2007)

Ng & Low (2004): Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based? Ng, Hwee Tou; Low, Jin Kiat. In: Proceedings of EMNLP. Genf, Schweiz.

Ickler (2007): Mein Rechtschreibtagebuch Ickler, Theodor. Forschungsgruppe Deutsche Sprache e.V., Lightning-Webs.de. URL: http://sprachforschung.org/ickler/index.php?show=news&id=127 (28.12.2007)

Ince (1996): The Special Case of Comma Categories Ince, Bahar. Forschungsbericht. Department of Computer Engineering and Information Science, Uni- versitüt Bilkent, Ankara, Türkei.

Jackendoff (1977): X-bar Syntax: A Study of Phrase Structure. Jackendoff, Ray. MIT Press. Cambridge, Massachusetts, USA.

Jones (1994-1): Can Punctuation Help Parsing? Jones, Bernard. Acquilex-II Working Paper 29, Computer Lab., Universitüt Cambridge, Cambridge, Vereinigtes Küonigreich.

Jones (1994-2): Exploring the role of punctuation in parsing natural text Jones, Bernard. In COLING 94: Proceedings of the 15th International Conference on Computational Linguistics, volume 1, Kyoto, Japan, 1994.

Jones (1995) Exploring the variety and use of punctuation Jones, Bernard. In: Proceedings of the 17th Annual Cognitive Science Conference, S. 619-624, Pittsburgh, USA.

Jones (1996-1): Punctuation in Computational Linguistics Jones, Bernard (Hg.). UCSC, Santa Cruz, Kalifornien, USA. SIGPARSE 1996 (Seminar nach der Konferenz ACL96). Verfügbar beim Human Communication Research Center, Universitat Edinburgh, Vereinigtes Küonigreich.

Jones (1996-2): Towards Testing the Syntax of Punctuation Jones, Bernard. In: Proceedings of 34th Annual Meeting of Association for Computational Linguistics— Student Session, S. 363-365, Santa Cruz, Kalifornien, USA.

Jones (1996-3): Towards a Syntactic Account of Punctuation Jones, Bernard. International Conference On Computational Linguistics. Proceedings of the 16th conference on Computational linguistics - Volume 2, S. 604-609.

Jones (1997): What’s the point? A (Computational) Theory of Punctuation Jones, Bernard. PhD thesis, Centre for Cognitive Science, University of Edinburgh, Edinburgh, UK.

Karhiaho (2003): Der Doppelpunkt im Deutschen - Kontextbedingungen und Funktionen Karhiaho, Izabela. In: Göteborger germanistische Forschungen, Band 42. Acta Univ. Gothoburgensis, Goteborg.

Karlsson et al. (1994): Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text.

Karlsson, Fred; Voutilainen, Atro; Heikkila, Juha; Antilla, Arto (Hg.). Mouton de Gruyter, Berlin.

Kiefer et al. (1999): A Bag of Useful Techniques for Efficient and Robust Parsing Kiefer, Bernd; Krieger, Hans-Ulrich; Caroll, John; Malouf, Rob. German Research Center for Artifical Intelligence (DFKI), Saarbröcken.

Kiss (1995) Merkmale und Repräsentationen. Eine Einführung in die deklarative Grammatikanalyse Kiss, Tibor. Opladen: Westdeutscher Verlag.

Kiziak (2004) Einschub oder Bewegung? Empirische Evidenz zur Parenthese-Hypothese Kiziak, Tanja. Magisterarbeit. Neuphilologische Fakultat der Eberhard-Karls-Universitöt Töbingen, Tuöbingen.

Krieger & Schafer (1994-1): TDL - A Type Description Language for HPSG. Part 1: Overview Krieger, Hans-Ulrich; Schöfer, Ulrich. Research Report 94-37. DFKI, Saarbröcken.

Krieger & Schafer (1994-2): TDL - A Type Description Language for HPSG. Part 2: User Guide Krieger, Hans-Ulrich; Schäfer, Ulrich. Document D-94-14. DFKI, Saarbröcken.

Lacy (2007): Die Zeichensetzung (Beispiele und Regeln) Lacy, Alan F. Unterrichtsmaterialien. Marquette University, Milwaukee, USA. URL: http://academic.mu.edu/ lacya/reference/commas.htm (28.12.2007).

Lawrenz (1993): Apposition - Begriffsbestimmung und syntaktischer Status Lawrenz, Birgit. Studien zur deutschen Grammatik 44. Gunter Narr Verlag, Töbingen.

Lee (1995): A Syntax and Semantics for Text Grammar Lee, Sherman. Masterarbeit, Engineering Department, Universitaöt Cambridge, Cambridge, Vereinigtes Köonigreich.

Lezius (2002): Ein Suchwerkzeug fur syntaktisch annotierte Textkorpora Lezius, Wolfgang. Arbeitspapiere des Instituts fur Maschinelle Sprachverarbeitung (AIMS), 2002, vol. 8, no. 4. IMS, Universitöt Stuttgart.

Lubke (1999): Neue deutsche Rechtschreibung - Das Wesentliche auf einen Blick Löbke, Diethard. FALKEN Verlag.

Min (1996): Role of Punctuation in Disambiguation of Coordinate Compounds Min, Young-Gie. In: Jones (1996-1, S. 33-40).

Müller & Kasper (2000): HPSG Analysis of German Müller, Stefan; Kasper, Walter. In: Verbmobil: Foundations of Speech-to-Speech Translation, S. 238253. Editor: Wolfgang Wahlster. Springer Verlag, Berlin.

Nunberg (1990): The Linguistics of Punctuation.

Nunberg, Geoffrey. 1990. CSLI Lecture Notes No. 18, University of Chicago Press.

Oepen (2001): incr tsdb() - Competence and Performance Laboratory. User Manual Oepen, Stephan. Forschungsbericht. Universitat des Saarlandes, Saarbrücken.

Oepen et al. (2002): On Building a More Efficient Grammar by Exploiting Types In: Stephan Oepen, Dan Flickinger, Jun-ichi Tsujii, Hans Uszkoreit: Collaborative Language Engineering. A Case Study in Efficient Grammar-based Processing. CSLI Publications, Stanford.

Osborne (1996): Can Punctuation Help Learning? Osborne, Miles. In: Wermter, Stefan; Riloff, Ellen; Scheler, Gabriele (Hg.): Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing. Lecture Notes in Artificial Intelligence, Nummer 1040, S. 399-412. Springer-Verlag, Berlin.

OWL (2004): Using Commas OWL und Purdue University. 1995-2004. URL: http://owl.english.purdue.edu/handouts/grammar/g_comma.html (28.12.07)

Pereira & Warren (1980): Definite Clause Grammars for Language Analysis - A Survey of the Formalism and a Comparison with Augmented Transition Networks Pereira, Fernando; Warren, David. In: Artificial Intelligence, 13(3), S. 231-278.

Pittner (1993): So und wie in Redekommentaren Pittner, Karin. In: Deutsche Sprache, Erich Schmidt Verlag GmbH & Co., 21/4, Berlin, S. 306-325.

Pittner (1995): Zur Syntax von Parenthesen Pittner, Karin. In: Linguistische Berichte 156, S. 85-108.

Pollard & Sag (1987): Head-driven Phrase Structure Grammar: an informal synapsis.

Pollard, Carl; Sag, Ivan A. Stanford, California: Center for the Study of Language and Information.

Pollard & Sag (1994) Head-Driven Phrase Structure Grammar. (= Studies in Contemporary Linguistics) Pollard, Carl; Sag, Ivan A. University of Chicago Press, Chicago.

Rat für deutsche Rechtschreibung (2006): Deutsche Rechtschreibung - Regeln und Wörterverzeichnis Entsprechend den Empfehlungen des Rats für deutsche Rechtschreibung - Uberarbeitete Fassung des amtlichen Regelwerks 2004, Muünchen und Mannheim.

Richter (1997): Die Satzstruktur des Deutschen und die Behandlung langem Abhängigkeiten in einer Linearisierungsgrammatik. Formale Grundlagen und Implementierung in einem HPSG-Fragment Richter, Frank. In: E. Hinrichs, D. Meurers, F. Richter, M. Sailer and H. Winhart (Hg.), Ein HPSG- Fragment des Deutschen. Teil 1: Theorie. Arbeitspapiere des SFB 340, Nr.95. Tübingen. S. 13-188.

Sampson (1992): Book Review: The Linguistics of Punctuation Sampson, Geoffrey. Linguistics, 30(2): S. 467-475.

Sampson (1995): English for the Computer: The SUSANNE Corpus and Analytic Scheme Sampson, Geoffrey. Oxford University Press, Oxford, Vereinigtes Künigreich.

Say & Akman (1997): Current Approaches to Punctuation in Computational Linguistics Say, Bilge; Akman, Varol. Computers and the Humanities 30(6): S. 457-469.

Say & Akman (1998): An Information-Based Treatment of Punctuation in Discourse Representation Theory Say, Bilge; Akman, Varol. In: Martin-Vide, Carlos, Eds. Mathematical and Computational Analysis of Natural Language, Kap. 24, S. 359-373. John Benjamins Publishing Company, Amsterdam/Philadelphia.

Shiuan & Ann (1996): A Divide-and-Conquer Strategy for Parsing Shiuan, Peh Li; Ann, Christopher Ting Hian. In: Jones (1996-1, S. 57-66).

Shieber (1985): Using restriction to extend parsing algorithms for complex-feature-based formalisms Shieber, S. In: Proceedings of the 23rd Annual Meeting of the Association for Computational Linguistics, S. 145-152. Chicago, Illinois, USA.

Srinivas (1997): Complexity of Lexical Descriptions and its Relevance to Partial Parsing Srinivas, B. Phd thesis, Department of Computer and Information Sciences, Universitaüt Pennsylvania, USA.

Srinivasan (1991): Punctuation and Parsing of Real-World Texts Srinivasan, V. In: K. Sikkel und A. Nijholt (Hg.): Proceedings of the Sixth Twente Workshop on Language Technologies, S. 163-167, Enschede, Niederlande.

Taylor & Knowles (1988): Manual of Information to Accompany the SEC Corpus Taylor, Lita J.; Knowles, Gerry. Universitüat Lancaster, Lancaster, Vereinigtes Koünigreich.

Tomita (1987): An Efficient Augmented-Context-Free Parsing Algorithm 1 Tomita, Masaru. In: Computational Linguistics, Band 13, Nummern 1-2, Januar-Juni 1987. Computer Science Department and Center for Machine Translation. Carnegie-Mellon University, Pittsburgh, Penssylvania, USA.

Volk (1999): Satzstrukturen im Deutschen Volk, Martin. Vorlesungsmaterialien. Institut für Informatik der Universitüt Zürich. URL: http://www.ifi.unizh.ch/CL/volk/SyntaxVorl/Vorl6b.StrDt.html (28.12.2007)

Volk, Schneider (1999): Einführung in HPSG Volk, Martin; Schneider, Gerold. Vorlesungsmaterialien. Institut für Informatik der Universität Zurich. URL: http://www.ifi.unizh.ch/CL/gschneid/SyntaxVorlesung/Vorl9.HPSGI.html (28.12.2007)

White (1995): Presenting Punctuation In: Proceedings of the Fifth European Workshop on Natural Language Generation, S. 107-125. Leiden, Niederlande.

Weingarten (2004) Interpunktion im Schreibproze Weingarten, Rüdiger (2004). Erscheint in: Ehlich, K. (Hg.). Interpunktionen. Tübingen: Stauffenburg.

Wikimedia (2007-1): Gebräuchliche Abkürzungen Wikimedia Foundation Inc.: Wikipedia. URL: http://de.wikipedia.org/wiki/Portal:Abk%C3%BCrzungen/Gebr%C3%A4uchliche_Ab- k%C3%BCrzungen (28.12.2007)

Wikimedia (2007-2): Semikolon Wikimedia Foundation Inc.: Wikipedia. URL: http://de.wikipedia.org/wiki/Semikolon (28.12.2007)

[...]

^[1] HPSG steht für Head-driven Phrase Structure Grammar, Näheres dazu in Abschnitt 4

^[2] Engel nennt sie „Schreibzeichen“, da sie im Gegensatz zu beispielsweise „=“ oder „$“ im Text nicht (direkt) gesprochen, sondern nur geschrieben werden künnen.

^[3] Beispiele (1a) bis (1c) aus Lacy (2007)

^[4] aus Nunberg (1990, S. 28)

^[5] aus Nunberg (1990, S. 29)

^[6] aus Nunberg (1990, S. 29)

^[7] aus Nunberg (1990, S. 57)

^[8] Vor allem der Abschnitt 5.1 dieser Arbeit ist diesem Phänomen gewidmet.

^[9] Beim Wortarten-Tagging und anderen „Low-Level“-Aufgaben spielte dagegen auch in den letzten Jahren Interpunktion eine wichtige Rolle. Ng & Low (2004) beispielsweise nutzen Interpunktion, um im Chinesischen Wortgrenzen zu bestimmen.

^[10] aus Wikimedia (2007-2)

^[11] aus Lübke (1999, S. 29)

^[12] Beispiele (28a) und (28b) aus Rat für deutsche Rechtschreibung (2006, S. 81)

^[13] Bibliographisches Institut & F.A. Brockhaus AG (2006), CDROM-Version

^[14] aus Bibliographisches Institut & F.A. Brockhaus AG (2006), CDROM-Version

^[15] nach Rat für deutsche Rechtschreibung (2006, S. 82)

^[16] aus Rat für deutsche Rechtschreibung (2006, S. 82)

^[17] aus Rat für deutsche Rechtschreibung (2006, S. 82)

^[18] aus Rat für deutsche Rechtschreibung (2006, S. 83)

^[19] aus Engel (1988, S. 842)

^[20] aus Bibliographisches Institut & F.A. Brockhaus AG (2000, S. 68)

^[21] angelehnt an die Beispiele aus Bibliographisches Institut & F.A. Brockhaus AG (2000, S. 69)

^[22] Beispiele (41a) bis (41c) aus Rat für deutsche Rechtschreibung (2006, S. 84)

^[23] aus Rat für deutsche Rechtschreibung (2006, S. 84)

^[24] Beispiele (43a) und (43b) aus Rat für deutsche Rechtschreibung (2006, S. 85)

^[25] aus Lawrenz (1993, S. 73)

^[26] dieses und folgende Zitate dieser Aufzählung aus Engel (1988, S. 842)

^[27] dieses und folgende Beispiele dieser Aufzählung aus Engel (1988, S. 842)

^[28] URL: http://decentius.aksis.uib.no/logon/xle.xml

^[29] Die Anbindungsrichtung des Kommas ist hier egal, ich habe willkürlich Anbindung nach links gewählt.

^[30] Auf Komplikationen wie den im Beispiel (49b) an den Nebensatz angrenzende Punkt mächte ich an dieser Stelle noch nicht eingehen.

^[31]... was vom Tokenisierer festgestellt würde, wenn zwischen zwei Wörtern lediglich ein Leerzeichen steht oder das Wort das letzte der Eingabe ist.

^[32] Spellingregeln sind lexikalische Regeln, die eine von der Lexemform verschiedene Oberfl¨achenform herleiten, also zum Beispiel Affixe anh¨angen.

^[33] Eine Ausnahme ist die lexikalische Regel, die einen Ordinalzahl- bzw. Abkärzungspunkt mit einem Schlusspunkt „verschmelzt“.

^[34] Dies sind alle post-infl-lrule-, clex-lrule-, und no-rel-inher-nonloc-lrule-Regeln.

^[35] aus Pittner (1995, S. 4)

^[36] Dazu ist ein Hilfsfeature n¨otig, das ich in Unterabschnitt 6.2.2 abhandele.

^[37] Dies ist in der ERG nicht gew¨ahrleistet; an der Stelle ist die ERG etwas zu ungenau.

^[38] Dies folgt aus dem Prinzip der Kategoriengleichheit bei Koordinationen

^[39] bzw. ein ¨Aquivalent, wie das Semikolon

^[40] Wie ich später erläutern werde, ist dieses Prinzip nicht ganz universell, es gibt Ausnahmen.

^[41]... was aus Platz- und Übersichtlichkeitsgränden nicht im Schaubild dargestellt ist.

^[42] aus Volk (1999)

^[43] Dies ist ein Argument gegen den Ansatz, die Beschränkung des einleitenden Kommas durch ein auf einem Infinitivsatz aufsetzendes unares Schema zu lockern: Bei einem erweiterten Infinitivsatz würde so ein Schema überflüssigerweise nach jedem Erweiterungsschritt appliziert werden — im Beispiel „Er versuchte, [ihn [auf dem Fest [zu finden.]]]“ zuerst auf „zu finden“, dann auf „auf dem Fest zu finden“ und schließlich auf „ihn auf dem Fest zu finden.“. Abgesehen davon gilt immer noch der Grundsatz, mit möglichst wenigen Regeln auszukommen.

^[44] Man künnte auf die Idee kommen, es bestehe ausschließlich eine Abhangigkeit vom Kopfmerkmal des rechten Arguments in einer binürenverzweigenden Struktur. Dass dem nicht so ist, kann man sich anhand verschachtelter Nebensütze wie „Obwohl er, als er schlief, schnarchte, ...“ in Abbildung 34 (Abschnitt 6.2.2) klar machen: „als er schlief, schnarchte“ ist weder ein Infinitiv- noch ein Nebensatz, sondern eine finite VP und muss dennoch an seiner linken Grenze aufgrund des eingebetteten Nebensatzes ein unpaariges Komma erlauben.

^[45] Die Positionierung unter SYNSEM hat hier also nichts mit dem Ermüglichen von Subkategorisierung zu tun.

^[46] Seine Bezeichnung soll nicht suggerieren, es handele sich wie LPUNCT um ein Merkmal für ein Zeichen an der linken Konstituentengrenze

^[47] Von Korrelaten abhängende Infinitivsätze werden zur Zeit noch nicht unterstützt.

^[48] Statt dieser Regel konnte man auch ein neues Interpunktionsfeature einsetzen, das direkt mit dem LEX-Wert verknüpft ist, oder fur LEX analog zu vá_or_non_vá in Abschnitt 6.2.4 einen quasi-boolschen Typ lex-orjnondex definieren, dessen Subtypen in die punct_m,ark-Hierarchie eingebaut werden. Ich habe mich fär die einfacher erscheinende Variante mit lexikalischer Regel entschieden. Deren Argument ist genau auf einen Lexemtyp beschrankt, sodass von ihr keine Gefahr fär die Parseeffizienz ausgeht.

^[49] Scheinbar wäre es ebenso gut möglich, auf CNT-N-BARE-INF-EXT-LRULE (RPUNCT comma_punct] zu verlangen. Dies wöre jedoch inkorrekt bei einem extraponierten Infinitivsatz wie „Er hat keine Gelegenheit gehabt, ihn zu sehen.“.

^[50] Siehe dazu auch Crysmann (2006)

^[51] aus Rat f¨ur deutsche Rechtschreibung (2006, S. 102)

^[52] aus Engel (1988, S. 58)

^[53] aus Rat für deutsche Rechtschreibung (2006, S. 88)

^[54] aus Rat für deutsche Rechtschreibung (2006, S. 88)

^[55] Beispiele (74a) und (74b) aus Canoo (2007-6)

^[56] Beispiele (75a) und (75b) aus Canoo (2007-6)

^[57] aus Canoo (2007-6)

^[58] aus Lawrenz (1993, S. 67)

^[59] aus Lawrenz (1993, S. 67)

^[60] aus Pittner (1993, S. 4)

^[61] F¨ur eine Diskussion siehe beispielsweise Kiziak (2004).

^[62] aus Richter (1997, S. 141)

^[63] aus Pittner (1993, S. 4)

^[64] Da V1-Parenthesen Pittners Meinung nach von ” so“-Parenthesen abgeleitet sind, sollten ihre Aussagen ¨uber die ” so“- Parenthesen ohnehin auch f¨ur die V1-Parenthesen gelten.

^[65] aus Pittner (1993, S. 9)

^[66] aus Bassarak (1987, S. 173)

^[67] qeq-Relationen und Hilfsfeatures sind in der Abbildung ausgespart.

^[68] aus Lawrenz (1993, S. 64)

^[69] Zum Vergleich: Die Kombination schließende Klammer – Komma tritt immerhin 382 mal auf.

^[70] Es erscheint zwar unlogisch, an der linken Wortgrenze ein Komma zu deklarieren, wo keines ist. Diese Stipulation sollte aber unproblematisch sein, da Kommata gar nicht tats¨achlich an dieser Stelle stehen d¨urfen.

^[71] aus Rat f¨ur deutsche Rechtschreibung (2006, S. 93)

^[72] Dies ist eine Vereinfachung; korrekte geklammerte Einsch¨ube unmittelbar nach einem ¨offnenden Gedankenstrich sind denkbar: ” Er behauptete – (unversch¨amterweise) wiederholt – . . .“

^[73] Als eine gute, ausf¨uhrliche Einf¨uhrung in die MRS empfiehlt sich Copestake et al. (2006).

^[74] Eine Ausnahme bilden Herrschernamen wie im Beispiel 96, wo die numerische und die Wortschreibweise nicht einfach ausgetauscht werden k¨onnen (nicht ” Friedrich Zweite“, sondern ”Friedrich der Zweite“).

^[75] Beispiele (100a) bis (100c) aus Rat f¨ur deutsche Rechtschreibung (2006, S. 99)

^[76]. . . da SIGNPUNCT aller Lexeme auf no sign punct festgelegt ist und lege f¨ur den neuen Typ zwecks einfacheren Zugriffs eine eigene Datei an.

^[77] ”glb“ =”greatest lower bound“, gr¨oßte untere Schranke

^[78] In Wirklichkeit ist ein weiterer min-Typ notwendig, der PNCTACCURACY enth¨alt, weil auf dieses Feature wesentlich ¨ofter zugegriffen wird als auf die anderen beiden.

^[79] Ich h¨atte ebenso gut Unfilling verwenden k¨onnen; es zeigte sich jedoch, dass Unfilling die Effizienz der beiden betrachteten Grammatiken gleichermaßen verbessert, aber nicht relevant f¨ur die hier angestellten Performanzvergleiche ist. Wichtig ist nur, dass dieser Faktor konstant bleibt.

^[80] Ausf¨uhrliche Tests mit Local Ambiguity Packing und deren Interpretation haben es nicht mehr in diese Arbeit geschafft. Stichprobentests legen jedoch nahe, das mit mit Packing vergleichbare Ergebnisse erreicht werden wie ohne, solange die richtigen Interpunktionsfeatures im Packing Restrictor stehen (zur Zeit sind dies alle.)

^[81] Vor allem nicht, solange keine anderen wirksamen Constraints gefunden und implementiert werden außer jenen, die die Zeichensetzung zur Verf¨ugung stellen kann.

^[82] inspiriert vom Rat f¨ur deutsche Rechtschreibung (2006, S. 93)

^[83] nach Pittner (1995, S. 2)

^[84] Beispiele 102a bis 102c aus Pittner (1995, S. 2)

^[85] aus Rat f¨ur deutsche Rechtschreibung (2006, S.95)

^[86] aus Rat f¨ur deutsche Rechtschreibung (2006, S. 97)

^[87] Beispiele (105a) bis (105c) aus Rat f¨ur deutsche Rechtschreibung (2006, S. 98)

Häufig gestellte Fragen

Was ist das Ziel dieser Arbeit zur Interpunktion in der Computerlinguistik?

Das Ziel ist, zu zeigen, dass die Integration von Interpunktion in sprachverarbeitende Systeme Vorteile bringt, indem sie Teilananalysen reduziert, Effizienzgewinne schafft und globale Ambiguitäten auflöst. Dies wird durch die Erweiterung des deutschen HPSG-Fragments GG um Zeichensetzungsphänomene und die Implementierung neuer Syntagmata erreicht.

Welche Vorteile ergeben sich aus der Integration von Interpunktion in HPSG?

Die Integration von Interpunktion in HPSG führt zu einer Reduktion des Zeit- und Arbeitsspeicherplatzverbrauchs sowie der durchschnittlichen Anzahl an Parseanalysen im Vergleich zu Grammatiken ohne Interpunktionsbeschränkungen. Es ermöglicht auch die Auflösung globaler Ambiguitäten und die adäquate Generierung von Sätzen und Satzteilen bezüglich amtlicher Vorschriften.

Wie wird Robustheit beim Parsen und Adaäquatheit bei der Generierung gewährleistet?

Die Arbeit stellt Methoden vor, mit denen Robustheit beim Parsen und Adaäquatheit bei der Generierung in derselben Grammatik vereinbart werden können. Dies wird durch die Verwendung eines "Schalters" erreicht, um zwischen mehreren Stufen auf einer Robustheits-/Korrektheitsskala hin- und herzuwechseln.

Welche Interpunktionszeichen werden in dieser Arbeit hauptsächlich behandelt?

Die Arbeit konzentriert sich auf Punkt, Ausrufezeichen, Fragezeichen, Komma, Semikolon, Klammer, Gedankenstrich und - begrenzt - Binde- und Ergänzungsstrich.

Welche technischen Rahmenbedingungen werden für die Implementation verwendet?

Die Implementation basiert auf der deutschen HPSG-Grammatik GG (German Grammar) und verwendet die maschinenlesbare Sprache TDL (Type Description Language). Die Grammatikentwicklungs/-verarbeitungssysteme LKB (Lexical Knowledge Builder) und PET werden eingesetzt.

Welche grundlegenden Mechanismen werden in der Implementation verwendet?

Die Implementation beinhaltet drei grundlegende Mechanismen: Konsumierung der Interpunktionszeichen durch lexikalische Regeln und Speicherung in Features, Perkolation bestimmter Features und Constraints auf verschiedenen Ebenen.

Wie werden unlizenzierte Kommata blockiert?

Unlizenzierte Kommata werden durch Constraints blockiert, die aktiv das Komma verbieten, wo es nicht erlaubt ist. Dies geschieht unter Verwendung des Features PAIRED, das anzeigt, ob ein lizenziertes Kommapaar gesehen wurde.

Wie werden Nebensätze und Infinitivsätze behandelt?

Nebensätze werden grundsätzlich mit Komma obligatorisch abgegrenzt. Die Behandlung von Infinitivsätzen hängt davon ab, ob sie durch bestimmte Subjunktoren eingeleitet werden, von einem Substantiv selegiert werden oder von einer Katapher, einer Anapher oder einem Korrelat abhängig sind.

Was sind Zusätze oder Nachträge und wie werden sie behandelt?

Zusätze oder Nachträge umfassen Parenthesen, Appositionen, Orts- Zeit- und Literaturangaben ohne Präposition, Erläuterungen, angekündigte Wörter oder Wortgruppen, nachgetragene Infinitivgruppen und Partizip- oder Adjektivgruppen. Sie werden mit Komma abgegrenzt, wobei in bestimmten Fällen auch Gedankenstrich oder Klammern müglich sind.

Wie werden syndetische und rekursive Koordinationen behandelt?

Syndetische Koordinationen werden durch die COORD-Regeln behandelt, während rekursive Koordinationen durch RECURSIVE-NOM-COORD und RECURSIVE-EV-COORD abgedeckt werden. Vor adversativen Konjunktionen muss immer ein Komma oder Semikolon stehen.

Wie werden Maßnahmen für robustes Parsing umgesetzt?

Für robustes Parsing wird das Feature PUNCTACCURACY verwendet, um zwischen mehreren Robustheitsgraden umherzuschalten. Dies ermöglicht es, die Grammatik so zu konfigurieren, dass sie entweder strikt die Interpunktionsvorgaben einhält oder toleranter gegenüber Fehlern ist.

Welche Effizienzverbesserungen werden durch die Integration der Interpunktion erreicht?

Die Performanztests zeigen, dass die Berücksichtigung von Interpunktion beim Parsen die Effizienz erhöht, indem sie syntaktische Ambiguitäten reduziert. Bei aktivierter Zeichensetzung sind deutliche Performanzsteigerungen möglich.

Was sind die Ergebnisse und Schlussfolgerungen der Arbeit?

Die Arbeit zeigt, dass die Integration von Interpunktion in eine HPSG-Grammatik zu einer adäquaten Generierung, Effizienzverbesserung beim Parsen und Robustheit führt. Die vorgestellten Methoden bieten eine gute Grundlage für die Implementierung weiterer interpunktionsrelevanter Phänomene.

Fin de l'extrait de 122 pages - haut de page

Acheter maintenant

Titre: Zum Punkt gekommen - Über den Nutzen von Zeichensetzung in einer deutschen HPSG (Head-driven Phrase Structure Grammar)

Mémoire (de fin d'études) , 2007 , 122 Pages , Note: 1,3

Autor:in: Nicolai Kilian (Auteur)

Science de Langue / Linguistique (interdisciplinaire)

Lire l'ebook

Résumé des informations

Titre: Zum Punkt gekommen - Über den Nutzen von Zeichensetzung in einer deutschen HPSG (Head-driven Phrase Structure Grammar)
Université: Saarland University
Note: 1,3
Auteur: Nicolai Kilian (Auteur)
Année de publication: 2007
Pages: 122
N° de catalogue: V114333
ISBN (ebook): 9783640235162
Langue: allemand
mots-clé: Punkt Nutzen Zeichensetzung HPSG Phrase Structure Grammar)
Sécurité des produits: GRIN Publishing GmbH

Citation du texte: Nicolai Kilian (Auteur), 2007, Zum Punkt gekommen - Über den Nutzen von Zeichensetzung in einer deutschen HPSG (Head-driven Phrase Structure Grammar), Munich, GRIN Verlag, https://www.grin.com/document/114333

Zum Punkt gekommen - Über den Nutzen von Zeichensetzung in einer deutschen HPSG (Head-driven Phrase Structure Grammar)

Extrait

Inhaltsverzeichnis

Danksagungen

Zusammenfassung

1 Einleitung

2 Computerlinguistische Arbeiten

3 Die relevanten Interpunktionsvorschriften im Deutschen

3.1 Kennzeichnung des Schlusses von Äußerungen

3.2 Gliederung innerhalb von Äußerungen

3.2.1 Koordination

3.2.2 Nebensätze

3.2.3 Infinitivsätze

3.2.4 Zusätze oder Nachträge gemäß Regelwerk

3.2.4.1 Appositionen

3.3 Liberalisierung der Interpunktionsregeln seit 1996

4 Technische Rahmenbedingungen

5 Grundkonzepte der Implementation

5.1 Vorüberlegung: Tokenisierung vs. Spelling

5.2 Überblick über die Implementation

5.3 Platzierung der Interpunktionsfeatures

5.4 Initialisierung der Lexeme

5.5 Einhangung der lexikalischen Interpunktionsregeln

6 Implementation

6.1 Blockieren unlizenzierter Kommata

6.2 Behandlung bestehender Konstruktionen

6.2.1 Kennzeichnung des Schlusses von Äußerungen

6.2.2 Neben- und eingeleitete Infinitivsatze

6.2.2.1 Schließende Kommata

6.2.2.2 Einleitende Kommata

6.2.3 Uneingeleitete Infinitivsätze

6.2.3.1 Anbindung nach links

6.2.3.2 Anbindung nach rechts

6.2.3.3 Einbindung in der Satzmitte

6.2.3.4 Obligatorische Kommasetzung bei erweiterten und von einem Substantiv oder Kor­relat abhängigen Infinitivsätzen

6.2.3.5 Fortbestehende Probleme

6.2.4 Syndetische und rekursive Koordination

6.2.4.1 Syndetische Koordination mit nicht-adversativen Konjunktionen

6.2.4.2 Syndetische Koordination mit adversativen Konjunktionen

6.2.5 Kontaktfragen und Interjektionen im Vorvorfeld

6.3 Einführung neuer Konstruktionen

6.3.1 Asyndetische Koordination

6.3.2 Exkurs: Lose Appositionen

6.3.3 Exkurs: Abgesonderte V1-Parenthesen

6.3.4 Zeichensetzung bei Einschüben am Beispiel von losen Appositionen und Vl- Parenthesen

6.3.5 Sonstiges: Kennzeichnung der Wörter bestimmter Gruppen

6.3.5.1 Punktuierte Abkürzungen

6.3.5.2 Numerisch geschriebene Ordinalzahlen

6.3.5.3 Gegliederte große Zahlen und Dezimalzahlen

6.3.5.4 Punktuierte, numerische Uhrzeitangaben

6.3.5.5 Bindestrichkomposita und Nomina-Koordinationen mit Ergänzungsstrichen

6.4 Maßnahmen für robustes Parsing

6.5 Maßnahmen zur Effizienzverbesserung

7 Evaluation

7.1 Adäquatheit bei der Generierung

7.2 Basisperformanz ohne neue Konstruktionen

7.2.1 Performanz bei maximaler Robustheit

7.2.2 Performanz bei strikten Interpunktionsvorgaben

7.3 Performanz mit neuen Konstruktionen

7.3.1 Tests der einzelnen Konstruktionen auf kleinen, künstlichen Korpora

7.3.1.1 Testläufe 1a und 1b

7.3.1.2 Testläufe 2a und 2b

7.3.1.3 Testlaufe 3a und 3b

7.3.2 Tests unter realistischen Bedingungen

7.4 Abdeckung mit neuen Konstruktionen

8 Schlussfolgerungen und Ausblicke

Literatur

Häufig gestellte Fragen

Was ist das Ziel dieser Arbeit zur Interpunktion in der Computerlinguistik?

Welche Vorteile ergeben sich aus der Integration von Interpunktion in HPSG?

Wie wird Robustheit beim Parsen und Adaäquatheit bei der Generierung gewährleistet?

Welche Interpunktionszeichen werden in dieser Arbeit hauptsächlich behandelt?

Welche technischen Rahmenbedingungen werden für die Implementation verwendet?

Welche grundlegenden Mechanismen werden in der Implementation verwendet?

Wie werden unlizenzierte Kommata blockiert?

Wie werden Nebensätze und Infinitivsätze behandelt?

Was sind Zusätze oder Nachträge und wie werden sie behandelt?

Wie werden syndetische und rekursive Koordinationen behandelt?

Wie werden Maßnahmen für robustes Parsing umgesetzt?

Welche Effizienzverbesserungen werden durch die Integration der Interpunktion erreicht?

6.2.3.4 Obligatorische Kommasetzung bei erweiterten und von einem Substantiv oder Korrelat abhängigen Infinitivsätzen