Natural Language Processing (NLP) in wissenschaftlichen Instituten


Term Paper (Advanced seminar), 2006

24 Pages, Grade: 1,3


Excerpt


Inhalt

1. Einleitung

2. Zwei gegensätzliche Sprachproduktionsmodelle
2.1 Einordnung des Roelofs’schen Modells
2.1.1 Hybrider Ansatz

3. Motivation WEAVER zu entwickeln

4. Grundlegende Merkmale von WEAVER
4.1 Retrieval by spreading activation
4.2 Verification of activated information by a production rule
4.3 Incremental construction of phonological representations using a principle of active syllabification
4.4 Active competitive selection of syllabic motor programs
4.5 Association of phonological speech errors with the selection of syllabic motor programs due to the failure of verification

5. Funktionsweise von WEAVER
5.1 Prozesse der Wortenkodierung in WEAVER am Beispiel des Wortes Ende
5.2 Die drei Stufen der Enkodierung

6. “Picture-word interference paradigm” und “implicit priming”
6.1 „Implicit priming“
6.1.1 Beschleunigende Wirkung eines „prime“ in der Anfangssilbe
6.2 Picture-word interference paradigm
6.2.1 Generelle Arbeitsweise eines distractor

7. Computersimulation durch WEAVER
7.1. Picture-word interference paradigm
7.1.1 Generell hemmende Wirkung durch ein distractor word
7.1.2. Beschleunigende Wirkung durch ein related distractor word
7.1.3 Begin- versus end-related
7.1.4 Auswirkung „aligned“ versus „non-aligned“
7.2 “Implicit Priming paradigm” und “suspend/resume mechanism”
7.3 Versprecher (phonological speech errors)

8. Schlusswort

Literaturangaben

1. Einleitung

Das Forschungsgebiet N atural L anguage P rocessing (natürliche Sprachverarbeitung von Computern) ist eng mit der Erforschung der menschlichen Sprache an sich verknüpft. Dabei geben insbesondere Fehler, die während der menschlichen Sprachproduktion auftreten, Aufschluss über kognitive Prozesse der Sprachverarbeitung.

Am Max-Planck-Institut in Nijmegen beschäftigt man sich diesbezüglich interdisziplinär mit der Struktur und dem Gebrauch natürlicher Sprache in den vier Arbeitsbereichen Sprachproduktion, Sprachverstehen, Spracherwerb sowie Sprache und Kognition. Wie auch die anderen MPI befindet es sich unter der Trägerschaft der Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Dieser gemeinnützige Verein wurde 1948 in Göttingen gegründet und ist nach Selbstdefinition eine Forschungsorganisation autonomer Grundlagenforschung von internationalem Rang.[1]

Im Bereich Sprachproduktion wurde in Nijmegen auch der Wortplanungsprozess untersucht. Dieser umfasst den Vorgang der Wortauswahl aus verschiedenen miteinander konkurrierenden Konzepten bis zur Artikulation. Er lässt sich in die beiden nacheinander erfolgenden Hauptprozesse Wortauswahl und Wortenkodierung einteilen. Während der Wortauswahl wird das benötigte Lemma, das ist das Wort inklusive seiner syntaktischen Eigenschaften, selektiert. Im zweiten Schritt, dem Enkodierungsprozess, erhält das geplante Wort unter anderem Zugriff auf die zugehörigen Phoneme, Morpheme und Silben. Danach erhalten die Artikulationsorgane Zugriff auf allen relevanten Informationen, um das Wort produzieren zu können.

Der Niijmegener Forscher Ardi Roelofs hat sich im Rahmen seines Computermodells WEAVER (Word Encoding by Activation an VERification) dem zweiten Hauptprozess, der Wortenkodierung, gewidmet. Er hat WEAVER entwickelt um zu zeigen, welche Teilschritte der Wortenkodierung vorausgehen und schließlich zur Wortproduktion führen. Die untersuchten Sprachen hinsichtlich des Modells sind Englisch, Deutsch und Niederländisch.

2. Zwei gegensätzliche Sprachproduktionsmodelle

Die meisten Sprachproduktionsmodelle sind Netzwerkmodelle in denen die Informationen zwischen Netzwerknoten und Kanten hin- und herfließen. Das Nijmegener Computermodell von Roelofs ist ein diskretes Modell, da der Informationsfluss im Prinzip einseitig gerichtet erfolgt (LEVELT, 1999: 226). Dennoch gibt es auch in diesem Modell eine Rückflussmöglichkeit zwischen den lexikalischen Konzeptknoten. Sie enthalten das Konzept eines Wortes ohne dessen syntaktischen Eigenschaften. Somit ist auf der Konzeptebene ein Feedback im System möglich (a.a.O.: 227; vgl. Anhang1).

Im Gegensatz zum Modell von Roelofs fließt im interaktiven Modell von Dell die Information ständig vor und zurück und ermöglicht jederzeit ein Feedback auf allen Ebenen innerhalb des Modells. Das führt jedoch zu einer Häufung von Versprechern, die gleichzeitig sowohl semantischer als auch phonologischer Natur sind (a.a.O.: 226; vgl. Anhang2).

2.1 Einordnung des Roelofs’schen Modells

Das diskrete Modell von Roelofs fokusiert die Forschungsrichtung „chronometric tradition“ (ROLOFS, 1997: 250), also die Sprachforschung zum Zeitbedarf von Äußerungen, und lässt Rückschlüsse auf die Antwortgeschwindigkeit von Sprechern unter bestimmten experimentellen Bedingungen zu.[2]

2.1.1 Hybrider Ansatz

Trotz seines chronometrischen Schwerpunktes, liefert Roelofs (1997: 250) mit WEAVER auch Erklärungen zur Produktion von Versprechern und nimmt auch Ideen aus der „speech error tradition“, wie die Sprachforschung zu Ursachen von Versprechern bezeichnet wird, auf.[3]

So verwendet Roelofs den aus dieser Forschungsrichtung hervorgegangenen klassischen Ansatz, das „mentale Lexikon“[4] als Netzwerk mit Knoten und Kanten nachzubilden, in denen der Informationsfluss durch „spreading activation“ verläuft. „Following the classical model, WEAVER assumes that the mental lexicon is a network of nodes and links that is accessed by spreading activation.” (ROELOFS, 1997: 254).

Somit aktiviert jeder aktive Knoten aktiviert wiederum alle mit ihm verbundenen Knoten automatisch.

Aus der „chronometric tradition“ übernimmt Roelofs (1997: 250) von Willem J.M. Levelt den Ansatz eines „online“-Silbenbildungsprozesses und -Silbenzugangs. Das bedeutet, dass den Silben ihre einzelnen Segmente, nämlich die Phoneme, in Leserichtung nach und nach zugewiesen werden und das Wort dadurch stetig „anwächst“ (incremental production).

Diese beiden Ansätze verbindet Roelofs und fügt zur Steuerung des Arbeitsprozesses Wortproduktionsregeln (production rules) und deren Überprüfung (verification) hinzu. Somit ist WEAVER eigentlich ein hybrides Modell, da es die unterschiedlichen Konzepte inklusive ihres gegensätzlich aufgebauten Informationsflusses vereint.

3. Motivation WEAVER zu entwickeln

Den Anstoß ein neuartiges Modell zu entwickeln, gaben folgende grundlegenden Phänomene der Sprachproduktion, die für Roelofs in keinem der bisherigen Sprachproduktionsmodelle befriedigend erörtert worden waren (a.a.O.: 252 ff).

1. Versuchspersonen wurden zeitnah zu ihrer Äußerung mit „distractor words“ konfrontiert. Sie wirken für gewöhnlich störend auf die Wortproduktion eines anderen Wortes. Denn zeitgleich zum zu produzierenden Wort sind Wortbestandteile des „distractor“ aktiv. Trotzdem produzierten die Versuchspersonen kaum Versprecher sondern gelangten manchmal sogar schneller zu ihrer Äußerung. Daraus wurde die Schlussfolgerung gezogen, dass die korrekte Reihenfolge und Verlinkung der Phoneme und Silben nicht mit der Variable Zeit korreliert und demnach kein „binding by time“ vorliegt. (ROELOFS, 1997: 253).
2. Bisherige Modelle hatten die flexible Silbenzugehörigkeit von Phonemen nicht berücksichtigt. Die Zuweisung eines Phonems zu einem Morphem erfolgt kontextabhängig. Denn dasselbe Phonem eines Wortes kann, je nach dessen syntaktischer Eigenschaft, seine Silbenzugehörigkeit wechseln.

Beispiel: laufen d versus laufen d e

Hier wechselt das Phonem /d/ von der Silbenendposition der zweiten Silbe in die Anfangsposition der dritten Silbe. Bezugsgröße für die Silbenzugehörigkeit ist demnach nicht das lexikalische Wort sondern das phonologische.

3. Die Realisierung eines Phonems (stimmhaft, plosiv etc.) ist kontextabhängig. Deshalb muss für die Zuweisung der Phonemeigenschaften die phonologische Umgebung berücksichtigt werden.

Beispiel: En d e versus En d phase

Der Buchstabe d wir am Silbenanfang stimmhaft gesprochen und ist somit auch als Phonem /d/ zu hören. Am Silbenende taucht derselbe Buchstabe jedoch als stimmloses Phonem /t/ auf.

4. Grundlegende Merkmale von WEAVER

Roelofs (1997: 249) versuchte den erwähnten Phänomenen Rechnung zu tragen, in-dem er zunächst folgende, grundlegende Merkmale für ein neuartiges Computersimulationsmodell erarbeitete.

4.1 Retrieval by spreading activation

Da Phoneme nur im Kontext ihren Silben zugewiesen werden können, ist es nicht sinnvoll Phoneme von vornherein und ohne ihren phonologischen Kontext gezielt zu aktivieren. Daher verwendet Roelofs in WEAVER das Prinzip „spreading activation“ (vgl. 2.1.1 Hybrider Ansatz).

4.2 Verification of activated information by a production rule

Die Zuweisung aktivierter Elemente zum geplanten Wort erfolgt nicht durch die variable Zeit sondern unter Anwendung und Überprüfung vorgegebener Sprachproduktionsregeln. Die direkte Verifikation einer Kantenverbindung setzt voraus, dass alle Verbindungen mit einem Label versehen sind, das zur Prüfung der Zuweisung von den jeweiligen Produktionsregeln herangezogen wird.

4.3 Incremental construction of phonological representations using a principle of active syllabification

In WEAVER werden die Phoneme den Silben nach dem Prinzip „incremental production“ (vgl.2.1.1 Hybrider Ansatz) zugewiesen, wobei bereits der Anfang eines Wortes genügt, um dessen Enkodierung in Gang zu setzten. Als Bezugspunkt für die Zuweisung dient das kontextabhängige, phonologische Wort (ROELOFS, 1997: 249).

4.4 Active competitive selection of syllabic motor programs

Die Auswahl des silbischen Motorprogramms als Anweisung für die Artikulationsorgane erfolgt durch einen mathematischen Formalismus, der je nach Anzahl weiterer aktiver Programmknoten verschiedene Antwortzeiten generiert. Denn alle gleichzeitig aktiven Programme konkurrieren untereinander.

4.5 Association of phonological speech errors with the selection of syllabic motor programs due to the failure of verification

Bei Auftreten eines Versprechers (phonological speech error) ist einer Silbe ein falsches Phonem zugewiesen worden. Die Silben gehen auf diese Weise fehlerhaft in die phonlogische Enkodierung ein. Ein Versprecher setzt ein Scheitern des Verifikationsprozesses voraus.

Beispiel: Produktion von tausemot statt mausetot

[...]


[1] Vgl. Homepage der Max-Planck-Gesellschaft: www.mpg.de.

[2] Vgl. “picture-word interference” und “implicit priming”.

[3] Zur Einordnung von Dell und Levelt in die jeweilige Forschungsrichtung vgl. ROELOFS, 1997: 250.

[4] Das „mentale Lexikon“ bezeichnet den Gedächtnisinhalt von Worten und Wortbestandteilen, die wie in einem Lexikon nachgeschlagen werden können.

Excerpt out of 24 pages

Details

Title
Natural Language Processing (NLP) in wissenschaftlichen Instituten
College
University of Hildesheim
Grade
1,3
Author
Year
2006
Pages
24
Catalog Number
V50705
ISBN (eBook)
9783638468749
ISBN (Book)
9783638661201
File size
615 KB
Language
German
Keywords
Natural, Language, Processing, Instituten
Quote paper
Simone Kotarra (Author), 2006, Natural Language Processing (NLP) in wissenschaftlichen Instituten, Munich, GRIN Verlag, https://www.grin.com/document/50705

Comments

  • No comments yet.
Look inside the ebook
Title: Natural Language Processing (NLP) in wissenschaftlichen Instituten



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free