Fehleranalyse von DaF-Lernertexten

Eine korpuslinguistische Untersuchung


Hausarbeit, 2019
31 Seiten, Note: 0,7
Anonym

Leseprobe

Inhalt

Abbildungsverzeichnis

Tabellenverzeichnis

1. Einleitung

2. Grundlagen der Untersuchung
2.1. Vorüberlegungen
2.2. ANNIS
2.3. Das Falko-Korpus
2.3.1. Fehlerannotationen
2.3.2. Versuchspersonen

3.Analyse
3.1. Reflexivpronomen
3.1.1. Herkunftssprache
3.1.2. Geschlecht
3.1.3. Alter
3.2. Artikel
3.2.1. Herkunftssprache
3.2.2. Geschlecht
3.2.3. Alter
3.3. Komposita
3.3.1. Herkunftssprache
3.3.2. Geschlecht
3.3.3. Alter
3.4. Flexion von Verben
3.4.1. Herkunftssprache
3.4.2. Geschlecht
3.4.3. Alter

4.Fazit und Ausblick

5.Literaturverzeichnis

6.Anhang

Abbildungsverzeichnis

Abb. 1: ANNIS-Suchabfrage (Bildschirmausschnitt)

Abb. 2: ZH1-Grid (Bildschirmausschnitt)

Abb. 3: fehlendes Reflexivpronomen - Faktor: L

Abb. 4: fehlendes Reflexivpronomen - Faktor: Geschlecht

Abb. 5: fehlendes Reflexivpronomen - Faktor: Alter

Abb. 6: falscher Artikel - Faktor: L

Abb. 7: falscher Artikel - Faktor: Geschlecht

Abb. 8: falscher Artikel - Faktor: Alter

Abb. 9: auseinandergeschriebene Komposita - Faktor: L

Abb. 10: Flexion des Partizip Perfekt - Faktor: L

Abb. 11: Flexion des Partizip Perfekt - Faktor: Geschlecht

Abb. 12: Flexion des Partizip Perfekt - Faktor: Alter

Tabellenverzeichnis

Tab. 1: Ausschnitt der AQL-Operatorenliste (Zeldes 2016:24)

Tab. 2: Zusammensetzung des Falko-Korpus (erweitert nach Reznicek et al. 2012: 4)

Tab. 3: Edit Tags (vgl. Reznicek et al. 2012, 60-61)

Tab. 4: falkoEssayL2v2.4 - Parameterverteilung

Tab. 5: fehlendes Reflexivpronomen - Faktor: L1 - statistische Angaben

Tab. 6: fehlendes Reflexivpronomen - Faktor: Geschlecht - statistische Angaben

Tab. 7: fehlendes Reflexivpronomen - Faktor: Alter - statistische Angaben

Tab. 8: falscher Artikel - Faktor: L1 - statistische Angaben

Tab. 9: falscher Artikel - Faktor: Geschlecht - statistische Angaben

Tab. 10: falscher Artikel - Faktor: Alter - statistische Angaben

Tab. 11: auseinandergeschriebene Komposita - Faktor: L1 - statistische Angaben

Tab. 12: auseinandergeschriebene Komposita - Faktor: Geschlecht - statistische
Angaben

Tab. 13: auseinandergeschriebene Komposita - Faktor: Alter - statistische Angaben

Tab. 14: Flexion des Partizip Perfekt - Faktor: L1 - statistische Angaben

Tab. 15: Flexion des Partizip Perfekt - Faktor: Geschlecht - statistische Angaben

Tab. 16: Flexion des Partizip Perfekt - Faktor: Alter - statistische Angaben

1. Einleitung

Es ist unumstritten, dass sprachliche Fehler im Zuge des L2-Erwerbs nicht als Defizite aufgefasst werden sollten. Sie stellen eine grundlegende Zwischenstufe dar, die Aufschluss über den aktuellen Grad der Beherrschung einer Fremdsprache gibt. Es scheint daher von immenser Wichtigkeit Fehler von Fremdsprachenlernern genauer zu analysieren, um auf deren Ursprung aufmerksam zu werden.

Im Fokus dieser Arbeit steht die korpuslinguistische Analyse vier typischer Fehler unterschiedlicher sprachlicher Ebenen, die im Laufe des Spracherwerbs des Deutschen auftreten: das Auslassen von reflexiven Personalpronomen, der falsche Artikelgebrauch, Auseinanderschreiben von Komposita und die falsche Verbflexion des Partizip Perfekt. Dazu werden Lernertexte eines Subkorpus des FALKO-Korpus hinsichtlich dieser Fehler in Zusammenhang mit personenbezogenen Merkmalen analysiert.

Man sollte sich darüber bewusst sein, dass die Fehlerdefinition stets eng mit der jeweilig definierten Norm zusammenhängt. In dieser Arbeit steht allerdings nicht die Definition der jeweiligen Begriffe im Mittelpunkt, da Lernertexte mittels Fehlerannotationen analysiert werden. Die in den Korpora annotierten Fehler werden daher nicht in Frage gestellt.

Die vorliegende Arbeit gliedert sich in zwei Teile. Der erste Teil widmet sich der Beschreibung des Untersuchungsgegenstandes. Hier werden das Suchtool ANNIS, das FALKO-Korpus und spezifisch der untersuchte Subkorpus vorgestellt. Im zweiten Teil dieser Arbeit werden die genannten Fehlertypen in Hinblick auf Herkunftssprache, Geschlecht und Alter analysiert. Hierfür wird mithilfe von AQL-Abfragen zunächst die absolute Häufigkeit bestimmt, ferner wird hierüber eine Vergleichsmenge gesucht, um die Anzahl an normkonformen Schreibungen bzw. Verwendungen zu finden. Anschließend werden relative Häufigkeit und Konfidenzintervall bestimmt, mithilfe dessen die Differenzen innerhalb der Parameter auf Signifikanz geprüft werden können. Ausgehend dieses Ergebnisses können Schlussfolgerungen und Interpretationen hinsichtlich der potenziellen Fehlerquelle gezogen werden.

Diese Analyse scheint besonders für die Fremdsprachendidaktik interessant zu sein, da Korrelationen zu Strukturen zweier Sprachpaare aufgefangen werden können und im Bereich der Fehlerkorrektur bzw. -prophylaxe behilflich sein können.

2. Grundlagen der Untersuchung

Bevor mit der Untersuchung und der Analyse der Lernerkorpora begonnen werden kann, ist es nötig zunächst den zu untersuchenden Korpus und die Abfragesprache vorzustellen und zu erläutern.

2.1. Vorüberlegungen

Gegenstand dieser Arbeit sind Lernerkorpora von ausländischen Studierenden, die Deutsch als erste oder zweite Fremdsprache lernen.

Es wird der Fragestellung nachgegangen, welche sprachlichen Strukturen schwierig für DaF-Lerner sind, indem ausgewählte Fehlertypen syntaktischer, morphologischer und lexikalischer Art untersucht werden.

Da sich eine empirische Untersuchung, die sich für die Beantwortung solch einer Fragestellung eher anbieten würde, den Rahmen dieser Hausarbeit jedoch sprengen würde, wird versucht möglichst breit gestreute Lernerkorpora zu untersuchen bzw. gegenüberzustellen. Es werden daher Versuchspersonen unterschiedlicher Herkunft, unterschiedlichen Alters und unterschiedlichen Geschlechts ausgewählt, um eine möglichst differenzierte Analyse zu gewährleisten. Ziel soll es sein, Kompetenzfehler, die aus einem bestimmten personenbezogenen Merkmal rühren ausfindig zu machen und zu deuten. Performanzfehler und weitere Parameter, wie weitere bereits erlernte Fremdsprachen, werden in diesem Rahmen nicht analysiert.

Diese Untersuchung beschränkt sich auf Teile des FALKO-Korpus, welcher via ANNIS (Krause/Zeldes 2016) aufrufbar ist.

2.2. ANNIS3

ANNIS (Krause/Zeldes 2016) steht für ANN otation of I nformation S tructure und ist eine webbasierte Such- und Visualisierungssoftware für annotierte Korpora. Es wurde von der Humboldt-Universität zu Berlin, der Georgetown University und der Universität Potsdam entwickelt und wird verwendet, um eine Vielzahl an sprachlichen Strukturen zu analysieren. Dieses Suchtool soll dazu dienen, einen Korpus bzw. einzelne darin enthaltene Texte auf festgelegte Merkmale hin zu untersuchen. Suchanfragen werden per A NNIS Q uery L anguage (AQL) gestellt, welche die Suche nach Wortformen und Annotationen in ausgewählten Korpora ermöglicht. Diese Annotationen, sei es auf Text- oder auf Metaebene, sind dabei in den Informationen ( ) eines jeden Korpus hinterlegt. Zusätzlich kann bei der Suchabfrage auch mit regulären Ausdrücken gearbeitet werden.

ANNIS-spezifisch ist hingegen die Abfolge der Suchanfrage, welche an späterer Stelle erläutert wird, und die Operatoren, die einzelne Elemente der Abfrage miteinander verknüpfen. Folgende Operatoren werden für den weiteren Verlauf dieser Arbeit relevant sein.1

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Ausschnitt der AQL-Operatorenliste (Zeldes 2016:24)

Um einen Eindruck über die Plattform zu bekommen, dient dieser Bildschirmausschnitt einer getätigten Suchabfrage.

Abbildung in dieser Leseprobe nicht enthalten

Auf der linken Seite befindet sich die Eingabemaske, in der eine Suchabfrage formuliert werden kann, deren Ergebnisse auf der rechten Seite im KWIC-Format ausgegeben werden. Für eine nähere Betrachtung der Belege, können die Ergebnisse auf unterschiedlichen Ebenen in Tabellenformat untersucht werden. Im weiteren Verlauf dieser Arbeit wird sich überwiegend auf die Ebene der minimalen Zielhypothese konzentriert, die relevante Fehlerannotationen beinhaltet, welche konkret gesucht werden.

2.3. Das Falko-Korpus

Das Falko-Korpus ist ein f ehler a nnotiertes L erner ko rpus des Deutschen als Fremdsprache, welches über ANNIS frei zugänglich ist. Es besteht aus insgesamt 16 Subkorpora, bei denen es sich allerdings teilweise um aktualisierte Versionen und Vergleichskorpora deutscher Muttersprachler handelt.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Zusammensetzung des Falko-Korpus (erweitert nach Reznicek et al. 2012: 4)

Die Texte enthalten allesamt „umfangreiche Metadaten zu Alter, Geschlecht, akademischem Hintergrund, sprachlicher Biografie und Erhebungssituation“ (Reznicek et al. 2012: 4), weswegen Analysen in Hinblick auf personenabhängige Merkmale erfolgen können.

Alle Texte sind auf mehreren Ebenen annotiert, allerdings nicht korpusübergreifend einheitlich. Sowohl auf Ebene der Fehler- als auch der Metaannotationen kommt es zu unterschiedlichen Ausprägungen. Während der CLEG13- und der Georgetownkorpus keinerlei Fehlerannotationen enthalten und der Zusammenfassungskorpus lediglich eine Zielhypothese ohne zusätzliche POS-Tags enthält, verfügen der Essay-, der KanDel- und der Kobalt-Korpus über tiefreichende Annotationen, welche sich für eine korpuslinguistische Fehleranalyse eignen.

Aufgrund auch hier divergierender Annotationsweisen hinsichtlich der verwendeten Tags wird sich letzten Endes auf einen Subkorpus beschränkt und die detaillierte Beschreibung sämtlicher Annotationsarten an dieser Stelle unterlassen.

Bei dem zu analysierenden Korpus falkoEssayL2v2.4 erfolgte die automatische Annotation der Wortarten des STTS (vgl. Anhang, S. 25-26) und der Lemmata mit dem Tree-ftagger (vgl. Reznicek et al. 2012: 4).2

Das Essaykorpus besteht aus 249 Texten, welche allesamt unter Prüfungsbedingungen erhoben wurden (vgl. Reznicek et al. 2012: 4), d.h. die Lernerinnen und Lerner mussten innerhalt von 90 Minuten einen Text zu einem ihnen unbekanntem Thema verfassen und hatten dabei weder Vorbereitungszeit noch Hilfsmittel zur Verfügung (vgl. Reznicek et al. 2012: 30). Die Aufgabe bestand darin, einen argumentativen Aufsatz zu einem der vier folgenden Themen zu verfassen:

- Der Feminismus hat den Frauen mehr geschadet als genutzt.
- Kriminalität zahlt sich nicht aus.
- Die meisten Universitätsabschlüsse bereiten die Studenten nicht auf die wirkliche Welt vor. Sie sind deswegen von geringem Wert
- Die finanzielle Entlohnung eines Menschen sollte dem Beitrag entsprechen, den er/sie für die Gesellschaft geleistet hat. (Reznicek et al. 2012: 24)

Das Korpus enthält somit Texte zu den Themenfeldern Studium (109), Feminismus (67), Entlohnung (43) und Kriminalität (29).

2.3.1. Fehlerannotationen

Die Fehlerannotation ist, wie bereits erwähnt, Teil einzelner Subkorpora. Jeder darin enthaltene Text wird mit mehreren Zielhypothesen (ZH) versehen, die Normabweichungen der Lerneräußerung darstellen. Im weiteren Verlauf wird sich dabei lediglich auf die die minimale Zielhypothese (ZH1) beschränkt.

Eine minimale Zielhypothese dient als Normalisierungsebene und hat zum Ziel eine Ebene zu erzeugen, die für die automatische Verarbeitung dienen zu können. Die Anpassung des Originaltextes an eine parsbare Struktur ist somit höchste Priorität bei der Erstellung der minimalen Zielhypothese. Gleichzeitig wird versucht, die Anzahl der Abweichungen von der Originaläußerungen zu minimieren und nimmt dafür in Kauf, sich vor allem auf Fehler niedriger sprachlicher Ebenen (Orthografie, Morphologie, Syntax) zu beschränken. (Reznicek et al. 2012: 38, Hervorh. im Original).

Es ist festzuhalten, dass es sich dabei lediglich um „implizite Annotation von Abweichungen der Lernertexte von einer postulierten Standardvariante [handelt], vor deren Hintergrund eine Fehlerannotation möglich wird und die auf dieser aufbauen kann“ (Reznicek et al. 2012: 39).

Auch die Zielhypothesen werden in weiteren Zeilen lemmatisiert und getaggt. Zur weiteren Hervorhebung wird das jeweilige, in der AQL abgefragte, POS-Tag farblich markiert.

Abbildung in dieser Leseprobe nicht enthalten

Zusätzlich wird hier gekennzeichnet, inwiefern sich die Zielhypothese von der Lernerhypothese unterscheidet, d.h. mithilfe folgender edit tags wird die Korrektur auf der ZH1Diff -Ebene klassifiziert.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 3: Edit Tags (vgl. Reznicek et al. 2012, 60-61)

2.3.2. Versuchspersonen

Bei den Versuchspersonen handelt es sich um fortgeschrittene DaF-Lernerinnen und - Lerner mit insgesamt 40 unterschiedlichen Herkunftssprachen, „[…] die teilweise an Feriensprachkursen an der Freien Universität Berlin und der Humboldt-Universität zu Berlin und teilweise an ausländischen Universitäten und Goethe-Instituten“ (Reznicek et al. 2012: 23) argumentative Texte im Rahmen des C-Test verfasst haben (vgl. ebd.).

Aufgrund der ungleichmäßigen Anzahl an Texten von Sprechern mit derselben L1, wird sich in der folgenden Analyse auf vier Sprachpaare beschränkt. Für möglichst aussagekräftige Ergebnisse werden lediglich jene analysiert, welche am meisten Datenmaterial bieten, denn „[…] je kleiner das verwendete Korpus, desto stärker hängt die in diesem Korpus beobachtete relative Gebrauchshäufigkeit von zufälligen Faktoren ab, d.h., desto weniger zuverlässig ist diese beobachtete Häufigkeit“ (Keibel 2008, 2009).

In diesem Rahmen wurden englische, französische, dänische und russische Muttersprachler untersucht, da es sich um vier unterschiedliche Sprachfamilien handelt und auf diese Weise Fehler sprachspezifischer klassifiziert werden können. Die differenzierte Analyse hat das Ziel mögliche Interferenzen gewisser Herkunftssprachen hinsichtlich bestimmter grammatischer Phänomene aufzuzeigen.

Zusätzlich zu dem sprachlichen Hintergrund der Lernerinnen und Lerner werden zudem die Faktoren Geschlecht und Alter mit in die Untersuchung integriert, um auch hier auf mögliche Fehlerquellen aufmerksam zu werden.

Folgende Tabelle soll einen Überblick über die Verteilung der einzelnen Parameter geben, die an späterer Stelle von Relevanz sein werden.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 4: falkoEssayL2v2.4 - Parameterverteilung

3. Analyse

Nach der vorangegangenen theoretischen Vorbereitung, kann nun mit der korpuslinguistischen Fehleranalyse des Falko-Korpus begonnen werden. Dazu werden vier unterschiedliche Fehlertypen analysiert, um jeweils Schlüsse auf mögliche Fehlerquellen (L1-Interferenz, Geschlecht, Alter) zu ziehen.

Für eine vergleichende Analyse ist es hierbei notwendig, sich nicht auf absolute Häufigkeiten zu beschränken. Aufgrund der teils stark divergierenden Tokenanzahl zwischen den unterschiedlichen Herkunftssprachen, ist es notwendig in einem ersten Schritt die absolute Häufigkeit der Fehler mit der Anzahl der normkonformen Varianten ins Verhältnis zu setzen. Dies erlaubt einen ersten Überblick über vollzogene Fehler.

Die Gesamtanzahl eines bestimmten grammatischen Phänomens gibt allerdings keine Auskunft über die tatsächliche Häufigkeit in einem Korpus. Eine geringe Anzahl normkonformer Varianten kann andere Gründe haben, wie eine insgesamt ausweichende Haltung dem grammatischen Konzept gegenüber aufgrund von Unsicherheiten jeglicher Art.

Für eine zuverlässigere Angabe der Unterschiede zwischen den Frequenzen ist es daher nötig die die relative Häufigkeit zu ermitteln. Die jeweilige (Sub-)Korpusgröße ergibt hier aus der Gesamtheit an Tokens von Sprechern mit demselben zu untersuchenden Merkmal.

Je seltener aber das Wort absolut in einem konkreten Korpus auftaucht, desto stärker wird seine in diesem Korpus beobachtete relative Häufigkeit in vergleichbaren Korpora derselben Größe variieren, desto größer also ist die Streuung dieser beobachteten relativen Häufigkeiten. (Keibel 2008, 2009)

Aufgrund solcher Standardfehler, also Standardabweichungen der Stichprobenergebnisse, ist kein vertrauenswürdiges Ergebnis durch die Berechnung der relativen Häufigkeit allein gesichert. Da es sich hier um einen kleinen Korpus handelt und die Größe der darin enthaltenen sprachspezifischen Subkorpora teilweise stark voneinander abweichen, entsprechen die erhobenen Stichproben nicht der Grundgesamtheit. Daher muss mittels statistischer Methoden das Konfidenzintervall berechnet werden, um genauere respektive zuverlässigere Ergebnisse zu erzielen. „Konfidenzintervalle beschreiben einen Bereich um einen festgelegten Wert. Dieser Bereich ist i.d.R. nach oben und unten um den festen Wert gleich groß“ (Janczyk/Pfister 2013: 65). Das Konfidenzintervall gibt also die Wahrscheinlichkeit an, mit der ein ermittelter Wert in einem bestimmten Intervall liegt. Die Berechnung des Konfidenzintervalls geschieht in dieser Arbeit allerdings über das Online-Formular von SIGIL3. Es wird hierbei eine Genauigkeit von 95% eingestellt d.h. „[m]it einer Wahrscheinlichkeit von 0,95 liegt ein Stichprobenergebnis im Bereich von ±1,96 Standardfehlern um den wahren Wert“ (Ludwig-Mayerhofen 2017, 3). Das Intervall, sowie die relative Häufigkeit werden in pmw (pro Million Worte) angegeben.

Für den Vergleich zweier Samples wird auf dieser Webseite mithilfe des Chi-Quadrat-Tests ermittelt, ob sich die Häufigkeiten zweier Samples signifikant voneinander unterscheiden (vgl. Baroni/Evert 2009: 791f.). Das Ergebnis (χ²) ist maßgebend für die weitere Deutung und Interpretation der Werte.

3.1. Reflexivpronomen

Die erste Fehlerart, die an dieser Stelle Einzug finden soll, ist morpholexikalischer Art. Es wird analysiert, wie oft Reflexivpronomina fälschlicherweise ausgelassen werden. Dazu wird eine Suchanfrage gestellt, die sich auf Ebene der ZH1, also der minimalen Zielhypothese befindet.

ZH1pos=‎"PRF‎" & ZH1Diff=‎"INS‎" & #1_=_#2

Der Variablen ZH1pos wird der Wert PRF zugewiesen. Im Klartext bedeutet das, dass auf der Ebene des POS nach reflexiven Personalpronomen gesucht wird. Diese Suche wird durch „&“ mit einer zweiten Variable verknüpft. Auf Ebene des ZH1Diff, auf der die Unterschiede zwischen Lerneräußerungen und Zielhypothese kenntlich gemacht werden wird nach „INS“ gesucht. Der Überlappungsoperator „_=_“ kennzeichnet, dass es sich bei dem zweiten Element, dem eingefügten Objekt in der Zielhypothese, („#2“) um ein fehlendes reflexives Personalpronomen, dem ersten Element („#1“) handelt. Letztendlich wird also nach allen reflexiven Personalpronomen gesucht, die in der minimalen Zielhypothese eingefügt worden sind.

[...]


1 Eine vollständige Liste der Operatoren stellt Zeldes (2016: 24-25) bereit.

2 Für eine detaillierte Beschreibung alles Annotationsebenen dieses Korpus wird an dieser Stelle auf einen Überblick von Reznicek et al. 2012: 6-8 verwiesen.

3 http://sigil.collocations.de/wizard.html

Ende der Leseprobe aus 31 Seiten

Details

Titel
Fehleranalyse von DaF-Lernertexten
Untertitel
Eine korpuslinguistische Untersuchung
Hochschule
Justus-Liebig-Universität Gießen
Note
0,7
Jahr
2019
Seiten
31
Katalognummer
V476889
ISBN (eBook)
9783668962194
Sprache
Deutsch
Schlagworte
fehleranalyse, daf-lernertexten, eine, untersuchung
Arbeit zitieren
Anonym, 2019, Fehleranalyse von DaF-Lernertexten, München, GRIN Verlag, https://www.grin.com/document/476889

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Fehleranalyse von DaF-Lernertexten


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden