Vergleich ausgewählter Sprachtests in bezug auf die Objektivität ihrer Aufgaben


Hausarbeit (Hauptseminar), 2003

27 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

0. Einleitung

1. Gütekriterien
1.1 Validität
1.2 Reliabilität
1.3 Objektivität

2. Aufgabentypen

3. TestDaF

4. Die Zentrale Mittelstufenprüfung des Goethe-Instituts

5. Leseverstehen
5.1 Die Leseverstehenprüfung des TestDaF
5.2 Die Leseverstehenprüfung der Zentralen Mittelstufenprüfung

6. Hörverstehen
6.1 Die Hörvestehenprüfung des TestDaF
6.2 Die Hörvestehenprüfung der Zentralen Mittelstufenprüfung

7. Schriftlicher Ausdruck
7.1 Die Prüfung schriftlichen Ausdrucks des TestDaF
7.2 Die Prüfung schriftlichen Ausdrucks der Zentralen Mittelstufenprüfung

8. Mündlicher Ausdruck
8.1 Die Prüfung mündlichen Ausdrucks des TestDaF
8.2 Die Prüfung mündlichen Ausdrucks der Zentralen Mittelstufenprüfung

9. Fazit

0. Einleitung

Beim Erlernen oder Lehren einer Fremdsprache sind unterschiedliche Arten von Prüfungen ein unentbehrlicher Teil des Unterrichts. Grundsätzlich werden die Prüfungen bzw. die sogenannten Tests im Fremdsprachenunterricht zum Zwecke der Überprüfung der Lernfortschritte, wie Lernfortschrittstests, oder der Feststellung des erreichten Kenntnisstandes, wie Leistungs- oder Sprachstandstests, gebraucht. Eine andere Art der Sprachtests, die sogenannten Einstufungstests, werden verwendet, wenn der Frage nachgegangen werden muß, was ein Lernender an Voraussetzungen für ein erfolgreiches Erlernen einer Fremdsprache mitbringt oder ob es Möglichkeiten gibt, den Lernerfolg in gewissem Maße vorauszusagen (vgl. Albers 1995:15f).

Das eigentliche Forschungsobjekt der vorliegenden Arbeit sind allgemeine Sprachstandstests oder auch Abschlußtests, die durchweg eine größere Verbreitung bei der Leistungsmessung aufweisen als die anderen Tests. Die allgemeinen Sprachstandstests überprüfen den Sprachstand der lernenden Person in Hinblick auf ein vorab festgelegtes Leistungsniveau. Dieses Leistungsniveau gilt meistens überregional und institutionenübergreifend. Die allgemeinen Sprachstandstests sind außerdem unabhängig von bestimmten Sprachkursen oder Lehrbüchern. In der vorliegenden Arbeit werden zwei allgemeine Sprachstandstests aus dem Bereich Deutsch als Fremdsprache (DaF) verglichen, und zwar der relativ „junge“ Sprachstandstest DaF und der Sprachstandstest des Goethe-Instituts - die Zentrale Mittelstufen-Prüfung. Die Auswahl dieser Tests zur Sprachstandsmessung ist nicht zufällig, die ausgewählten Tests (neben dem DSH-Test) sind am weitesten verbreitet und ihre Inhalte umfassen auf der u.g. Skala des Europarats in etwa die gleichen Niveaustufen:

Abbildung in dieser Leseprobe nicht enthalten

(s. www.testdaf.de und www.goethe.de )

Im Rahmen dieser Arbeit geht es vor allem um einen Vergleich der ausgewählten Sprachstandstests in bezug auf die Objektivität ihrer Testsaufgaben. Dazu bedarf es zunächst einer theoretischen Abgrenzung der drei Hauptkriterien der Testtheorie, Objektivität, Reliabilität und Validität, die beim Erstellen und bei der Objektivitätsbewertung der Sprachstandstests eine wichtige Rolle spielen. Dies wird zu Beginn vorgenommen.

Im Anschluß werden die allgemeinen Aufgabentypen von Sprachstandstests erläutert. Daraufhin werden die hier interessierenden Tests in bezug auf die zentralen Sprachfertigkeiten, Leseverstehen, Hörverstehen, schriftlicher und mündlicher Ausdruck, dargestellt. Schließlich wird anhand der Typen von Testsaufgaben die Objektivität der beiden Tests bewertet.

Auf die Validität und die Reliabilität der beiden Tests, weitere wichtige Gütekriterien, die die "Verläßlichkeit" von Tests ausmachen, wird in dieser Arbeit nicht eingegangen.

1. Gütekriterien

Das Ziel eines Meßvorgangs besteht in der Erhebung möglichst exakter und fehlerfreier Meßwerte. Dieses Ziel wird jedoch bei kaum einem Meßvorgang vollständig erreicht, da die tatsächlichen Meßwerte neben der Wiedergabe der Ausprägung eines Merkmals auch Meßfehler enthalten. Um trotz der auftretenden Meßfehler die erhobenen Daten interpretieren zu können, stützt man sich auf das Grundmodell der klassischen Testtheorie, demzufolge ein realisierter Meßwert "aus der Summe eines wahren Wertes und einem Meßfehler" besteht (s. Schnell u.a. 1999:143). Das Bestreben liegt darin, je nach Testinteresse das Testverfahren zu wählen, für das der Meßfehler die minimale und der "wahre" Wert die maximale Wahrscheinlichkeit annimmt.

Als die drei wichtigsten Gütekriterien für Messungen werden in der klassischen Testtheorie Validität, Reliabilität und Objektivität genannt. Validität und Objektivität gewährleisten eine präzise Erfassung und zuverlässige Messung der zu überprüfenden Leistungen. Objektivität bedeutet, daß die Bewertung der Leistungen nicht vom Prüfer abhängt, sondern gewissermaßen neutral vorgenommen wird. Im folgenden sollen die drei Gütekriterien genauer dargestellt werden.

1.1 Validität

Das Kriterium der Validität ist das wichtigste von allen Kriterien. Unter Validität eines Tests versteht man den Grad der Genauigkeit, mit der ein Test tatsächlich das Merkmal mißt, das er messen soll oder zu messen vorgibt (vgl. Albers 1995:22). Die Validität bedingt die inhaltliche Brauchbarkeit eines Tests, also inwieweit mit dem gegebenen Test auch das erfaßt wird, was man erfassen will. Die Voraussetzung für die Entwicklung von validen Tests ist eine genaue Definition der Lernziele. Den Lernzielen entsprechend werden die Testaufgaben entworfen. Wenn zum Beispiel das Lernziel des Prüfungsbereiches Leseverstehen das Überprüfen des selektiven Textverständnisses darstellt, wird in erster Linie ein geeigneter Text ausgesucht. Dann werden Testaufgaben entwickelt, die das selektive Verständnis der Testpersonen überprüfen, also ihre Fähigkeit, dem Text bestimmte Informationen entnehmen zu können.

Esser hebt in seinem Aufsatz (1991:174) die kriterienbezogene Validität hervor. Sie betrifft die zentrale Frage der Validitätsbestimmung, also wie man prüfen kann, ob der Test wirklich genau das zu prüfende Merkmal mißt. Die einfachste Möglichkeit besteht darin, die Ergebnisse des zu entwickelnden Tests mit einem Außenkriterium zu vergleichen und den Grad der Übereinstimmung zu berechnen. Wird zum Beispiel die fremdsprachliche Lernfähigkeit der Testpersonen überprüft, werden die Testergebnisse zur Validierung mit den Ergebnissen des realen Lernverhaltens (Noten in den einzelnen Fertigkeitsbereichen, der Zeitverbrauch für das Lernen) der Testpersonen verglichen. Stimmen die Testergebnisse mit denen des realen Lernverhaltens weitgehend überein, könnte man von einem validen Test zur Überprüfung der Lernfähigkeit reden. Daller (1996:69) merkt jedoch an, daß bei dieser auch empirisch genannten Validität, die unter anderem durch die Korrelationen mit den anderen Tests belegt wird, immer die Gefahr besteht, einen Test als valide zu erachten, obwohl keine Validität vorliegt. Denn letztendlich ist Validität nicht beweisbar. Ihre unbedingte Annahme kann insofern zu Trugschlüssen führen.

1.2 Reliabilität

Reliabilität bedeutet die Zuverlässigkeit der Leistungsmessung. d.h., eine bestimmte sprachliche Leistung bei Wiederholungen muß immer den gleichen Meßwert erbringen. Laut Esser (vgl. 1991:173) existieren drei wichtige Methoden zur Reliabilitätsbestimmung:

a) Re-Test-Reliabilität. Bei dieser Methode wird die Leistung der Testpersonen zwei mal mit einem entsprechenden Zeitabstand überprüft, wobei sich von jeder Testperson zwei Meßwerte ergeben. Über die Unterschiedlichkeit beider Meßwerte wird dann die Reliabilität geschätzt. Die Reliabilität wird unterschätzt, wenn sich die Meßwerte nach der zweiten Messung stark verändern. Es ist auch eine Überschätzung der Reliabilität möglich, wenn sich z.B. die Testspersonen an die erste Messung erinnern und bei der zweiten Messung übereinstimmende Angaben machen, um widerspruchsfrei zu erscheinen (vgl. Schnell u.a. 1999:145).
b) Bei der Paralleltest-Reliabilitätsbestimmung werden die Leistungen von Testpersonen gleichzeitig mit Hilfe von zwei miteinander vergleichbaren parallelen Tests überprüft. Dabei ergeben sich ebenfalls zwei Meßwerte von jeder Testperson, die wiederum miteinander korreliert werden und so einen gemeinsamen Koeffizienten darstellen. Die Schwierigkeit dieser Methode liegt in der Sicherung der Parallelität der vorgegeben Tests.
c) Testhalbierungsreliabilität. Bei der Anwendung dieser Methode werden die Leistungen von Testpersonen mit einem einzigen Test kontrolliert. Anschließend wird der Test nach dem Zufallsprinzip halbiert und für jede Testhälfte wird der Meßwert berechnet, so daß sich dann erneut zwei Meßwerte für jede Testperson ergeben. Hiernach werden die Meßwerte ebenfalls miteinander korreliert.

Es sei hinzugefügt, daß bei den sich wiederholenden Tests die erbrachten Meßwerte nie hundertprozentig übereinstimmen, nicht zuletzt wegen der bei manchem Test auftretenden Meßfehler. Die Meßfehler können sowohl testinternen Charakters (z.B. nicht präzise genug formulierte Anleitungen zur Durchführung des Tests, oder die Arbeitsanweisungen zu den Testaufgaben sind zu kompliziert oder mißverständlich formuliert) als auch testexternen Charakters (schlechte Akustik in den Prüfungsräumen oder schlechte körperliche Verfassung der jeweiligen Testperson) sein. Die Reliabilität eines Tests gilt als desto größer, je geringer die Anzahl der Meßfehler ist.

1.3 Objektivität

Die dritte Forderung an die Tests betrifft die Objektivität der Bewertung. Das heißt, die Ergebnisse des gegebenen Tests müssen unabhängig vom Prüfer, von den Durchführungsbedingungen und von den Auswertungsbedingungen sein (vgl. Esser 1991:173). Das Kriterium der Objektivität bezieht sich bei Sprachstandstests hauptsächlich auf die Bewertung der sprachlichen Leistungen, wobei angenommen wird, daß die gleiche sprachliche Leistung von allen Prüfern gleich bewertet wird. Dabei fallen die qualitativen Urteile über die sprachlichen Leistungen, wie die freie mündliche oder die freie schriftliche Produktion, bis zu einem gewissen Grad subjektiv aus, da bei Beurteilungen Unabhängigkeit vom Prüfer per se nicht gegebenen ist. Die Subjektivität bei der Bewertung der mündlichen oder der schriftlichen Produktion kann reduziert werden, indem die Prüfer die Testnoten mit Hilfe der gleichen Bewertungsanleitung vergeben. Die Bewertungsanleitung soll genau festlegen, welche Punktzahl welcher Leistungsstufe entspricht.[1]

Das Kriterium der Durchführungsobjektivität betrifft die Durchführung von Tests und Prüfungen. Ein Test ist dann vollkommen objektiv, wenn alle Testpersonen unter den gleichen, vorher festgelegten Bedingungen geprüft werden. Die Testinstruktionen müssen möglichst schriftlich exakt und für die Prüfungsteilnehmer verständlich formuliert werden, die Prüfungssituation muß soweit wie möglich standardisiert sein und die soziale Interaktion sollte auf ein Minimum reduziert sein. Es müssen also Bedingungen geschaffen werden, die die Bewertung der sprachlichen Leistungen unabhängig von systematischen oder zufälligen Einflußfaktoren machen, um Verhaltensänderungen bei den Prüfungsteilnehmern zu vermeiden (vgl. Esser 1991:173).

Esser weist in diesem Zusammenhang auf die sogenannte Interpretationsobjektivität hin, wenn z.B. aus den verschiedenen Testergebnissen von verschiedenen Prüfungsteilnehmern die gleichen Schlußfolgerungen gezogen werden. Dies ist dann eine subjektiv geleitete Korrektur wahrgenommener vermeintlicher Unterschiede bei den Prüfungsbedingungen. Ob diese Methode zu einer größeren Objektivität führt, sei allerdings dahingestellt.

2. Testaufgabentypen

In der Fremdsprachendidaktik unterscheidet man die Aufgabentypen nach dem Grad ihrer Offenheit, was wiederum eine Auswirkung auf die Erfüllung der Objektivität hat.

a) Offene Aufgaben werden in der Regel bei der Überprüfung produktiver sprachlicher Leistungen eingesetzt, wie in den Fertigkeiten Schriftlichen und Mündlichen Ausdrucks, wo die Antworten von Prüfungsteilnehmern frei ausgeführt werden können. Das sind zum Beispiel mündliche Äußerungen in einem Prüfungsgespräch oder auch das Schreiben eines Briefes nach vorgegebenen Stichpunkten (vgl. Albers 1995:27ff). Gerade bei offenen Aufgaben ist allerdings keine wirklich objektive Bewertung der sprachlichen Leistung möglich. Die Subjektivität der Bewertung versucht man durch präzis formulierte Bewertungsanleitungen zu reduzieren.
b) Bei halboffenen Aufgaben wird die Antwort von Prüfungsteilnehmern innerhalb eines genau begrenzten Kontextes formuliert. Dieser Aufgabentyp eignet sich am besten zur Überprüfung der produktiven Beherrschung des Wortschatzes und der Grammatik (das Leseverstehen spielt u.a. ebenfalls eine Rolle), da die Prüfungsteilnehmer ihre Antworten relativ selbständig ausführen können. Zu halboffenen Aufgaben gehören z.B. Ergänzungsaufgaben, bei denen in Einzelsätzen die Lücken mit der passenden Verbform oder dem passenden Wort ergänzt werden müssen.

Abbildung in dieser Leseprobe nicht enthalten

Bei Lückentexten müssen die vorgegebenen Lücken in einem zusammengehörenden Text ergänzt werden. Die Lücken beziehen sich auf bestimmte grammatische Strukturen oder auf einen bestimmten Wortschatz.

Im Unterschied zum Lückentext werden die Lücken bei einem Cloze-Test mechanisch eingesetzt, es wird z.B. jedes achte oder zehnte Wort getilgt. Aufgrund des Cloze-Tests, an dem mehrfach Kritik geäußert wurde[2], entwickelte man einen alternativen Test, den C-Test, der sich vom Cloze-Test im Testformat unterscheidet. Der C-Test besteht aus vier bis fünf Kurztexten. In jedem dieser Texte wird ab dem zweiten Satz die Hälfte jedes zweiten Wortes getilgt (vgl. Daller 1996:75).

Die Objektivität halboffener Aufgaben wird oft durch alternative Lösungen, die grammatisch und inhaltlich korrekt sind, verringert.

c) Bei geschlossenen Aufgaben wird die Antwort nicht selbständig formuliert, sondern aus vorgegebenen Antwortalternativen ausgewählt. Geschlossen sind z.B. Multiple-choice-Aufgaben oder Mehrfachwahl-Aufgaben. Diese Art der Aufgabe wird in der Regel mit einem Fragesatz eingeleitet, zu dem einige Antwortalternativen vorgegeben werden. Die Prüfungsteilnehmer müssen dann die richtige Antwortalternative markieren, die inhaltlich einer Textpassage entspricht:

(12) Warum wurde das Pay-Radio in Deutschland nicht fortgeführt?

A) Die Hörer vermissen Moderatoren bei den Sendungen.
B) Die Musikprogramme gefielen den Hörern nicht.
C) Es war nur eine zweijährige Laufzeit vorgesehen.

(s. Kniffka 2003:31)

Die Ja/Nein-Aufgaben oder Richtig/Falsch-Aufgaben werden häufig zur Überprüfung der Fertigkeiten Hör- und Leseverstehen eingesetzt. Die Prüfungsteilnehmer müssen entscheiden, ob die vorgegebene Aussage auf den Hör- bzw. Lesetext zutrifft:

Wie beurteilt Thomas Bausch

(A) positiv / (B) negativ bzw. skeptisch

16) die langfristigen Folgen der bisherigen Form von Tourismus?

17) die Erfolgschancen des „sanften“ Tourismus?

(s. ZMP 2001:23)

Bei den sogenannten Zuordnungsaufgaben werden passende Teile einander zugeordnet, seien es Aussagen aus dem Text, die Personen zugeordnet werden müssen, oder im Falle der Überprüfung des Wortschatzes synonyme Ausdrücke, die für die vorgegebenen Schlüsselwörter im Text ausfindig gemacht werden müssen.

Der Vorteil der geschlossenen Aufgaben besteht im hohen Grad der Objektivität der Bewertung. Für jede richtige Lösung wird im voraus ein Punktwert festgelegt. Es handelt sich jedoch im Falle der geschlossenen Aufgaben um das bloße Erkennen der richtigen Antwort und nicht um die Überprüfung von produktiven Leistungen, insbesondere nicht um die eigene Anwendung erlernter Sprachkenntnisse.

[...]


[1] Im Aufsatz von Lothar Jung (1994:29) wird eine Tabelle zur Bewertung der sprachlichen Leistung angeführt. Die sechs Bewertungskriterien (Verständnis, Reaktion, Behandlung der Aufgabe, Ausdrucksfähigkeit, Morphologie/Syntax, Aussprache) werden nach der Notenskala von eins bis sechs bewertet, wobei für jede Notenstufe eine verbale Präzisierung existiert. Diese Präzisierungen reichen etwa von "ohne Schwierigkeiten" oder "aufgabenadäquat" bis zu "kein Verständnis" oder "nicht aufgabenadäquat".

[2] Die Tilgungsprinzip garantiert nicht, daß die getilgten Wörter hinsichtlich der Wortarten eines Textes eine Zufallsstichprobe darstellen.

Verschiedene Tilgungsarten und Startpunkte der Tilgung beeinflussen die Schwierigkeit, Validität und Reliabilität.

Cloze-Tests sind bei homogenen Testgruppen unreliabel.

Es kommt immer wieder zu Zweifelsfällen bei der Bewertung akzeptabler Alternativlösungen.

Der Cloze-Test basiert auf nur einem längeren Text. Hierdurch ist die Möglichkeit eines Textbias zugunsten oder zuungunsten bestimmter Testpersonen gegeben.

Auch gebildete Muttersprachler können einen Cloze-Test oft nicht vollständig rekonstruieren (s. Daller 1996:74).

Ende der Leseprobe aus 27 Seiten

Details

Titel
Vergleich ausgewählter Sprachtests in bezug auf die Objektivität ihrer Aufgaben
Hochschule
Ruhr-Universität Bochum  (Germanistisches Institut)
Veranstaltung
Hautseminar: Mehrsprachigkeit und Schule
Note
1,7
Autor
Jahr
2003
Seiten
27
Katalognummer
V14930
ISBN (eBook)
9783638202022
Dateigröße
567 KB
Sprache
Deutsch
Schlagworte
Vergleich, Sprachtests, Objektivität, Aufgaben, Hautseminar, Mehrsprachigkeit, Schule
Arbeit zitieren
Oxana Karpenko (Autor), 2003, Vergleich ausgewählter Sprachtests in bezug auf die Objektivität ihrer Aufgaben, München, GRIN Verlag, https://www.grin.com/document/14930

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Vergleich ausgewählter Sprachtests in bezug auf die Objektivität ihrer Aufgaben



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden