Die Bewertung von mündlichen Leistungen im Unterricht. Ein Experiment zur qualitativen Bestimmung von Abweichungen und Tendenzen unter drei Bewertern


Projektarbeit, 2018

35 Seiten, Note: 1,3


Leseprobe

Inhalt

1. EINLEITUNG

2. THEORETISCHER HINTERGRUND
2.1 DIAGNOSTISCHE KOMPETENZ VON LEHRKRÄFTEN
2.2 GRUNDLAGEN DER LEISTUNGSDIAGNOSTIK
2.3 BENOTUNG VON MÜNDLICHEN LEISTUNGEN

3. FRAGESTELLUNGEN UND HYPOTHESE

4. STICHPROBENBESCHREIBUNG

5. METHODISCHE HERANGEHENSWEISE
5.1 MESSINSTRUMENTE
5.2 ABLAUF
5.3 AUSWERTUNG

6. ERGEBNISSE
6.1 ABWEICHUNGEN
6.2 BEURTEILUNGSTENDENZEN BZW. BEURTEILUNGSFEHLER

7. DISKUSSION

LITERATURVERZEICHNIS

1. EINLEITUNG

Die vorliegende Studie bildet ein Experiment im Bereich der Bewertung von mündlichen Leistungen im Englischunterricht. Sie verfolgt das Ziel, einige Einblicke in die diagnostische Kompetenz von Lehramtsstudierenden durch einen Vergleich der vergebenen Noten mit denjenigen der Lehrperson zu gewinnen. Die Studie findet in einer achten Klasse statt und an der Studie nehmen eine Lehrperson und zwei Lehramtsstudierende teil. Insbesondere aufgrund der speziellen Merkmale, die die Bewertung von mündlichen Leistungen aufweist, entstand das Interesse, einerseits Notenabweichungen bzw. Notenübereinstimmungen unter drei Bewertern zu berechnen, und die Ergebnisse qualitativ zu analysieren. Auf der anderen Seite ist davon auszugehen, dass jede Lehrperson eigene Bewertungsstrategien und Bewertungsgewohnheiten entwickelt hat, so dass eine Benotung von schulischen Leistungen nicht immer objektiv ist. Es wird also durch diese Studie versucht zu ermitteln, ob die Notenverteilung im Notenspektrum auf typische Beurteilungsfehler bzw. -tendenzen wie Milde- oder Strengefehler, Tendenz zur Mitte, Tendenz zu Extremurteilen, Ähnlichkeitsfehler und geschlechtsspezifische Bewertungen hinweist.

2. THEORETISCHER HINTERGRUND

2.1 DIAGNOSTISCHE KOMPETENZ VON LEHRKRÄFTEN

2.1.1 DEFINITION UND BEDEUTUNG

Im schulischen Alltag gehört es zu den Aufgaben der Lehrkräfte, den Lernstand der Schüler/innen durch diagnostische Aufgabenstellungen zu überprüfen, ihn zutreffend zu beurteilen und Informationen über Lernergebnisse, Lernvoraussetzungen und Lernvorgänge zu gewinnen.1 Dieser Bereich der Lehrkraftexpertise ist unter der Bezeichnung „diagnostische Kompetenz“ (auch „Diagnosekompetenz“) bekannt und wird nach Baumert und Kunter in die Facetten generischen pädagogischen Wissens und Könnens eingeordnet.2 Schrader definiert diagnostische Kompetenz als „die Fähigkeit, Personen, Aufgaben und Maßnahmen hinsichtlich pädagogisch relevanter Merkmale zutreffend zu beurteilen, das damit zusammenhängende Wissen sowie die Kenntnis und Beherrschung dazu geeigneter diagnostischer Methoden.“3 Der Ausdruck „zutreffend zu beurteilen“ bezieht sich auf die Übereinstimmung zwischen Urteil und (festgesetzten) Urteilskriterien, die oft mit der Urteils- oder Diagnosegenauigkeit gleichgesetzt und als Maßstab für diagnostische Kompetenz angesehen wird.4 Damit diagnostische Prozesse erleichtert werden und die Unterrichtsgestaltung lösungsorientiert wie auch konstruktiv-unterstützend auf die Lernenden wirkt, sollte eine diagnostische Beurteilung zeitlich nicht erst in Endphasen, wie bei Klassenarbeiten oder Tests, sondern gezielt während der Lernprozesse stattfinden.5 Obwohl eine hohe Diagnosegenauigkeit wünschenswert ist, ist sie nicht immer erforderlich, weil es pädagogische Handlungen gibt, bei denen ein geringeres Niveau von Diagnosegenauigkeit genügt.6 Zum Beispiel müssen Urteile während des Unterrichts laut Weinert und Schrader nicht sehr genau oder mit formell erhobenen Daten vergleichbar sein, denn ungefähre Diagnosen seien auch hinreichend unter der Voraussetzung, dass Lehrkräfte für eine vorläufige Ungenauigkeit „sensibel bleiben und eine gewisse Vorsichtigkeit walten lassen“ („diagnostischer Optimismus“).7 Eine permanente Überprüfung im Unterrichtsverlauf ist allerdings durchzuführen, so dass auf etwaige erwartungswidrige Verhaltens- oder Wissensveränderungen der Schüler/innen reagiert werden kann.8

Die diagnostische Kompetenz von Lehrkräften gilt als ein relativ wenig systematisch untersuchtes Gebiet, das sich momentan nicht nur großer Beliebtheit erfreut, sondern es gehört zu den am stärksten diskutierten Aspekten der professionellen Kompetenz von Lehrkräften.9 Die Bedeutung der Funktion der Lehrkräfte als gute Diagnostiker besteht darin, dass die Ergebnisse, die sich aus diagnostischen Prozessen ergeben und die oft in Form von Ziffernnoten repräsentiert werden, für verschiedene pädagogische Entscheidungen wichtig sind.10 Denn diese Ergebnisse hängen mit Themen wie Übergangsempfehlungen, mit der Unterrichtsplanung und Unterrichtsgestaltung (z. B. Arbeitsformen, Teststrategien, Schwierigkeitsgrad, Binnendifferenzierung, Begabtenförderung usw.),11 mit der Versetzung sowie mit der Schul- und Unterrichtsentwicklung zusammen. Das Ergebnis der Anpassung der Unterrichtsgestaltung an den jeweiligen Unterrichtsbedarf, was sich aus den o. g. pädagogischen Entscheidungen ergibt, kann das Feedback an die Eltern, das akademische Selbstkonzept der Lehrkräfte und ihre Erwartungen über die Fähigkeiten ihrer Schüler/innen beeinflussen.12 Die Wichtigkeit der Diagnosekompetenz verweist gleichzeitig auf ihre Unverzichtbarkeit.13 Wenn Lehrkräfte ihre Aufgaben professionell erfüllen wollen, dann ist die Diagnosekompetenz hierfür eine notwendige Voraussetzung.

2.1.2 DIAGNOSTISCHE KOMPETENZ ANGEHENDER LEHRKRÄFTE

Die Auswirkungen des so genannten bildungswissenschaftlichen Anteils des Lehramtsstudiums auf angehende Lehrkräfte hinsichtlich der Lehrerprofessionalisierung werden auch als ein empirisch wenig erforschter Themenbereich angesehen.14 Man nimmt an, dass Lehramtsabsolventen/innen unterschiedliche Formen der Leistungsbewertung kennen und verschiedene Bezugssysteme verwenden. Laut den Ergebnissen aus einem experimentellen Setting von Kaiser und Möller (simulierter Klassenraum) wurde entgegen den Erwartungen festgestellt, dass Lehramtsstudierende im Laufe ihres Studiums keine signifikante Verbesserung in ihrer diagnostischen Kompetenz erwerben.15 In der Studie konnten Moderatoren der Urteilsgenauigkeit entdeckt werden. Z. B. konnten von Seiten der Lehramtsstudierenden zutreffendere Urteile im Bereich der kognitiven Fähigkeiten über Schüler/innen mit Minderheitenstatus erfasst werden als dies bei Schülern/innen ohne Minderheitenstatus möglich war. In der Studie von Dünnebier et al., die sich mit dem Einfluss von Ankereffekten auf die Leistungsbeurteilung befasst, zeigte sich, dass Ankereffekte, also Verzerrungen nachfolgender Urteile wegen des Einflusses von vorangehenden Urteilen, von der Beurteilungsexpertise des Beurteilers und von der Wichtigkeit des Verarbeitungsziels abhängig sind. Bei sehr wichtigen und folgenschweren Beurteilungen, wie die Empfehlung für eine Schullaufbahn, zeigten sich bei Lehrerexperten keine Ankereffekte, wohl aber bei Lehramtsstudierenden.16

2.2 GRUNDLAGEN DER LEISTUNGSDIAGNOSTIK

2.2.1 LEISTUNGSMESSUNG, LEISTUNGSBEWERTUNG UND SKALIERUNG

Unter dem Begriff „Leistung“ im schulisch-pädagogischen Bereich verstehen Ingenkamp und Lißmann „die von der Schule initiierten Lernprozesse und Lernergebnisse der Schüler. Diese Lernleistungen können im Hinblick auf verschiedene Verhaltensdimensionen beschrieben und unter Bezug auf verschiedene Normen eingeordnet werden.“17 Anders gesagt bedeute dies, dass eine Leistung sowohl ein prozess- (und das zum größten Teil) als auch ein produktbezogenes Lernen sei,18 die aber nicht direkt als solche zu erkennen oder zu registrieren sei, weil sie eine Bedeutung nur unter bestimmten Normen und festgesetzten Zielen habe (s. auch 2.2.3). Um Aussagen über Lernprozesse und Lernergebnisse zu machen, ist zuerst eine „Leistungsmessung“ erforderlich. Obwohl eine Definition von „Messung“ im schulischen Kontext auf Zahlen und auf die Zensurengebung (Notengebung) verweisen würde—z. B. besteht eine Messung nach Zangemeister „im Zuordnen von Zahlen zu Objekten nach einer Regel, so daß bestimmte Relationen zwischen den Zahlen analoge Relationen zwischen den Objekten reflektieren“19 —verstehen Köck und Ott darunter einen Prozess, bei dem überprüft wird, ob der Lernstoff laut festgelegten Lernzielen bzw. kurrikularen Vorgaben erreicht wurde.20 Die Leistungsbewertung dagegen bezieht sich auf den mentalen Prozess eines kriterienbasierten Einschätzens, bei dem bestimmt wird, welchen Wert nach einem festgelegten Wertmaßstab die erbrachte Leistung hat.21 Als Teil der Bewertung werden oft die Benotung und Beurteilung von Leistungen verstanden.22 Eine Benotung ist nichts anderes als die mit einer Ziffernnote repräsentierte zusammenfassende Bewertung (vgl. schulische Skala), wohingegen sich die Beurteilung auf eine verbale Bewertung bezieht, die gegenüber den Schüler/innen geäußert wird.23

Die für die Leistungsbewertung verwendete schulische Notenskala ist eine Ordinalskala, bei der den zu messenden Eigenschaften Ziffernnoten zugeordnet werden, die einen bestimmten Rangplatz widerspiegeln. Das heißt, in dem Notenspektrum von 1 bis 6 sind die Abstände unter den Zwischenzahlen nicht gleich weit voneinander entfernt, obwohl man schon sagen kann, dass die Note 1 einen besseren Rang als die 2 besitzt, die 2 einen besseren als die 3 usw.24 Mit anderen Worten heißt es nicht, dass Kenntnisse, die durch eine 4 repräsentiert sind, doppelt so schlecht oder doppelt so wenig sind wie die durch eine 2 repräsentierten.25 Da die heute verwendete Notenskala eine Ordinalskala und keine Intervallskala ist, ermöglicht sie keine quantitative Interpretierung der Noten. Bei der Anlegung einer Notenskala ist es wichtig zu bestimmen, in welchem Notenbereich (Rang) die Mindestkompetenz repräsentiert werden soll.26 Nach den momentanen Bestimmungen entspricht eine schulische Leistung mit einer Benotung im Notenbereich 1 bis 4 den schulischen Anforderungen, wohingegen eine Leistung im Notenbereich 5 und 6 diesen nicht entspricht. Die Definitionen sind genauer folgendermaßen festgelegt:27

Abbildung in dieser Leseprobe nicht enthalten

2.2.2 GÜTEKRITERIEN EINER MESSUNG

Der Genauigkeit einer Leistungsmessung liegt die Erfüllung von drei Hauptgütekriterien zugrunde: diese Hauptgütekriterien sind die Objektivität, die Reliabilität und die Validität.

Von hoher Objektivität wird dann gesprochen, wenn das Ergebnis bei einer Messung unabhängig von subjektiven Einflüssen der messenden Person ist.28 Sie besteht aus der Durchführungsobjektivität, die das Ausmaß der Standardisierung der jeweiligen Durchführung hinsichtlich der Instruktion, Zeitgrenzen, Ruhe, Müdigkeit usw. ausdrückt;29 aus der Auswertungsobjektivität, die eine Messung dann besitzt, wenn bei der Leistungsbewertung keine intrasubjektiven und intersubjektiven Einflüsse auftreten;30 und aus der Interpretationsobjektivität, die dann vorliegt, wenn verschiedene Beurteiler aus demselben Testergebnis zu übereinstimmenden Schlussfolgerungen gelangen.31

Von hoher Reliabilität (Zuverlässigkeit) ist eine Messung dann, wenn ihr Ergebnis von (Mess-) Fehlern unbelastet ist.32 Also eine genaue Messung, der eine entsprechend genaue Note attribuiert wird, soll den tatsächlichen Ausprägungsgrad der gemessenen Leistung widerspiegeln können.

Die Validität einer Messung (Gültigkeit) ist das wichigste Gütekriterium, da sie Voraussetzung für die Wirksamkeit der zwei anderen Gütekriterien ist;33 denn sie gibt an, ob das, was gemessen werden soll, auch in der Tat gemessen werden konnte. Z. B. wären zu messende Inhalte oder Aufgaben, die nicht im Unterricht vorkamen, somit ungültig und sie würden die Inhaltsvalidität der Messung verletzen.34

2.2.3 BEZUGSNORMEN

Eine Bezugsnorm ist als Vergleichs- bzw. Bewertungsmaßstab zu verstehen;35 die Zuordnung von Ziffernnoten zu Schülern/innen hat nur dann eine Bedeutung hinsichtlich der zu erreichenden Lernziele, wenn sich das Urteil aus einer vorher bestimmten Bezugsnorm ergibt.

Eine kriteriale (auch sachliche) Bezugsnorm liegt dann vor, wenn die zu messende Leistung mit einem vorherbestimmten anforderungs- oder sachbezogenen Kriterium (z. B. richtige Aussprache im Englischunterricht usw.) verglichen wird;36 sie orientiert sich nach Lehrplanerwartungen bzw. kurrikularen Vorgaben, was bedeutet, dass eine Leistung dann gut ist, wenn die entsprechenden sachlich-fachlichen Anforderungen erfüllt werden.

Eine individuelle Bezugsnorm dagegen orientiert sich teils nach Erwartungen der kriterialen Bezugsnorm, aber ihr pädagogischer Charakter berücksichtigt mehr den individuellen Entwicklungs-stand und den Lern- und Leistungserfolg der Schüler/innen, weil mit dieser Bezugsnorm keine Bewertungsmaßstäbe von außen an die Lernenden herangetragen werden.37 Es wird also rein aus dem Vergleich zu vorangegangenen Leistungen der Schüler/innen geschlossen, wie gut der aktuelle Lernstand ist. Es wird erwartet, dass sich Benotungen zuerst an die kriteriale Bezugsnorm orientieren, indem aber auch der individuelle Fortschritt der Lernenden berücksichtigt wird.38

Schließlich wird bei der Anwendung einer sozialen Bezugsnorm, obwohl sie von Lehrkräften angestrebt wird und eigentlich nicht als Benotungsrichtlinie eingefordert ist, das gesamte Klassenniveau als Bewertungsmaßstab betrachtet.39 In diesem Fall gilt eine Leistung nur dann als gut, wenn sie der Durchschnittsleistung der Lerngruppe entspricht; das heißt, ein mittelmäßiger Schüler wird in einer guten Klasse schlechter, in einer schlechten Klasse besser benotet.

2.2.4 VERZERRUNGEN BEI DER URTEILSBILDUNG

In der Beurteilungspraxis wird angenommen, dass Lehrkräften systematische Beurteilungstendenzen bzw. -fehler unterlaufen, die den objektiven Gehalt einer Benotung reduzieren.40 Sozialpsychologisch gesehen wird jede Personenwahrnehmung von teils unkontrollierbaren und teils unbewussten Erwartungen und Eindrücken beeinflusst und gesteuert.41 Persönlichkeitsmerkmale wie das Alter, die Unterrichtserfahrung, der soziale Hintergrund der Schüler/innen, Sympathien oder Antipathien gegenüber diesen u. a. können in Leistungsbewertungen mit einfließen und die Auswertungs-objektivität reduzieren. Die vorliegende Arbeit befasst sich mit folgenden Beurteilungsfehlern:

Milde- und Strengefehler: Mildefehler entstehen, wenn Lehrkräfte Schulleistungen mit besseren Noten bewerten als sie in der Tat sind; von Strengefehlern spricht man im Gegenteil dann, wenn die Schulleistungen mit schlechteren Noten bewertet werden als sie tatsächlich sind.42 Milde- und Strengefehler sind zum Teil auf die Sympathie bzw. Antipathie oder darauf, wie gut eine Lehrperson eine/n Schüler/in kennt, zurückzuführen.43 Zum Teil aber auch auf persönliche Theorien der Art, dass es pädagogisch nicht richtig sei, streng zu bewerten.44

Tendenz zur Mitte: Bei dem Tendenz-zur-Mitte-Fehler neigen Lehrkräfte dazu, die Noten 1 und 5 zu meiden und den mittleren Bereich der Notenskala zu verwenden.45 Dies hat den Effekt, dass leistungsstarke Schüler/innen benachteiligt und leistungsschwache begünstigt werden.

Tendenz zu Extremurteilen: Bei diesem Beurteilungsfehler neigen Lehrkräfte dazu, die mittleren Noten der Notenskala zu vermeiden und die Leistungen entweder als gut oder als schlecht zu klassifizieren. Beispielsweise verwenden sie überwiegend die Noten 2 und 4, während die Note 1 nur die Könner und die Note 5 nur die Nichtkönner bekommen.46

Der Einfluss des Geschlechts: Häufig wird ein Befund berichtet, wonach sowohl von Lehrern als auch von Lehrerinnen (und bei objektiv gleicher Leistung) an Mädchen bessere Noten vergeben wurden an als Jungen.47 Hier handelt es sich um eine geschlechtsspezifische Benotung. In Befragungen geben Lehrerinnen und Lehrer an, dass sie Mädchen im Vergleich zu Jungen als fleißiger, angepasster und ordentlicher wahrnehmen.48 Über empirische Befunde im Bereich geschlechtsspezifischer Stereotype und Bewertung berichtet die Studie von Trautwein und Baeriswyl, bei der Jungen als kognitiv leistungsfähiger eingeschätzt wurden als Mädchen (bei gleicher Testleistung).49 Die Mädchen dagegen wurden im Bereich der schulischen Motivation mit besseren Noten als die Jungen beurteilt.

Ähnlichkeitsfehler: Lehrkräfte beurteilen solche Schüler/innen besser, wenn deren Ansichten sich mit den eigenen Ansichten, wie Welthaltungen, Ordnungshaltungen, sozialer Herkunft u. ä. ähneln.50 In den Studien von Kaiser et al. wurde überprüft, ob sich die Ethnizität der Schüler/innen positiv oder negativ auf die Leistungsbeurteilung auswirkt und ob der Minderheitenstatus die Urteilsgenauigkeit moderiert.51 Laut den Ergebnissen konnte keine Ungleichbehandlung durch stereotypbedingte Verzerrungen bei den Leistungsbewertungen bestätigt werden. Dagegen konnte aber durch Moderatoranalyse gezeigt werden, dass die Urteilsgenauigkeit vom Minderheitenstatus dergestalt beeinflusst wird, dargestellt, dass die Beurteilung der Minderheiten genauer war.

2.3 BENOTUNG VON MÜNDLICHEN LEISTUNGEN

Mündliche Leistungen werden wegen ihrer interaktiven Natur als Spezialfall in Bezug auf eine präzise Benotung angesehen.52 Dabei muss die Lehrperson gleichzeitig mehrere Aufgaben bewältigen, wie zuhören, einschätzen, ggf. korrigieren, weiterführende Fragen überlegen, interpretieren u. ä. Betrachtet man Lehrkräfte als direkte Messinstrumente von mündlichen Leistungen (ohne die Möglichkeit des Protokollierens oder einer Tonaufnahme), ist es naheliegend, dass die Reliabilität der Messung leicht verletzt werden kann und damit auch die Objektivität, da die Benotung nicht die tatsächliche Leistung widerspiegelt.

Zusätzlich können einige Spezifika der mündlichen Leistungen die subjektive Wahrnehmung aktivieren und die Benotung erschweren.53 Folgende Spezifika sind zu berücksichtigen: (1) Der interaktive Charakter mündlicher Leistungen hat oft zur Folge, dass die Schüler/innen in einem eingeschränkten Zeitrahmen, wenn nicht sogar schnell reagieren müssen.54 Zudem unterscheidet sich die Benotung während eines Lehrer-Schüler-Gesprächs grundlegend von einem Gespräch, bei dem z. B. die ganze Klasse zuhört.55 Grund dafür ist, dass es einigen Schülern/innen schwerer fällt, sich im großen Klassenverband unter Leistungsdruck zu beteiligen als im vertrauten Zweiergespräch. (2) Damit zusammmenhängend ist die Tatsache, dass, während eine Person spricht, die Anwesenheit von mehreren zuhörenden und bewertenden Personen eine Art „Lampenfieber“ für die sprechende Person verursachen und selbst die Schulleistung negativ beeinflussen kann.56 Dadurch kann die Benotung verzerrt werden. (3) Aufgrund der Tatsache, dass Lehrkräfte mündliche Prüfungen nicht ohne Ansehen der Person benoten können, ist die Gefahr unbewusster subjektiver Einflüsse besonders groß.57 Z. B. sieht die Lehrperson bei der mündlichen Leistungsbeurteilung sofort, ob sie eine/n Schüler/in mit Migrationshintergrund benotet. Ist sie gegenüber Schüler/innen ohne Migrationshintergrund positiv eingestellt, kann dies als Ähnlichkeitsfehler (d. h. mit besserer Note) in die Benotung mit einfließen. (4) Mündliche Noten werden generell von einem Milde-Effekt charakterisiert.58 Denn die Wahrscheinlichkeit, dass einem/r Schüler/in die Note 5 oder 6 gegeben wird, ist sehr gering, solange sie oder er nicht völlig stumm bleibt. Und (5) die mündliche Rede ist flüchtig, zeitlich begrenzt und auf sie kann später nicht zurückgegriffen werden.59 Deswegen müssen die wichtigen Bestandteile einer mündlichen Meldung bzw. die jeweils festgesetzten Beobachtungsmerkmale genau erkannt und benotet werden.

3. FRAGESTELLUNGEN UND HYPOTHESE

Aufgrund der Verfügbarkeit von zwei Lehramtsstudierenden neben der Lehrperson sollen die Benotungen von mündlichen Leistungen im Unterrichtsverlauf von drei Bewertern verglichen und daher als erster Schritt folgende Frage beantwortet werden:

Frage 1: (a) In welchem prozentualen Maße weichen die Noten von mündlichen Leistungen zweier Lehramtsstudierender und einer Lehrperson untereinander und zwischeneinander (in zweier Kombinationen) ab? (b) Welche Beobachtungen im Bereich der Übereinstimmungen bzw. der Abweichungen lassen sich laut der Notenverteilung im Notenspektrum feststellen?

Mit Blick auf den dargelegten theoretischen Hintergrund wird angestrebt, noch folgende Frage zu beantworten:

Frage 2: (a) Inwieweit weisen die vergebenen Noten auf die in 2.2.4 dargestellten Beurteilungs-tendenzen bzw. Beurteilungsfehler hin? (b) Wie sind die erhobenen Daten den dargestellten Ergebnissen zufolge hinsichtlich der Gütekriterien zu interpretieren?

Hypothese: Mit der ersten Forschungsfrage wird die Hypothese überprüft, dass externe Beobachter, die aufgefordert werden, mündliche Leistungen im Unterrichtsverlauf zu benoten, zutreffender als die Lehrperson benoten können, da sie vom Unterrichten unbelastet sind. Dies soll sich durch höhere Übereinstimmungsquoten zwischen den externen Beobachtern als zwischen jeweils einem externen Beobachter und der Lehrperson zeigen. Für diese Hypothese wird die Berufserfahrung nicht herangezogen, wohl aber das Fachwissen. Es wird nämlich davon ausgegangen, dass die Lehramtsstudierenden in dieser Phase ihres Studiums mit der Lehrperson vergleichbares Fachwissen haben, denn das Fachwissen hängt nicht immer mit der Berufserfahrung zusammen.60

4. STICHPROBENBESCHREIBUNG

Die Probandengruppe bestand aus Schülern/innen einer 8. Klasse einer integrierten Gesamtschule des Bonner Raums (N = 15, ca. 14 Jahre alt, 40% männlich). Größtenteils war die Lerngruppe dynamisch, und die Lernenden zeigten ähnliches Interesse und Spaß am Lernen, obwohl sie aus unterschiedlichen kulturellen Hintergründen stammten. Der Pubertätsfaktor war durch gelegentliche Hyperaktivitäts-momente bemerkbar und manchmal auch von der Arbeitsform beeinflusst. Genau zwei Drittel der Lernenden wies einen Migrationshintergrund auf. Dass ein großer Anteil dieser nicht deutsche Muttersprachler waren, war für den Englischunterricht und die Bewertung von mündlichen Leistungen nicht erschwerend, denn bis auf sehr wenige Ausnahmesituationen erlaubte die Lehrperson für diese Jahrgangsstufe nur Englisch als Kommunikationssprache.

Beschreibung der Bewerter: Die Lehrperson (zwischen 41–50 Jahre alt) unterrichtet seit 8 Jahren Englisch und Spanisch und hat angegeben, dass sie den Lernstand ihrer Schüler/innen gut kennt und sich generell Schülernamen schnell merken kann. Eine Angabe über die Selbsteinschätzung als Bewerterin (z. B. mild, neutral, streng) konnte sie nicht machen. Die zwei Lehramtsstudierenden (jeweils zwischen 21–30 und 31–40 Jahre alt) durchliefen den Masterstudiengang und konnten schulische Erfahrungen durch die Pflichtpraktika aus dem Studium nachweisen, wobei der eine zweijährige Unterrichtserfahrung in einer privaten Sprachschule hatte. Sie gaben an, dass sie mündliche Leistungen in einer öffentlichen Schule zum ersten Mal bewerten und dass sie sich als neutrale Bewerter einschätzen.

5. METHODISCHE HERANGEHENSWEISE

Das Experiment wurde als ein semiformeller diagnostischer Prozess durchgeführt,61 d. h. im Gegensatz zu formellen diagnostischen Prozessen wie mündlichen Prüfungen, Klassenarbeiten usw. wurden die Schülermeldungen als Teil üblicher Unterrichtsstunden aufgefasst und daher sind sie nicht als explizite leistungsrelevante Merkmale in Endnoten eingeflossen. Den Schülern/innen wurde nicht bekannt gemacht, dass sie benotet werden würden, damit sie dadurch nicht beeinflusst werden.

5.1 MESSINSTRUMENTE

Die erhobenen Daten stammen hauptsächlich aus Beobachtungsbögen mit Ziffernnoten und Personenmerkmalen (s. auch Anlagen, A1–A3). Die wesentlichen Variablen der Studie werden im Folgenden beschrieben:

Ziffernnoten: Die Benotung von mündlichen Leistungen wurde im Fach Englisch und auf der schulischen sechsstufigen Notenskala über 5 Durchgänge von 3 Personen und für 15 Schüler/innen erfasst. Jedoch wurden die Noten 1+, 4-, 5+, 5- und 6 nach Vorschlag der Lehrperson ausgelassen, denn in der erwarteten Kürze der Wortmeldungen bieten z. B. die Noten 4-, 5+, 5- und 6 keine transparente Leistungsdifferenzierung. Die mangelhaften Leistungen sollten mit der Note 5 bezeichnet werden.

Personenmerkmale: Durch Kurzinterviews wurden von der Lehrperson Grundmerkmale der Klasse wie Alter, Migrationshintergrund und Gesamtprofil erhoben. Außerdem wurden auch Daten der Bewerter wie Fächerkombination der Lehrperson, Alter, Berufserfahrung und Selbsteinschätzung aller drei als Bewerter (z. B. mild, streng, neutral) erfragt.

Zu der Konzeption der Beobachtungsbögen: Der Beobachtungsbogen für die ersten zwei Durchgänge wurde nach Vorschlag der Lehrperson in die Phasen Einstieg, Erarbeitungsphase I, Erarbeitungsphase II und Sicherung eingeteilt (vgl. Anlagen, A2). Für jede Phase musste eine Ziffernnote pro geprüfter Person pro Unterrichtsphase angegeben werden, die die Korrektheit der Grammatik, der Syntax, des vewendeten Vokabulars, des Inhalts und der Häufigkeit der Wortmeldungen spiegelten.62 Falls es möglich war, konnte auch eine kurze Begründung für die erteilte Note angegeben werden. Die Kriterien wurden folgendermaßen bestimmt: (1) Die Grammatik (grammar) umfasste jede Art syntaktischer und grammatischer Korrektheit, z. B. richtige Wortformen, Tempora, Sinn usw., wie auch die korrekte Aussprache und Betonung der Wörter. (2) Der Wortschatz (vocabulary) bezog sich auf die passende Auswahl von Wörtern im gegebenen Kontext, um die Fragen zu beantworten, sowie auf die Reichheit des Wortschatzes. (3) Die Bewertung des Inhalts (content) repräsentierte den Verständnisgrad, d. h. wie themenrelevant zu den gestellten Fragen die jeweiligen Antworten waren. Der inhaltliche Umfang aller zu berücksichtigenden Kriterien wurde den Bewertern erläutert. Aufgrund der erlebten Schwierigkeit, auf diese Weise zu bewerten, da sie sehr hohe und pausenlose Konzentration in Anspruch nahm, auch für die Lehrperson, die gleichzeitig unterrichten musste, wurde die Bewertungsphase ab dem dritten Durchgang auf 15–20 Min. und auf nur eine Unterrichtsphase pro Durchgang beschränkt. Zusätzlich zu den o. g. Bewertungskriterien wurde als (4) der Fleiß (effort bonus) berücksichtigt; dieser bezog sich auf Sprechfluss, Sprechdauer, wie auch Häufigkeit der Wortmeldungen. Der geänderte Beobachtungsbogen hatte nun vier Spalten je Schüler/in, in die eine Note für jedes der vier Kriterien eingetragen werden musste (s. Anlagen, A3). Am Ende sollten Durchschnittsnoten individuell berechnet werden. Die sprachlichen Inhalte wurden größtenteils aus Frage-Antwort-Aufgaben gewonnen, die auf Texten basierten und bei denen sich möglichst alle Lernenden freiwillig oder nach Aufforderung melden sollten, um ihre Antworten zu bewerten (s. Anlagen, A4). Nur im 4. Durchgang erfolgte eine mündliche Kurzpräsentation, bei der aufgrund der zeitlichen Einschränkung nur vier Personen geprüft und benotet werden konnten. Während die Rückmeldungen in den anderen Durchgängen aus etwa 2-3 Sätzen bestanden, bestanden sie im 4. Durchgang aus mindestens der doppelten Menge von Sätzen.

5.2 ABLAUF

Die Lehramtsstudierenden haben während der Beobachtungs- und Benotungsphase nicht am Unterricht teilgenommen, sondern sie beobachteten und bewerteten die mündlichen Leistungen bis zum Ende der Kontrollübung. Sie haben zusätzlich mit Hilfe eines Sitzplans arbeiten müssen, da sie im hinteren Klassenbereich saßen und sonst die Schüler/innen namentlich nicht immer zutreffend hätten erkennen können. Die Lehrperson dagegen musste gleichzeitig den Unterricht moderieren und die Noten in den vor sich liegenden Beobachtungsbogen aufschreiben.63 Ansonsten erfolgte die Benotung nach einer gezielten Abfrage von Unterrichtsinhalten bei möglichst allen Schülern/innen.64

5.3 AUSWERTUNG

5.3.1 BERECHNUNG VON ABWEICHUNGEN

Die tabellarische Darstellung der Benotungen ermöglicht es, die Abweichungen nach ihrer Größe darzustellen. Das Benotungsspektrum wird zu diesem Zweck in drei Abweichungsbereiche geteilt:

1. Keine oder geringe Abweichungen. In diesem Bereich stimmen die Benotungen aller drei Bewerter überein, da sie sich in derselben Notenspalte befinden, oder sie stimmen fast überein, wenn sie in zwei nebeneinanderliegenden Notenspalten verteilt sind. Dies gilt auch für die Notenbereiche 4 und 5 aufgrund der Auslassung der Zwischennoten 4- und 5+. Es wird definiert, dass Benotungen, die in diesem Bereich klassifiziert werden, als Übereinstimmungen gelten.
2. Mittlere Abweichungen. Die Benotungen dieses Bereiches sind unter drei nebeneinanderliegenden Notenspalten verteilt.
3. Große Abweichungen. Die Benotungen dieses Bereiches sind unter vier oder mehr nebeneinander-liegenden Notenspalten verteilt.

Dasselbe Prinzip wird auch dann angewendet, wenn Abweichungen zwischen zwei Bewertern bestimmt werden. Bei der Bestimmung der Abweichungen wird der entsprechende Abweichungs-bereich mit den Zahlen 1 bis 3 in den unterschiedlichen Bewerter-Kombinationen angegeben. Sodann wird prozentual zu der Gesamtzahl der Bewertungen, die in den fünf Durchgängen variiert, berechnet, wie oft die Abweichungsbereiche 1 bis 3 jeweils vorkommen. Hierzu folgendes Beispiel (N = 6):

Abbildung in dieser Leseprobe nicht enthalten

5.3.2 BEURTEILUNGSTENDENZEN BZW. BEURTEILUNGSFEHLER

Das Datenerhebungskonstrukt ermöglicht es, die im Absatz 2.2.4 dargestellten Beurteilungstendenzen bzw. -fehler außer Milde- und Strengefehlern nach qualitativer Beschreibung der erstellten Tabellen und des Diagramms zu untersuchen.

Zu der Bestimmung von Milde- und Strengefehlern: Ohne die Möglichkeit, erneut auf die Wortmeldungen zuzugreifen, wie es bei dem Experiment der Fall ist, erscheint die Bestimmung etwaiger Milde- und Strengefehler problematisch. Denn es ist schwer, einen Maßstab zu finden, der die Definition von Milde- und Strengefehlern „milder bzw. strenger als die Leistungen in der Tat sind“ erfüllt. Es wäre eingeschränkt möglich, durch einen Vergleich von zwei Benotungen mit der dritten teilweise einige Aussagen über Milde- und Strengefehler zu machen, aber nur wenn eine Tendenz hinreichend oft erkannt werden kann. Es könnte folgendermaßen vorgegangen werden: Liegt eine Note in den Extremnotenbereichen 1, 1-, 4+, 4 und 5 alleine, so dass sie von den Noten der zwei anderen Bewerter abweicht, dann gilt sie jeweils als mild (also wenn im Notenbereich 1, 1-) oder als streng (wenn im Notenbereich 4+, 4, 5); liegen zwei Noten in einem Extremnotenbereich, wobei die dritte abweicht, dann gilt die dritte als streng, wenn die anderen zwei höher stehen (im Notenbereich 1, 1-) oder als mild, wenn die anderen zwei tiefer stehen (im Notenbereich 4+, 4, 5). Grundannahme für das Gelingen dieser Messart ist, dass sehr gute oder sehr schlechte Leistungen leichter zu erkennen sind und deswegen zu erwarten ist, dass mindestens zwei von drei Bewertern dies erkennen sollten. Obwohl eine solche Herangehensweise bei einer größeren Anzahl von Bewertern aussagekräftiger wäre, wird trotzdem versucht, im Ergebnisteil (Punkt 6.2), eine Schlussfolgerung zu ziehen.

6. ERGEBNISSE

Bevor die Ergebnisse dargestellt werden, sollen folgende Punkte beachtet werden, die im Laufe der Durchgänge vorgekommen sind: (1) Aufgrund der sich gezeigten Schwierigkeit, mit dem ersten Beobachtungsbogen zu benoten, wurden von den ersten zwei Durchgängen lediglich die Benotungen der jeweils ersten Unterrichtsphasen herangezogen. Denn auf diese Weise wird die Gefahr, dass vorherige Eindrücke über Schülermeldungen in die Benotungen mit einfließen, minimiert.65 (2) Obwohl ab dem zweiten Durchgang festgelegt wurde, die Note 5 für die mangelhafte Leistung zu verwenden, erscheint in manchen Benotungen trotzdem keine Angabe außer „keine Meldung“ (vgl. Anlagen, A3). Diese Fälle wurden tabellarisch mit der Note 5 ausgewertet, nicht aber verändert wurden die Leistungen, die mit 4 benotet wurden und neben denen trotzdem „keine Beteiligung“ o. Ä stand (vgl. Anlagen, A2). (3) Im dritten Durchgang wurde die Spalte für die Benotung des Fleißes von LS1m nicht ausgefüllt. Trotzdem floss eine im Kopf des Bewerters gerechnete Note in die Durchschnittsnote mit ein. Dasselbe ist im fünften Durchgang bei Lw vorgekommen. (3) Im selben (dritten) Durchgang kam es vor, dass die Lehrperson die Benotungen für alle Schüler/innen nach Ablauf der Unterrichtsstunde in den Bewertungsbogen eintrug. Dafür wurde kein Grund angegeben, aber es war eine interessante Variante, um den Konzentrationsgrad oder die Gedächtnisfunktion der Lehrperson mit derjenigen der Lehramtsstudierenden zu vergleichen. (4) Im vierten Durchgang erfolgte aufgrund der zeitlichen Einschränkung eine mündliche Präsentation von lediglich vier Schülern/innen.

6.1 ABWEICHUNGEN

Um Frage 1 bezüglich der Abweichungen unter den Bewertern zu beantworten, wurden die Daten tabellarisch dargestellt und in Abweichungs- bzw. Übereinstimmungsbereiche eingeteilt (Tabellen 1-5). Laut der Gesamtübersicht nehmen die mittleren und großen Abweichungen unter den drei Bewertern 58,3 Prozent (jeweils 15 und 43,3 Prozent) der Benotungen ein und bei den drei Zweier-Kombinationen, d. h. zwischen Lw/LS1m wie auch Lw/LS2m jeweils 44,9 Prozent (jeweils 16,6 und 28,3 Prozent) und zwischen LS1m/LS2m 36,6 Prozent (jeweils 8,3 und 28,3 Prozent; vgl. Tabelle 6, Bereiche 2 und 3). Übereinstimmungen dagegen nehmen unter den drei Bewertern 41,6 Prozent ein, zwischen einem Lehramtsstudierenden und der Lehrperson jeweils 55 Prozent und zwischen beiden Lehramtsstudierenden beträgt die Quote 63,3 Prozent. Zum Vergleich bietet Tabelle 6 eine Übersicht der Quoten der Abweichungen und Übereinstimmungen ohne den ersten Durchgang (s. auch 7. Diskussion, 1. Frage). Zieht man Klassendurchschnittsnoten in allen Durchgängen pro Bewerter in Betracht (gerundet zum nächsten ±0,3 Punkt, außer bei Durchschnittswerten, die im Nachkommebereich exakt 0,5 betragen), kommt man auf übereinstimmende Bewertungen in beiden Lernendengruppen, d. h. bei Schülern/innen mit und ohne Migrationshintergrund (vgl. Tabelle 7).

[...]


1 Vgl. Schrader 2013, S. 154; vgl. Schrader 2009, S. 237.

2 Vgl. Baumert und Kunter 2006, S. 485.

3 Schrader 2008, S. 168; vgl. Schrader und Helmke 2001, S. 48.

4 Vgl. Schrader 2009, S. 237.

5 Vgl. Baumert und Kunter 2006, S. 489.

6 Vgl. Schrader 2009, S. 242; vgl. Weinert und Schrader 1986, S. 18f.

7 Zitiert aus Hesse und Latzko 2017, S. 31.

8 Vgl. ibid.

9 Vgl. Schrader 2009, S. 237; Praetorius und Südkamp 2017, S. 11.

10 Vgl. Schrader 2013, S. 154; vgl. Holmeier 2013, S. 96.

11 Vgl. Praetorius und Südkamp 2017, S. 13.

12 Vgl. Thiede et al. 2015, S. 4.

13 Vgl. Dollinger 2013, S. 37.

14 Vgl. Kunter et al. 2017, S. 37f.

15 Vgl. Kaiser und Möller 2017, S. 55, 71.

16 Vgl. Dünnebier et al. 2009, S. 187, 193f.

17 Ingenkamp und Lißmann 2008, S. 131. Für eine Bedeutung in anderen Kontexten vgl. Holmeier 2013, S. 93ff.

18 Vgl. Jürgens und Sacher 2008, S. 47f.

19 Zangemeister 2014, S. 143.

20 Vgl. Köck und Ott 1976, S. 250.

21 Entnommen aus Rezat 2014, S. 99

22 Vgl. Jürgens und Sacher 2008, S. 52; vgl. Schrader und Helmke 2001, S. 45.

23 Entnommen aus Rezat 2014, S. 99.

24 Vgl. Wengert 2014, S. 329.

25 Vgl. Hesse und Latzko 2017, S. 68.

26 Vgl. Jürgens und Sacher 2008, S. 102.

27 Schulgesetz NRW 2016, §48.

28 Vgl. Jürgens und Sacher 2008, S. 70.

29 Vgl. Mietzel 2001, S. 416; vgl. Hesse und Latzko 2017, S. 72.

30 Vgl. Jürgens und Sacher 2008, S. 70.

31 Vgl. Mietzel 2001, S. 418.

32 Vgl. Jürgens und Sacher 2008, S. 70.

33 Vgl. ibid.; vgl. Hesse und Latzko 2017, S. 74.

34 Vgl. Jürgens und Sacher 2008, S. 71.

35 Vgl. ibid., S. 69.

36 Vgl. Jürgens und Sacher 2008, S. 69, 101.

37 Vgl. ibid., S. 69, 101f.

38 Vgl. Holmeier 2013, S. 135f.

39 Vgl. ibid.; vgl. Jürgens und Sacher 2008, S. 69, 101.

40 Vgl. Jürgens und Sacher 2008, S. 74.

41 Vgl. Wengert 2014, S. 330.

42 Vgl. Jürgens und Sacher 2008, S. 74.

43 Vgl. ibid., S. 75.

44 Vgl. Hesse und Latzko 2017, S. 50.

45 Vgl. Jürgens und Sacher 2014, S. 75; vgl. Hesse und Latzko 2017, S. 50.

46 Vgl. Hesse und Latzko 2017, S. 50.

47 Vgl. Wengert 2014, S. 331.

48 Vgl. ibid.

49 Vgl. Trautwein und Baeriswyl 2007, S. 125f, S. 131.

50 Vgl. Jürgens und Sacher 2008, S. 76f.

51 Vgl. Kaiser und Möller 2017, S. 70.

52 Vgl. ibid., S. 116.

53 Vgl. Krumwiede et al. 2014, S. 17.

54 Vgl. Kirk 2004, S. 38; vgl. Jürgens und Sacher 2008, S. 116.

55 Vgl. Krumwiede et al. 2014, S. 17.

56 Vgl. ibid.

57 Vgl. Wengert 2014, S. 339.

58 Vgl. ibid., S. 339.

59 Vgl. Jürgens und Sacher 2008, S. 117; vgl. Wengert 2014, S. 338.

60 Vgl. McElvany et al. 2009, S. 223, 233.

61 Vgl. Hascher 2008, S. 75.

62 Vgl. Linsenmodell von Förster und Böhmer 2017, S. 46f.; vgl. DESI-Consortium 2006, S. 17; vgl. auch die Tabelle in Muñoz Restrepo et al. 2003, S. 70, sowie die zu testenden wichtigen mündlichen Aspekte in ibid., S. 69f. Zu dem Umfang der mündlichen Mitarbeit, s. auch die grafische Darstellung in Krumwiede et al. 2014, S. 23.

63 Es muss noch klar gestellt werden, dass die Beobachtungen der letzten drei Durchgänge ca. 15–20 Min. gedauert haben. Eine Beobachtung aller Schüler/innen während der gesamten Unterrichtsstunde—wie es am Anfang angestrebt wurde—war nicht zu realisieren. Vgl. auch Krumwiede et al. 2014, S. 19 und Wengert 2014, S. 340.

64 Vgl. Wengert 2014, S. 340.

65 Man soll „nicht zu große Zeitabschnitte wählen, damit keine Erinnerungsverzerrungen auftreten.“ Wengert 2014, S. 340.

Ende der Leseprobe aus 35 Seiten

Details

Titel
Die Bewertung von mündlichen Leistungen im Unterricht. Ein Experiment zur qualitativen Bestimmung von Abweichungen und Tendenzen unter drei Bewertern
Hochschule
Rheinische Friedrich-Wilhelms-Universität Bonn
Note
1,3
Autor
Jahr
2018
Seiten
35
Katalognummer
V595951
ISBN (eBook)
9783346229403
Sprache
Deutsch
Schlagworte
Leistungsbewertung, Englischunterricht, Mündliche Leistungen, Bewertungskriterien, Beurteilungsfehler, Beurteilungstendenzen, Messinstrumente
Arbeit zitieren
Michail Barkas (Autor), 2018, Die Bewertung von mündlichen Leistungen im Unterricht. Ein Experiment zur qualitativen Bestimmung von Abweichungen und Tendenzen unter drei Bewertern, München, GRIN Verlag, https://www.grin.com/document/595951

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Die Bewertung von mündlichen Leistungen im Unterricht. Ein Experiment zur qualitativen Bestimmung von Abweichungen und Tendenzen unter drei Bewertern



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden