Warum lügen Kinder? Dieser Frage wollte sich die Entwicklungspsychologin Hildegard Baumgarten vor zirka einem Jahrhundert annehmen. Ihre empirischen Untersuchungen ließen nur einen Schluss zu: Die „Schulnote ist der Giftpilz des Haus- und Schullebens“ und eine „unerschöpfliche Quelle des Lügens“ (Baumgarten 1917).
Baumgarten bildet mit ihrer ernüchternden Analyse über Schulnoten, den Anstoß für eine Diskussion, die bis heute fortdauert: Wie nützlich beziehungsweise schädlich sind Ziffernnoten? Wie verlässlich, objektiv und gültig ist ihre Handhabung? Was spiegelt eine zensurengesteuerte Leistungsbewertung wirklich wieder?
Bis heute wird darüber im erziehungswissenschaftlichen und gesellschaftlichen Diskurs gestritten. Die Pole in der Diskussion sind mitunter radikal und erinnern an einen Glaubenskrieg. Vielfältige Alternativen für die Schulpraxis werden präsentiert – und haben dennoch einen schweren Stand, sich gegen die scheinbar übermächtigen Zensuren hinwegzusetzen. Eine „Revolution“ in der pädagogischen Diagnostik, wie unter anderem Beck sie fordert, war und ist scheinbar nicht in Sicht.
Denn es gibt in der Diskussion um die Leistungsbewertung nicht nur Zensuren-Gegner. Verfechter der Ziffernnoten findet man vor allem dort, wo man es zunächst nicht erwartet. Schüler sind im Großen und Ganzen mit dem System zufrieden, auch Eltern wünschen sich ein Feedback durch Noten. Einer Studie von Beutel zufolge, unterstützten gerade mal zwölf Prozent der Schüler die Forderung „Ich bin für eine Schule ohne Noten“ (Valtin 2002).
Auch auf politischer Ebene können sich viele eine Schule ohne Noten nicht recht vorstellen. Roman Herzog (Bundespräsident a.D.) warnte in seiner berühmten „Ruck-Rede“ 1997 vor „notenfreier Kuschelpädagogik“: „Wer die Noten aus den Schulen verbannt, schafft Kuschelecken, aber keine Bildungseinrichtungen, die auf das nächste Jahrtausend vorbereiten.“ (Herzog 1997).
Inhaltsverzeichnis
1. Einleitung
2. Zweck und Funktion einer Leistungsbeurteilung durch Ziffernnoten
2.1 Leistung und Leistungsbeurteilung als begriffliche Grundlagen
2.2 Zweck und Funktion der Leistungsbeurteilung
3. Messtheoretische Anforderungen an Noten
3.1 Objektivität
3.2 Reliabilität
3.3 Validität
4. Empirische Forschungsbefunde: Noten im Abseits
4.1 Empirische Befunde zur Objektivität
4.2 Empirische Befunde zur Reliabilität
4.3 Empirische Befunde zur Validität
4.4 Aktuelle Befunde bezüglich der Vergleichbarkeit von Noten
4.5 Weitere Mängel bei der Leistungsbeurteilung durch Ziffernnoten
4.5.1 Prognostische Sinnlosigkeit
4.5.2 Informationsarmut und „Notengeilheit“
5. Leistungsbeurteilung im Sachunterricht: Ein besonders schwieriges Terrain
5.1 Ansprüche des Sachunterrichts
5.2 Das Beurteilungs-Dilemma im Sachunterricht
5.3 Empirische Untersuchungen zur Leistungsbeurteilung im Sachunterricht
6. Empirische Analyse: Eine explorative Untersuchung zur Sinnhaftigkeit von notenbasierenden Sachunterrichtstests
6.1 Fragestellung der empirischen Untersuchung
6.2 Methodisches Vorgehen
6.2.1 Begründung für qualitative Herangehensweise
6.2.2 Methodik der Qualitativen Inhaltsanalyse nach Philipp Mayring
6.2.2.1 Ablauf der qualitativen Inhaltsanalyse
6.2.2.2 Vor- und Nachteile der Methode
6.2.2.3 Modifizierung des Ablaufs
6.3 Verlauf und Auswertung des Forschungsprozedere
6.3.1 Beschreibung des Materials
6.3.2 An das Material herangetragene Fragen und Kriterien
6.3.3 Darstellung der Ergebnisse
6.3.3.1.Ergebnisse bezogen auf den ersten Test (T1)
6.3.3.1.1 Ergebnisse für das erste Validitätskriterium
6.3.3.1.2 Ergebnisse für das zweite Validitätskriterium
6.3.3.1.3 Weitere Auffälligkeiten
6.3.3.2 Ergebnisse bezogen auf den zweiten Test (T2)
6.3.3.2.1 Ergebnisse für das erste Validitätskriterium
6.3.3.2.2 Ergebnisse für das erste Validitätskriterium
6.3.3.2.3 Weitere Auffälligkeiten
6.3.3.3 Ergebnisse bezogen auf den dritten Test (T3)
6.3.3.3.1 Ergebnisse für das erste Validitätskriterium
6.3.3.3.2 Ergebnisse für das zweite Validitätskriterium
6.3.3.3.3 Weitere Auffälligkeiten
6.4 Fazit der Untersuchung
7. Konsequenzen für die Leistungsbewertung im Sachunterricht – und anderen Schulfächern
7.1 Ablehnung der Note als Beurteilungsinstrument
7.2 Das Fallbeispiel Portfolio als Alternative für den Sachunterricht
8. Konklusion: Ignoranz versus besseren Wissens
Literaturverzeichnis
1.Einleitung
Warum lügen Kinder? Dieser Frage wollte sich die Entwicklungspsychologin Hildegard Baumgarten vor zirka einem Jahrhundert annehmen. Ihre empirischen Untersuchungen ließen nur einen Schluss zu: Die „Schulnote ist der Giftpilz des Haus- und Schullebens“ und eine „unerschöpfliche Quelle des Lügens“ (Baumgarten 1917, bei Valtin 2002, S. 11).
Baumgarten bildet mit ihrer ernüchternden Analyse über Schulnoten, den Anstoß für eine Diskussion, die bis heute fortdauert: Wie nützlich beziehungsweise schädlich sind Ziffernnoten? Wie verlässlich, objektiv und gültig ist ihre Handhabung? Was spiegelt eine zensurengesteuerte Leistungsbewertung wirklich wieder?
Bis heute wird darüber im erziehungswissenschaftlichen und gesellschaftlichen Diskurs gestritten. Die Pole in der Diskussion sind mitunter radikal und erinnern an einen Glaubenskrieg: So sieht Beck in den „Noten und Zeugnisse[n] [...] Instrumente der Herrschaftssicherung!“ (Beck 1974, bei Ingenkamp 1989, S. 36). Seine eindringliche Forderung: „Schafft die Noten ab!“ (ebd.)
Vielfältige Alternativen für die Schulpraxis werden präsentiert – und haben dennoch einen schweren Stand, sich gegen die scheinbar übermächtigen Zensuren hinwegzusetzen. Eine „Revolution“ in der pädagogischen Diagnostik, wie unter anderem Beck sie fordert, war und ist scheinbar nicht in Sicht.
Denn es gibt in der Diskussion um die Leistungsbewertung nicht nur Zensuren-Gegner. Verfechter der Ziffernnoten findet man vor allem dort, wo man es zunächst nicht erwartet. Schüler[1] sind im Großen und Ganzen mit dem System zufrieden, auch Eltern wünschen sich ein Feedback durch Noten (vgl. Valtin 2002, S. 21).Einer Studie von Beutel zufolge, unterstützten gerade mal zwölf Prozent der Schüler die Forderung „Ich bin für eine Schule ohne Noten“ (Valtin 2002, S. 15).
Auch auf politischer Ebene können sich viele eine Schule ohne Noten nicht recht vorstellen. Roman Herzog (Bundespräsident a.D.) warnte in seiner berühmten Ruck-Rede“ 1997 vor „notenfreier Kuschelpädagogik“: „Wer die Noten aus den Schulen verbannt, schafft Kuschelecken, aber keine Bildungseinrichtungen, die auf das nächste Jahrtausend vorbereiten.“ (Herzog 1997, bei Spies 2007)
Viele andere Studien hingegen zeigen indes ein eindeutiges Bild. Demnach gilt die Zensurengebung als höchst problematisch. Fragwürdig erscheinen Objektivität, Validität und Reliabilität. Ingenkamp - der Autor des Pädagogik-Bestsellers „Die Fragwürdigkeit der Zensurengebung“ - spricht bei der Notengebung von einem „Glücksspiel“, anstelle eines fairen Wettbewerbes (vgl. Sacher 1994, S. 23).
Dabei ist gerade der Sachunterricht der Primarstufe ein besonders heikles Feld. Mit seinen vielfältigen aber schwammigen fachlichen und didaktischen Anforderungen, die er an sein Fach und die Schüler stellt, lässt sich hier sehr gut die Problematik der Notengebung erörtern und diskutieren. So beschreibt selbst eine bayerische „Handreichung zur Ermittlung und Beschreibung von Schülerleistungen“ aus dem Jahr 1987 den Sachunterricht als „Problemfach des beurteilenden Lehrers“ (Nuding 2004, S. 29).
Die Frage lautet: Kann ein Sachunterricht, in dem die „Anbahnung langfristig zu erwerbender Einstellungen, Verhaltensweisen und Fähigkeiten“ (Kutzner 1998, S. 28) Priorität besitzt, überhaupt durch herkömmliche schriftliche Arbeiten, die mit einer Ziffernnote quittiert werden, erfolgen? Können Ziffernnoten eine zuverlässige Quelle sein, um Leistung im Sachunterricht (aber auch anderen Fächern) einzuschätzen?
Relevant für die vorliegende Bachelor-Arbeit wird es sein, dieser Problematik – bezogen auf den Sachunterricht im Speziellen und in anderen Schulfächern im Allgemeinen – nachzugehen.
In einem deduktiven Argumentationsvorgang wird dabei im ersten Teil der Arbeit eine begriffliche Fundierung vorgenommen, um anschließend theoretische Funktionen und Ansprüche an Ziffernnoten darzustellen. Im zweiten Teil soll aus empirischen Studien dargelegt werden, inwiefern Noten die an sie gestellten Funktionen und Kriterien im allgemeinen erfüllen beziehungsweise nicht erfüllen. Im dritten Teil wird die Fragestellung weiter auf den Sachunterricht zugespitzt und mithilfe der explorativ angelegten empirischen Untersuchung hinterfragt, inwiefern Sachunterrichtstests und ihre Bewertung durch Ziffernnoten sinnvoll sind. Aus den gewonnenen Erkenntnissen, wird im vierten Teil geschlussfolgert, inwieweit Ziffernnoten eine angemessene Form der Leistungsbeurteilung im Sachunterricht darstellen. Am Ende der Arbeit soll versucht werden, eine mögliche Alternative zur traditionellen Leistungsbeurteilung im Sachunterricht aufzuzeigen und anzureißen, welche „Trends“ sich in der aktuellen Schulpraxis erkennen lassen.
2. Zweck und Funktion einer Leistungsbeurteilung durch Ziffernnoten
Die Ziffernnote ist weit verbreitet. Zwar ist die Grundschule in den meisten deutschen Bundesländern zumindest in den Klassen 1 bis 2, in manchen Fällen auch bis Klasse 3, von der Zensurengebung befreit, aber danach greift auch hier die vorgeschriebene Leistungsbeurteilung durch Benotung. Spätestens dann wird auch im Sachunterricht die Zensur eingesetzt, um Schülerleistungen zu bewerten.
Bevor in den folgenden Kapiteln die Zensurengebung einer kritischen Analyse unterzogen wird, sollen zunächst die begrifflichen Grundlagen für diese Diskussion geschaffen werden. Es geht darum, die zentralen Begriffe dieser Arbeit – Leistung, Leistungsbeurteilung, Leistungsmessung – kurz genauer zu betrachten, definitorisch zu bestimmen, um sie somit halbwegs präzise von anderen Begriffen zu unterscheiden.
Weiterhin soll aufgezeigt werden, welchen Zweck und welche Funktionen eine Leistungsbeurteilung durch Noten in unserer Gesellschaft erfüllt, da dies wichtige Ansatzpunkte für eine kritische Auseinandersetzung sind.
2.1 Leistung und Leistungsbeurteilung als begriffliche Grundlagen
Eine begriffliche Auseinandersetzung mit dem abstrakten „Leistungs“-Begriff ist deshalb wichtig, da im pädagogischen Rahmen Leistung und Leistungssmessung anders betrachtet werden als in technischen oder ökonomischen Denkmodellen (vgl. Nuding 2004, S. 7).
Sacher definiert demnach Leistung als „Handeln oder ein Handlungsergebnis mit ausdrücklichem Bezug auf einen Gütemaßstab“ (Sacher 1994, S. 1). Klafki formuliert es ähnlich. Er sieht Leistung „als Ergebnis und Vollzug einer Tätigkeit, die mit Anstrengung und gegebenenfalls Selbstüberwindung verbunden ist und für die Gütemaßstäbe anerkannt werden“ (Nuding 2004, S. 12).
Aus diesen Überlegungen kann geschlussfolgert werden, dass nicht jede menschliche Handlung per se als Leistung betrachtet werden kann. Mit dem „Leistungs“-Begriff ist eine menschlich-synthetische normative Vorstellung verbunden, die veränderbar ist. Menschliche Aktivitäten und Produkte erhalten erst „mit der Entscheidung, sie unter dem Aspekt der Leistung zu betrachten […] leistungsthematischen Charakter“ (Grittner 2007, S. 513).
Diese Phase kann auch als Leistungsermittlung bezeichnet werden (vgl. Grittner 2007, S. 513). Der Ermittlung einer Leistung erfolgt im zweiten Schritt die Beurteilung (vgl. ebd.). Notwendig ist, diese beiden Phasen voneinander getrennt zu betrachten. Das heißt, erst wenn eine Person in einem Kontext, in dem Leistung präsentiert werden soll, diese auch gezeigt hat, kann sie anschließend unter normativen Kriterien und Gütemaßstäben bewertet werden.
Im schulischen Geschehen ist Leistung nach Nuding eine „Relationsgröße“ (Nuding 20044, S. 12). Diese würde sich folglich an drei zentralen Bezugsgrößen orientieren: „Bezug zum Leistenden selbst, zu seiner vorangegangenen Leistung, Bezug zu den Mitleistenden und deren Leistungen sowie Bezug zum Gegenstand der Leistung“ (ebd.). Man spricht hierbei auch von den drei Bezugsnormen der schulischen Leistungsbewertung (individuell, sozial und kriterial) (vgl. Grittner 2007, S. 518).
Will man Leistung hingegen individualisieren und konkret auf die individuelle Leistung eines Schülers beziehen, eignet sich die Definition von Beck. Sein Verständnis von Leistung ist es, „Entwicklung von Leistungsfähigkeit und Förderung von Leistungstrieben bei jedem einzelnen Kind entsprechend seiner eigenen Lebensgeschichte“ (Nuding 2004, S. 13) anzusehen. Als Konsequenz aus diesem Leistungsverständnis müsste sich allerdings auch eine Individualisierung des Unterrichts sowie der Lernangebote ergeben (vgl. ebd.).
2.2 Zweck und Funktion der Leistungsbeurteilung
Die Leistungsbeurteilung durch Ziffernnoten in der Schule ist mit einer Vielzahl von Funktionen besetzt und richtet sich an eine Vielzahl von Adressaten. In der wissenschaftlichen Diskussion finden sich zahlreiche Beschreibungen, die die Funktionen der Zensurengebnung sehr differenziert betrachten. Im Folgenden sollen durch eine Auswahl von Autoren die wesentlichen Funktionen dargestellt werden, über die breiter Konsens herrscht.
Tillmann und Vollstädt geben einen knappen und übersichtlichen Überblick über die Funktionen der Zensurengebung und unterscheiden dabei vor allem zwei Bedeutungsebenen: zum einen die soziologische und zum anderen die pädagogische Bedeutung der Leistungsbewertung (vgl. Valtin 2002, S. 17).
In der soziologischen Bedeutung werden vor allem schulexterne gesellschaftliche Erwartungen an die Schule und den Unterricht herangetragen. So muss die Leistungsbewertung die Auslesefunktion, Zuweisung, Integration und Sozialisation und den Qualifikationsnachweis übernehmen (vgl. ebd.). Auf der pädagogischen Ebene hingegen soll Leistungsbewertung vor allem der Rückmeldung über Verlauf und Optimierungsmöglichkeiten der Lernprozesse der Schüler (an Schüler und Eltern) dienen und Motivations- und Anreizfunktionen bieten. Noten dienen allerdings auch der Disziplinierung von Schülern im Unterricht und übernehmen die Funktion der Internalisierung des gesellschaftlichen Leistungsprinzips (vgl. ebd.).
Jürgens und Sacher schließen sich dieser Betrachtung an und unterteilen die Leistungsbewertung durch Noten ebenfalls auf zwei Ebenen (pädagogisch und gesellschaftlich), zeigen aber weitere untergeordnete Funktionen auf (vgl. Jürgens/Sacher 2000, S. 20).
Auf der gesellschaftlichen Ebene sehen sie vor allem die Selektions- und Zuteilungsfunktion bei der Zensurengebung als besonders wichtig an. Die Zensur soll als „gerechtes Kriterium gelten, um Zuweisungen und Laufbahnentscheidungen vornehmen zu können“ (ebd., S. 20). Zensuren eröffnen oder verwehren die Zugänge zu weiteren Bildungseinrichtungen, entscheiden über die Versetzung oder bestimmen die Zuweisung zu bestimmten Kursen innerhalb der Schule (vgl. ebd.). Noten und Ziffernzeugnisse agieren in ihrer Berechtigungsfunktion demnach als bedeutende „Eintrittskarten“, die, einmal ausgestellt, ein Leben lang Gültigkeit und Autorität besitzen, „eine zweite Chance gibt es in der Regel nicht“ (ebd., S. 22).
Eine weitere wesentliche gesellschaftliche Bedeutung sehen sie vor allem in der Sozialisationsfunktion der Zensierung. Hierunter fällt vor allem der Aspekt, dass Schüler das schulische und gesellschaftliche Leistungsprinzip akzeptieren und verinnerlichen. Zielinsky weist darauf hin, dass Schüler es als fair akzeptieren sollen, „wenn unterschiedliche Leistungen auch unterschiedlich belohnt werden“ – zunächst in der Schule, und später in der Gesellschaft. (Zielinsky 1999, bei ebd.). Für eine kapitalistische Gesellschaft, in der unterschiedliche Positionen unterschiedlich stark materiell vergütet werden, ist dieser Aspekt von immenser Bedeutung.
Hierbei leistet die Notengebung einen besonderen Beitrag um die Verteilungskämpfe um begehrte Postionen einerseits anzuheizen und andererseits nicht eskalieren zu lassen.
Zunächst erfolgt eine Motivierung aller um die begehrten Positionen. Hohe Leistungen und Anstrengungen werden mit einer guten Note quittiert, die als Belohnung gesehen wird und somit weiter motiviert. Das heißt, zunächst stehen alle Positionen allen offen, es erfolgt eine enorme Erhitzung und die Gesellschaft kann „sich bei der Selektion auf eine möglichst breite Basis stützen“ und die besten von allen in die ranghöchsten Positionen bringen. Für diejenigen, die diesem Wettbewerbsprozess unterliegen, muss allerdings eine Abkühlung der Motivation erfolgen, um den sozialen Frieden und den Zusammenhalt der Gesellschaft zu gewährleisten. Die „Cooling-Out“-Funktion der Notengebung trägt dazu bei, dass „die weniger erfolgreichen Schüler […] daran gewöhnt werden, sich von den Zielen, die sich als zu hoch gegriffen herausgestellt haben, zu verabschieden und sich auf das einzustellen, was sie ‚realistischerweise‘ in der Schule und in ihrer anschließenden beruflichen Karriere zu erwarten haben“ (Jürgens/Sacher 2000, S. 24). Die angeblich mathematisch exakte Bestimmung der Noten trägt dazu bei, dass Schüler ihre schlechten Leistungen auch wirklich akzeptieren und auf Dauer eingestehen, dass sie selbst schlecht sind und für höhere Positionen nicht geeignet sind (vgl. Sacher 2004, S. 24f.).
Sacher verweist darauf, dass es bei der Sozialisationsfunktion neben diesen Aspekten auch darum geht, dass Schüler mit einer formal-bürokratischen Behandlung und Beurteilung vertraut gemacht werden (vgl. Sacher 2004, S. 24). Von der eigenen Person wird abstrahiert, individuelle Besonderheiten spielen keine Rolle. Ein Vorgeschmack auf die bürokratische Gesellschaft, die Schüler auch nach der Schule erwartet (vgl. ebd.). Damit zusammen hängt auch die Akzeptanz eines Zertifikatenwesens, in dem es „primär darauf ankommt, Leistungen in amtlichen Dokumenten testiert zu bekommen“ (ebd.).
In der pädagogischen Dimension nimmt vor allem die Rückmelde- und Berichtsfunktion der Zensurengebung die wichtigste Rolle ein. Der Leistungsstand soll Schülern, Eltern und auch Lehrern mitgeteilt werden. Lehrer könnten daraufhin ihren Unterricht evaluieren und gegebenfalls modifizieren (Lehr- und Lerndiagnose), Eltern sollen über den Lernstand der Kinder in Kenntnis gesetzt und Schüler in die Lage versetzt werden, ihren Lernstand zu überprüfen (vgl. Jürgens/Sacher 2000, S. 23). Schüler sollen sich gleichzeitig also auch kontrollieren (Kotrollfunktion).
Die Klassifizierungsfunktion der Note soll Schüler bestimmten Bewertungsklassen zuweisen, eine prognostische Grundlage bilden und somit die Selektion vorbereiten (vgl. ebd., S. 23). Eng damit zusammen hängt die Prognosefunktion. Aus den Noten werden gewisse Erwartungen abgeleitet (vgl. Sacher 2004, S. 27)
Um besonders benachteiligte Schüler nicht stärker zu benachteiligen, bieten Noten auch die Funktion des Chancenausgleichs. So würden benachteiligte Schüler bessere Noten erhalten, „als es die objektiven Leistungen rechtfertigen würden“ (ebd, S. 23).
Daran schließt sich die Orientierungsfunktion der Note an. Sie soll gewährleisten, dass sich Schüler für die richtige Auswahl des weiteren Ausbildungsweges entscheiden können (vgl. ebd.).
Ein wichtiger Punkt bei der Rückmeldung ist der Aspekt der Anreizfunktion. Noten sollen auf der motivationalen Ebene der Schüler wirksam werden und bei guten Noten als Belohnung und Anreiz gelten, die Leistung beizubehalten und als gewisse Bestrafung dienen, wenn schlechte Noten erzielt werden. Dies soll wiederum dazu führen, dass die Leistungen in Zukunft gesteigert werden (vgl. Jürgens/Sacher 2000, S. 24).
Die Disziplinierungsfunktion dient vor allem dazu, leistungsunwillige Schüler zum Umdenken zu bewegen und das „von der Lehrperson wünschenswerte Leistungsverhalten“ doch noch zu zeigen (Jürgens/Sacher, 2000, S. 24). Allerdings kann die Note auch als sachfremdes Erziehungsmittel von Lehrern verwendet werden, um generell unerwünschte Verhaltensweisen zu korrigieren (vgl. ebd.). Sacher weist daraufhin, dass in solchen Fällen die Disziplinierungsfunktion in „pure Unterdrückung“ ausartet und Noten der reinen Machtdemonstration dienen (vgl. Sacher 2004, S. 28)
Weitere Modelle sehen mit Akzentuierungen ähnliche Funktionen einer durch Noten bestimmten Leistungsbewertung. Konsens besteht weitgehend darin, dass sich aus diesen Funktionen enorme Probleme ableiten, die die Diskussion um die Notengebung in Gang bringen. Sacher betont, dass die Ziffernnoten „die meisten Funktionen der Leistungsbeurteilung äußerst unzureichend, im Grunde eigentlich nur scheinbar“ erfüllen (Sacher 2004, S. 31). Jürgens weist darauf hin, dass Notenzeugnisse letztendlich mit Funktionen überfrachtet sind und sich viele Funktionen sogar „diametral gegenüberstehen“ (Jürgens/Sacher 2000, S. 31).
Warum dies so ist, soll im Laufe der Arbeit noch sichtbar werden. Zunächst soll aber eine weitere theoretische Vorarbeit geleistet und geklärt werden, welche messtheoretischen Ansprüche an Noten geltend gemacht werden.
3. Messtheoretische Anforderungen an Noten
Die Erhebung und Beurteilung von Schulleistungen wird in der Literatur oftmals als Leistungsmessung bezeichnet. Sacher argumentiert, dass sich Leistungen zum einen in einem weiteren und zum anderen in einem engeren Sinne messen lassen (vgl. Sacher 2004, S. 33).
Dabei versteht man unter dem „Messen im weiteren Sinne“, „die Zuordnung von Kategorien zu Objekteigenschaften“ (Sacher 2004, S. 33). Kategorien stellen hierbei „logisch trennscharfe (disjunkte) Begriffe“ dar (ebd.). Wenn Schulleistungen verbal beurteilt werden, erfolgt eine „Messung im weiteren Sinne“, denn die dabei verwendeten Begriffe sollten eindeutig und trennscharf sein (vgl. ebd., S. 34).
Das „Messen im engeren Sinne“, lässt sich als die „Zuordnung von Zahlen zu Objekteigenschaften“ (vgl. ebd., S. 33) beschreiben. Ein Farbton, der mithilfe einer Lichtfrequenz gekennzeichnet wird, ist beispielhaft für so einen engeren Messvorgang. Auch die Bewertung durch Ziffernoten kann demnach in diese Kategorie eingeordnet werden. Denn auch hierbei werden wird eine Leistung einer Zahl (Note) zugeordnet.
Grundsätzlich soll aber zunächst festgehalten werden, dass an jeden Messvorgang bestimmte Anforderungen gestellt werden, sofern die Ergebnisse auch sinnvoll verwertet werden sollen (vgl. Sacher 2004, S. 35): es handelt sich um Objektivität, Reliabilität und Validität. Diese Kriterien lehnen sich vor allem an die Kriterien der psychologischen Testtheorie an (vgl. Ingenkamp 1989, S. 22).
Insbesondere auch dann, wenn Noten die aufgezeigten gesellschaftlichen Funktionen erfüllen wollen und eine Basis für Selektions- und Allokationsprozesse darstellen, müssen diese (exakten) Ansprüche an sie formuliert und auch eingehalten werden, damit sie sich gesellschaftlich und demokratisch legitimieren lassen. Eine Vergleichbarkeit von Noten muss gewährleistet werden, da sonst „unserem gesamten Berechtigungs- und Versetzungssystem die Basis entzogen“ wäre (Ingenkamp 1989, S. 194).
3.1 Objektivität
Sacher bezeichnet das Gütekriterium Objektivität als „den Grad, in welchem [die] Ergebnisse unabhängig von der Person des Messenden sind“ (vgl. Sacher 2004, S. 35). Ähnlich die Definition von Ingenkamp: Ihm zufolge bedeutet Objektivität, dass „die Messergebnisse unabhängig von der Person des Untersuchers sein sollen, dass verschiedene Untersucher bei der Messung des gleichen Verhaltens zu gleichen Ergebnissen kommen sollen, dass also interpersonelle Übereinstimmung besteht“ (Ingenkamp 1989, S. 23).
Adaptiert auf die schulische Leistungsmessung, geht es also darum, dass die vergebenen Noten personell unabhängig vom Prüfenden sind und ein anderer Prüfer, dieselben Ergebnisse erzielen würde (vgl. Sacher 2004, S. 36).
3.2 Reliabilität
Reliabilität bezeichnet „die Genauigkeit und Sicherheit“ einer Messung (Sacher 2004, S. 36). Das bedeutet, bei Wiederholungen soll eine Messung die gleichen Ergebnisse innerhalb gewisser Toleranzen liefern (Ingenkamp 1989, S. 24).
Auf die schulische Leistungsmessung übertragen bedeutet dies, dass ein Ergebnis auch nach einer gewissen Periode erneut zustande kommen müsste. Ist dies nicht der Fall, ist die Messung durch Messfehler verfälscht, das Messergebnis repräsentiert nicht den wahren Ausprägungsgrad der Leistung (vgl. Sacher 2004, S. 36).
3.3 Validität
Validität bezeichnet die Gültigkeit einer Messung. Diese ist dann gegeben, wenn „gewährleistet ist, dass tatsächlich das gemessen wird, was man vorgibt zu messen“ (Sacher 2004, S. 37).
In der schulischen Leistungsmessung, sollte eine Arbeit vor allem jene Fachkompetenz messen, die sie auch messen möchte (vgl. Sacher 2004, S. 37). Eine Mathematikarbeit in der Schule sollte demzufolge also vor allem mathematische Kompetenzen überprüfen und nicht die Lesefähigkeit herausfordern (vgl. Ingenkamp 1989, S. 24) und in die Leistungsmessung bei einem Aufsatz sollte vor allem die „Fähigkeit des Verfassers zur Gliederung und Formulierung seiner Gedanken“ (ebd.) betrachtet werden, nicht aber durch zusätzliche Gewichtung der orthographischen Leistung verfälscht werden.
Man unterscheidet hierbei nach Sacher (vgl. Sacher 2004, S. 40f.) zwischen:
- Inhaltsvalidität (Misst die Prüfung die Kompetenzen, die ein Schüler auch wirklich erwerben konnte?)
- Prognosevalidität (Legt die Prüfung wirklich angemessenen Wert auf das, was für den weiteren Lernprozess bedeutsam ist?)
- Übereinstimmungsvalidität (Wird mit verschiedenen Untersuchungs-instrumenten ein übereinstimmendes Ergebnis erzielt?)
- Testfairness (Wird eine Gruppe in dem Test benachteiligt oder diskriminiert?)
4. Empirische Forschungsbefunde: Noten im Abseits
Die an sie gestellten Anforderungen erfüllen Noten in keiner Weise . Mehrfach wurde durch empirische Untersuchungen darauf hingewiesen, dass es eher einem „Glücksspiel“ gleicht, als einem objektiven, validen und reliablen Messvorgang. Bei der schulischen Notengebung galt und gilt immer noch weitgehend die Devise: „Eine Zwei ist eine Drei ist eine Vier“ (Valtin 2002, S. 67).
Dies soll mithilfe ausgewählter älterer Forschungsbefunde Ingenkamps – die in den 1970er Jahren den Anstoß für eine erste sehr kritische und empirisch fundierte Auseinandersetzung mit Ziffernnoten gaben – und neueren Ergebnissen verifiziert werden.
Neben der Erkenntnis, dass Noten eine „mangelnde Messqualität“ aufweisen, indem sie die grundlegenden messtheoretischen Funktionen nicht erfüllen, wird aber auch deutlich, dass Notengebung durch weitere Faktoren verfälscht, verwässert und somit ad absurdum geführt wird.
4.1 Empirische Befunde zur Objektivität
In Bezug auf die Objektivität von Schulnoten lassen sich „beträchtliche Beurteilungsdivergenzen“ verschiedener Lehrer feststellen (Sacher 2004, S. 42). So lassen sich deutliche Schwankungsbreiten bei mündlichen Leistungen, Aufsätzen, aber auch Mathematikarbeiten konstatieren. Die Unobjektivität erfasst sämtliche Schulfächer. (vgl. ebd.).
Dabei resultieren die Abweichungen in der Benotung aus unterschiedlichen Gründen. Maier und Schröter fanden in den 80er Jahren vier Arten von Abweichungen, die sich in den unterschiedlichen Noten – bei gleicher Leistung - widerspiegeln: „Unterschiede hinsichtlich der registrierten Fehler, der festgesetzten Höchstpunktzahlen, der angewandten Notenschlüssel und der Punktezuteilung für bestimmte Schülerleistungen“ (vgl. Sacher 2004, S: 42). Zudem fiel die Note insgesamt tendenziell immer dann besser aus, wenn es höhere Punktzahlen zu erreichen gab (vgl. ebd.).
Exemplarisch für diese extremen Schwankungen im Urteil sind unter anderem die Ergebnisse eines Experimentes von Ulshöfer. Dieser bat 1949 42 Deutschlehrer darum, einen Deutschaufsatz ganz unabhängig voneinander zu zensieren. Als Bewertungen erhielt er Einschätzungen von „Sehr gut“ bis „Ungenügend“ – es wurde also das gesamte Notenspektrum ausgeschöpft (vgl. Ingenkamp 1989, S. 72).
Aber auch in zunächst scheinbar objektiven Fächern wie Mathematik, sind die Lehrerurteile höchst divergent. So untersuchte Weiss in den 1960er Jahren in Oberösterreich, inwiefern Lehrer (neben Deutsch-Aufsätzen) von der Leistung her gleiche Mathematikarbeiten in Klasse vier und fünf benoten würden (vgl. Weiss 1989, S. 108). Den Ergebnissen ist zu entnehmen, dass bei der Benotung der Arbeiten generell eine breite Streuung vorherrschte, „in der vierten Klasse über alle fünf[2], in der fünften Schulstufe über vier Notenstufen“ (ebd., S. 112). Zudem ist die Benotung in der fünften Klasse wesentlich strenger (vgl. ebd.).
Dass eine wenig objektive Zensurengebung nicht nur schulspezifisch ist, haben Hartog und Rhodes festgestellt. Beim Vergleich zweier Universitätsauschüsse, die die Leistung von 16 Bewerbern (unter gleichen Testfragen und –bedingungen) auf einer Punkteskala (bis 300) bewerten sollten, zeigten sich ebenfalls erhebliche Abweichungen beim Resultat zwischen den Ausschüssen (vgl. Hartog/Rhodes 1989, S. 181). So rutschte beispielsweise der von Ausschuss 1 an erster Stelle platzierte Kandidat, beim zweiten Ausschuss an die 13. Stelle (vgl. ebd.)! Zudem gab es zwischen beiden Ausschüssen keine einzige Übereinstimmung bei der Bewertung der Kandidaten, dafür aber bis zu 92 Punktwerte Differenz im Extremfall (vgl. ebd.).
Die fehlende Objektivität lässt sich auch quantitativ erfassen. Nach Sacher variieren die Koeffizienten zur Übereinstimmung der Testergebnisse zwischen 0,35 und 0,85. Zum Vergleich: Ein IQ-Test besitzt Übereinstimmungen zwischen 0,95 und 0,99 (vgl. ebd., S. 36). Er arbeitet also weitaus genauer als Schulnoten.
[...]
[1] Im Folgenden wird der Begriff „Schüler“ sowohl für die weiblichen als auch die männlichen Schüler verwendet, um für mehr Übersichtlichkeit bei den Ausführungen zu sorgen.
[2] Die Einführung einer sechsstufigen Notenskala erfolgte erst 1954 (vgl. Valtin 2002, S. 67)
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.