Inhaltsverzeichnis I
Inhaltsverzeichnis
Abk ürzungsverzeichnis III
Abbildungsverzeichnis IV
Tabellenverzeichnis V
1. Einleitung 1
1.1 Problem- und Zielstellung der Arbeit 1
1.2 Vorgehen in der Arbeit 2
2. Vorüberlegungen zu Untersuchungsdesign und Testart 4
2.1 Empfehlungen zum Untersuchungsdesign 4
2.2 Normorientierte oder kriteriumsorientierte Leistungsmessung 5
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 8
3.1 Notwendige Schritte bei der Entwicklung eines lernzielorientierten Tests 8
3.2 Lernzielbeschreibung als Ausgangspunkt der Testentwicklung 8
3.2.1 Lernzielbegriff und Verfahren der Lernzielbeschreibung 8
3.2.2 Taxonomien als Hilfsinstrument bei der Lernzielbeschreibung 16
3.2.2.1 Klärung des Taxonomie-Begriffs 16
3.2.2.2 Erläuterungen des Vorgehens bei der Selektion der Klassifikationssysteme. 18
3.2.2.3 Erläuterung der Merkmale zur Charakterisierung der Klassifikationssysteme 19
3.2.2.4 Charakterisierung der Klassifikationssysteme 21
3.2.2.5 Auswahl eines geeigneten Klassifikationssystems für die Lernzielbeschreibung 25
3.2.3 Lernzielbeschreibung mithilfe der Taxonomie von Anderson und Krathwohl 29
3.2.3.1 Wesentliche Eigenschaften der überarbeiteten Taxonomie 29
3.2.3.2 Wissensdimension 33
3.2.3.3 Dimension der kognitiven Prozesse 35
3.2.4 Von Lernzielen zu lernzielorientierten Testaufgaben 36
3.2.4.1 Lernzielbeschreibung mithilfe einer taxonomisch strukturierten Lernzielmatrix 36
3.2.4.2 Planung der Aufgabenanzahl mithilfe der Lernzielmatrix 40
3.3 Regeln für die Aufgabenkonstruktion und mögliche Aufgabenformate 41
3.4 Testzusammenstellung, -anweisung und -durchführung 48
3.4.1 Zusammenstellung und Anordnung der Aufgaben zum Test 48
3.4.2 Formulierung der Testanweisungen 49
3.4.3 Durchführung des Tests und Bewertung der Aufgaben. 50
3.5 Aufgaben- und Testanalyse 51
3.5.1 Besonderheit der Testwerte bei lernzielorientierten Tests 51
3.5.2 Analyse der Aufgaben 53
II Inhaltsverzeichnis
3.5.3 Ermittlung der Gütekriterien eines Tests 56
3.5.3.1 Testobjektivität 56
3.5.3.2 Testreliabilität 57
3.5.3.3 Testvalidität 60
3.6 Ermittlung der Lernwirksamkeit als Interpretation der Testergebnisse 61
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 65
4.1 Vorbemerkungen zur Testentwicklung 65
4.2 Lernzielbeschreibung und Planung der Aufgabenanzahl 65
4.3 Aufgabenkonstruktion 70
4.3.1 Einordnung der Items in die Lernzielmatrix und verwendete Aufgabenformate 70
4.3.2 Erläuterungen zu den konstruierten Testaufgaben 73
4.4 Anordnung der Aufgaben im Test 74
4.5 Formulierung der Testanweisungen und Empfehlungen zur Bewertung 77
5. Hinweise für den praktischen Einsatz des Tests als Schlussbetrachtung 79
Literaturverzeichnis 82
Anhang 93
III Abkürzungsverzeichnis
Abkürzungsverzeichnis
Abb. ………………………………………………………………………………Abbildung Tab. …………………………………………………………………………………..Tabelle
IV Abbildungsverzeichnis
Abbildungsverzeichnis
Abb. 1: Empfohlener Versuchsplan zur Messung der Lernwirksamkeit
Abb. 2: Entwicklungsschritte lernzielorientierter Tests
Abb. 3: Vorgehen der Lernzielbeschreibung zur Sicherung der Kontentvalidität
Abb. 4: Strukturelle und terminologische Änderungen der Anderson-Taxonomie
Abb. 5: Schritte zur Konstruktion lernzielorientierter Tests
Abb. 6: Überblick über die wichtigsten Aufgabenformate
Abb. 7: Beispielhafte Aufgaben für das Selected-Response-Format
Abb. 8: Beispiel für eine Completion- und eine Short-Answer-Aufgabe
Abb. 9: Beispielhafte Aufgaben für das Essay-Format.
Abb 10: Streuung der Testwerte bei norm- und lernzielorientierten Tests
V
Tabellenverzeichnis
Tabellenverzeichnis
Tab. 1: Überblick über die wichtigsten Verfahren der Lernzielbeschreibung 10
Tab. 2: Das allgemeine Schema der Tyler-Matrix 12
Tab. 3: Vor- und Nachteile relevanter Verfahren zur Lernzielbeschreibung 15
Tab. 4: Übersicht über die wesentlichen Merkmale der Klassifikationssysteme 22
Tab. 5: Taxonomietabelle von Anderson und Krathwohl 32
Tab. 6: Tyler- bzw. Lernzielmatrix mit taxonomischer Strukturierung 38
Tab. 7: Angabe der Aufgabenanzahl in der Lernzielmatrix 40
Tab. 8: Datenmatrix zur Ermittlung der Trennschärfe 55
Tab. 9: Zu überprüfende Teillernziele und geplante Aufgabenanzahl je Zelle 68
Tab. 10: Einordnung der konstruierten Testaufgaben in die Lernzielmatrix 71
Tab 11: Zuteilung der verwendeten Aufgabenformate zu den konstruierten Items 71
1. Einleitung 1
1. Einleitung
1.1 Problem- und Zielstellung der Arbeit
Mit welchen Medien können Schüler besser lernen? Welche Lehrmethode ist lernwirksamer? Mit der Frage der Lernwirksamkeit wird sich immer wieder im Rahmen der Unter-richtsforschung beschäftigt. Dabei gibt die Lernwirksamkeit von bestimmten Unterrichtsmethoden oder Lehrmedien - um es allgemeiner zu bezeichnen: die Lernwirksamkeit einer pädagogisch-didaktischen Intervention - an, ob sie bei den Schülern einen Lernzuwachs (Lerngewinn) bewirkt hat oder nicht. Eine lernwirksame Intervention sollte demnach zu einer positiven Veränderung der Lernleistung führen. Die Erfassung dieser Veränderung sollte möglichst objektiv, gültig und zuverlässig erfolgen. Gegenüber anderen Beurteilungsmethoden wie beispielsweise dem Lehrerurteil kommt dabei der Anwendung von psychometrischen Tests die bedeutsamste Rolle zu (vgl. u.a. Ingenkamp, 1970, S. 1007f., Raatz, 1978, S. 187f). Unter einem Test verstehen Lienert und Raatz (1998) „… ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung“ (S. 1). Meist können die bereits vorhandenen, im Handel erhältlichen Tests nicht für die Messung der Lernwirksamkeit einer bestimmten pädagogisch-didaktischen Intervention verwendet werden, da diese eher allgemein und nicht auf die speziellen Inhalte zugeschnitten sind, die durch die Intervention vermittelt werden sollen. In diesem Fall müssen Tests entwickelt werden, die sich direkt auf die Intervention beziehen. Dabei stellt sich dann die Frage, wie man bei der Konstruktion eines solchen Tests vorgehen sollte und was es zu beachten gilt.
Die vorliegende Arbeit soll versuchen, diese Frage im Ansatz zu beantworten. Dabei liegt folgendes Problem vor: Eine pädagogisch-didaktische Intervention zum Thema „Inflation“ soll auf ihre Lernwirksamkeit hin untersucht werden. Da es für dieses Themengebiet keinen bereits entwickelten Test gibt, der zur Überprüfung von Leistungen dieses doch sehr kleinen Ausschnitts aus dem Bereich der Volkswirtschaftslehre herangezogen werden kann, stellt sich folgende Aufgabe: Ziel der vorliegenden Arbeit soll sein, einen Test mit einer entsprechenden Musterlösung zu entwickeln, der die Lernwirksamkeit einer pädagogisch-didaktischen Intervention zum Thema „Inflation“ erfasst. Dabei sollen ausschließlich jene Lernleistungen gemessen werden, die dem kognitiven Verhaltensbereich zugeordnet
2
werden können. 1 Der Test überprüft also, ob die Intervention einen Lernzuwachs in Bezug auf das Erinnern bzw. die Erkenntnis von Wissen sowie die Entwicklung von intellektuellen Fähigkeiten und Fertigkeiten (vgl. Bloom, Engelhart, Furst, Hill & Krathwohl, 1976) bewirkt hat. Des Weiteren interessiert in erster Linie das aktive Wissen, dass den Schülern durch die Intervention vermittelt werden kann. Daher kommen für den in dieser Arbeit zu konstruierenden Test ausschließlich Aufgabenarten in Frage, bei denen die Antwort selbst formuliert werden muss. In der englisch sprachlichen Literatur werden diese Formate auch als Constructed-Response-Aufgaben bezeichnet (vgl. z. B. Roid & Haladyna, 1982, S. 45). 2 Der zu konstruierende Test stellt lediglich eine Vorform dar, da er im Rahmen dieser Arbeit keiner praktischen Erprobung unterzogen werden kann.
1.2 Vorgehen in der Arbeit
In Kapitel 2 werden Vorüberlegungen zum Untersuchungsdesign und zur Testart angestellt. Dabei soll in Abschnitt 2.1 zunächst ein Versuchsplan vorgeschlagen werden. In Abschnitt 2.2 wird erörtert, welche Testart am besten für die Messung der Lernwirksamkeit einer pädagogisch-didaktischen Intervention geeignet erscheint.
Kapitel 3 liefert die theoretische Basis für die Entwicklung eines Tests. Abschnitt 3.1 gibt einen Überblick über die dazu notwendigen Konstruktionsschritte. In Abschnitt 3.2 wird ein geeignetes Verfahren zur Lernzielbeschreibung ausgewählt und im Anschluss daran genauer erläutert. Des Weiteren soll ausführlich dargelegt werden, wie man von Lernzielen zu konkreten Testaufgaben kommt. Abschnitt 3.3 enthält Konstruktionsregeln für die Entwicklung von Aufgaben und gibt einen Überblick über mögliche Aufgabenformate. Dabei soll insbesondere das Constructed-Response-Format näher beleuchtet werden. Anschließend wird erörtert, was bei der Zusammenstellung der Aufgaben und ihrer Anordnung im Test beachtet werden muss. Weiterhin wird auf notwendige Angaben in den Testanweisungen eingegangen und Überlegungen zu den Bedingungen bei der Durchführung des Tests angestellt. Darüber hinaus werden Möglichkeiten bei der Bewertung der Testaufgaben aufgezeigt (Abschnitt 3.4). Abschnitt 3.5 befasst sich ausführlich mit den notwendigen Verfahren im Rahmen der Aufgaben- und Testanalyse, die dazu dienen den Test in seine Endform zu überführen sowie die Güte desgleichen zu überprüfen. Zum Abschluss des
1 Demgegenüber sind affektive und psychomotorische Verhaltensweisen abzugrenzen: Der affektive Bereich umfasst Interessen, Einstellungen, Haltungen und Werte, psychomotorische Verhaltensweisen beziehen sich auf motorische oder manipulative Fertigkeiten (vgl. dazu Bloom et al., 1976, S. 21)
2 Aufgaben, bei denen die Schüler die richtige Antwort aus Vorgaben auswählen müssen, werden als Selec- ted-Response-Aufgaben bezeichnet (vgl. z. B. Roid & Haladyna, 1982, S. 45 sowie Abschnitt 3.3).
1. Einleitung 3
Kapitels werden Überlegungen angestellt, wie die Lernwirksamkeit einer pädagogischdidaktischen Intervention anhand der gewonnenen Testdaten ermittelt werden kann (Abschnitt 3.6).
Kapitel 4 widmet sich dem konstruierten Test. Basierend auf Kapitel 3, soll erläutert werden, welche Lernziele für den Test festgelegt und wie diese beschrieben wurden (Abschnitt 4.2). Anschließend wird das Vorgehen bei der Entwicklung der Aufgaben erläutert (Abschnitt 4.3) und erklärt, welche Überlegungen für ihre Anordnung im Test getroffen wurden (Abschnitt 4.4). Zum Abschluss wird auf die formulierten Anweisungen im Test eingegangen und darüber hinaus Empfehlungen für die Bewertung der Aufgaben gegeben.
Die Schlussbetrachtung dieser Arbeit stellen Hinweise für den praktischen Einsatz des Tests dar (Kapitel 5).
4
2. Vorüberlegungen zu Untersuchungsdesign und Testart
2.1 Empfehlungen zum Untersuchungsdesign
Wie bereits eingangs erwähnt, soll mithilfe des zu konstruierenden Tests die Lernwirksamkeit einer pädagogisch-didaktischen Intervention gemessen werden. Um diese ermitteln zu können, schlägt der Autor der vorliegenden Arbeit vor, den Test sowohl direkt vor als auch direkt nach der Intervention einzusetzen und die Ergebnisse einander gegenüberzustellen. Der Vortest soll dabei das Vorwissen der Probanden vor der Intervention erfassen. Derselbe Test prüft als Nachtest, was die Versuchspersonen durch die Intervention gelernt haben. Eine positive Veränderung der Leistung im Nachtest gegenüber dem Vortest lässt die Lernwirksamkeit einer pädagogischen Intervention vermuten (vgl. dazu genauer Abschnitt 3.6).
Um sicherzustellen, dass der Lerngewinn auch tatsächlich auf den Einfluss der pädagogisch-didaktischen Intervention zurückzuführen ist und nicht durch die Einwirkung anderer, so genannter Störfaktoren zustande kam, sollte eine äquivalente Kontrollgruppe zum Vergleich herangezogen werden (vgl. Schwarz, 1970, S. 479f.; Stelzl, 1993, S. 170). Diese Kontrollgruppe muss dem Test ebenfalls zu zwei Zeitpunkten unterzogen werden, ohne jedoch in der Zwischenzeit die spezielle pädagogisch-didaktische Intervention zu erfahren, deren lernwirksamen Einfluss es zu überprüfen gilt. Demnach erhält die Kontrollgruppe im Gegensatz zur Versuchsgruppe, in der Fachsprache ausgedrückt, kein Treatment (hier: die spezielle Intervention). Es kann daher vermutet werden, dass sich die beiden Gruppen hinsichtlich ihrer Leistung im Nachtest unterscheiden. Graphisch ließe sich der Versuchsplan folgendermaßen darstellen:
Abb. 1: Empfohlener Versuchsplan zur Messung der Lernwirksamkeit
(Quelle: eigene Darstellung)
Durch das Heranziehen einer Kontrollgruppe, auf die die Störvariablen in gleicher Weise wirken wie auf die Versuchsgruppe, können diese unerwünschten Einflüsse kontrolliert werden. Störgrößen, die bei einer Vortest-Nachtest-Anordnung auftreten und die Untersu- chungsergebnisse verzerren können, sind unter anderem in Schwarz (1970, S. 459f.) und
5 2. Vorüberlegungen zu Untersuchungsdesign und Testart
Petermann (1978, S. 18ff.) aufgeführt. Zur Verdeutlichung soll folgendes Beispiel dienen: Ein wesentlicher Störfaktor ist der Lerneffekt, der durch den Vortest verursacht werden und eine Verbesserung der Leistung im Nachtest bewirken kann. Da der Test jedoch auch zweimal mit der Kontrollgruppe durchgeführt werden soll, tritt dieser Effekt gleichermaßen in beiden Gruppen auf. Den Nettoeffekt der pädagogisch-didaktischen Intervention auf die Lernleistung kann man dann durch die Gegenüberstellung der Nachtest-Vortest-Differenz jeweils beider Gruppen ermitteln (vgl. Rossi & Freeman, 1993, S. 268f.; zur Quantifizierung der Lernwirksamkeit vgl. genauer Abschnitt 3.6).
Für eine eindeutige Interpretation der Testergebnisse, das heißt, ob eine pädagogischdidaktische Intervention lernwirksam war oder nicht, ist es unbedingt erforderlich, dass sich Kontroll- und Versuchsgruppe nur geringfügig hinsichtlich ihrer Ausgangsbedingungen wie etwa Vorwissen, Motivation oder Intelligenz unterscheiden (vgl. Bortz & Döring, 2006, S. 54). Mögliche Gruppenunterschiede lassen sich beispielsweise ausgleichen, wenn die Versuchspersonen bei einer genügend großen Stichprobe per Randomisierung (Zufallsziehung) auf die jeweiligen Gruppen aufgeteilt werden (vgl. dazu und zu den Möglichkeiten, wenn keine Randomisierung möglich ist Bortz & Döring, 2006, S. 54ff., S. 524ff., S. 550ff.). Die so genannte randomisierte Kontrollgruppenanordnung bei zwei oder mehreren Testzeitpunkten weist eine hohe interne Validität auf (vgl. Schwarz, 1970, S. 479f.) und wird daher vom Autor der vorliegenden Arbeit für die Messung der Lernwirksamkeit pädagogisch-didaktischer Intervention empfohlen.
2.2 Normorientierte oder kriteriumsorientierte Leistungsmessung
Die Lernwirksamkeit einer pädagogisch-didaktischen Intervention soll mithilfe eines Tests gemessen werden, der die Lernleistung bei Versuchs- und Kontrollgruppe sowohl vor als auch nach der Intervention erfasst. Nun stellt sich allerdings die Frage, mit welcher Art von Tests man die Leistung der Probanden am besten erfassen kann, um letztendlich auf die Lernwirksamkeit einer Intervention zu schließen. Grundsätzlich unterscheidet man normorientierte und kriteriumsorientierte Tests. Der Hauptunterschied zwischen diesen beiden Testtypen liegt in der Art der Informationen, die aus den Ergebnissen einer Leistungsmessung gewonnen werden.
Ein normorientierter Test lässt eine Interpretation der individuellen Testleistung in Relation zu anderen Probanden zu. Aus einer Reihe verschiedener Testergebnisse von unter- schiedlichen Personen kann eine Rangordnung aufgestellt und damit die relative Position
6
eines Individuums in Bezug auf die festgelegte Personengruppe angegeben werden. Die Leistungsbeurteilung eines Probanden erfolgt bei normorientierten Tests durch den Vergleich seiner Leistung mit den Leistungen der anderen Gruppenmitglieder. Eine Person kann demnach besser oder schlechter als eine andere sein, weshalb sich solche Tests gut zur Leistungsdifferenzierung, beispielsweise für die Notenvergabe in der Schule eignen. Allerdings geben die Testwerte kaum Auskunft über den Umfang und die Art der beherrschten Fähigkeiten (vgl. u.a. Büscher, 1984, S. 99f.; Glaser, 1973, S. 11; Klauer, 1987, S. 7).
Bei kriteriumsorientierten Tests werden die individuellen Testergebnisse in Bezug zu einem vorher festgelegten Kriterium (z. B. Leistungsstandart) interpretiert. Die Leistungsbewertung erfolgt dabei unabhängig von den Leistungen anderer Personen (vgl. Glaser, 1973, S. 10) und lässt daher absolute Aussagen über die Fähigkeiten eines Individuums zu. Ist das als Bewertungsmaßstab dienende Kriterium ein Lernziel oder eine Gruppe von Lernzielen, so spricht man in diesem Zusammenhang auch von lernzielorientierten 3 Tests. Nach Fricke (1974) ist ein lernzielorientierter Test „… ein wissenschaftliches Routineverfahren zur Untersuchung der Frage, ob und eventuell wie gut ein bestimmtes Lehrziel erreicht ist. Die hierbei verwendeten Testaufgaben sind nicht identisch mit dem Lehrziel, sondern repräsentieren es nur und dienen dazu, den individuellen Fähigkeitsgrad eines Schülers mit einem gewünschten Fähigkeitsgrad zu vergleichen“ (S. 17). Kriteriumsorientierte bzw. lernzielorientierte Tests eigenen sich für solche Situationen gut, in denen man wissen möchte, ob und wie gut ein Individuum über eine bestimmte Fähigkeit verfügt. Lernzielorientierte Tests lassen sich aber auch bei der Entscheidung über Methoden (z. B. Lehrprogramme) einsetzen: Bezieht sich ein dementsprechender Test auf eine Gruppe von Lernzielen, die durch eine bestimmte Unterrichtseinheit erreicht werden sollen und legt man diesen Test nach Abschluss der Unterrichtseinheit den Schülern vor, so erfährt man auch etwas über die Wirksamkeit der Unterrichtsmethode (vgl. Popham & Husek, 1973, S. 48f.).
Nun könnte man meinen, dass ein und derselbe Test dazu verwendet werden kann, um die Leistung der Probanden entweder normorientiert oder lernzielorientiert zu bewerten. Der Unterschied zwischen diesen beiden Testverfahren läge dann nicht im Messinstrument,
3 Klauer (1974, S. 14f.) schlägt vor, den Begriff „lernzielorientiert“ durch „lehrzielorientiert“ zu ersetzen, da
7 2. Vorüberlegungen zu Untersuchungsdesign und Testart
sondern in der Art der Interpretation der gewonnenen Testdaten. Dennoch gibt es entscheidende Konstruktionsunterschiede zwischen den Testarten: So hat ein normorientierter Test das Ziel, zwischen den Leistungen der Versuchspersonen zu differenzieren. Der Test sollte daher so konstruiert werden, dass er zwischen guten bzw. schlechten Personen unterscheidet und die Testwerte möglichst gut streuen. Demzufolge sind Testaufgaben (auch Testitems genannt), die von allen oder keinem Probanden gelöst werden konnten, aus dem Messinstrument zu eliminieren. Bei der Konstruktion eines lernzielorientierten Tests dagegen muss sichergestellt werden, dass die entwickelten Aufgaben repräsentativ für das festgelegte Lernziel sind. Es ist daher nicht erforderlich, zu leichte oder zu schwere Items aus dem Test auszuschließen, wenn sie dazu dienen, das Lernziel möglichst gut abzubilden. In Bezug auf die Konstruktion von norm- oder lernzielorientierten Messinstrumenten führen diese verschiedenen Absichten meist zur Formulierung von recht unterschiedlichen Testitems (vgl. Büscher, 1984, S. 101f.). Ein Testkonstrukteur muss daher vor der Testentwicklung entscheiden, welche Art der Leistungsmessung (norm- oder lernzielorientiert) vorgenommen werden soll, um die Konstruktionsschritte, die Auswertung und auch die Testanalyse dementsprechend vorzunehmen (vgl. Fricke, 1974, S. 17f.).
Vergleicht man nun die Ausführungen zu beiden Testarten, so wird deutlich, dass es für die Frage nach der Lernwirksamkeit einer Intervention unerheblich ist, wie eine Person in Relation zu einer Gruppe anderer Personen steht. Es ist also nicht Sinn und Zweck des in dieser Arbeit zu konstruierenden Tests, zwischen den Leistungen der Versuchspersonen zu differenzieren. Vielmehr ist es von Bedeutung, in welchem Ausmaß die Individuen bestimmte Fähigkeiten besitzen bzw. ob und inwieweit die vorher festgelegten Lernziele erreicht wurden. Ein lernzielorientierter Test scheint daher für die Messung der Lernwirk- samkeit einer pädagogisch-didaktischen Intervention am besten geeignet zu sein.
8
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests
3.1 Notwendige Schritte bei der Entwicklung eines lernzielorientierten Tests
Wie im vorangegangenen Abschnitt erwähnt, unterscheiden sich die Vorgehensweisen bei der Konstruktion von normorientierten und lernzielorientierten Tests. Es wurde deutlich gemacht, dass sich die lernzielorientierte Leistungsmessung am besten eignet, um die Lernwirksamkeit einer pädagogisch-didaktischen Intervention zu ermitteln. Nachfolgende Abbildung gibt einen Überblick über den Ablauf einer lernzielorientierten Testentwicklung. Die einzelnen Konstruktionsschritte werden in den nachstehenden Abschnitten ausführlich erläutert.
Abb. 2: Entwicklungsschritte lernzielorientierter Tests
(Quelle: eigene Darstellung in Anlehnung an Beiner, 1982, S. 176)
3.2 Lernzielbeschreibung als Ausgangspunkt der Testentwicklung
3.2.1 Lernzielbegriff und Verfahren der Lernzielbeschreibung
Wie in Abschnitt 2.2 aufgeführt, erfassen lernzielorientierte Tests, ob bzw. wie gut ein Lernziel erreicht wurde. Den Ausgangspunkt bei der Entwicklung dieser Testart bilden demzufolge die Lernziele der pädagogisch-didaktischen Intervention. Nach dem Verständnis von Meyer (1991, S. 21, 32f.) stellt ein Lernziel eine sprachlich formulierte Vorstellung über gewünschte, beobachtbare Verhaltensänderungen und über nicht unmittelbar be- obachtbare Verhaltensdispositionen von Lernenden dar, die durch Unterricht oder andere
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 9
Lehrveranstaltungen bewirkt werden sollen. Weiterhin ist Meyer der Auffassung, dass bei der Formulierung eines Lernziels neben der Verhaltenskomponente immer auch eine Inhaltskomponente, im Sinne des zu lernenden Stoffs, angegeben werden sollte (vgl. Meyer, 1991, S. 22, 33). Auch Speth (1996, S. 164) ist der Meinung, dass diese beiden Komponenten untrennbar miteinander verknüpft sind, da ein gewünschtes Verhalten immer auf bestimmte Inhalte, an denen es gelernt werden soll, bezogen wird. Zusammenfassend lässt sich festhalten, dass Lernziele gewünschte, beobachtbare bzw. nicht unmittelbar beobachtbare Verhaltensweisen 4 ausdrücken. Darüber hinaus sollte bei der Lernzielformulierung immer neben der Verhaltenskomponente auch gleichermaßen die Inhaltskomponente mit angegeben werden. Dieses Verständnis von Lernzielen und Lernzielformulierungen wird der vorliegenden Arbeit zugrunde gelegt.
Für die Entwicklung lernzielorientierter Tests kommt im Gegensatz zur normorientierten Testkonstruktion 5 vor allem der präzisen Lernzielbeschreibung eine besondere Bedeutung zu, da damit der erste Schritt zur Sicherung einer hohen Kontentvalidität (vgl. dazu genauer Abschnitt 3.5.2) als ein „… notwendiges Definitionsmerkmal kriteriumsorientierter Tests …“ (Schott, 1983, S. 13) getan wird. Unter Kontentvalidität (auch Inhaltsvalidität genannt) versteht man in diesem Zusammenhang die Forderung, dass sich die konstruierten Testaufgaben zweifelsfrei zu den jeweils zu überprüfenden Lernzielen zuordnen lassen (vgl. u.a. Herbig, 1976, S. 132; Klauer, 1987, S. 16). Dazu umschreibt man die gewünschten Lernziele jeweils durch eine Menge von gleichartigen Testitems, die alle möglichen Varianten eines Aufgabengebietes umfassen. Diese so genannten Aufgabenuniversen (auch als Aufgabenklassen, Grundmengen oder Itemuniversen bezeichnet) sind in der Regel so groß, dass sie real nicht existieren. Genauer gesagt wäre eine Aufzählung aller Aufgaben, mit denen sich das Erreichen eines bestimmten Lernziels überprüfen ließe, zu aufwändig oder sogar unmöglich. Daher muss dafür gesorgt werden, dass jedes Aufgabenuniversum zunächst vollständig beschrieben wird, um anschließend daraus eine repräsentative Stichprobe von kontentvaliden Testaufgaben (die so genannte Testmenge oder Itemmenge) zu ziehen (vgl. Fricke, 1974, S. 22f.). Nachfolgende Abbildung soll veranschaulichen, wie man von einem Lernziel zu kontentvaliden Testaufgaben kommt.
4 Wenn daher nachfolgend der Begriff „Verhalten“ verwendet wird, so umfasst dies stets beobachtbare und nicht unmittelbar beobachtbare Verhaltensweisen. Andernfalls wird es explizit angegeben.
5 Es sei darauf hingewiesen, dass sich auch normorientierte Tests an Lernzielen orientieren. Jedoch ist das Vorgehen bei der Lernzielbeschreibung ungenauer und der Grad der Lernzielspezifizierung daher allgemeiner als bei der lernzielorientierten Testentwicklung (vgl. u.a. Büscher, 1984, S. 99; Ingenkamp, 1988, S. 120f.; Rapp, 1974, S. 180f.).
10
Abb. 3: Vorgehen der Lernzielbeschreibung zur Sicherung der Kontentvalidität
(Quelle: eigene Darstellung)
Das Hauptproblem der Sicherung einer hohen Kontentvalidität liegt vor allem bei der genauen Erfassung und Beschreibung der einzelnen Aufgabenuniversen (vgl. Fricke & Lühmann, 1982, S. 2). In diesem Zusammenhang sind eine Vielzahl von Verfahren der Lernzielbeschreibung entwickelt worden, die dieses Problem zu lösen versuchen. Es stellt sich die Frage, welches Vorgehen für den zu konstruierenden Test in dieser Arbeit in Betracht kommt. In der Literatur findet man einige Arbeiten, die einen Überblick über die wichtigsten Ansätze zur Lernzielbeschreibung liefern (vgl. u.a. Fricke, 1974, S. 23ff.; Klauer, 1987, S. 20ff.; Roid & Haladyna, 1982, S. 92ff.; Wieberg, 1983, S. 35ff.). Da eine Aufzählung und Erläuterung aller Verfahren den Rahmen dieser Arbeit sprengen würde, werden im Folgenden lediglich einige ausgewählte näher betrachtet. Dazu erfolgt eine Orientierung an den Ausführungen von Wieberg (1983). Er unterteilt die Verfahren der Lernzielbeschreibung in „umgangssprachlich orientiert“ und „formalsprachlich orientiert“. Darüber hinaus stellt Wieberg im Gegensatz zu den Zusammenfassungen von Fricke (1974), Klauer (1987) sowie Roid und Haladyna (1982) die Vor- und Nachteile der einzelnen Verfahren in Form einer Kurzbeurteilung gegenüber (vgl. Wieberg, 1983, S. 52). Nachfolgende Tabelle soll einen Überblick über die von Wieberg betrachteten Ansätze liefern. Zur intensiven Auseinandersetzung mit den einzelnen Verfahren sei auf die aufgeführte Literatur verwiesen.
Tab. 1: Überblick über die wichtigsten Verfahren der Lernzielbeschreibung
(Quelle: eigene Zusammenstellung, in Anlehnung an Wieberg, 1983, S. 34ff.)
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 11
Die Gruppe der umgangssprachlich orientierten Verfahren geht von einer umgangssprachlich bzw. pseudofachsprachlich gegebenen Formulierung der Lernziele aus. Zentrales Anliegen ist, die vagen Lernzielformulierungen in einem ersten Schritt näher zu präzisieren. Auf Grundlage dieser Präzisierungen werden dann in einem zweiten Schritt Testitems gebildet. Umgangssprachlich orientierte Verfahren sind auf alle möglichen Stoffbereiche und Arten von Lernzielen anwendbar. Sie erfordern jedoch entweder aufwändige Analyseleistungen oder extreme Komplexitätsreduzierungen von Seiten des Testkonstrukteurs. Bei ersterem leidet die Anwenderfreundlichkeit des Verfahrens, letzteres führt zu einer eingeschränkten Eindeutigkeit bezogen auf die erzeugte kontentvalide Testmenge.
Die andere Gruppe der Verfahren geht dagegen von formalsprachlich formulierten Lernzielen aus, ohne die Präzisierung von vagen, umgangssprachlichen Zielvorstellungen explizit zu behandeln. Sie beschäftigen sich lediglich mit der Angabe eines Algorithmus zur Gewinnung von repräsentativen Testmengen. Fricke (1974, S, 30) bezeichnet diese Algorithmen als generative Regeln, mit deren Hilfe kontentvalide Testaufgaben automatisiert erzeugt werden können. Die formalsprachlich orientierten Verfahren versuchen daher, die Aufgabenuniversen für bestimmte Bereiche so eng zu formulieren, „… dass die einzelnen Aufgaben auch von einem Computer generiert werden könnten“ (Stelzl, 1993, S. 127). Aus diesem Grund können solche Verfahren hauptsächlich nur für Aufgabenformate eingesetzt werden, bei denen die Probanden die richtige Antwort aus Vorgaben auswählen müssen (Selected-Response-Aufgaben) (vgl. Wieberg, 1983, S. 43). Wie bereits in Abschnitt 1.1 erwähnt, soll der Test in erster Linie das aktive Wissen der Probanden messen, was bedeutet, dass die Testpersonen die Antworten selbst formulieren müssen. Nach Auffassung des Autors kommen die formalsprachlich orientierten Verfahren aufgrund ihrer Restriktion für den in dieser Arbeit zu entwickelnden Test nicht in Frage. Im Folgenden wird daher nur auf die umgangssprachlich orientierten Verfahren (vgl. Wieberg, 1983, S. 35ff.) näher eingegangen, da es bei diesen offensichtlich keine Beschränkung auf bestimmte Aufgaben-formate gibt.
Bei den umgangssprachlich orientierten Verfahren sei zunächst die behavioristische Lernzieloperationalisierung zu erwähnen, bei der die Lernziele durch beobachtbare Verhaltensbegriffe präzisiert werden sollen. Insbesondere der Ansatz von Mager (1984) erlangte in diesem Zusammenhang weite Verbreitung. Seiner Auffassung nach sollte ein Lernziel ein Endverhalten (beobachtbares Verhalten, das vom Lernenden nach einem Lernprozess erwartet wird), die Bedingungen, unter denen das Verhalten des Schülers ge-
12
zeigt werden soll (z. B. Hilfsmittel) und einen Beurteilungsmaßstab enthalten, an dem das Erreichen des Lernziels letztendlich gemessen werden soll. Dieses Verfahren berücksichtigt jedoch keine Lernzielinhalte, an denen die Lernenden das geforderte Verhalten ausüben sollen. Daher ist es für eine Erzeugung von kontentvaliden Itemmengen nicht geeignet (vgl. Wieberg, 1983, S. 36).
Tyler (1973, S. 51ff.) schlug vor, den Inhalts- und Verhaltensaspekt von Lernzielen aufzuspalten und die einzelnen Komponenten in die sogenannte Tyler-Matrix (auch Lernzielmatrix genannt) einzuordnen. Die auf das spezielle Lernthema bezogenen Inhalte sollen dabei in die Zeilen, die angestrebten Verhaltensweisen in die Spalten eingetragen werden. Nach Bedarf kann man die Lernzielkomponenten noch weiter unterteilen. Anschließend werden die Spalten und Zeilen der Matrix vollständig miteinander kombiniert. Nachfolgende Darstellung soll das allgemeine Schema der Tyler-Matrix verdeutlichen.
Tab. 2: Das allgemeine Schema der Tyler-Matrix
(Quelle: eigene Darstellung)
Die durch die Kombination entstandenen Zellen stellen mögliche Teillernziele und gleichzeitig jeweils eine Menge gleichartiger Aufgaben dar. Diese Aufgabenuniversen sind durch die speziellen Inhalte und Verhaltensweisen eindeutig definiert und dienen als Orientierung für die Itemkonstruktion. Wesentliche Vorteile eines solchen Vorgehens sind nach einer Beurteilung von Wieberg (1983, S. 52) der geringe Trainings- und Zeitaufwand, um dieses Verfahren anwenden zu können. Darüber hinaus entspricht die Aufspaltung von Lernzielen nach Inhalts- und Verhaltensbereichen dem zugrunde liegenden Verständnis dieser Arbeit, das weiter oben aufgeführt wurde. Kritisch ist jedoch anzumerken, dass der Anwender der Tyler-Matrix die einzelnen Zeilen und Spalten beliebig nach seinem subjektiven Verständnis bezeichnen kann. Darüber hinaus werden die Inhalts- und Verhaltensaspekte der Lernziele additiv aneinander geknüpft, ohne dass klar wird, wie diese zusammenwirken (vgl. Wieberg, 1983, S. 36). Insgesamt beurteilt Wieberg (1983, S. 52) das Tyler-Verfahren als
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 13
nicht klar, nicht theoriebezogen und nicht präzise genug 6 (vgl. zu den Vor- und Nachteilen des Verfahrens auch Tab. 3).
Taxonomien können ebenso wie die Tyler-Matrix als Hilfsinstrument zur Erzeugung kontentvalider Testaufgaben verwendet werden. Man betrachtet sie als Weiterentwicklung des oben dargestellten Verfahrens nach Tyler, da sie den Verhaltens- oder den Inhaltsbereich (oder auch beide) anhand vordefinierter Kategorien systematisch und normiert strukturieren 7 . Für die Strukturierung der Verhaltenskomponente von Lernzielen ist insbesondere die Taxonomie kognitiver Verhaltensweisen von Bloom et al. (vgl. Bloom, Engelhart, Furst, Hill & Krathwohl, 1956) populär geworden. Nach der Beurteilung Wiebergs (1983, S. 52) sind Taxonomien ebenso wie die Tyler-Matrix wenig theoriebezogen. Der Unterschied zwischen den beiden Verfahren besteht darin, dass die Taxonomien aufgrund ihrer vorgegebenen Dimensionierung und Kategorisierung der Inhalts- und/oder Verhaltensbereiche eine intersubjektiv verständliche Beschreibung der Spalten und Zeilen der Tyler-Matrix ermöglichen (vgl. Wieberg, 1983, S. 37). Demzufolge gestatten sie eine eindeutige bzw. präzise Lernzielbeschreibung und erleichtern damit im Wesentlichen die Kommunikation über Lernziele (vgl. Bloom et al., 1976, S. 24). Darüber hinaus lassen sich durch diese vorgegebene Systematisierung weitere relevante Teillernziele aufdecken (vgl. Messner, 1970, S. 764f.). „Etwa wenn das Klassifikationsschema auf seine Vollständigkeit überprüft und so festgestellt wird, welche Verhaltensweisen es eventuell noch zu berücksichtigen gilt“ (Speth, 1996, S. 163). Wieberg (1983) bemängelt jedoch, dass „… die Übereinstimmung verschiedener Konstrukteure hinsichtlich der erzeugten Items bei vorgegebener Matrix dennoch nicht als befriedigend einzuschätzen“ (S. 37) sei (vgl. zu den Vor-und Nachteilen des Verfahrens auch Tab. 3).
6 Unter dem Beurteilungskriterium „Klarheit“ versteht Wieberg „das Ausmaß, in dem 2 Itemkonstrukteure ähnliche Items aufgrund einer Zielvorgabe nach dem jeweiligen Verfahren produzieren würden.“ (Wieberg, 1983, S. 50). Mit „Präzision“ ist die „Detailliertheit der Handanweisungen zur Aneignung des Verfahrens“ (Wieberg, 1983, S. 51) gemeint und die „Theoriebezogenheit“ eines Verfahrens bezieht sich auf „das Ausmaß, in dem das Verfahren die Präzisierung vorhandener Konstruktbildungen erlaubt und thematisiert“ (Wieberg, 1983, S. 51). Allerdings bleibt bei dem letztgenannten Kriterium ungeklärt, was Wieberg unter „Konstruktbildungen“ versteht.
7 Anders als bei der Tyler-Matrix sind Taxonomien keine auf den speziellen Lehrstoff der Lernziele bezogene Klassifikationssysteme. So ist beispielsweise der Inhaltsbereich im Klassifikationssystem von Merrill (1994) nach allgemeinen Wissens- bzw. Inhaltsformen wie Fakten, Konzepte, Prinzipien und Prozesse gegliedert (vgl. im Gegensatz dazu Tyler, 1973, S. 57, der den Inhaltsbereich nach speziellen Inhalten, wie z. B. nach Themen des Biologieunterrichts unterteilt). Ebenso formal wird der Verhaltensbereich durch Taxonomien strukturiert. Bloom et al. (1976, S. 71) bspw. klassifizieren die Verhaltenskomponente von Lernzielen nach den Kategorien Wissen, Verstehen, Anwendung, Analyse, Synthese und Evaluation. Taxonomien sind also unabhängig vom materialen Inhalt der Lernziele (vgl. u.a. Dubs, 1971, S. 171; Metz- ger, 1975, S. 58).
14
Die Test Specifications 8 (vgl. Popham, 1980, S. 22ff.) des Instituts für „Instructional Objectives Exchange“ (IOX) bestehen in der Regel aus vier Komponenten. Den ersten Bestandteil stellt eine allgemeine Beschreibung über das dar, was der Test misst. Dies soll einen kurzen Überblick über die relevanten Verhaltensweisen geben, die an späterer Stelle näher beschrieben werden müssen. Den nächsten Bestandteil bildet ein Beispielitem, das zur Veranschaulichung dienen und im Test verwendet werden soll. Die dritte Komponente der Test Specifications stellen Stimulusmerkmale dar, die nähere Angaben über den relevanten Inhaltsaspekt des Tests liefern. Die Merkmale der Antworten bilden den letzten Bestandteil. Sie liefern eine genaue Beschreibung über das gewünschte Verhalten und beziehen sich auf die Komponente der Stimulusmerkmale. Wieberg (1983, S. 52) befindet, dass die Test Specifications theoriebezogen und klar sind, was als vorteilhaft im Vergleich zu den Verfahren der Tyler-Matrix bzw. der Taxonomien angesehen werden kann. Jedoch ist der erforderliche Zeit- und Trainingsaufwand für die Anwendung dieses Verfahren recht hoch. Darüber hinaus sind die Test Specifications im Gegensatz zur Methode der Taxonomien nicht präzise (vgl. zu den Vor- und Nachteilen des Verfahrens auch Tab. 3).
Beim Verfahren zur „Planung von Unterricht unter dem Gesichtspunkt der Lehrstoff-Analyse“, im Folgenden PLANA-Verfahren (vgl. Schott, Neeb & Wieberg, 1981, S. 63ff.) genannt, wird der Lehrstoff in Inhalts- und Verhaltenskomponenten zerlegt und mittels einer umfassenden Lehrstoffanalyse präzisiert. Aufbauend auf dieser Präzisierung werden Aufgabenklassen gebildet, die durch einen Anfangs- und Endzustand sowie durch einen Operator hinreichend genau beschrieben werden können. Der Operator soll dabei den An-fangszustand einer Handlung in den gewünschten Endzustand überführen. Daran anknüpfend können Lernziele bestimmt werden. Die dazugehörigen Aufgaben werden anschließend unter Verwendung entsprechender Konstruktionsregeln entwickelt. In Anhang 1 sind die einzelnen Stufen des Vorgehens im Überblick dargestellt. Gegenüber den anderen umgangssprachlich orientierten Verfahren nimmt PLANA eine gewisse Sonderstellung ein: Es befasst sich sowohl mit der Präzisierung von vagen, umgangssprachlich formulierten Lernzielvorstellungen als auch mit der Angabe eines Algorithmus für die Gewinnung von kontentvaliden Testmengen, was Gegenstand der formalsprachlich orientierten Verfahren ist. Wieberg (1983, S. 52) schätzt das Vorgehen nach PLANA wie das Verfahren der Test Specifications als theoriebezogen und klar genug ein, was vorteilhaft gegenüber der Tyler-
8 DieTest Specifications können als eine Optimierung gegenüber der Methode der Amplified Objectives
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 15
Matrix bzw. den Taxonomien ist. Das PLANA-Verfahren erfordert allerdings eine eingehende Analyse des Lehrstoffs, daher ist es recht zeitaufwändig. Darüber hinaus ist ein hoher Trainingsaufwand erforderlich, um das Verfahren anwenden zu können, weshalb es eher für erfahrene Testautoren in Betracht kommt (vgl. Wieberg, 1983, S. 52). Tabelle 3 stellt noch einmal die genannten Vor- und Nachteile der Tyler-Matrix, der Taxonomien, der Test Specifications und des PLANA-Verfahrens gegenüber.
Tab. 3: Vor- und Nachteile relevanter Verfahren zur Lernzielbeschreibung
(Quelle: modifizierte Darstellung nach Wieberg, 1983, S. 50ff.) 9 - … Nachteil / + … Vorteil
Dieser Gegenüberstellung der Vor- und Nachteile nach zu urteilen, scheint das PLANA-Verfahren gegenüber den anderen Verfahren überlegen zu sein, da es laut Wieberg (1983, S. 52) theoriebezogen, präzise und klar genug ist. Wegen des hohen Trainings- und Zeit-aufwands lässt sich allerdings vermuten, dass ein Vorgehen nach dem PLANA-Verfahren den Rahmen der vorliegenden Arbeit sprengen würde. Dieselben Überlegungen hinsichtlich des Aufwands gelten auch für die Test Specifications. Hinzu kommt, dass dieses Verfahren im Gegensatz zu den Taxonomien weniger präzise ist.
Für die nachfolgende Testkonstruktion wird größeren Wert auf einen möglichst geringen Zeit- und Trainingsaufwand in Bezug auf die Anwendung des Verfahrens gelegt. In der vorliegenden Arbeit wird daher die Methode der Tyler-Matrix in Verbindung mit einer Taxonomie für die präzise Lernzielbeschreibung und der daran anknüpfenden Konstrukti-
on kontentvalider Aufgaben verwendet. Die vom Test zu überprüfenden Lernziele werden
9 Wieberg (1983) bemerkt, dass seine tabellarische Kurzbeurteilung nicht als fundierte Diskussion der Vor-und Nachteile der einzelnen Verfahren, sondern als Diskussionsanregung aufzufassen sei. Darüber hinaus solle man beachten, dass die Beurteilungskriterien keinesfalls als gleichwertig und gleich gewichtet betrachtet werden können (vgl. Wieberg, 1983, S. 51). Der Autor der vorliegenden Arbeit erachtet diesen tabellarischen Überblick dennoch als nützliche Orientierungshilfe bei der Auswahlentscheidung für ein Verfahren zur präzisen Lernzielbeschreibung und der darauf aufbauenden Konstruktion kontentvalider Aufga- ben.
16
gemäß dem Vorschlag von Tyler (1973) in Inhalts- und Verhaltenskomponenten zerlegt, diese Komponenten in eine Matrix eingeordnet und anschließend miteinander kombiniert. Zur normierten und systematischen Strukturierung des Verhaltens- und eventuell auch des Inhaltsbereichs wird eine Taxonomie herangezogen. Ein praktikables Vorgehen, das beschreibt, wie man mithilfe der Lernzielmatrix-Methode von bestimmten Lernzielen zu lernzielorientierten Testaufgaben gelangt, wurde von Schott (1974, S. 50ff.) vorgeschlagen. Für den in dieser Arbeit zu entwickelnden Test wird auf diesen Vorschlag zurückgegriffen. Die Vorgehensweise wird allerdings zu einem späteren Zeitpunkt (Abschnitt 3.2.4.1) erläutert, da sich zunächst die Frage stellt, welche Taxonomie zur präzisen Lernzielbeschreibung für die vorliegende Arbeit zweckmäßig ist. Diesbezüglich soll im folgenden Abschnitt vorab näher auf den Taxonomie-Begriff eingegangen werden. Anschließend erfolgt eine Betrachtung von mehreren Taxonomien bzw. Ordnungssystemen für Lernziele. Darauf basierend wird eine Taxonomie ausgewählt, die eine präzise Lernzielbeschreibung ermöglicht und auf deren Grundlage sich in Verbindung mit der Tyler-Matrix kontentvalide Testaufgaben entwickeln lassen.
3.2.2 Taxonomien als Hilfsinstrument bei der Lernzielbeschreibung
3.2.2.1 Klärung des Taxonomie-Begriffs
In der Literatur werden die Begriffe „Klassifikation“ und „Taxonomie“ häufig synonym verwendet, was genau genommen nicht richtig ist. Bei einer Klassifikation werden Ereignisse oder Gegenstände bestimmten Teilklassen zugeordnet. Die Einordnung sollte keine Überschneidung dieser Teilklassen zulassen und außerdem die gesamte ursprüngliche Menge an Ereignissen und Gegenständen abdecken (vgl. Meyer, 1991, S. 100). Im Vergleich dazu ist eine Taxonomie „… eine Klassifikation (Zuteilungsordnung) für Ereignisse und Gegenstände, die mit dem Anspruch theoretischer Begründbarkeit und empirischer Überprüfbarkeit vorgetragen wird“ (Meyer, 1991, S. 100). Der Taxonomie-Begriff ist demnach eine spezifischere Verwendung des Klassifikationsbegriffs. Frey (1972) fügt dem hinzu, dass sich die Taxonomie „… ausdrücklich mit den Gesetzmäßigkeiten, Prinzipien und Regeln, nach denen Klassifikationen oder Ordnungen erstellt werden“ (S. 191) befasst. Eine Taxonomie muss nach diesen genannten Ausführungen zufolge theoretisch begründbar sein und angeben, nach welchem Kriterium ihre Klassifikation erfolgte. Weiterhin kann eine Taxonomie hierarchisch sein, was bedeutet, dass sich eine Reihenfolge durch die Über- oder Unterordnung der Elemente ergibt (vgl. Meyer, 1991, S. 100). Sind die Ele- mente beispielsweise nach dem Kriterium der Komplexität klassifiziert, so können bei ei-
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 17
ner hierarchischen Anordnung Aussagen getroffen werden wie „B ist komplexer als A und C ist komplexer als B“. Insbesondere im Zusammenhang mit den Verhaltenskomponenten von Lernzielen sind Taxonomien häufig (aber nicht immer) hierarchisch ausgeprägt. Sie dienen dann in erster Linie der Klassifikation und Abgrenzung von Lernzielen, beispielsweise nach ihrer Komplexität und ermöglichen dadurch zugleich eine Ordnung nach dem Anspruchsniveau (vgl. u.a. Metzger, S. 62; Möller, 1976, S. 225).
Besondere Bedeutung im Rahmen der Lernzielklassifizierung erlangte die Taxonomie von Bloom et al. für den kognitiven Verhaltensbereich (vgl. Bloom et al., 1956; im Folgenden auch als Bloomsche Taxonomie bezeichnet). Sie wird oftmals zitiert, insbesondere in der Literatur zur Konstruktion von Leistungstests und wurde mittlerweile in über 20 Sprachen übersetzt (vgl. Krathwohl, 2002, S. 213). Mithilfe dieser Taxonomie können beabsichtigte kognitive Verhaltensweisen als Ergebnis eines Erziehungsprozesses klassifiziert werden (vgl. Bloom et al., 1976, S. 26). Das Klassifikationssystem enthält die sechs Hauptkategorien „Wissen“, „Verstehen“, „Anwendung“, „Analyse“, „Synthese“ und „Bewertung“, die sich noch weiter untergliedern lassen. Sie sind nach dem Grad ihrer Komplexität angeordnet, wobei „Wissen“ den niedrigsten und „Bewertung“ den höchsten Komplexitätsgrad aufweist. Darüber hinaus setzt das Erreichen einer höheren Taxonomiestufe das Erreichen der nächst niedrigeren voraus. Diese Art der hierarchischen Strukturierung bezeichnet man als kumulative Hierarchie (vgl. Anderson & Krathwohl, 2001, S. 309; Krathwohl, 2002, S. 212f.). Bloom et al. (1976) geben in ihrem Klassifikationssystem neben detaillierten Definitionen der Taxonomiestufen auch Beispiele für Lernziele sowie Hinweise und zahlreiche illustrative Testaufgaben für die Überprüfung der einzelnen Kategorien an.
Für die Lernzielbeschreibung im Rahmen der lernzielorientierten Testerstellung kommen neben der Taxonomie von Bloom et al. (1976) möglicherweise auch andere Klassifikationssysteme in Frage. In Abschnitt 3.2.2.4 werden daher im Überblick ausgewählte Arbeiten zur Klassifikation von Lernzielen betrachtet, die in den Jahren nach der Publikation der Bloomschen Taxonomie erschienen sind. Die Betrachtungen beschränken sich dabei ausschließlich auf den kognitiven Bereich, denn der Test soll wie in Abschnitt 1.1 erwähnt kognitive Lernleistungen erfassen. Da die Arbeiten nicht alle den Ansprüchen einer Taxonomie wie etwa der theoretischen Begründbarkeit und der Angabe von Ordnungsprinzipien genügen bzw. einige Autoren ihren Ansatz nicht als Taxonomie bezeichnen, wird im Folgenden der allgemeine Ausdruck „Klassifikationssystem“ gewählt. In Abschnitt 3.2.2.5 wird erläutert, welches der betrachteten Ordnungssysteme für eine umfassende Klassifika-
18
tion von Lernzielen und demzufolge auch für eine präzise Lernzielbeschreibung sowie die darauf aufbauende Entwicklung von Testaufgaben geeignet erscheint. Zunächst sollen jedoch das Vorgehen bei der Auswahl relevanter Klassifikationssysteme und im Anschluss daran die Merkmale, die für die Charakterisierung herangezogen wurden, erläutert werden.
3.2.2.2 Erläuterungen des Vorgehens bei der Selektion der Klassifikationssysteme Recherchiert man in der Literatur nach Klassifikationssystemen für den kognitiven Bereich, so lassen sich unzählige Arbeiten verschiedenster Autoren finden. Die meisten davon sind jedoch für den Zweck der vorliegenden Arbeit ungeeignet. Es ist daher notwendig, kurz zu schildern, wonach die Klassifikationssysteme für die nähere Betrachtung ausgewählt wurden.
Vorab erfolgte eine Recherche nach Ordnungssystemen, die für die Lehrplanung, die Unterrichtspraxis oder die Leistungsbewertung entwickelt wurden. Des Weiteren grenzte der Autor der vorliegenden Arbeit die Auswahl dahingehend ein, ob die Klassifikationssysteme zur Einordnung von Lernzielen erstellt wurden bzw. ob sie dafür geeignet sind. Es wurden daher auch Ordnungsysteme betrachtet, die nicht in erster Linie zur Klassifikation von Lernzielen erstellt wurden, jedoch durchaus dazu verwendet werden können. Dies betrifft insbesondere die Arbeiten von Gagné (1970), Ausubel und Robinson (1969), Romiszowski (1981), Biggs und Collis (1982), Quellmalz (1987), Presseisen (1989), Vermunt und Verloop (1999) sowie Reigeluth & Moore (1999). So wurde z. B. das Klassifikationssystem von Quellmalz (1987) hauptsächlich für die Planung von Unterricht ent-worfen, um höheres Denken zu fördern (vgl. Quellmalz, 1987, S. 87). Das System von Reigeluth und Moore (1999) wurde entwickelt, um mehrere Unterrichtstheorien miteinander vergleichen zu können (vgl. Reigeluth & Moore, 1999, S. 51f.). Nicht geeignet für die Einordnung von Lernzielen sind dagegen beispielsweise die Klassifikationssysteme von Sternberg (2001) oder Hokanson und Hooper (2004). Sie wurden dementsprechend auch nicht in für die nähere Betrachtung ausgewählt.
Wie bereits erwähnt, fielen auch Arbeiten in die engere Auswahl, die nicht den Ansprüchen einer Taxonomie genügen bzw. von den Autoren selbst nicht als solche bezeichnet werden. So sind beispielsweise zu den Klassifikationssystemen von Westphalen (1980), des Deutschen Bildungsrates (1970) oder von Jonassen und Tessmer (1996/97) 10 keine für
10 Jonassen, D. H. & Tessmer, M. (1996/97). An outcomes-based taxonomy for instructional systems design, evaluation and research. Training Research Journal, 2, 11-46, zitiert in Moseley et al., 2005, S. 266ff.
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 19
die Kategorisierung herangezogene Theorie bzw. keine Ordnungsprinzipien, nach denen die Klassifikation erfolgte, angegeben. Da sich jene Arbeiten ungeachtet dessen für die Einstufung von Lernzielen eigenen, wurden sie bei der näheren Betrachtung mit berücksichtigt. Weiterhin sollten die Klassifikationssysteme einen eigenständigen Beitrag zur Lernzielklassifizierung liefern. Beispielsweise stellt die Arbeit von Metfessel, Michael und Kirsner (1969) für jede Kategorie und Unterkategorie der Bloomschen Taxonomie lediglich eine große Anzahl von passenden Verben zur Verfügung, um die Handhabung der originalen Taxonomie zu optimieren. Ebenso liefert Ormell (1974) lediglich Modifikati-onsvorschläge zur Verbesserung der Bloomschen Taxonomie. So empfiehlt er beispielsweise, die Kategorien nicht hierarchisch, sondern nebeneinander anzuordnen (vgl. Ormell, 1974, S. 8). Diese beiden Klassifikationssysteme wurden aufgrund ihres geringen eigenständigen Beitrages zur Lernzielklassifizierung nicht weiter betrachtet. Insgesamt wurden neben der Taxonomie von Bloom et al. (1956) weitere 23 Klassifikationssysteme näher beleuchtet. Um einen Überblick über die Arbeiten der einzelnen Autoren zu geben, wurden die Kategorien bzw. Dimensionen der Klassifikationssysteme in Anhang 2 tabellarisch zusammengefasst.
3.2.2.3 Erläuterung der Merkmale zur Charakterisierung der Klassifikationssysteme Für eine Charakterisierung der Ordnungsschemata mussten vorab Merkmale festgelegt werden, die weitestgehend in allen betrachteten Klassifikationssystemen identifiziert werden können. Insgesamt gestaltete sich die Merkmalsauswahl sehr schwierig, da sich die Ordnungsschemata in ihrer Darstellung teilweise stark voneinander unterscheiden. In den meisten Fällen wurden die Klassifikationssysteme sehr umfangreich beschrieben, was eine Durchsicht der Arbeiten bis ins letzte Detail aufgrund des begrenzten zeitlichen Rahmens unmöglich machte. Darüber hinaus waren die Beschreibungen einiger Ordnungssysteme recht unstrukturiert, was die Aufdeckung der wesentlichen Charakteristika erschwerte. Um die übrigen 23 Klassifikationssysteme mit der Bloomschen Taxonomie weitestgehend vergleichen zu können, wurden zum einen Merkmale gewählt, die für die Taxonomie von Bloom et al. (1956) kennzeichnend sind. Zum anderen wurden Charakteristika festgelegt, die für die anschließende Testentwicklung von Bedeutung sind. Folgende Merkmale wurden für die Charakterisierung der Klassifikationssysteme gewählt: Eindimensionale bzw. mehrdimensionale Klassifikationssysteme, Lernergebnisse bzw. keine Lernergebnisse als Gegenstand der Kategorien, hierarchische bzw. keine hierarchische Anordnung der Kate- gorien, „Wissen“ als separate Dimension, Vorschläge bzw. keine Vorschläge zur Über-
20
prüfung des Erreichens der Kategorien sowie Aufnahme von nicht-kognitiven Elementen in das Klassifikationssystem. Sie sollen im Folgenden näher erläutert werden.
Eindimensionale Klassifikationssysteme: Eindimensionale Klassifikationssysteme beziehen sich nur auf eine Komponente von Lernzielen, das heißt, entweder auf den Verhaltens-oder auf den Inhaltsbereich 11 . Die meisten eindimensionalen Klassifikationssysteme, so z. B. auch die Bloomsche Taxonomie, beziehen sich auf den Verhaltensaspekt.
Mehrdimensionale Klassifikationssysteme: Mehrdimensionale Lernzielklassifikationsschemata bestehen aus zwei oder mehreren Dimensionen, welche wiederum mehrere Kate-gorien umfassen. Meist werden die Kategorien der einen Dimension mit denen der anderen Dimension in einer Matrix miteinander kombiniert. Das Klassifikationsschema von Merrill (1994) enthält beispielsweise zwei Dimensionen, dabei bezieht sich eine auf den Verhaltensaspekt, die andere auf den Inhaltsaspekt von Lernzielen.
Lernergebnisse als Gegenstand der Kategorien: Nach Meyer (1991, S. 22) enthalten Lernziele Angaben über gewünschte Lernergebnisse. Demzufolge sind Lernergebnisse, gemäß dem in Abschnitt 3.2.1 festgelegten Verständnis von Lernzielen, beobachtbare bzw. nicht unmittelbar beobachtbare Verhaltensresultate eines vorangegangenen Lernprozesses. Speziell für den kognitiven Bereich geht es dabei um Verhaltensweisen, die sich auf geistige Handlungen oder Denken beziehen. Da nicht bei allen Klassifikationsschemata angegeben ist, ob die Kategorien Lernergebnisse zum Gegenstand haben, wurde die Definition der einzelnen Kategorien herangezogen. Werden darin beobachtbare bzw. nicht unmittelbar beobachtbare Verhaltensweisen beschrieben, so wurde davon ausgegangen, dass Lernergebnisse der Gegenstand der Kategorien sind. Bei den mehrdimensionalen Klassifikationssystemen bezieht sich dies lediglich auf die Verhaltensdimension. Als Beispiel für ein Klassifikationsschema, dessen Kategorien Lernergebnisse beinhalten, kann die Taxonomie von Bloom et al. (1956) genannt werden.
Keine Lernergebnisse als Gegenstand der Kategorien: Dieses Merkmal trifft auf Klassifikationssysteme zu, die keine Verhaltensresultate, sondern ein anderes Objekt als Gegen-stand der Kategorien aufweisen. So werden beispielsweise in der Arbeit von Gagné (1970) Lernarten kategorisiert. Bei Biggs und Collis (1982) sind Antwortstrukturen Gegenstand der Kategorien.
11 Wie bereits erwähnt wurde, strukturieren Taxonomien bzw. Klassifikationssysteme den Inhaltsbereich
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 21
Hierarchische Anordnung der Kategorien: Sind die Kategorien eines Klassifikationssystems hierarchisch angeordnet, so ergibt sich eine Reihenfolge durch Über- oder Unterordnung der einzelnen Klassen (vgl. Meyer, 1991, S. 100). Beispielsweise sind die Kategorien der Taxonomie von Gagné (1970) hierarchisch nach ansteigender Komplexität angeordnet. Dieses Merkmal bezieht sich bei den mehrdimensionalen Klassifikationssystemen auf die Verhaltensdimension.
Keine hierarchische Anordnung der Kategorien: Hier ist die Anordnung der Kategorien nicht durch Über- oder Unterordnung gekennzeichnet. Können keine Aussagen darüber gefunden werden, ob die Kategorien eines Klassifikationssystems hierarchisch angeordnet sind, so wird von einer nicht-hierarchischen Anordnung ausgegangen. Als Beispiel ließe sich hier das Klassifikationsschema von Westphalen (1980) aufführen.
„Wissen“ als separate Dimension: Mit diesem Merkmal ist gemeint, dass „Wissen“, im Sinne von formalen Inhalts- bzw. Wissensarten, eine separate Dimension bildet. Auf diese Weise können bei der Klassifizierung sowohl die Inhalts- als auch die Verhaltenskomponenten von Lernzielen berücksichtigt werden, wodurch eine umfassendere Lernzielklassifizierung möglich wird (vgl. Möller, 1999, S. 83). Als Beispiel sei an dieser Stelle die Taxonomie von Anderson und Krathwohl (2001) aufgeführt.
Vorschläge zur Überprüfung des Erreichens jeder Kategorie: Dieses Merkmal trifft zu, wenn zum jeweiligen Klassifikationssystem Angaben darüber zu finden sind, wie jede Ka-tegorie mithilfe von Testaufgaben überprüft werden kann. Die Taxonomie von Bloom et al. (1956) stellt hier ein Beispiel dar.
Keine Vorschläge zur Überprüfung des Erreichens jeder Kategorie: In den Arbeiten von beispielsweise Gagné (1970) oder Ausubel (1969) sind keine Angaben darüber zu finden, wie die einzelnen Kategorien überprüft werden können.
Aufnahme von nicht-kognitiven Komponenten in das Klassifikationssystem: In einigen Klassifikationssystemen werden nicht nur kognitive Verhaltensweisen kategorisiert, sondern auch affektive und/oder psychomotorische. Als Beispiel lässt sich hier die Arbeit von Hannah und Michaelis (1977) aufführen.
3.2.2.4 Charakterisierung der Klassifikationssysteme
Um die Klassifikationssysteme nicht einzeln beschreiben zu müssen, werden die Arbeiten mit weitestgehend gleichen Merkmalen zu Gruppen zusammengefasst und innerhalb dieser Gruppen näher dargestellt. Dazu empfiehlt es sich, die nachfolgende Tabelle heranzuzie-
22
hen, welche einen Überblick über die Charakterisierung der einzelnen Klassifikationssysteme nach den eben aufgeführten Merkmalen gibt.
Tab. 4: Übersicht über die wesentlichen Merkmale der Klassifikationssysteme
(Quelle: eigene Zusammenstellung) X ... Merkmal trifft zu / ? ... keine Angabe in der Quelle Eindimensionale Klassifikationssysteme mit Lernergebnissen als Gegenstand und einer hierarchischen Anordnung der Kategorien: Wie bereits in Abschnitt 3.2.2.1 erwähnt, sind in der Bloomschen Taxonomie (vgl. Bloom, 1976) Vorschläge zur Überprüfung der Kate-gorien aufgeführt. Zu jeder Unterkategorie lassen sich zahlreiche Aufgabenbeispiele finden, die jedoch hauptsächlich für das Selected-Response-Format (Aufgaben, bei denen die richtige Antwort aus Vorgaben ausgewählt werden muss, vgl. Abschnitt 3.3) angegeben wurden. Ebenso sind im Klassifikationssystem von Hannah und Michaelis (1977) für jede Unterkategorie beispielhafte Testitems aufgeführt, im Vergleich zur Taxonomie von Bloom jedoch auch für das Constructed-Response-Format (Aufgaben, bei denen die Ant- wort frei zu formulieren ist, vgl. Abschnitt 3.3). Darüber hinaus vereinen die Autoren in
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 23
ihrem Ordnungssystem alle drei Bereiche - den kognitiven, den affektiven sowie den psychomotorischen Bereich und klassifizieren damit auch nicht-kognitive Lernziele. Hauenstein (1998) nahm sich vor, die Taxonomien für den kognitiven, affektiven und psychomotorischen Bereich zu vereinheitlichen. Er gibt konstruktive Vorschläge zur Verbesserung aller drei Gebiete. Neben der kognitiven Komponente werden also auch nichtkognitive Komponenten in das Klassifikationssystem aufgenommen. Weiterhin führt Hauenstein beispielhafte Aufgabenstellungen und passende Schlüsselwörter für jede Kate-gorie und Unterkategorie des kognitiven Bereichs auf, die als Hilfestellung zur Formulierung von Lernzielen dienen sollen. Der Deutsche Bildungsrat (1970) dagegen liefert in seinem Klassifikationssystem keine Vorschläge zur Überprüfung der Kategorien. Ebenso lassen sich für das Ordnungssystem von Bruce (1981) 12 keine Angaben darüber finden, ob er Hinweise zur Überprüfung der Lernziele für jede Kategorie aufgeführt hat.
Eindimensionale Klassifikationssysteme mit Lernergebnissen als Gegenstand und keiner hierarchischen Anordnung der Kategorien: Das Ordnungssystem von Gerlach und Sullivan (1967) 13 verfügt neben beispielhaften Lernzielen über passende Testitems zur Überprüfung der Kategorien. Quellmalz (1987) gibt ebenfalls Vorschläge zur Überprüfung jeder Kategorie an, diese fallen jedoch im Vergleich zu Gerlach und Sullivan nicht so ausführlich aus. Ferner lassen sich bei Romiszowski (1981) eher allgemeine Empfehlungen und Angaben über mögliche Aufgabenformate zur Überprüfung der Kategorien finden. Die Vorschläge werden nicht durch Beispiele veranschaulicht. Darüber hinaus nimmt der Au-tor neben der kognitiven auch eine psychomotorische und eine affektive Komponente in sein Klassifikationsschema auf. Gagné ersetzt ab der vierten Ausgabe der „Bedingungen des menschlichen Lernens“ (vgl. Gagné, 1985) die acht Lernarten (vgl. Gagné 1970) durch fünf Klassen, welche die Arten von gelernten Fähigkeiten darstellen. Im Gegensatz zu den früheren Ausgaben Gagné’s können die Kategorien eine beliebige Reihenfolge annehmen und berühren neben dem kognitiven Bereich auch den affektiven und psychomotorischen. In Gagné, Briggs und Wager (1992, S. 263ff.) sind ausführliche Vorschläge zur Überprüfung des Erreichens der Kategorien aufgeführt. Im Gegensatz dazu machen Reigeluth und Moore (1999) keine Vorschläge zur Überprüfung der Kategorien. Auch in den Klassifikationssystemen von Westphalen (1980), Vermunt und Verloop (1999) sowie Jonassen und
12 Bruce, R. L. (1981). Programming for intangibles. Cornell Information Bulletin 179, Extension publication 9 / 81 5M HO 7488. Ithaca, NY: New York State College of Human Ecology at Cornell University, zitiert in Anderson & Krathwohl, 2001, S. 269f.
13 Gerlach, V. & Sullivan, A. (1967). Constructing statements of outcomes. Inglewood, CA: Southwest Re- gional Laboratory for Educational Research and Development, zitiert in DeLandsheere, 1977, S. 124f.
24
Tessmer (1996/97) 14 lassen sich keine Vorschläge zur Überprüfung der Kategorien finden. Anders als jedoch bei Reigeluth und Moore, nehmen diese Autoren auch nicht-kognitive Komponenten in die Ordnungssysteme auf.
Eindimensionale Klassifikationssysteme, die anstelle von Lernergebnissen einen anderen Gegenstand der Kategorien aufweisen: In Gagné’s (1970) Lernhierarchie sind im Gegensatz zu den bisher betrachteten Ordnungssystemen nicht Lernergebnisse, sondern Lernarten Gegenstand der Kategorien. Diese werden benötigt, um gewünschte Lernergebnisse zu erreichen. Die einzelnen Klassen sind hierarchisch angeordnet, allerdings gibt Gagné keine Hinweise zur Überprüfung des Erreichens seiner Kategorien. Auch in der Taxonomie von Ausubel und Robinson (1969) werden Lernarten klassifiziert. Wie bei Gagné sind die Ka-tegorien hierarchisch organisiert und es werden keine Hinweise zu ihrer Überprüfung gegeben. Gegenstand der Kategorien im Ordnungssystem von Biggs und Collis (1982) sind Antwortstrukturen, die bestimmten kognitiven Entwicklungsstufen zugeordnet werden können. Anders als bei Gagné oder Ausubel und Robinson sind die Kategorien nicht hierarchisch angeordnet. Darüber hinaus führen Biggs und Collis für jede Klasse exemplarische Testaufgaben und Antwortbeispiele aus unterschiedlichen Schulfächern auf. Im Klassifikationssystem von Stahl und Murphy (1981) 15 bilden Phasen der Informationsverarbeitung den Gegenstand der Kategorien. Die einzelnen Klassen sind hierarchisch angeordnet. Es lassen sich keine Angaben finden, ob Stahl und Murphy Hinweise zur Überprüfung der Kategorien liefern. Im Gegensatz zu den anderen in dieser Gruppe betrachteten Arbeiten nehmen die Autoren neben der kognitiven auch eine affektive Komponente in das Klassifikationssystem auf.
Mehrdimensionale Klassifikationssysteme mit Lernergebnissen als Gegenstand der Kate-gorien, „Wissen“ als separate Dimension und Vorschlägen zur Überprüfung des Erreichens jeder Kategorie: Im dreidimensionalen Klassifikationssystem von Williams (1977) sind die Kategorien der Verhaltensdimension nicht hierarchisch angeordnet. Dies trifft ebenfalls auf das fünfdimensionale Ordnungssystem von Marzano (1992) sowie auf das zweidimensionale Klassifikationsschema von Merrill (1994) zu. Dagegen sind die Katego-
14 Jonassen,D. H. & Tessmer, M. (1996/97). An outcomes-based taxonomy for instructional systems design, evaluation and research. Training Research Journal, 2, 11-46, zitiert in Moseley et al., 2005, S. 266ff.
15 Stahl, R. J. & Murphy, G. T. (1981). The domain of cognition: An alternative to Blooms cognitive domain
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 25
rien der kognitiven Prozessdimension in der zweidimensionalen Taxonomie von Anderson und Krathwohl (2001) hierarchisch geordnet.
Mehrdimensionale Klassifikationssysteme mit Lernergebnissen als Gegenstand und ohne Angabe von Vorschlägen zur Überprüfung des Erreichens jeder Kategorie: DeCorte’s (1973) 16 dreidimensionales Ordnungsschema verfügt durch die Dimension „Products“ über eine separate Wissensdimension. Ebenso grenzt DeBlock (1972) 17 in seinem dreidimensionalen Klassifikationssystem „Wissen“ durch die separate Dimension „Content“ vom Verhaltensbereich ab. Im Ordnungssystem von Presseisen (1989, 2001 18 ) dagegen gibt es keine separate Wissensdimension, die die systematische und normierte Strukturierung der Inhaltskomponente von Lernzielen ermöglicht. Des Weiteren sind die Kategorien der Dimension “Essential Thinking Skills” hierarchisch angeordnet.
3.2.2.5 Auswahl eines geeigneten Klassifikationssystems für die Lernzielbeschreibung Im vorangegangenen Abschnitt wurden neben der Taxonomie von Bloom et al. (1956) 23 weitere Klassifikationssysteme von Lernzielen betrachtet, die nach der Publikation der Bloomschen Taxonomie erschienen sind. Es kommt an dieser Stelle die Frage auf, welcher Klassifikationsansatz für die Lernzielbeschreibung und die darauf aufbauende Entwicklung der Testaufgaben geeignet ist. Grundsätzlich würde die Taxonomie von Bloom für die vorliegende Arbeit in Frage kommen, da sie neben einer Klassifikation von Lernzielen auch Schwerpunkt auf die Überprüfung dieser Lernziele legt und bereits für viele Testkonstruktionen erfolgreich verwendet werden konnte. Das bekannteste Beispiel dürfte in diesem Zusammenhang der „Wirtschaftskundliche Bildungs-Test“ (vgl. Beck, Krumm & Dubs, 1998) als deutsche Adaption des „Test of Economic Literacy“ (vgl. Soper & Walstad, 1987) sein. Eine nützliche Hilfestellung für die Überprüfung der Lernziele bekommt der Anwender der Bloomschen Taxonomie durch die zahlreichen beispielhaften Testaufgaben, die zu jeder Unterkategorie aufgeführt wurden. Allerdings sind diese Beispiele hauptsächlich für das Selected-Response-Format angegeben. Da der Test die aktive Lernleistung messen soll (vgl. Abschnitt 1.1), sind die Beispiele in dieser Art für die Aufgabenkonstruktion weniger hilfreich. Darüber hinaus lassen sich noch weitere kritische Anmerkungen zur
16 DeCorte, E. (1973). Onderwijsdoelstellingen. Louvain: Universitaire Pers, zitiert in Anderson, 2001, S. 275f.)
17 DeBlock, A., et al. (1972). La taxonomie des objectifs pour la discipline du Latin. Didactica Classica Gandensia, 12-13, 119-131, zitiert in Anderson, 2001, S. 274f. & in DeLandsheere, 1977, S. 126f.
18 Presseisen, B. Z. (2001). Thinking skills: meanings and models revisited. In: A. L. Costa (Ed.). Developing minds: a resource book for teaching thinking (3rd edn). Alexandria, VA: Association for Supervision and Curriculum Development Publications, zitiert in Moseley et al., 2005, S. 94ff.
26
Bloomschen Taxonomie aufführen: So gestaltet sich etwa die Zuordnung von Lernzielen oder Testaufgaben zu den einzelnen Kategorien für einige Anwender der Bloomschen Taxonomie schwierig, da nicht alle Taxonomiestufen trennscharf sind (vgl. DeLandsheere, 1977, S. 105; Strittmatter, 1971, S. 103). Auch Bloom et al. (1976) weisen auf diese Schwachstelle hin: „Sowohl zwischen der Analyse und dem Verständnis als auch zwischen der Analyse und der Evaluation können keine vollständig klaren Trennlinien gezogen werden“ (S. 156). Des Weiteren wurde die kumulativ hierarchische Anordnung der Kategorien nach ihrer Komplexität in Frage gestellt. Zahlreiche Studien haben in den Jahren nach der Publikation ergeben, dass lediglich zwischen den Kategorien „Verstehen“, „Anwendung“ und „Analyse“ eine kumulative Hierarchie empirisch belegt werden kann (vgl. die Meta-Analyse von Anderson & Krathwohl, 2001, S. 289ff.; Kreitzer & Madaus, 1994). Darüber hinaus fällt auf, dass die Kategorie „Wissen“ von Bloom et al. sowohl formale Inhalte (formale Wissensarten) als auch formale Verhaltensweisen vereint. So wird in der Definition der Hauptkategorie „Wissen“ die Verhaltenskomponente angesprochen: „Wissen, wie es hier definiert wird, schließt solche Verhaltensweisen … ein, in denen das Erinnern … betont wird“ (Bloom et al., 1976, S. 71). Dagegen verkörpern die Unterkategorien, welche von „Wissen von konkreten Einzelheiten“ bis hin zu „Wissen von Verallgemeinerungen und Abstraktionen eines Fachgebietes“ reichen (vgl. Bloom et al., 1976 S. 72ff.), den formalen Inhaltsbereich von Lernzielen. Diese „Vereinigung“ von formalen Inhalten und Verhaltensweisen in der Wissenskategorie lässt die Taxonomie in ihrer Gesamtheit unregelmäßig erscheinen, da die anderen Kategorien lediglich den Verhaltensaspekt von Lernzielen berücksichtigen (vgl. Krathwohl, 2002, S. 213). Des Weiteren verfügt die Taxonomie von Bloom et al. aufgrund der Integration von formalen Inhalten in die Verhaltenska-tegorie über keine separate Wissensdimension. Eine Aufspaltung der Lernziele nach Inhalten und Verhaltensweisen bzw. eine Kombination der Kategorien des Inhaltsbereichs mit denen des Verhaltensbereichs ist mit der Taxonomie von Bloom et al. daher nicht möglich. Demzufolge kann die Klassifikation von Lernzielen mithilfe der Bloomschen Taxonomie auch nicht so umfassend erfolgen, wie es beispielsweise bei Ordnungssystemen der Fall wäre, die neben den Verhaltenskategorien über eine separate Wissensdimension verfügen.
Vor dem Hintergrund dieser kritischen Anmerkungen stellt sich die Frage, ob unter den 23 weiteren betrachteten Ordnungssystemen ein Klassifikationsschema gefunden werden kann, das sich besser als die Bloomsche Taxonomie für den zu konstruierenden Test eignet. Um Hilfestellung für die präzise Lernzielbeschreibung und die darauf aufbauende Testaufgabenentwicklung zu leisten, sollte das betreffende Klassifikationssystem wie die
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 27
Taxonomie von Bloom et al. umfangreiche Erläuterungen der einzelnen Kategorien vorweisen und Vorschläge zur Überprüfung sowie beispielhafte Testitems für jede Kategorie enthalten. Darüber hinaus wäre es vorteilhaft, wenn die Handhabung des Klassifikationssystems anhand eines praktischen Beispiels demonstriert und die Angabe der Aufgabenbeispiele nicht nur auf das Selected-Response-Format beschränkt sein würde. Da eine getrennte Betrachtung der Inhalts- und Verhaltenskomponenten von Lernzielen eine umfassendere Lernzielklassifizierung ermöglicht, sollte das Ordnungssystem über eine separate Wissensdimension verfügen. Des Weiteren muss auch eine Kombination der Kategorien der Inhalts- mit jenen der Verhaltensdimension möglich sein. Dies wäre insbesondere im Hinblick auf die Lernzielbeschreibung in Verbindung mit der Tyler- bzw. Lernzielmatrix von Vorteil (vgl. dazu näher Abschnitt 3.2.4.1). Von den Klassifikationssystemen, die Vorschläge zur Überprüfung der Kategorien liefern und über eine separate Wissensdimension verfügen (vgl. dazu Tab. 4), kommen die mehrdimensionalen Ordnungssysteme von Williams (1977), Marzano (1992), Merrill (1994) sowie Anderson und Krathwohl (2001) in Betracht. Diese sollen im Folgenden kurz hinsichtlich ihrer Eignung für die Testkonstruktion diskutiert werden.
Das Klassifikationssystem von Williams (1977) besteht aus drei Dimensionen, von denen sich die erste auf den Verhaltensbereich („Operation“), die zweite auf den Inhaltsbereich („Content“) und die dritte auf die Testform („Test Mode“) zur Überprüfung der Lernziele bezieht (vgl. dazu auch Anhang 2). Die Kategorien der einzelnen Dimensionen ordnet Williams in eine Tabelle ein. Darin weist er jeder Verhaltenskategorie die passenden Inhalts-kategorien zu. Darüber hinaus gibt Williams mit der Dimension „Test Mode“ für jede Inhalts- und Verhaltenskombination Hinweise zur Überprüfung und beispielhafte Testaufgaben im Selected-Response- und Constructed-Response-Format an. Dennoch scheint das Klassifikationssystem von Williams (1977) nach Auffassung des Autors der vorliegenden Arbeit für den zu konstruierenden Test nicht geeignet zu sein: Die Beschreibungen zu den einzelnen Kategorien sind relativ kurz gehalten, was die Handhabung des Ordnungsschemas für die Lernzielklassifizierung bzw. -beschreibung erschweren könnte. Des Weiteren wird auch nicht weiter auf die praktische Anwendung des Instruments, beispielsweise an-hand eines konkreten Fallbeispiels, eingegangen.
Im fünfdimensionalen Klassifikationssystem von Marzano (1992) stellt die Dimension „Acquiring and Integrating Knowledge“ den Inhaltsbereich und die Dimensionen „Extending and Refining Knowledge“ sowie „Using Knowledge Meaningfully“ den Ver-
28
haltensbereich von Lernzielen dar (vgl. dazu auch Anhang 2). Zu den Kategorien der beiden Verhaltensdimensionen werden jeweils beispielhafte Testitems im Constructed-Response-Format angegeben, allerdings sind diese Beispiele eher allgemein gehalten. Im Vergleich zum Klassifikationssystem von Williams (1977) sind die einzelnen Kategorien wesentlich ausführlicher beschrieben. Marzano (1992) macht jedoch keine Angaben darüber, wie die Kategorien der Inhalts- und Verhaltensdimensionen miteinander verbunden werden können. Vor dem Hintergrund dieser Argumente erscheint das Klassifikationssystem von Marzano ebenfalls nicht für die Lernzielbeschreibung und die darauf aufbauende Testkonstruktion geeignet zu sein.
Das Klassifikationssystem von Merrill (1994) enthält die Dimensionen „Student Performance“ und „Subject Matter Content“ (vgl. dazu auch Anhang 2). Erstere bezieht sich auf den Verhaltensbereich von Lernzielen, letztere repräsentiert den Inhaltsbereich. Erwähnenswert ist, dass die Kategorien der „Student Performance“-Dimension grob mit den Ka-tegorien „Intellectual Skills“, „Verbal Information“ und „Cognitive Strategies“ von Gagné (1985) übereinstimmen (vgl. Merrill, 1994, S. 112). Im Gegensatz zu Marzano (1992) sind Merrill’s Erläuterungen zu den einzelnen Klassen eher kurz gehalten, allerdings werden diese durch die Angabe zahlreicher beispielhafter Testitems im Constructed-Response-Format veranschaulicht. Darüber hinaus ordnet der Autor die Kategorien in eine Matrix, die so genannte „Performance-Content-Matrix“ ein. Jedes Lernziel kann daher sowohl nach seiner Inhalts- als auch nach seiner Verhaltenskomponente klassifiziert werden. Neben einigen Hinweisen zur Überprüfung der klassifizierten Lernziele gibt Merrill für jede Kombinationsmöglichkeit in der Matrix beispielhafte Testitems im Constructed-Response-Format an. Des Weiteren wird die Anwendung der „Performance-Content-Matrix“ an einem praktischen Beispiel demonstriert (vgl. Merrill, 1994, S. 177ff.). Das Klassifikationssystem von Merrill wäre daher für den in dieser Arbeit zu konstruierenden Test grundsätzlich geeignet.
Die Taxonomie von Anderson und Krathwohl (2001) enthält ebenfalls zwei Dimensionen. Dabei repräsentieren die Kategorien der „Knowledge Dimension“ den Inhaltsaspekt von Lernzielen, die Kategorien der „Cognitive Process Dimension“ beziehen sich auf den Verhaltensaspekt. Letztere lehnen sich dabei stark an den sechs Taxonomiestufen von Bloom et al. (1956) an. Ebenso wie Merrill (1994) ordnen Anderson und Krathwohl die einzelnen Kategorien in eine Matrix ein. Im Unterschied zum vorher betrachteten Klassifikationssys- tem fallen die Erläuterungen zu den Taxonomiestufen jedoch wesentlich ausführlicher aus.
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 29
Ein weiterer Gegensatz zu Merrill ist, dass sich die Kategorien der Taxonomie von Anderson und Krathwohl in weitere Subkategorien unterteilen lassen. Neben praktischen Hinweisen zur Überprüfung der klassifizierten Lernziele, sind in der „Cognitive Process Dimension“ zu jeder dieser Unterkategorien beispielhafte Testaufgaben aufgeführt. Des Weiteren geben die Autoren nützliche Hinweise, welches Aufgabenformat geeignet ist, um die jeweiligen kognitiven Verhaltensweisen zu überprüfen. Die Aufgabenbeispiele sind dementsprechend im Selected- und/oder im Constructed-Response-Format formuliert. Mögliche Kombinationen der Kategorien des Verhaltensbereichs mit denen des Inhaltsbereichs („Knowledge Dimension“) sowie die praktische Handhabung der Taxonomie werden im Rahmen von konkreten Anwendungsbeispielen (so genannten Vignetten; vgl. Anderson & Krathwohl, 2001, S. 110ff.) erläutert. Wesentlicher Vorteil des Klassifikationssystems gegenüber dem von Merrill (1994) ist, dass die Taxonomie von Anderson und Krathwohl eine Überarbeitung der Bloomschen Taxonomie darstellt. Für die Revision berücksichtigten die Autoren neueste Erkenntnisse 19 und setzten sich darüber hinaus das Ziel, die praktische Handhabung der Taxonomie zu verbessern.
Diesen Argumenten zu Folge scheint die Taxonomie von Anderson und Krathwohl (2001) sowohl gegenüber dem Klassifikationssystem von Merrill (1994) als auch im Vergleich zur Bloomschen Taxonomie am besten für die Lernzielbeschreibung und die darauf aufbauende Aufgabenkonstruktion der vorliegenden Arbeit geeignet zu sein. Im nachfolgenden Abschnitt sollen zunächst die Änderungen des Klassifikationssystems von Anderson und Krathwohl in Bezug auf die Taxonomie von Bloom et al. genauer dargelegt. Im Anschluss daran werden die einzelnen Kategorien in Kurzform erläutert.
3.2.3 Lernzielbeschreibung mithilfe der Taxonomie von Anderson und Krathwohl
3.2.3.1 Wesentliche Eigenschaften der überarbeiteten Taxonomie
Wie bereits im vorangegangenen Abschnitt erwähnt, überarbeiteten Anderson und Krathwohl (2001) die Bloomsche Taxonomie (vgl. Bloom et al., 1956) vor dem Hinter-grund neuester Erkenntnisse in der Lehr-Lern-Forschung und stießen damit auf internationale Resonanz (vgl. Moseley, Baumfield, Elliott, Gregson, Higgins, Miller & Newton, 2005, S. 102). Obwohl sich die Taxonomie stark an den Arbeiten von Bloom et al. anlehnt,
19 So berücksichtigten die Autoren beispielsweise die Ergebnisse empirischer Untersuchungen, die eine kumulativ hierarchische Anordnung der Taxonomiestufen lediglich zwischen den Kategorien „Verstehen“, Anwendung“ und „Analyse“ nachweisen konnten (vgl. Anderson & Krathwohl, 2001, S. 309 sowie Ab- schnitt 3.2.3.1)
30
können dennoch einige wesentliche Änderungen identifiziert werden (vgl. Anderson & Krathwohl, 2001, S. 305ff.). So ist das überarbeitete Klassifikationssystem von Anderson und Krathwohl (2001; im Folgenden auch als Anderson-Taxonomie bezeichnet) in erster Linie ein anwendungsorientiertes Hilfsmittel für die Lernzielplanung, die Durchführung von Unterricht sowie für die Evaluation und fokussiert darüber hinaus auch die Übereinstimmung dieser drei Bereiche 20 . Im Gegensatz dazu ist die Taxonomie von Bloom et al. schwerpunktmäßig auf die Evaluation der Lernziele ausgerichtet, da sie verhältnismäßig viele beispielhafte Testitems zur Verfügung stellt. Zwar werden in der Anderson-Taxonomie auch Beispielaufgaben für jede Unterkategorie der Dimension kognitiver Prozesse (Cognitive Process Dimension“) angegeben, diese sollen allerdings vorrangig die Bedeutung der Kategorien klären (vgl. Anderson & Krathwohl, 2001, S. 306). Nach Auffassung des Autors der vorliegenden Arbeit stellt diese Fokusverlagerung jedoch keinen Nachteil für die nachfolgende Testkonstruktion dar, da die Taxonomie von Anderson und Krathwohl wie bereits erwähnt stark anwendungsorientiert ist. Im Gegensatz zur Bloomschen Taxonomie wird etwa die praktische Anwendung der Anderson-Taxonomie sowohl für die Lernzielklassifizierung, für die Durchführung von Unterricht als auch für die Evaluation sehr ausführlich beschrieben und anhand der Analyse von sechs unterschiedlichen Vignetten („classroom vignettes“) demonstriert (vgl. Anderson & Krathwohl, 2001, S. 95ff.). Des Weiteren geben Anderson und Krathwohl in ihren Erläuterungen an, welches Aufgabenformat (Selected- oder Constructed-Response) für die Überprüfung der einzelnen Subkategorien geeignet ist. Die beispielhaften Testitems sind in den entsprechenden Aufgabenformaten angegeben, was die Aufgabenkonstruktion nach Auffassung des Autors der vorliegenden Arbeit wesentlich erleichtert.
Eine grundlegende Änderung in der Struktur der Anderson-Taxonomie im Vergleich zu Bloom et al. stellt die veränderte Rolle von „Wissen“ dar. Wie bereits in Abschnitt 3.2.2.4 erwähnt, bildet „Wissen“ nunmehr eine separate Dimension. Sie enthält die vier Hauptka- 20 Andersonund Krathwohl bezeichnen die Funktion der Taxonomie für die Lernzielplanung als „learning
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 31
tegorien „Faktenwissen“, „konzeptuelles Wissen“, „prozedurales Wissen“ und „metakognitives Wissen“, welche sich in weitere Subkategorien untergliedern (vgl. dazu näher Abschnitt 3.2.3.2 sowie Anhang 3). Diese Kategorien sind vom Konkreten zum Abstrakten angeordnet, wobei die Kategorie „metakognitives Wissen“ die höchste Abstraktionsstufe verkörpert (vgl. Anderson & Krathwohl, 2001, S. 5). Die kognitiven Prozesse bilden die zweite Dimension. Sie enthält die sechs Hauptkategorien „erinnern“, „verstehen“, „anwenden“, „analysieren“, „bewerten“ und „erschaffen“, welche sich ebenfalls in weitere Subka-tegorien unterteilen (vgl. dazu näher Abschnitt 3.2.3.3 sowie Anhang 4). Die Kategorien der kognitiven Prozess-Dimension stimmen stark mit denen der Bloomschen Taxonomie überein. Sie sind hierarchisch nach ansteigender kognitiver Komplexität angeordnet, wobei die Hauptkategorie „erschaffen“ den höchsten Komplexitätsgrad aufweist (vgl. Anderson & Krathwohl, 2001, S. 5). Im Gegensatz zur Taxonomie von Bloom et al. ist diese Anordnung jedoch nicht kumulativ hierarchisch. So wurde etwa der Anspruch an eine strenge Hierarchie gelockert, um eine Überschneidung der Kategorien hinsichtlich ihrer Komplexität gewährleisten zu können 21 (vgl. Anderson & Krathwohl, 2001, S. 309). Ungeachtet dessen sind Anderson und Krathwohl (2001) der Ansicht, dass trotz dieser Überschneidungen von einer hierarchischen Ordnung im Sinne einer ansteigenden Komplexität gesprochen werden kann: „Conceptually, if we marked off the judged range of each cate-gory on the cognitive process dimension along a continuum from simple to complex, the center of each category going from Remember to Create would be successively greater in complexity” (S. 309). Des Weiteren veränderten Anderson und Krathwohl die Reihenfolge der letzten beiden Kategorien „Synthese“ und „Bewertung“ der Bloomschen Taxonomie. Die genannten strukturellen Änderungen in der Anderson-Taxonomie und ebenso die Neubezeichnungen der Hauptkategorien im Vergleich zu Bloom et al. werden aus der nachfolgenden Abbildung deutlich.
21 Die Autoren erläutern diese Überschneidungen anhand der Subkategorie „erklären“, die der Hauptkategorie „verstehen“ zugeordnet wird. Da „verstehen“ nach dem Kontinuum vom Einfachen zum Komplexen eine geringere Komplexität aufweist als die auf der nächst höheren Stufe liegende Kategorie „anwenden“, müsste „erklären“ daher ebenfalls weniger komplex sein. Laut den Autoren ist dies jedoch nicht der Fall. Vielmehr stellt dies ein Beispiel dafür dar, dass kognitive Prozesse (hier „erklären“) der Komplexität einer nächst höheren Kategorie (hier „anwenden“) gleichkommen oder diese auch übersteigen können. Anderson und Krathwohl argumentieren weiterhin, dass diese Überschneidung hätte vermieden werden können, wenn „erklären“ in die Kategorien „anwenden“, „analysieren“, „bewerten“ oder „erschaffen“ eingeordnet worden wäre. Jedoch steht „erklären“ für eine Art von „verstehen“, weshalb diese Unterkategorie in keine der anderen Hauptkategorien integriert wurde, obwohl sie in manchen Fällen komplexere Prozesse erfor- dert als die einfachsten Vorgänge von „anwenden“ (vgl. Anderson & Krathwohl, 2001, S. 309).
32
Abb. 4: Strukturelle und terminologische Änderungen der Anderson-Taxonomie
(Quelle: eigene Übersetzung in Anlehnung an Anderson & Krathwohl, 2001, S. 310) Die Kategorien der Wissensdimension und der Dimension kognitiver Prozesse können in einer Taxonomietabelle dargestellt und miteinander kombiniert werden (vgl. Tab. 5). Dadurch wird es möglich, Lernziele, Unterrichtsaktivitäten und Testaufgaben sowohl nach Inhalts- als auch nach Verhaltensaspekten zu analysieren bzw. zu klassifizieren.
Tab. 5: Taxonomietabelle von Anderson und Krathwohl
(Quelle: eigene Übersetzung in Anlehnung an Anderson & Krathwohl, 2001, S. 28) Bezogen auf die Lernzielklassifizierung entspricht diese Aufspaltung nach Inhalts- und Verhaltensbereichen dem Verständnis von Lernzielen, dass dieser Arbeit zugrunde gelegt wurde und kommt ebenso dem Vorschlag von Tyler (1973) entgegen (vgl. Abschnitt 3.2.1). Anderson und Krathwohl (2001, S. 12) bezeichnen die Inhalts- bzw. Verhaltenskomponente von Lernzielen als substantivistische bzw. verbale Komponente, wobei die Wissensdimension ersteren und die Dimension kognitiver Prozesse letzteren Bestandteil repräsentiert (vgl. Abb. 4). Auffällig ist, dass die Autoren im Kontrast zu den Ausdrucken in der Tyler-Matrix die Bezeichnungen „Wissen“ anstelle von „Inhalten“ und „kognitive
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 33
Prozesse“ anstelle von „Verhalten“ verwenden. 22 Durch die Kombination der Kategorien der Wissensdimension mit denen der kognitiven Prozessdimension ergeben sich wie bei der Tyler-Matrix Zellen, die insbesondere im Zusammenhang mit der Überprüfung von Lernzielen Hilfestellung bei der Aufgabenkonstruktion geben. So weisen Anderson und Krathwohl (2001, S. 8f.) darauf hin, dass unterschiedliche Lernziele (das heißt, Lernziele in unterschiedlichen Feldern der Tabelle) auch unterschiedliche Evaluationsansätze erfordern, wohingegen ähnliche Lernziele (das heißt, Lernziele in identischen Zellen der Taxonomietabelle) auch ähnliche Ansätze zur Überprüfung beanspruchen. Weiterhin geben die Autoren an, dass es einen direkten Zusammenhang zwischen den Prozesskategorien „erinnern“, „verstehen“ und „anwenden“ und den Wissensarten gibt. So tritt „erinnern“ meist im Zusammenhang mit „Faktenwissen“, „verstehen“ mit „konzeptuellem Wissen“ und „anwenden“ mit „prozeduralem Wissen“ auf. Diese üblicherweise zu erwartenden Kombinationen können Hilfestellung für die korrekte Klassifizierung der Lernziele in die Taxonomietabelle geben. Bei den restlichen drei Kategorien können Übereinstimmungen mit den Wissensarten weniger genau vorhergesagt werden (vgl. Anderson & Krathwohl, 2001, S. 107; vgl. dazu auch Abschnitt 3.2.3.3).
Zusammenfassend lässt sich festhalten, dass die Anderson-Taxonomie im Hinblick auf den zu konstruierenden Test ein hilfreiches Instrument sowohl für die Lernzielpräzisierung als auch für die darauf aufbauende Aufgabenkonstruktion darstellt. Abschließend sollen die Kategorien der Wissensdimension und der Dimension kognitiver Prozesse im Überblick erläutert werden.
3.2.3.2 Wissensdimension
Die Wissensdimension beinhaltet vier Hauptarten von Wissen: „Faktenwissen“, „konzeptuelles Wissen“, „prozedurales Wissen“ und „metakognitives Wissen“. Diese werden im Folgenden kurz erläutert. Die Definition der Subkategorien mit Beispielen für jede Unterart ist in Anhang 3 zu finden.
22 Den Austausch der Bezeichnungen „Inhalte“ durch „Wissen“ begründen Anderson und Krathwohl unter anderem damit, dass der Ausdruck „Inhalte“ üblicherweise mit dem konkreten Lehrstoffinhalt in Verbindung gebracht wird, dieser sich jedoch im Laufe der Zeit ändert. „Verhalten“ wurde ersetzt, um Abstand vom Standpunkt des Behaviorismus zu nehmen. Damit soll deutlich werden, dass sich die Kategorien der kognitiven Prozessdimension nicht nur auf beobachtbare, sondern auch auf nicht unmittelbar beobachtbare Verhaltensweisen, nämlich auf kognitive Prozesse beziehen (vgl. Anderson & Krathwohl, 2001, S. 12ff.). Im Folgenden sollen allerdings die Bezeichnungen „Inhalte“ und „Verhalten“ nicht ausgetauscht werden, da bereits weiter oben geklärt wurde, dass sich die Verwendung des Begriffs „Inhalt“ im Zusammenhang mit Taxonomien nicht auf konkrete Lehrstoffinhalte bezieht und „Verhalten“ in der vorliegenden Arbeit sowohl die beobachtbare als auch die nicht unmittelbar beobachtbare Form umfasst.
34
A. Faktenwissen („Factual Knowledge“): „Faktenwissen“ umfasst die Grundbestandteile, die ein Lernender wissen muss, um sich in einen Wissenszweig einzuarbeiten oder in diesem Aufgaben zu lösen. Meist befindet sich diese Art von Wissen auf einer relativ geringen Abstraktionsstufe. „Faktenwissen“ unterscheidet sich von „konzeptuellen Wissen“ hinsichtlich seiner Genauigkeit. So kann „Faktenwissen“ isoliert betrachtet werden und hat seinen Nutzen in bzw. durch sich selbst. In dieser Kategorie werden die Unterarten „terminologisches Wissen“ und „Wissen von spezifischen Details und Elementen“ unterschieden (vgl. Anderson & Krathwohl, 2001, S. 45ff.).
B. Konzeptuelles Wissen („Conceptual Knowledge“): „Konzeptuelles Wissen“ umfasst das Wissen von Kategorien und Klassifikationen sowie ihre Zusammenhänge innerhalb einer größeren Struktur, die es ihnen ermöglicht, miteinander zu wirken. Es umfasst das Wissen darüber, wie ein bestimmtes Sachgebiet strukturiert und organisiert ist. Die Kategorie enthält die drei Untergruppen „Wissen von Klassifikationen und Kategorien“, „Wissen von Gesetzmäßigkeiten und Verallgemeinerungen“ sowie „Wissen von Theorien, Modellen und Strukturen“ (vgl. Anderson & Krathwohl, 2001, S. 49ff.).
C. Prozedurales Wissen („Procedural Knowledge“): „Prozedurales Wissen“ ist das Wissen darüber, wie man etwas macht und kann vom Erledigen routinemäßiger Übungen bis hin zum Lösen neuartiger Probleme reichen. Es enthält Kenntnisse von Methoden, Techniken, Algorithmen, Fähigkeiten, das heißt also, das Wissen von so genannten Handlungsverfahren. Darüber hinaus gehört zu dieser Kategorie auch die Kenntnis von Kriterien, um zu entscheiden, wann und wo diese verschiedenen Handlungsverfahren eingesetzt werden können. Zu betonen ist, dass „prozedurales Wissen“ nur das Wissen dieser Prozeduren umfasst. Ihre Anwendung dagegen betrifft die Dimension der kognitiven Prozesse. Im Unterschied zum „metakognitiven Wissen“ ist das Wissen von Prozeduren spezifischer in Bezug auf ein bestimmtes Fachgebiet. Es werden die drei Subkategorien „Wissen von fachspezifischen Fähigkeiten und Algorithmen“, „Wissen von fachspezifischen Techniken und Methoden“ sowie „Wissen von Kriterien zur Bestimmung des Einsatzes geeigneter Verfahren“ unterschieden (vgl. Anderson & Krathwohl, 2001, S. 53ff.).
D. Metakognitives Wissen („Metacognitive Knowledge“): „Metakognitives Wissen“ umfasst die Kenntnisse über die Kognition allgemein sowie das Bewusstsein und das Wissen über die eigene Erkenntnis. Anderson und Krathwohl (2001, S. 55ff.) unterscheiden drei Arten von Metakognition: „Strategisches Wissen“, „Wissen über kognitive Aufgaben, ein- schließlich kontextabhängiges und konditionales Wissen“ und „Selbsterkenntnis“.
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 35
3.2.3.3 Dimension der kognitiven Prozesse
Die Dimension der kognitiven Prozesse umfasst die sechs Hauptkategorien „erinnern“, „verstehen“, „anwenden“, „analysieren“, „bewerten“ und „erschaffen“. Diese sollen im Folgenden kurz erläutert werden. Die Subkategorien werden in Anhang 4 definiert und mit beispielhaften Lernzielen verdeutlicht.
1. Erinnern („Remember“): Die Kategorie „erinnern“ umfasst Denkvorgänge bei denen relevantes Wissen aus dem Langzeitgedächtnis abgerufen wird. Erinnern ist wesentlich für Unterrichtsziele, die das Behalten von dargebotenem Material fördern sollen und zwar weitestgehend in derselben Form, wie es in der Unterrichtssituation präsentiert wurde. Erinnert werden können sowohl „Faktenwissen“, „konzeptuelles Wissen“, „prozedurales Wissen“ als auch „metakognitives Wissen“. Kognitive Prozesse dieser Kategorie sind „wieder erkennen“ und „abrufen“ (vgl. Anderson & Krathwohl, 2001, S. 66ff.).
2. Verstehen („Understand“): Eine Person hat etwas verstanden, wenn sie den Sinn bzw. die Bedeutung einer „Botschaft“ erfasst hat. Diese kann dabei in mündlicher, schriftlicher, grafischer oder einer anderen Form dargeboten sein. Um etwas zu „verstehen“, muss das neu zu erwerbende Wissen in Beziehung zum Vorwissen gesetzt werden. Beim „Erinnern“ wird das Wissen lediglich aus dem Gedächtnis abgerufen. Die Kategorie „verstehen“ hingegen umfasst kognitive Vorgänge, bei denen das eingehende Wissen in bereits bestehende Schemata und kognitive Gebilde eingeordnet wird. In der Regel bildet „konzeptuelles Wissen“ die Basis für Verstehen. Anderson und Krathwohl (2001, S. 70 ff.) unterscheiden innerhalb dieser Kategorie folgende kognitive Prozesse: „interpretieren“, „exemplifizieren“, „klassifizieren“, „zusammenfassen“, „schlussfolgern“, „vergleichen“ und „erklären“.
3. Anwenden („Apply“): „Anwenden“ umfasst das Ausführen oder Benutzen von Verfahrensweisen, um bestimmte Übungen ausführen oder Probleme lösen zu können. Kognitive Prozesse dieser Kategorie sind daher eng mit „prozeduralem Wissen“ verbunden. Anderson und Krathwohl (2001, S. 77 ff.) unterscheiden in dieser Kategorie die kognitiven Prozesse „durchführen“ und „umsetzen“.
4. Analysieren („Analyse“): Bei kognitiven Vorgängen dieser Kategorie wird eine Materie in ihre einzelnen Bestandteile zerlegt und ermittelt, wie die Teile zueinander und zur Gesamtstruktur in Beziehung stehen. „Analysieren“ umfasst die Prozesse „differenzieren“, „organisieren“ und „attributieren“ (vgl. Anderson & Krathwohl, 2001, S. 79ff.).
36
5. Bewerten („Evaluate“): Die Kategorie „bewerten“ umfasst die Fähigkeit, Urteile bezogen auf Kriterien und Anforderungen abzugeben. Dabei können die Kriterien entweder zuvor von der beurteilenden Person bestimmt oder extern vorgegeben werden. „Bewerten“ beinhaltet die kognitiven Prozesse „überprüfen“ und „kritisch beurteilen“ (vgl. Anderson & Krathwohl, 2001, S. 83 ff.).
6. Erschaffen („Create“): „Erschaffen“ umfasst die Fähigkeit, Elemente zusammenzubringen, die ein stimmiges oder zweckmäßiges Ganzes bilden. Dabei werden einzelne Komponenten im Geist zu einem neuen Muster oder einer neuen Struktur umgestellt. Anders als bei den anderen Kategorien, sind beim „Erschaffen“ die Bestandteile, die zu einem neuen Produkt zusammengefügt werden sollen, nicht gegeben. Der Lernende muss sich daher auf Komponenten aus verschiedenen Quellen stützen. Die Kategorie „erschaffen“ umfasst die kognitiven Prozesse „generieren“, „planen“ und „entwickeln“ (vgl. Anderson & Krathwohl, 2001, S. 84ff.).
3.2.4 Von Lernzielen zu lernzielorientierten Testaufgaben
3.2.4.1 Lernzielbeschreibung mithilfe einer taxonomisch strukturierten Lernzielmatrix In Abschnitt 3.2.1 wurde festgelegt, dass die präzise Lernzielbeschreibung und die darauf aufbauende Konstruktion der Aufgaben für den zu entwickelnden Test mithilfe der Tyler-Matrix erfolgen soll. Die zu überprüfenden Lernziele werden daher nach dem Vorschlag von Tyler (1973) in Inhalts- und Verhaltenskomponenten zerlegt, in eine Matrix eingetragen und anschließend miteinander kombiniert. Die systematische und normierte Strukturierung der Spalten und Zeilen der Tyler-Matrix erfolgt anhand der Kategorien der Wissensdimension und der Dimension kognitiver Prozesse, welche von Anderson und Krathwohl (2001) vorgeschlagen wurden. Insbesondere die taxonomische Strukturierung des Verhaltensbereichs der Tyler- bzw. Lernzielmatrix ermöglicht eine einheitliche und damit intersubjektiv verständliche Lernzielpräzisierung. Darauf aufbauend können dann Testaufgaben konstruiert werden, die der Forderung nach einer hohen Kontentvalidität in Bezug auf das Lernziel gerecht werden. Wie man von Lernzielen zu lernzielorientierten Testaufgaben gelangt, wurde von Schott (1974, S. 50ff.) folgendermaßen vorgeschlagen: Zunächst werden in einem ersten Schritt die zu überprüfenden Lernziele als anzustrebende Fähigkeiten festgelegt und darauf aufbauend eine Lernzielmatrix aufgestellt. Im zweiten Schritt sind die für den Test in Frage kommenden Aufgabenuniversen bzw. Teillernziele zu bestimmen. Im letzten Schritt werden aufbauend auf den festgelegten Itemuniversen die Aufga- ben des lernzielorientierten Tests bestimmt. Unter anderem greifen Fricke (1974, S. 26ff.)
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 37
und Schwarzer (1976, S. 189ff.) diesen Vorschlag auf und demonstrieren die Anwendung des Vorgehens an einem praktischen Beispiel. Die einzelnen Konstruktionsschritte nach Schott (1974) sind in der nachfolgenden Abbildung veranschaulicht und werden im Anschluss daran eingehender erläutert.
Abb. 5: Schritte zur Konstruktion lernzielorientierter Tests
(Quelle: modifizierte Darstellung nach Schott, 1974, S. 69)
1. Operationalisierung: Zunächst müssen die vom Test zu überprüfenden Lernziele in Form von anzustrebenden Fähigkeiten festgelegt werden. Darauf basierend wird bestimmt, welche Inhalts- und welche Verhaltensbereiche von den festgelegten, allgemein formulierten Lernzielen betroffen sind. Dazu bildet man eine gewisse Anzahl von Inhaltsklassen bzw. bestimmt, welche Verhaltenskategorien der Taxonomie von Anderson und Krathwohl (2001) berührt werden. Die Inhaltsklassen benennt man nach Oberbegriffen des speziellen Lehrstoffinhalts, der den jeweiligen Klassen zugeordnet wird. Anschließend werden die festgelegten Kategorien in die Zeilen der Lernziel- bzw. Tyler-Matrix eingetragen (vgl. Schott, 1974, S. 51f.). Wie in Abschnitt 3.2.3 erwähnt, können zwischen einigen formalen Inhalts- und Verhaltenskategorien der Anderson-Taxonomie Übereinstimmungen erwartet werden. 23 Dies kann als Hilfestellung für die spätere Bestimmung von sinnvollen bzw. erwünschten Kombinationen der Inhalts-und Verhaltensklassen (vgl.
Operationalisierungsschritt zwei) genutzt werden. Aus diesem Grund bietet es sich nach Auffassung des Autors der vorliegenden Arbeit an, die mit Oberbegriffen des Lehrstoffinhalts bezeichneten Inhaltsklassen (Inhaltsklasse A, Inhaltsklasse B, usw.) den formalen Wissensarten („Faktenwissen“, „konzeptuelles Wissen“, usw.) zuzuordnen (vgl. Tab. 6). Die festgelegten Verhaltenskategorien werden in die Spalten der Lernzielmatrix eingetragen. Sie beziehen sich auf das Verhalten, das die Lernenden anhand spezieller Lehrstoffinhalte ausführen sollen und werden nach den Kategorien der kognitiven Prozessdimension
23 So wurde in Abschnitt 3.2.3.3 angegeben, welche Übereinstimmungen zwischen den Kategorien der kognitiven Prozessdimension und denen der Wissensdimension nach Anderson und Krathwohl (2001) üblicherweise erwartet werden können. Beispielsweise erfordern kognitive Prozesse der Kategorie „verstehen“ in der Regel „konzeptuelles Wissen“ (vgl. Anderson & Krathwohl, 2001, S. 70). Im Gegensatz dazu ist ei- ne Kombination der Kategorie „anwenden“ mit „konzeptuellem Wissen“ eher unüblich.
38
der Anderson-Taxonomie benannt. Die Lernzielmatrix könnte demnach wie folgt dargestellt werden:
Tab. 6: Tyler- bzw. Lernzielmatrix mit taxonomischer Strukturierung
(Quelle: eigene Darstellung, in Anlehnung an Anderson & Krathwohl, 2001, S. 28) Schott (1974, S. 53) weist darauf hin, dass der Testkonstrukteur die Inhaltsklassen und Verhaltenskategorien beliebig weiter untergliedern kann. So könnte man etwa die Verhal-tenskategorie „erinnern“ in „wieder erkennen“ und „abrufen“ unterteilen. Umgekehrt können aber auch zwei oder mehrere Klassen zusammengefasst werden. Inwieweit man die Spalten und Zeilen der Lernzielmatrix differenziert oder zusammenfasst und demzufolge die Größe der Zellen verändert, sollte dem Verwendungszweck entsprechend entschieden werden. Das heißt, die Zellen müssen in erster Linie brauchbare Aufgabengeneratoren darstellen (vgl. Herbig, 1976, S. 22). Darüber hinaus sollte die Übersichtlichkeit der Lernzielmatrix berücksichtigt werden, die bei unzähligen Verhaltens- bzw. Inhaltsklassen möglicherweise nicht mehr gewährleistet werden kann. Weiterhin empfiehlt Ulbricht (1979, S. 14f.), die Bedeutung der einzelnen festgelegten Spalten- und Zeilenbezeichnungen zu erläutern. Insbesondere bei den verwendeten Bezeichnungen der Inhaltsklassen sollte der Testkonstrukteur kurz angeben, welche Lehrstoffinhalte von den Klassen jeweils umfasst werden. Die Erläuterungen zu den Verhaltenskategorien werden aus der Anderson-Taxonomie übernommen. Darüber hinaus müssen Inhalts- und Verhaltensbereich keineswegs vollständig, sondern entsprechend den Lernzielen, die der Test überprüfen soll, aufgeführt werden (vgl. Schott, 1974, S. 53). Sollen beispielsweise keine Analyseleistungen getestet werden, so ist es nicht notwendig, die Kategorie „analysieren“ für den Verhaltensbereich aufzuführen. Mit dem Aufstellen der Lernzielmatrix wäre der erste Operationalisierungsschritt nach Schott (1974) abgeschlossen.
2. Operationalisierung: Aus Tabelle 6 wird deutlich, dass jede Inhaltsklasse mit jeder Ver- haltenskategorie kombiniert werden kann und dadurch Zellen entstehen. Jede Zelle stellt
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 39
dabei ein Teillernziel der zuvor festgelegten, anzustrebenden Fähigkeiten dar. Gleichzeitig wird durch die Inhalts-Verhaltens-Kombination ein Aufgabenuniversum 24 definiert, welches eine Menge von gleichartigen Aufgaben umfasst. Die Items fallen dabei nur unter jene Inhalts- und Verhaltenskategorie, durch welche die betreffende Zelle gebildet wurde. Damit sind die möglichen Testaufgaben jedes Aufgabenuniversums implizit bereits bestimmt: So würde beispielsweise die Zelle in der linken oberen Ecke der Matrix aus Tabelle 6 nur solche Aufgaben umfassen, die das „Erinnern“ in Bezug auf die Inhaltsklasse A prüfen. Zur besseren Verständlichkeit können die Aufgabenuniversen zusätzlich verbal anhand der betreffenden Inhalts- und Verhaltenskategorie beschrieben werden (vgl. Fricke, 1974, S. 27f.). Da nicht alle Kombinationen der Inhaltsklassen mit den Verhaltenskategorien sinnvoll oder erwünscht sind, kennzeichnet der Testkonstrukteur lediglich diejenigen Zellen, die Gegenstand des lernzielorientierten Tests werden sollen. Dies kann z. B. durch ein „X“ verdeutlicht werden. Unbesetzte Zellen stellen meist keine erwünschten oder sinnvollen Aufgabenuniversen bzw. Teillernziele dar. Sie können jedoch auch auf bisher vernachlässigte Teillernziele hinweisen, die nachträglich noch als erstrebenswert angesehen werden (vgl. Schott, 1974, S. 56). Mit dem Festlegen der Teillernziele bzw. Aufgabenuniversen, die für den Test in Frage kommen, wäre Operationalisierungsschritt zwei abgeschlossen.
3. Operationalisierung: Im letzten Operationalisierungsschritt werden auf Grundlage der Aufgabenuniversen, die jeweils durch die Kombination von einer speziellen Inhaltsklasse mit einer bestimmten Verhaltensklasse eindeutig beschrieben sind, kontentvalide Aufgaben (die so genannte Testmenge) gebildet. Fricke (1974, S. 28f.) bemängelt, dass durch ein solches Vorgehen der Aufgabenkonstruktion nicht hinreichend gut von den Testlösungen auf die Zielfähigkeit, die durch das Aufgabenuniversum definiert wird, geschlossen werden kann. Diese Problem ließe sich beheben, wenn man für jedes Aufgabenuniversum eine explizit formulierte Mengen von Aufgaben vorliegen hätte, aus denen dann per Zufall eine repräsentative Aufgabenstichprobe gezogen werden könnte. Da die Aufgabenuniversen wie bereits in Abschnitt 3.2.1 erwähnt in der Regel sehr groß sind, wäre eine Aufzählung aller entsprechenden Testaufgaben nahezu unmöglich. Fricke (1974, S. 28) schlägt vor, zu den jeweiligen Aufgabenuniversen, die nach dem Vorgehen von Schott (1974) bestimmt wurden, generative Regeln anzugeben, durch die eine automatisierte Gewinnung von re- 24 Schott(1974, S. 53f.) bezeichnet die Matrix-Zellen als „Aufgabenklassen“. Da jedoch in Abschnitt 3.2.1 der Begriff „Aufgabenuniversum“ verwendet wurde, soll die Bezeichnung an dieser Stelle und im Folgen- den beibehalten werden.
40
präsentativen Testmengen möglich wird. Solche Algorithmen werden im Rahmen von formalsprachlich orientierten Verfahren konzipiert (vgl. Abschnitt 3.2.1). Allerdings lassen sich damit nur Aufgaben in der Form generieren, bei denen die Probanden die richtige Antwort lediglich aus vorgegebenen selektieren müssen. Diese Beschränkung ist jedoch für den in dieser Arbeit zu konstruierenden Test kaum vorteilhaft, wenn aktive Denkleistungen getestet werden sollen (vgl. dazu Abschnitt 1.1). Daher muss im Folgenden hingenommen werden, dass sich mittels der Testlösungen nicht hinreichend gut auf die durch das Aufgabenuniversum definierte Zielfähigkeit schließen lässt.
3.2.4.2 Planung der Aufgabenanzahl mithilfe der Lernzielmatrix
Noch vor der Itementwicklung (das heißt, vor Operationalisierungsschritt drei) muss der Testautor entscheiden, wie viele Aufgaben konstruiert werden sollen. Aufgrund einer begrenzten Zeit zur Bearbeitung des Tests, können den Probanden nicht unendlich viele Aufgaben gestellt werden. Ein Test kann daher lediglich einen repräsentativen Querschnitt des zu überprüfenden Leistungsbereichs erfassen. Nach Gronlund (1974, S. 18f.) kann die Repräsentativität des Testinhalts durch die Verwendung der Lernzielmatrix erhöht werden. Die geplante Aufgabenanzahl zu jedem Inhalts- und Verhaltensbereich wird in die jeweiligen Zellen eingetragen. Die anschließende Aufgabenkonstruktion sollte sich nach dieser Planung richten. Damit kann beispielsweise verhindert werden, dass bestimmte Zellen intensiver abgeprüft werden, nur weil sich für diese die Testaufgaben besonders einfach konstruieren lassen (vgl. Seelig, 1971, S. 245). Nachfolgende Tabelle veranschaulicht, wie man die Lernzielmatrix zur Festlegung der Aufgabenanzahl verwenden kann.
Tab. 7: Angabe der Aufgabenanzahl in der Lernzielmatrix
(Quelle: eigene Darstellung in Anlehnung an Gronlund, 1974, S. 33)
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 41
Je wichtiger dem Testkonstrukteur eine Zelle in der Matrix und demzufolge ein Teillernziel bzw. ein Aufgabenuniversum erscheint, desto mehr Aufgaben sollte er dafür in den Test aufnehmen. Die Gewichtung der Aufgabenanzahl kann sich dabei nach der Wichtigkeit der Inhaltsgebiete und/oder der Verhaltenskategorien richten. Da der in der vorliegenden Arbeit zu konstruierende Test die Lernwirksamkeit einer pädagogisch-didaktischen Intervention messen soll, orientiert sich dieser in erster Linie an den in der Intervention vermittelten Inhalten und Fähigkeiten. Daher sind bei der Verteilung der Aufgaben auch die Schwerpunktsetzungen der Intervention mit zu berücksichtigen (vgl. Gronlund, 1974, S. 33). Aus Tabelle 7 wird beispielsweise ersichtlich, dass Inhaltsklasse C die größte und Inhaltsklasse B die geringste Bedeutung beigemessen wird. Die Verhaltenskategorie „erinnern“ scheint mit acht Aufgaben die schwerpunktmäßig wichtigste Kategorie des Verhaltensbereichs zu sein. Insgesamt soll der Test 24 Aufgaben umfassen, wobei diesbezüglich die zur Verfügung stehende Testzeit zu berücksichtigen ist. Zudem weist Horn (1984, S. 150f.) darauf hin, dass zu jedem Teillernziel mehr als eine Testaufgabe gestellt werden sollte. Damit kann der Testkonstrukteur die Gefahr verringern, dass eine Aufgabe durch Zufall gelöst und daher das Teillernziel nur scheinbar erreicht wurde. Was bei der Aufgabenkonstruktion beachtet werden sollte und welche Aufgabenformate dabei grundsätzlich zur Verfügung stehen, wird im nachfolgenden Abschnitt ausführlich betrachtet.
3.3 Regeln für die Aufgabenkonstruktion und mögliche Aufgabenformate
Gronlund (1974, S. 87ff.) sowie Gronlund und Linn (1990, S. 136f.) geben folgende allgemeine Hinweise für die Aufgabenkonstruktion:
1. Die Lernzielmatrix sollte als Orientierungshilfe für die Testaufgabenkonstruktion herangezogen werden. Sie kann neben der Entscheidung über die Anzahl der notwendigen Aufgaben auch bei der Auswahl des geeigneten Aufgabenformats sowie bei der Formulierung der Items zur Überprüfung der Lernziele helfen.
2. Es sollten zahlenmäßig mehr Aufgaben konstruiert werden, als in der Lernzielmatrix geplant wurde (vgl. Tab. 7), da sich bei der Überprüfung und der Analyse der Testaufgaben (vgl. Abschnitt 3.5.2) im Nachhinein einige als unbrauchbar erweisen könnten. 3. Jede Testaufgabe sollte ein relevantes, in der Lernzielmatrix enthaltenes Lernziel überprüfen. Insgesamt muss die Matrix durch alle Testitems vollständig abgedeckt werden. 4. Jede Aufgabenart muss für die Überprüfung des betreffenden Lernziels geeignet sein. 5. Jede Aufgabe muss eine klare Problemstellung enthalten und sollte einfach und eindeu- tig formuliert werden. Das bedeutet, dass alle Testpersonen verstehen müssen, was von
42
6. Die Testaufgaben dürfen keine äußeren Anhaltspunkte für die Beantwortung enthalten.
7. Die Testaufgaben dürfen sich nicht überschneiden und ihre Beantwortung muss unabhängig von der Beantwortung anderer möglich sein.
8. Jede Testaufgabe sollte so konstruiert werden, dass ihre Schwierigkeit dem Leistungsniveau der Testpersonengruppe angemessen ist.
9. Es ist empfehlenswert, zu jeder konstruierten Aufgabe eine Musterantwort zu verfassen.
Nach Anderson und Krathwohl (2001, S. 8f.) kann davon ausgegangen werden, dass Lernziele in gleichen Zellen der Lernzielmatrix ähnliche Formate zur Überprüfung erfordern. Für die Itemkonstruktion müssen also geeignete Aufgabenarten ausgewählt werden, die das Erreichen der festgelegten Lernziele angemessen überprüfen. Grundsätzlich unterscheidet man nach der Antwortform zwischen Selected- und Constructed-Response-Aufgaben (vgl. nachfolgende Abb.).
Abb. 6: Überblick über die wichtigsten Aufgabenformate 25
(Quelle: eigene Darstellung in Anlehnung an Gronlund, 1974, S. 20ff.)
Bei Aufgaben im Constructed-Response-Format (auch „Aufgaben mit freier Beantwortung“ genannt) müssen die Probanden ihre Antworten selbst formulieren. Da die Aufgaben wenig vorstrukturiert sind, können die Antworten nur schwer gelenkt werden. Allerdings wird dadurch weitestgehend das Risiko begrenzt, die richtige Lösung allein durch Raten zu finden. Bei Aufgaben im Selected-Response-Format (auch als „Aufgaben mit gebundener
25 Weitere ähnliche Darstellungen und Beschreibungen von Aufgabenformaten mit zahlreichen Beispielen
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 43
Beantwortung“ bezeichnet) wählt der Proband die Antwort aus vorgegebenen Lösungen aus. Im Vergleich zum Constructed-Response-Format sind diese Aufgaben stärker vorstrukturiert und ermöglichen daher eine bessere Lenkung der Antworten. Bei diesem Format besteht jedoch eine gewisse Wahrscheinlichkeit, die Lösung zu erraten (vgl. Gronlund, 1974, S. 20).
Wie aus Abbildung 6 ersichtlich, unterscheidet man für das Selected-Response-Format Alternativ-Aufgaben (Zweifachwahlaufgaben), Matching-Aufgaben (Zuordnungsaufgaben) und Multiple-Choice-Aufgaben (Mehrfachwahlaufgaben). In Abschnitt 1.1 wurde darauf hingewiesen, dass der zu konstruierende Test die aktive Denkleistung der Probanden erfassen soll. Das heißt, die Testpersonen müssen die Antworten selbst formulieren, anstatt diese aus vorgegebenen auszuwählen. Aus diesem Grund kommen Aufgaben im Selected-Response-Format für den Test der vorliegenden Arbeit nicht in Betracht. Sie sollen im Folgenden daher nur kurz erläutert werden. Lediglich die Form der Multiple-Choice-Aufgabe, welche in Tests sehr häufig Verwendung findet, wird stellvertretend für die anderen Selected-Response-Formate ausführlicher betrachtet. Zur Veranschaulichung der Erläuterungen ist in Abbildung 7 zu jeder Aufgabenart ein Beispiel dargestellt. Bei Alternativ-Aufgaben muss sich der Proband lediglich zwischen zwei Antwortalternativen entscheiden. Zumeist bestehen Aufgaben eines solchen Formats aus einer Feststellung bzw. einer Aussage über Gesetze, Fakten, Prinzipien, Interpretationen oder Anwendungsmöglichkeiten, die als richtig oder falsch erkannt werden müssen. Daher wird dieser Aufgabentyp oft auch als True-False-Aufgabe (Richtig-Falsch-Aufgabe) bezeichnet (vgl. Gronlund, 1974, S. 21, S. 55). Es gibt aber auch Formen, die verlangen, dass die Testperson mit ja oder nein antwortet, zustimmen bzw. ablehnen oder andere Antworten geben muss, bei denen nur zwei Möglichkeiten in Frage kommen. Bei Matching-Aufgaben müssen gegebene Prämissen und Antworten, Begriffe und Definitionen, Grundsätze und Veranschaulichungen, Regeln und Beispiele oder ähnliches einander zugeordnet werden (vgl. Gronlund, 1974, S. 21, S. 58). Multiple-Choice-Aufgaben bestehen aus einem Aufgabenstamm, der meist ein Problem in Form einer Frage oder einer unvollständigen Aussage enthält, und aus mehreren Antwortalternativen als mögliche Lösungen. Die Antwortalternativen bestehen meist aus einer richtigen und mehreren plausiblen falschen Antworten, die als „Distraktoren“ bezeichnet werden und von der richtigen Lösung ablenken sollen. In der Regel werden den Probanden vier oder fünf Wahlantworten angeboten, wobei die Wahrscheinlichkeit, dass die richtige Lösung durch bloßes Raten ausgewählt wird, mit der Anzahl der Antwortalternativen sinkt. Nach Gronlund (1974, S. 39ff., S. 64ff.) können
44
Multiple-Choice-Aufgaben eine Vielzahl von Lernzielen überprüfen, die kognitive Prozesse von „erinnern“ bis „analysieren“ umfassen. Sie eignen sich jedoch nicht für die Messung von Fähigkeiten, die „Bewerten“ oder „Erschaffen“ im Sinne der Taxonomie von Anderson und Krathwohl (2001) 26 erfordern. Multiple-Choice-Aufgaben erlauben wie die anderen Aufgabenarten des Selected-Response-Formats eine objektive und ökonomische Auswertung, da die möglichen Antworten vorgegeben und damit vorhersehbar sind (vgl. Gronlund, 1974, S. 37). Schwierigkeiten können sich allerdings bei der Konstruktion bzw. beim Auffinden von geeigneten Distraktoren ergeben. Werden neben der richtigen Antwort offensichtlich unplausible bzw. keine gleichattraktiven Antwortalternativen angeboten, so könnten auch Probanden mit ungenügenden Kenntnissen zur richtigen Lösung gelangen (vgl. Rosemann, 1984, S. 170f.). Ausführliche Konstruktionsregeln für die Erstellung von Alternativ-, Matching- und Multiple-Choice-Aufgaben sind z. B. in Ebel (1965, S. 124ff.) oder Gronlund (1974, S. 41ff.) zu finden. Nachfolgende Abbildung enthält Aufgabenbeispiele für jede erläuterte Aufgabenart des Selected-Response-Formats.
Abb. 7: Beispielhafte Aufgaben für das Selected-Response-Format
(Quelle: eigene Darstellung)
26 Gronlund (1974) bezieht sich bei den mit Testaufgaben zu überprüfenden Lernziele auf die Kategorien der
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 45
In Abbildung 6 ist zu erkennen, dass Short-Answer-Aufgaben (Kurzantwortaufgaben), Completion-Aufgaben (Ergänzungsaufgaben) und Essay-Aufgaben (Kurzaufsatzaufgaben) zum Constructed-Response-Format gezählt werden. Short-Answer- und Completion-Aufgaben unterscheiden sich lediglich durch die Art der Problemstellungsdarbietung von-einander. Bei der ersten Aufgabenart müssen die Testpersonen eine Antwort auf eine direkte Frage geben. Bei der zweiten ist eine unvollständige Feststellung oder Aussage zu ergänzen (für Aufgabenbeispiele vgl. Abb. 8). Die Antworten können bei beiden Aufgabentypen einzelne Symbole, Worte, Zahlen oder ähnliches sein (vgl. Rosemann, 1984, S. 174f.). Besonders vorteilhaft gegenüber dem Selected-Response-Format ist, dass Short-Answer- und Completion-Aufgaben durch die selbständige Antwortformulierung nahezu völlig frei von Zufallseinflüssen sind. Weiterhin sind diese Aufgabenarten die einzigen, bei denen der Proband die richtige Lösung selbst finden muss und dennoch eine objektive Auswertung aufgrund der Kürze der Antwort möglich ist (vgl. Gronlund, 1974, S. 37, S. 60). Die Schwierigkeit besteht darin, die Aufgabe so zu formulieren, dass nur eine richtige Lösung in Betracht kommt. Insbesondere wenn die Antwort aus einem oder mehreren Worten besteht, gibt es oftmals verschiedene Formulierungen, die als korrekte Lösung noch vertretbar sind. Dadurch kann im Gegensatz zu den Aufgaben im Selected-Response-Format eine gewisse Auswertungssubjektivität aufkommen, wodurch sich die Zuverlässigkeit der Punktwerte verringern kann. Bei Zahlen oder Symbolen als Antwort besteht dieses Problem jedoch nicht. Nach Gronlund (1974, S. 21) beschränkt sich die Verwendung von Short-Answer- und Completion-Aufgaben fast ausschließlich auf die Messung von Erinnerungsfähigkeiten. Sie sollten den Aufgabenarten des Selected-Response-Formats nur dann vorgezogen werden, wenn die selbstständige Formulierung der Antwort gefordert wird oder die richtige Lösung bei vorgegebenen Antworten zu offensichtlich wäre. Darüber hinaus sind sie am besten für Rechenaufgaben oder naturwissenschaftliche Problemstellungen geeignet, bei denen Zahlen oder Symbole die Antwort darstellen (vgl. Gronlund, 1974, S. 61; Lienert, 1998, S. 25f.). Folgende Regeln sollten bei der Konstruktion von Completion-und Short-Answer-Aufgaben beachtet werden (vgl. Gronlund, 1974, S. 61):
1. Die Aufgaben sind so zu formulieren, dass nur eine einzige kurze Antwort möglich ist. 2. Es sollte mit einer direkten Frage begonnen und nur dann zur unvollständigen Aussage übergegangen werden, wenn dadurch eine knappere Ausdrucksweise erreicht werden kann. Da eine direkte Frage eher ermöglicht, das Problem klar und eindeutig zu formu- lieren, ist ein solches Vorgehen empfehlenswert.
46
3. Die zu ergänzenden Worte müssen sich auf den Grundgedanken der Aussage beziehen.
4. Die Lücken einer unvollständigen Aussage sollten möglichst ans Ende der Feststellung
5. Äußere Anhaltspunkte für die Antwort müssen vermieden werden. So könnten etwa die
6. Sind bei der Antwort Zahlen gefragt, so sollte der Genauigkeitsgrad und die erwartete Einheit angegeben werden, falls diese nicht bekannt ist.
In der nachfolgenden Abbildung ist jeweils eine beispielhafte Aufgabe für das Completion-und das Short-Answer-Format aufgeführt:
Abb. 8: Beispiel für eine Completion- und eine Short-Answer-Aufgabe
(Quelle: eigene Darstellung)
Die geforderten Antworten von Essay-Aufgaben verlangen im Gegensatz zu den anderen Aufgabenarten des Constructed-Response-Formats umfangreichere, frei zu formulierende Lösungsäußerungen. Sie verfügen daher über einen subjektiven Bewertungscharakter und werden nicht zu den objektiven Testaufgaben gezählt. Hinsichtlich ihres Antwortumfangs können Essay- und Short-Answer-Aufgaben nur sehr vage voneinander abgegrenzt werden. So weist Rütter (1973) darauf hin, dass „…niemand so recht sagen kann, mit welcher Antwortlänge denn die ‚Kurzantwort’ aufhört, kurz zu sein“ (S. 65). Für die vorliegende Arbeit wird festgelegt, dass bei Short-Answer-Aufgaben lediglich einzelne Worte als Ant-wort gefordert sind. Bei Essay-Aufgaben hingegen muss sich der Proband im Satz bzw. mit zusammenhängenden Worten ausdrücken. Aufgaben im Essay-Format eignen sich kaum für die Messung von Erinnerungsfähigkeiten, da diese mit objektiven Testaufgaben zuverlässiger abprüfbar sind. Hingegen machen komplexe Leistungen, bei denen eine selbstständige Formulierung der Antwort gefordert ist, dieses Aufgabenformat unverzichtbar. Gronlund (1974, S. 20, S. 78ff.) unterscheidet bei Essay-Aufgaben eine weitgehende und eine begrenzte Beantwortungsfreiheit (für Aufgabenbeispiele vgl. Abb. 9). Aufgaben
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 47
mit weitgehender Beantwortungsfreiheit sind in Bezug auf die Fragestellung sehr allgemein gehalten und geben der Testperson eine fast unbegrenzte Freiheit für die Art und den Umfang der Antwortformulierung. Neben der Angabe der erforderlichen Fähigkeiten können auch Zeit- oder Seitenangaben in der Aufgabenstellung festgelegt werden, aber davon abgesehen wird die Antwort kaum gelenkt. Diese Aufgabenart eignet sich demzufolge am besten für die Überprüfung von Leistungen, bei denen die Testpersonen etwas „bewerten“ oder „erschaffen“ müssen. Die anderen Testaufgabenformen können solche Lernziele nicht zutreffend messen. Schwierig und zeitaufwändig ist es allerdings, die Antworten weitestgehend zuverlässig auszuwerten, da aufgrund der Antwortfreiheit kaum Musterlösungen erstellt werden können. Bei Essay-Aufgaben mit begrenzter Beantwortungsfreiheit wird die Antwort der Probanden hinsichtlich Art, Gliederung und Länge beschränkt, wodurch die Beantwortung besser gelenkt werden kann. Darüber hinaus ist es dem Testkonstrukteur möglich, Musterlösungen zu verfassen, weshalb die Antwortauswertung leichter fällt als bei Aufgaben mit weitgehender Beantwortungsfreiheit. Aufgaben dieser Art eignen sich gut für die Überprüfung von Lernzielen auf den Taxonomiestufen „verstehen“, „anwenden“ und „analysieren“. Allerdings können auch die Aufgabenarten des Selected-Response-Formats diese genannten kognitiven Prozesse überprüfen und lassen darüber hinaus eine objektive Bewertung der Antworten zu. Essay-Aufgaben mit begrenzter Be-antwortungsfreiheit sind daher nur dann zu bevorzugen, wenn die Probanden Daten beschreiben, Zusammenhänge erklären, Gründe angeben, Folgerungen formulieren oder auf andere Art und Weise die Antwort selbst ausdrücken sollen. Folgende Regeln müssen bei der Konstruktion von Essay-Aufgaben beachtet werden (vgl. Gronlund, 1974, 81ff.):
1. Essay-Aufgaben sollten lediglich dann zur Messung von komplexen Leistungen verwendet werden, wenn das selbstständige Formulieren der Antwort Bestandteil des zu überprüfenden Lernziels ist.
2. Die Fragen sollten sich möglichst direkt auf das zu überprüfende Lernziel beziehen. Gegebenenfalls können in der Aufgabenstellung Kriterien angegeben werden, nach denen die Antwort bewertet wird.
3. Die Fragen müssen so formuliert werden, dass die Testpersonen diese als klar umrissene Aufgabe erkennen und die gewünschte Antwort darauf geben können. Ebenso wäre es hilfreich, Art und Umfang der Antwort anzugeben, damit die Probanden eine Orientierung bei der Lösung der Aufgabe haben.
4. Eine Auswahl aus Fragen (z. B. drei von fünf Aufgaben) sollte nur dann gestattet sein, wenn es das Lernziel erfordert (z. B. die Überprüfung der Schreibgewandtheit). Vorteil-
48
5. Bei Essay-Aufgaben sollte reichlich Zeit zum Nachdenken und für die Beantwortung gegeben werden.
Nachfolgende Abbildung liefert Aufgabenbeispiele für das Essay-Format:
Abb. 9: Beispielhafte Aufgaben für das Essay-Format
(Quelle: eigene Darstellung)
3.4 Testzusammenstellung, -anweisung und -durchführung
3.4.1 Zusammenstellung und Anordnung der Aufgaben zum Test
Wurden die Testaufgaben entsprechend den zu überprüfenden Lernzielen konstruiert, so sollten diese vor der Testzusammenstellung noch einmal überprüft und gegebenenfalls umformuliert bzw. ausgetauscht werden. Dazu können die Konstruktionsregeln aus dem vorangegangenen Abschnitt als Checkliste benutzt werden. Darüber hinaus ist es zu empfehlen, die Aufgaben von einer unabhängigen Person durchsehen zu lassen. Wenn Testitems gestrichen oder geändert wurden, ist insbesondere darauf zu achten, dass die Lernzielmatrix noch vollständig abgedeckt wird. Vor allem bei einer Änderung oder Umformulierung der Aufgabenstellung muss überprüft werden, ob das betreffende Item immer noch dasselbe Teillernziel misst, keinen Hinweis für die Beantwortung einer anderen Testaufgabe enthält und sich nicht mit anderen Items überschneidet (vgl. dazu Abschnitt 3.3). Nach der Überprüfung werden die Testaufgaben entsprechend den mit der Lernzielmatrix geplanten Itemanzahlen je Teillernziel ausgewählt (vgl. Tab. 7). Um sicherzustellen, dass die konstruierten Aufgaben auch tatsächlich die festgelegten Lernziele repräsentieren, müssen die Items außerdem mehreren Experten zur Beurteilung vorgelegt und anschließend gege- benenfalls überarbeitet werden (vgl. dazu näher Abschnitt 3.5.2).
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 49
Nach diesen Maßnahmen stellt sich nun die Frage, wie die Aufgaben im Test angeordnet werden sollten. In der Literatur werden diesbezüglich meist folgende Möglichkeiten unterschieden (vgl. u.a. Gronlund, 1974, S. 90f.; Schwarzer, 1976, S. 233; Rapp, 1974, S. 121f.): Die Aufgaben können nach ansteigendem Schwierigkeitsgrad angeordnet werden, da schwierigere Aufgaben erwartungsgemäß mehr Zeit zur Beantwortung benötigen. Würden diese am Anfang des Tests stehen, könnten sich die Probanden daran aufhalten und nicht mehr zu den leichteren, schneller zu beantwortenden Aufgaben kommen. Vor der Aufgabenanalyse (vgl. dazu Abschnitt 3.5.2) kann der Schwierigkeitsgrad der Items lediglich vermutet werden. Falls verschiedene Aufgabenformen bei der Konstruktion verwendet wurden, können Items des gleichen Typs gruppiert werden. Dadurch lassen sich Umstellungsschwierigkeiten in Bezug auf die Art der Aufgabenbearbeitung vermeiden, die bei einem zu häufigen Wechsel, beispielsweise von Multiple-Choice- zu Essay-Aufgaben, auftreten können. Darüber hinaus sollten einfache Aufgabenarten wie etwa Short-Answer-und Completion-Aufgaben vor den komplexeren Formen wie beispielsweise Essay-Aufgaben gestellt werden (vgl. Rapp, 1974, S. 121). Des Weiteren ist es möglich, Items gleichartiger Verhaltens- oder Inhaltsklassen zu gruppieren. Da man im Test nicht alle Anordnungsmethoden gleichermaßen verwenden kann, bietet es sich an, die Items zunächst nach gleichen Aufgabenarten anzuordnen, wobei einfachere Itemformen am Testanfang stehen sollten. Innerhalb dieser Gruppen müssen die Testaufgaben nach ansteigendem Schwierigkeitsgrad geordnet werden. Falls möglich, kann der Testkonstrukteur die Items anschließend weitestgehend nach gleichen Verhaltens- oder Inhaltsklassen gruppieren (vgl. Gronlund, 1974, S. 90f.; Rapp, 1974, S. 122).
Im Zuge der Testzusammenstellung sollte auch eine Musterlösung für die Bewertung der Antworten erstellt werden. Um eine Auswertung der Aufgaben nach einheitlichen Maßstäben gewährleisten zu können, bietet es sich insbesondere für Items im Constructed-Response-Format an, neben der korrekten Lösung eine Liste von Antworten oder Formulierungen zusammenzustellen, die noch als richtig gewertet werden sollen (vgl. Beiner, 1982, S. 185).
3.4.2 Formulierung der Testanweisungen
Bevor der Test mit den Probanden durchgeführt werden kann, müssen die Testanweisungen verfasst werden. Diese sollten über den Zweck des Tests informieren, die für die Be-antwortung zur Verfügung stehende Zeit enthalten, Hinweise zur Aufgabenbearbeitung und zu erlaubten Hilfsmitteln geben sowie über Rateoptionen informieren (vgl. u.a. Gronlund,
50
1974, S. 91; Rapp, 1974, S. 127). Werden unterschiedliche Itemarten im Test verwendet, so sollten die Anweisungen zur Aufgabenbeantwortung vor jeder Gruppe einer neuen Itemform erfolgen. Gegebenenfalls kann ein entsprechendes Beispiel angegeben werden, an dem die Beantwortung demonstriert wird. Angaben über Ratemöglichkeiten sind vor allem bei der Verwendung von Selected-Response-Aufgaben aufzuführen. Sie sollen die Testpersonen darauf hinweisen, ob die Antwort im Zweifelsfall geraten werden kann.
3.4.3 Durchführung des Tests und Bewertung der Aufgaben
Der erste praktische Probedurchlauf des Tests sollte möglichst an einer Stichprobe jener Probandengruppe erfolgen, an der dieser Test später angewendet werden soll. Bei der Durchführung ist immer darauf zu achten, dass die Bearbeitung der Aufgaben störungsfrei und unter geeigneten Bedingungen (z. B. Zeit, Raum) erfolgt. Darüber hinaus sollte ein Abschreiben der Lösungen von anderen Testpersonen unterbunden werden (vgl. Rapp, 1974, S. 125f.). Nach der Testdurchführung werden die Antworten der Probanden in Form von Punkten bewertet. Üblicherweise wird für jedes richtig gelöste Item ein Punkt vergeben, für jedes falsche null. Damit entspricht der Gesamtpunktwert einer Testperson der Anzahl der richtig beantworteten Aufgaben. Eine Gewichtung einzelner Items durch die Vergabe von mehr als einem Punkt ist nicht empfehlenswert, da damit die Auswertung erschwert und Beurteilungsfehler erhöht werden könnten (vgl. Gronlund, 1974, S. 94f.). Bei Short-Answer- und Completion-Aufgaben besteht allerdings die Möglichkeit, jede richtige Antwort (z. B. jedes gesuchte Wort, Symbol oder jede Zahl) mit einem Punkt zu bewerten. Für die Punktvergabe von Essay-Aufgaben gibt es keine konkreten Vorschläge. Sie lässt sich jedoch durch Auswertungsbeispiele vereinheitlichen (vgl. Herbig, 1976, S. 201; Rosemann, 1984, S. 182). Gronlund (1974, S. 84) empfiehlt, für die Bewertung von Essay-Items eine Musterantwort zu verfassen und danach festzulegen, wie viele Punkte vergeben werden sollen. Bei Selected-Response-Aufgaben kann nach der Bewertung der Antworten eine Zufallskorrektur des Testwertes vorgenommen werden (vgl. dazu genauer z. B. Herbig, 1976, S. 197; Rapp, 1974, S. 129f.).
Nach der Ermittlung der Rohwerte, das heißt, der summierten Punktzahl jedes Probanden, setzt die Analyse der Aufgaben und des Tests in seiner Gesamtheit ein (vgl. Abschnitt 3.5.2). Vor dem ersten praktischen Einsatz kann der Test lediglich als Vorform bezeichnet werden. Die Erprobungsphase dient in erster Linie dazu, die Anordnung der Aufgaben zu überprüfen und die Aufgabenstellungen sowie die Testanweisungen auf Klarheit und Prä- zision zu untersuchen. Im Anschluss an diese Analysen sind gegebenenfalls einige Aufga-
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 51
ben oder der gesamte Test zu überarbeiten. Darüber hinaus sollten weitere mögliche Ant-worten oder Formulierungsweisen, die noch als richtig gewertet werden können, in die Musterlösung aufgenommen werden. Welche Kennwerte im Rahmen der Aufgaben- und Testanalyse zu ermitteln sind, soll im folgenden Abschnitt näher erläutert werden.
3.5 Aufgaben- und Testanalyse
3.5.1 Besonderheit der Testwerte bei lernzielorientierten Tests
Wie bereits in Abschnitt 2.2 erwähnt, werden normorientierte Leistungstests erstellt, um zwischen leistungsstarken und leistungsschwachen Testpersonen zu differenzieren. Die Aufgaben müssen daher so konstruiert werden, dass die Testwerte der Probanden möglichst gut streuen (vgl. linke Kurve in Abb. 10). Lernzielorientierte Tests dagegen haben das Ziel, Aussagen darüber zu treffen, ob bzw. wie gut eine bestimmte Person die vorher festgelegten Lernziele erreicht hat. Bei der Testentwicklung wird demzufolge darauf geachtet, dass die Aufgaben die relevanten Lernziele repräsentieren. Werden nach einer pädagogisch-didaktischen Intervention die festgelegten Ziele von den meisten Probanden erreicht, das heißt, nahezu alle Aufgaben richtig gelöst, so wird die Varianz der Testwerte demzufolge sehr gering sein (vgl. rechte Kurve in Abb. 10). Im Extremfall weisen sie überhaupt keine Streuung auf, nämlich dann, wenn die Lernziele von allen Testpersonen erreicht wurden (vgl. Büscher, 1984, S. 102f.).
Abb. 10: Streuung der Testwerte bei norm- und lernzielorientierten Tests
(Quelle: eigene Darstellung in Anlehnung an Büscher, 1984, S. 103)
Eine geringe oder nicht vorhandene Testwertstreuung wirkt sich zwangsweise auf die Kennwerte der Aufgaben- und Testanalyse aus, wenn diese auf dem Vergleich von Varianzverhältnissen bzw. der Korrelationsrechnung beruhen: So würden die Kennzahlen umso kleiner werden, je weniger die Testergebnisse streuen. Ein normorientierter Test würde in diesem Fall lediglich eine geringe Güte aufweisen. Ein lernzielorientierter Test
52
dagegen ist nicht unbrauchbar, wenn alle Probanden alle Aufgaben richtig lösen, da dies dem eigentlichen Ziel einer pädagogisch-didaktischen Intervention entspricht.
Aufgrund dieser Besonderheit können die meisten Kennzahlen der Aufgaben- und Testanalyse für lernzielorientierte Messinstrumente nicht auf die herkömmliche Weise berechnet werden (vgl. u.a. Büscher, 1984, S. 103ff.; Schwarzer, 1976, S. 195). 27 Fricke (1974) hat diesbezüglich einen Übereinstimmungskoeffizienten (Ü-Koeffizient) entwickelt, der dann eingesetzt werden kann, wenn nach den üblichen Verfahren Korrelationsrechnungen notwendig wären. Der Koeffizient lässt sich nach folgender Formel bestimmen (zur Herleitung und theoretischen Begründung des Koeffizienten vgl. Fricke, 1974, S. 40ff.): n n
4 ( k Σ xj - Σ xj²)
Der Koeffizient gibt das Verhältnis zwischen der beobachteten (empirischen) und der maximal möglichen Übereinstimmung einer Datenmatrix wieder. Er schwankt zwischen den Werten 0 und 1 und wird mit zunehmender Übereinstimmung größer. Ob der errechnete Ü-Koeffizient nicht nur zufällig, sondern signifikant von der minimalen Übereinstimmung (Ü=0) abweicht, kann mit folgender χ²-verteilter Größe überprüft werden (vgl. Fricke, 1974, S. 41):
4 n
df = n · (k - 1) = Freiheitsgrade
Der errechnete Ü-Koeffizient gilt dann als statistisch gesichert, wenn der χ²-Wert für die entsprechende Anzahl von Freiheitsgraden unter dem Wert in der Verteilungstabelle liegt (für eine Tabelle zur χ²-Verteilung vgl. z. B. Bortz & Döring, 2006, S. 799). Ein Beispiel für die Berechnung und die statistische Überprüfung des Ü-Koeffizienten ist im nachfolgenden Abschnitt an der Aufgabenkennzahl der Trennschärfe dargestellt.
27 Diese Einschränkung gilt jedoch nur dann, wenn die Testergebnisse tatsächlich keine oder nur eine geringe
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 53
3.5.2 Analyse der Aufgaben
Wie bereits kurz in Abschnitt 3.4.1 erwähnt wurde, sind die konstruierten Aufgaben noch vor der praktischen Erprobung des Tests in Bezug auf ihre Kontentvalidität zu überprüfen, das heißt, dahingehend, ob ein Item inhaltlich das Lernziel repräsentiert, das es repräsentieren soll (vgl. u.a. Herbig, 1976, S. 132ff.; Klauer, 1987, S. 16). Man legt dazu die relevanten Testaufgaben einer Gruppe von Experten zur Beurteilung vor. Zusätzlich erhalten diese Personen eine ausreichend genau strukturierte Lernzielmatrix, die die festgelegten Lernziele nach Inhalt und Verhalten voneinander abgrenzt. Da im Rahmen der vorliegenden Arbeit eine solche Matrix für die Präzisierung der Lernziele und die darauf aufbauende Konstruktion der Aufgaben aufgestellt werden soll (vgl. Abschnitt 3.2 & 3.3), kann dieselbe zur Beurteilung der Kontentvalidität verwendet werden. Es empfiehlt sich außerdem, auch die Definitionen zu den gebildeten bzw. festgelegten Inhalts- und Verhaltensklassen vorzulegen. Jeder Experte wird nun aufgefordert, die einzelnen Aufgaben in die seiner Meinung nach zutreffende Zelle der Matrix einzuordnen. Anschließend wird die Häufigkeit der richtigen und falschen Zuordnungen für jedes Item ermittelt. Vorausgesetzt, dass die Anzahl der korrekten Expertenzuordnungen mindestens so groß ist wie die der falschen, kann die Kontentvalidität jeder Aufgabe wie folgt berechnet werden (vgl. Herbig, 1976, S. 134f.):
(3) Itemvalidität =
r = Anzahl der richtigen Zuordnungen von Experten
f = Anzahl der falschen Zuordnungen von Experten
Der ermittelte Wert kann dabei zwischen 1 und 0 schwanken. Ein hoher Wert sagt aus, dass die Aufgabe eine hohe Validität in Bezug auf das Lernziel aufweist. Ein geringer steht dagegen für eine niedrige Kontentvalidität der Aufgabe. Um auszuschließen, dass die Experten die Aufgabe zufällig den Lernzielen zugeordnet haben, wird eine χ²-verteilte Prüfgröße berechnet (vgl. Herbig, 1976, S. 135f.):
χ² = (4)
df = r + f - 1 = Freiheitsgrade
Die ermittelte Kontentvalidität einer Aufgabe gilt dann als statistisch gesichert, wenn die berechnete χ² -Zahl für die entsprechende Anzahl von Freiheitsgraden unter dem Wert in der χ² -Verteilungstabelle liegt (für ein Beispiel zur Berechnung der Kontentvalidität vgl. Herbig, 1976, S. 134ff.). Bei einer geringen oder nicht signifikanten Kontentvalidität muss entweder die Lernzielmatrix präzisiert oder das betreffende Item überarbeitet bzw. ausge-
54
tauscht werden (vgl. Herbig, 1976, S. 137; Schott, 1974, S. 71). Danach legt der Testautor die Aufgaben erneut zur Beurteilung vor. Die Prozedur kann dabei solange wiederholt werden, bis der Wert der Kontentvalidität zufrieden stellend ist.
Nachdem alle relevanten Aufgaben einer Kontentvaliditätsbeurteilung unterzogen und gegebenenfalls überarbeitet wurden, kann der Test nun an einer Gruppe von Personen praktisch erprobt werden. Nach der Bewertung der Aufgaben setzt die empirische Analyse der Items ein. Im Rahmen dieser werden die Schwierigkeit sowie die Trennschärfe jedes Items ermittelt und eine Distraktorenanalyse für Selected-Response-Aufgaben durchgeführt (vgl. u.a. Büscher, 1984, S. 104ff.; Herbig, 1976, S. 139ff.; Schwarzer, 1976, S. 203f.). Wie bereits in Abschnitt 3.4.1 erwähnt, ist der Schwierigkeitsgrad einer Aufgabe ausschlaggebend für die Anordnung der Items im Test. Daher ist zunächst der Schwierigkeitsindex (s) jeder Aufgabe zu ermitteln. Er ergibt sich aus dem Anteil der Personen einer Gruppe, die das Item richtig beantwortet haben: x
(5) s =
n
Der Index gibt an, wie schwer es den Probanden gefallen ist, eine bestimmte Aufgabe zu lösen. Er variiert zwischen den Werten 1 und 0, wobei ein hoher Wert für einen geringen Schwierigkeitsgrad steht und ein niedriger Wert für eine hohe Schwierigkeit der betreffenden Aufgabe. Für einen normorientierten Test würden alle Items mit einem zu geringen bzw. einem zu hohen Schwierigkeitsgrad ausgesondert werden (vgl. Abschnitt 2.2), um eine möglichst gute Streuung der Testwerte zu erreichen. Bei lernzielorientierten Tests dagegen gibt die Schwierigkeit einer Aufgabe keinen Hinweis darauf, ob ein Item im Test beibehalten werden sollte oder nicht. Wenn es einen relevanten Aspekt des Lernziels erfasst, dann hat dieses Items bereits seine Berechtigung im lernzielorientierten Test. Der Schwierigkeitsgrad wird hier in erster Linie berechnet, um die Items nach ansteigender Schwierigkeit im Test anordnen zu können. Weiterhin kann ein hoher Schwierigkeitsgrad einer Aufgabe darauf hinweisen, dass die Aufgabenstellung unklar oder nicht präzise genug formuliert wurde. In jedem Fall sollten solche Items nicht eliminiert werden, da damit mögliche Mängel in der Testentwicklung oder im Lehr-Lernprozess verdeckt werden könnten (vgl. Büscher, 1984, S. 104).
Der Trennschärfeindex gibt bei normorientierten Leistungstests an, wie gut eine Aufgabe zwischen leistungsstarken und leistungsschwachen Testpersonen unterscheidet. Ein Item
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 55
mit niedrigerer Trennschärfe würde demnach von allen Probanden (leistungsstarken wie leitungsschwachen) gleichermaßen gelöst werden. In diesem Fall könnte die Aufgabe keinen Beitrag zur normorientierten Leistungsbeurteilung liefern und wäre daher zu überarbeiten oder aus dem Test zu eliminieren (vgl. Rosemann, 1984, S. 184ff.). Bei lernzielorientierten Tests geben jedoch Aufgaben, die von allen Probanden gelöst wurden an, dass das durch das Item repräsentierte Lernziel erreicht wurde. Wenn nach einer pädagogischdidaktischen Intervention alle Schüler die angestrebten Lernziele erreicht hätten, so wäre der Trennschärfeindex von allen Aufgaben gleich Null. Der Index muss bei lernzielorientierten Tests daher anders gedeutet werden als bei einer normorientierten Leistungsmessung: Er gibt dann Auskunft darüber, wie gut eine Aufgabe zwischen den Probanden, die das Lernziel erreicht haben und denen, die es nicht erreicht haben, unterscheidet (vgl. u.a. Büscher, 1984, S. 105f.; Schwarzer, 1976, S. 204ff.). Speziell für lernzielorientierte Tests wurden Versuche gestartet, dass Konzept der Trennschärfe neu zu formulieren. Ansätze diesbezüglich wurden beispielsweise von Cox und Vargas (1973), Popham (1973) sowie Fricke (1974) vorgeschlagen. Für die Berechnung der Aufgabenkennzahl empfiehlt Schwarzer (1976, S. 206) den von Fricke entwickelten Ü-Koeffizienten (vgl. Abschnitt 3.5.1), weshalb das Vorgehen im Folgenden kurz beschrieben werden soll (vgl. dazu Fricke, 1974, S. 63): Zu jeder Aufgabe wird zunächst in einer Matrix für alle Probanden erfasst, ob das Item gelöst wurde (1) oder nicht (0). Danach wird bestimmt, ob das Lernziel, welches durch die betreffende Aufgabe repräsentiert wird, erreicht (1) oder nicht erreicht wurde (0). 28 Daran anschließend kann der Ü-Koeffizient ermittelt und die Signifikanz dieses Wertes mithilfe der χ²-verteilten Größe geprüft werden (vgl. zur Berechnung Formel 1 & 2). Die Datenmatrix als Grundlage zur Berechnung des Trennschärfeindex mithilfe des Ü-Koeffizienten ist in der nachfolgenden Tabelle dargestellt.
Tab. 8: Datenmatrix zur Ermittlung der Trennschärfe
k = 2 Aufgabenlösung Lernzielerreichung
(Quelle: modifizierte Darstellung in Anlehnung an Fricke, 1974, S. 63)
Bei diesem Beispiel ergibt sich für Ü der Wert 0,875, was bedeutet, dass die Aufgabe eine hohe Trennschärfe aufweist. Für χ² erhält man den Wert 2,29, der bei acht Freiheitsgraden
28 Noch vor dem praktischen Einsatz des Tests muss festgelegt werden, wie viele Items eines Aufgabenuniversums mindestens gelöst werden müssen, um zu entscheiden, ob das jeweilige Lernziel erreicht wurde. Nach Fricke (1974, S. 36) sind Lösungsprozentsätze von 90 % oder 95 % üblich. Es können aber auch niedrigere bzw. höhere Prozentsätze festgelegt werden.
56
auf dem 5 %-Niveau signifikant ist. Der Ü-Wert gilt in diesem Fall als statistisch gesichert. Fraglich ist jedoch, wie mit Items verfahren wird, für die im Rahmen der lernzielorientierten Aufgabenanalyse eine geringe oder nicht signifikante Trennschärfe ermittelt wurde. In der Literatur sind diesbezüglich keine konkreten Angaben zu finden. Nach Ingenkamp (1988, S. 128) ist die Bestimmung dieser Kennzahl für lernzielorientierte Tests lediglich von geringer Bedeutung.
Wurden im Test Aufgabenarten des Selected-Response-Formats verwendet (vgl. Abschnitt 3.3), so ist eine Distraktorenanalyse über die falschen Antwortalternativen durchzuführen. Dazu werden die Items einer untrainierten Probandengruppe (d.h., vor der Intervention) vorgelegt und die Attraktivität jedes Distraktors ermittelt. Antwortalternativen mit geringen Attraktivitäten sind wegzulassen oder auszutauschen. Da der in dieser Arbeit zu konstruierende Test ausschließlich Aufgaben im Constructed-Response-Format enthalten soll (vgl. Abschnitt 1.1), wird an dieser Stelle nicht näher auf die Berechnung und das Verfahren der Distraktorenanalyse eingegangen (vgl. dazu näher Herbig, 1976, S. 162ff.).
Nach der Aufgabenanalyse müssen die Items gegebenenfalls überarbeitet bzw. ihre Anordnung im Test entsprechend dem ermittelten Schwierigkeitsgrad angepasst werden. Gibt es gravierende Unterschiede zwischen der vorherigen und der revidierten Version, so sollten die Items einer erneuten Aufgabenanalyse unterzogen werden. Die überarbeitete Vorform kann anschließend in die Testendform überführt werden. Im Anschluss daran sind die Gütekriterien des Tests zu analysieren.
3.5.3 Ermittlung der Gütekriterien eines Tests
3.5.3.1 Testobjektivität
Bei der Testanalyse werden alle Aufgaben in ihrer Gesamtheit analysiert, um Aussagen über die Qualität des Tests treffen zu können. Man unterscheidet diesbezüglich drei Gütekriterien: die Objektivität, die Reliabilität und die Validität eines Tests.
Unter Objektivität versteht man in diesem Zusammenhang den Grad, in dem die Testergebnisse vom Untersucher unabhängig sind (vgl. Lienert & Raatz, 1998, S. 7). Bei einem lernzielorientierten Test liegt Objektivität dann vor, wenn mehrere Beurteiler bei denselben Probanden zu den gleichen Testwerten gelangen (vgl. Fricke, 1974, S. 39). Je nach Testabschnitt unterscheidet man Durchführungs-, Auswertungs- und Interpretationsobjektivität (vgl. dazu näher Lienert & Raatz, 1998, S. 8f.). Zur Quantifizierung des Gütekriteriums
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 57
kann der von Fricke (1974) entwickelte Ü-Koeffizient (vgl. Formel 1) herangezogen werden. Er gibt an, inwieweit mehrere Untersucher (k) eine bestimmte Anzahl von Probanden (n) dahingehend beurteilen, ob diese das Lernziel erreicht haben (1) oder nicht (0). Ein hoher Wert lässt dann auf eine hohe Objektivität des eingesetzten Tests schließen. Die Signifikanz des ermittelten Ü-Koeffizienten kann durch die χ²-verteilte Größe aus Formel 2 überprüft werden (für eine Beispielberechnung vgl. u.a. Fricke, 1974, S. 39ff.; Schwarzer, 1976, S. 199f.).
3.5.3.2 Testreliabilität
Die Reliabilität (Zuverlässigkeit) eines Tests gibt den Grad der Genauigkeit an, mit dem dieser ein bestimmtes Persönlichkeitsmerkmal misst, unabhängig davon, ob das Merkmal auch gemessen werden soll (vgl. Lienert & Raatz, 1998, S. 9). Man unterscheidet dabei Retest- und Paralleltest-Reliabilität sowie die innere Konsistenz eines Tests.
Zur Ermittlung der Retest-Reliabilität (Wiederholungszuverlässigkeit) wird ein und derselbe Test mit den gleichen Probanden zu einem späteren Zeitpunkt wiederholt (vgl. Lienert & Raatz, 1998, S. 9). Diese Art der Reliabilitätsbestimmung berücksichtigt Fehler innerhalb des Messverfahrens und gibt die Gleichmäßigkeit der Aufgabenbeantwortungen über einen bestimmten Zeitraum hinweg an (vgl. Gronlund, 1974, S. 120). Zur Berechnung kann wieder der Ü-Koeffizient von Fricke (vgl. Formel 1) herangezogen werden. Dabei wird jeweils für den ersten und zweiten Testeinsatz (k =2) beurteilt, ob eine Gruppe von Probanden (n) das Lernziel erreicht hat (1) oder nicht (0). Ein hoher Ü-Wert steht für eine hohe Retest-Reliabilität des Tests. Die Signifikanz des Ergebnisses kann wieder nach Formel 2 überprüft werden. Ein anderer, ähnlicher Ansatz zur Quantifizierung der Retest-Reliabilität geht auf Herbig (1976, S. 149ff.) zurück. Er schlägt vor, zunächst für jede Aufgabe zu ermitteln, wie reliabel diese nach einer zweiten Darbietung ist, vorausgesetzt, dass kein Lernen in der Zwischenzeit stattgefunden hat. Dazu hält man fest, wie oft das Item von einer Gruppe von Testpersonen bei der ersten und zweiten Darbietung jeweils richtig (1) bzw. falsch (0) gelöst wurde oder ob die Aufgabe zuerst richtig und dann falsch bzw. umgekehrt beantwortet wurde. Anschließend wird die Retest-Reliabilität für jedes Item nach folgender Formel berechnet (für ein Beispiel vgl. Herbig, 1976, S. 151f.):
Itemreliabilität = (6)
A = Häufigkeit, mit der die Aufgabe in der 1. und 2. Darbietung richtig gelöst wurde B = Häufigkeit, mit der die Aufgabe in der 1. Darbietung richtig und in der 2. falsch gelöst wurde
58
Der ermittelte Wert schwankt zwischen 0 und 1, wobei ein Quotient von 1 als maximale Retest-Reliabilität der entsprechenden Aufgabe interpretiert werden kann. Zur statistischen Sicherung des Reliabilitätswertes berechnet man die Prüfgröße folgendermaßen:
2 n²
χ² = · (1 - Itemreliabilität) (7)
n - 1
Anschließend kann die Retest-Reliabilität für den gesamten Test wie folgt ermittelt (vgl. Formel 8) und auf Signifikanz geprüft werden (vgl. Formel 9):
df = n N = Freiheitsgrade
Um die Paralleltest-Reliabilität zu ermitteln, werden ein und derselben Probandengruppe zwei vergleichbare Tests (Paralleltests) vorgelegt (vgl. Lienert & Raatz, 1998, S. 9). Die auf diese Weise bestimmte Reliabilität berücksichtigt interne Messfehler und gibt die Konsistenz der Probandenantworten bei unterschiedlicher Aufgabenauswahl an (vgl. Gronlund, 1974, S. 120). Paralleltests im klassischen Sinne sollten möglichst gleiche Mittelwerte und Varianzen aufweisen (vgl. Lienert & Raatz, 1998, S. 300f.). Lernzielorientierte Paralleltests erheben diesen Anspruch nicht. Sie müssen sich jedoch an denselben Lernzielen orientieren und dieselbe Retest-Reliabilität (vgl. Formel 1 bzw. 8) aufweisen. Nach Herbig (1976, S. 183) gibt es zwei Möglichkeiten, Paralleltests herzustellen: Zum einen ordnet man Items aus einer Sammlung von Parallelaufgaben per Zufallsverfahren der einen oder anderen Parallelform des Tests zu. Dabei können zwei oder mehrere Aufgaben dann als parallel angesehen werden, wenn sie sich auf dasselbe Lernziel beziehen, das heißt, aus demselben Aufgabenuniversum hervorgehen und außerdem dieselbe Retest-Reliabilität (vgl. Formel 8) aufweisen. Zum anderen können parallele Aufgaben unmittelbar mithilfe von generativen Regeln, die zu jedem Aufgabenuniversum vorliegen und Gegenstand formalsprachlich orientierter Verfahren der Lernzielpräzisierung sind (vgl. Abschnitt 3.2.1), erzeugt werden. Da sich mittels solcher Konstruktionsalgorithmen lediglich Aufgaben im
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 59
Selected-Response-Format erstellen lassen, für den in dieser Arbeit zu konstruierenden Test jedoch Constructed-Response-Items verwendet werden sollen (vgl. Abschnitt 1.1), kommt hier lediglich die erste Möglichkeit für die Konstruktion von Paralleltests in Betracht. Die Quantifizierung der Paralleltest-Reliabilität kann mittels des Ü-Koeffizienten (vgl. Formel 1 & 2) von Fricke analog wie bei der Berechnung der Retest-Reliabilität erfolgen. Statt für den ersten und zweiten Testeinsatz wird hier für zwei parallele Tests (k=2) entschieden, ob die Probanden (n) die Lernziele erreicht (1) bzw. nicht erreicht haben (0) (vgl. Fricke, 1974, S. 50). Darüber hinaus kann die Paralleltest-Reliabilität auch nach Formel 8 berechnet werden. Zunächst wird dafür die parallele Zuverlässigkeit zweier äquivalenter Items nach Formel 6 ermittelt. Anstelle der Ergebnisse einer wiederholten Darbietung derselben Aufgabe werden hier die Ergebnisse für zwei parallele Items eingesetzt, wobei die Aufgaben einmal und möglichst zum selben Zeitpunkt den Probanden vorgelegt werden sollten (vgl. Herbig, 1976, S. 155f.). Im Anschluss daran wird die Paralleltest-Reliabilität für den gesamten Test nach Formel 8 berechnet (vgl. Herbig, 1976, S. 184). Ein hoher Wert gibt dabei an, dass die Parallelformen weitestgehend das Gleiche messen.
Für die Analyse der inneren Konsistenz wird ein lernzielorientierter Test an einer Gruppe von Probanden einmal durchgeführt und anschließend in zwei gleiche Hälften geteilt (Split-half-Methode) (vgl. Lienert & Raatz, 1998, S. 9f.). Für die Halbierung eines Tests gibt es nach Herbig (1976, S. 183f.) drei mögliche Verfahren: Bei der Zufallsmethode werden die Items zufällig der einen oder der anderen Testhälfte zugeordnet. Die Odd-even-Methode geht von den Aufgabennummern aus, das heißt, alle Items mit einer geraden Nummer werden der einen Testhälfte und alle Aufgaben mit ungeraden Nummern der anderen Hälfte zugewiesen. Bei der Matching-Methode sortiert man die Items nach ihrer Ähnlichkeit vor, wobei die Inhalts- bzw. Verhaltensklassen sowie weitere Aspekte berücksichtigt werden müssen. Die ähnlichen Aufgaben können anschließend getrennt und jeweils einer Testhälfte zugeteilt werden. Eine auf diesem Wege ermittelte Reliabilität berücksichtigt wie bei der Erfassung der Paralleltest-Reliabilität Fehler im Messverfahren und sagt etwas über die Konsistenz der Aufgabenbeantwortung bei unterschiedlicher Aufgabenzusammenstellung aus (vgl. Gronlund, 1974, S. 121). Die Berechnung der inneren Konsistenz eines lernzielorientierten Tests erfolgt analog zur Quantifizierung der Paralleltest-Reliabilität nach Formel 1 oder Formel 8. Anstelle zweier paralleler Testformen werden hier allerdings die beiden Testhälften betrachtet. Ein hoher Wert würde angeben, dass die Testhälften weitestgehend zu den gleichen Ergebnissen führen. Weitere Ansätze zur Bestimmung der Reliabilität lernzielorientierter Tests wurden unter anderem von Carver
60
(1970) 29 und Livingston (1972) vorgestellt. Da der Ü-Koeffizient von Fricke (1974) sowie der Vorschlag von Herbig (1976) nach Auffassung des Autors der vorliegenden Arbeit recht praktikabel scheinen, soll an dieser Stelle nicht weiter auf die anderen Ansätze eingegangen werden.
3.5.3.3 Testvalidität
Unter Validität eines Tests versteht man den Grad der Genauigkeit, mit dem der Test das misst, was er zu messen vorgibt (vgl. Lienert & Raatz, 1998, S. 10). Grundsätzlich werden Kontent-, Kriteriums- und Konstruktvalidität unterschieden, wobei erstere für lernzielorientierte Tests am wichtigsten ist (vgl. z. B. Ingenkamp, 1988, S. 129).
Kontentvalidität liegt dann vor, wenn ein lernzielorientierter Test die zu überprüfenden Lernziele abdeckt (vgl. z. B. Gronlund, 1974, S. 114f.). In Abschnitt 3.5.2 wurde bereits erläutert, wie die Kontentvalidität für jede Aufgabe überprüft und quantifiziert werden kann (vgl. Formel 3). Für den gesamten Test wird die Validität wie folgt berechnet (vgl. Herbig, 1976, S. 168ff.):
Der ermittelte Wert schwankt zwischen 0 und 1, wobei ein hoher Wert aussagt, dass der Test eine hohe Kontentvalidität aufweist. Die anschließende Signifikanzprüfung kann nach folgender Formel vorgenommen werden: N² k
Wenn der errechnete χ²-Wert den Tabellenwert für die jeweiligen Freiheitsgrade nicht übersteigt, dann kann die Kontentvalidität des Tests als signifikant angesehen werden.
Bei der Ermittlung der Kriteriumsvalidität werden die Testergebnisse mit einem Außenkriterium verglichen, das entweder zur gleichen Zeit (Übereinstimmungsvalidität) oder nach dem Testeinsatz (Vorhersagevalidität) erhoben wird (vgl. Fricke, 1974, S. 43). Zur Quanti-
29 Carver,R. P. (1970). Special problems in measuring change with psychometric devices. In Evaluative
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 61
fizierung der Kriteriumsvalidität kann wieder der Ü-Koeffizient von Fricke (vgl. Formel 1) herangezogen werden. Da diese Art der Validitätsbestimmung bei lernzielorientierten Tests eine eher untergeordnete Rolle spielt (vgl. Fricke, 1973, S. 132), soll an dieser Stelle nicht näher auf die Berechnung eingegangen werden.
Die Konstruktvalidität gibt an, inwieweit ein Test ein bestimmtes Konstrukt erfasst (vgl. Lienert & Raatz, 1998, S. 11). Zur Berechnung kann ebenfalls der Ü-Koeffizient herangezogen werden, wobei Fricke (1973, S. 133) das Verfahren wie folgt erläutert: In einem Lehrversuch werden einer Gruppe von Probanden zunächst die zu überprüfenden Lernziele vermittelt, eine andere Gruppe wird dagegen nicht instruiert. Wenn der Test das Erreichen der Lernziele tatsächlich erfasst, dann müsste über eine bestimmte Personenanzahl (n) eine hohe Übereinstimmung zwischen Lernzielerreichung und Gruppenzugehörigkeit (k=2) zu verzeichnen sein, wobei eine Person jeweils eine 1 für das Erreichen der Lernziele und für die Zugehörigkeit zur instruierten Gruppe erhält. Die Berechnung des Ü-Koeffizienten und seine statistische Überprüfung erfolgt nach Formel 1 bzw. Formel 2. Ein hoher signifikanter Ü-Wert deutet auf eine hohe Konstruktvalidität des Tests hin.
Nach der Überprüfung der Gütekriterien muss entschieden werden, ob der Test entsprechend den ermittelten Gütekennzahlen für die Interpretation der Testergebnisse verwendet werden kann oder ob eine Überarbeitung angebracht wäre. Im Falle einer Testrevision müssten die Gütekriterien erneut analysiert werden.
3.6 Ermittlung der Lernwirksamkeit als Interpretation der Testergebnisse
Üblicherweise werden nach der Analyse der Aufgaben und des Tests die Rohwerte (Gesamtpunktzahl jedes Probanden) dahingehend interpretiert, ob oder inwieweit eine Testperson die festgelegten Lernziele erreicht hat. Zuvor sollte für jedes Teillernziel, das mittels eines Aufgabenuniversums umschrieben wurde, ein Lösungsprozentsatz festgelegt werden. Dieser gibt an, wie viele Aufgaben eines Lernziels gelöst werden müssen, um bestimmen zu können, ob es erreicht wurde. Genau genommen müsste ein Proband, der ein Lernziel erreicht hat, auch alle dazugehörigen Aufgaben lösen können (100%). Es hat sich jedoch durchgesetzt, einen Lösungsprozentsatz von 90 % oder 95 % aufgrund äußerer Einflüsse und Aufmerksamkeitsschwankungen festzusetzen (vgl. Fricke, 1974, S. 36). Durch diese Quantifizierung kann nach der Ermittlung der Rohwerte der unbekannte individuelle Lösungsprozentsatz in Bezug auf das Aufgabenuniversum aus dem bekannten Lösungspro- zentsatz, der sich auf die Menge der Aufgaben bezieht, geschätzt werden (vgl. Fricke,
62
1974, S. 36f.). Dazu wird ein Vertrauensbereich ermittelt oder ein kritischer Punktwert mithilfe des Rasch-Modells oder des Binomialmodells bestimmt. Auf diese Verfahren soll hier jedoch nicht näher eingegangen werden, da der lernzielorientierte Test der vorliegenden Arbeit mit dem Ziel zu konstruieren ist, die Lernwirksamkeit einer pädagogischdidaktischen Intervention zu messen. 30 Der Test wird demnach ausschließlich für die Leistungsfeststellung und nicht für die Leistungsbewertung eingesetzt (vgl. dazu Posch, Schneider & Mann, 1989, S. 112). Um Aussagen über eine pädagogisch-didaktische Intervention hinsichtlich ihrer Lernwirksamkeit treffen zu können, ist es daher ausreichend, die ermittelten Rohwerte der Probanden weiter zu verwenden.
Wie bereits in Abschnitt 2.1 erwähnt, soll der Test unmittelbar vor der pädagogischdidaktischen Intervention eingesetzt werden, um das Vorwissen der Probanden zu ermitteln. Direkt nach der Intervention wird der Test nochmals zur Bearbeitung vorgelegt, um zu überprüfen, was in der Zwischenzeit gelernt wurde. Eine positive Veränderung der Punktanzahl im Nachtest gegenüber dem Vortest würde auf die Lernwirksamkeit der Intervention hindeuten. In Abschnitt 2.1 wurde weiterhin empfohlen, den Test ebenfalls zweimal an einer vergleichbaren Kontrollgruppe durchzuführen, die in der Zwischenzeit allerdings keine pädagogisch-didaktische Intervention erhält. Damit kann ausgeschlossen werden, dass die Veränderung der Punktanzahl zwischen Vor- und Nachtest durch andere Fak-toren als durch die Intervention bewirkt wurde. Zur Quantifizierung des Lernzuwachses kann zunächst für jeden Probanden die einfache Differenz der Nachtestpunkte zu den Vortestpunkten (Nachtest-Vortest-Differenz) gebildet werden (vgl. u.a. Helmreich, 1977, 36; Klauer, 1973, S. 144f.; Petermann, 1978, S. 33f.):
Um zu erfahren, ob die pädagogisch-didaktische Intervention lernwirksam war, dürfte es jedoch kaum von Interesse sein, die Lernzuwächse einzelner Testpersonen zu betrachten. Von größerer Relevanz ist der durchschnittliche Lerngewinn der Probanden jeweils aus der Versuchsgruppe (Personen, die die Intervention erhalten haben) und der Kontrollgruppe. Der mittlere Lernzuwachs für eine Stichprobe von Testpersonen lässt sich dabei wie folgt berechnen (vgl. z. B. Helmreich, 1977, S. 51ff.):
30 Für die nähere Auseinandersetzung mit den Verfahren zur Schätzung des unbekannten Lösungsprozentsat- zes in Bezug auf das Aufgabenuniversum vgl. u.a. Fricke, 1974a, Klauer, 1987 und Rasch, 1980.
3. Theoretische Grundlagen zur Entwicklung lernzielorientierter Tests 63
Di = Lernzuwachs für jeden Probanden i
N = Gesamtanzahl der Probanden in einer Gruppe
Die ermittelten Zuwachswerte müssen nun noch statistisch gesichert werden. Das heißt, es wird überprüft, ob ein signifikanter Unterschied zwischen Vor- und Nachtestwerten innerhalb der jeweiligen Gruppe vorliegt. Dazu kann entweder der t-Test für abhängige Stichproben oder der Wilcoxon-Test 31 herangezogen werden (vgl. dazu z. B. Heller & Rosemann, 1981, S. 194ff., S. 238ff.; Helmreich, 1977, S. 52f.). Wird für die Versuchsgruppe ein signifikanter Unterschied festgestellt, so könnte dies auf den Einfluss des Treatments, das heißt, auf die Lernwirksamkeit der Intervention hinweisen. Für die Kontrollgruppe sollten sich dagegen keine bedeutsamen Unterschiede zwischen Vor- und Nachtestergebnissen herausstellen (vgl. Bortz & Döring, 2006, S. 56).
Allein ein signifikanter Lernzuwachs in der Versuchsgruppe reicht jedoch noch nicht aus, um mit Sicherheit die Lernwirksamkeit einer pädagogisch-didaktischen Intervention behaupten zu können. So weist Petermann (1978, S. 33ff.) darauf hin, dass eine Veränderung der Punktwerte im Nachtest bezogen auf die Ergebnisse des Vortests auch durch den so genannten Regressionseffekt und nicht durch den Einfluss des Treatments zustande gekommen sein kann. Unter Regressionseffekt versteht man dabei das Phänomen, dass sich anfänglich niedrige Testwerte bei einer Messwiederholung erhöhen und hohe Testwerte bei der Erstmessung in der nachfolgenden sinken. Die Wirkung der Intervention muss gegen diese Erscheinung abgegrenzt werden. Durch eine Kontrollgruppe, die der Versuchsgruppe hinsichtlich ihrer Ausgangswerte möglichst gut entspricht, kann der Regressionseffekt zwar nicht ausgeschaltet, dafür aber kontrolliert werden, da er die Kontrollgruppe gleichermaßen beeinflusst (vgl. Klauer, 1973, S. 90; Stelzl, 1993, S. 195f.). Es ist daher sinnvoll, den durchschnittlichen Lernzuwachs (vgl. Formel 13) beider Gruppen einander gegenüber zu stellen. Der so genannte Nettoeffekt der pädagogisch-didaktischen Intervention kann dann wie folgt berechnet werden (vgl. Rossi & Freeman, 1993, S. 268):
31 Da die Signifikanz der Unterschiede zwischen Vor- und Nachtestpunkten an ein und derselben Probandengruppe getestet wird, sind Prüfmethoden für abhängige Stichproben notwendig. Es lässt sich vermuten, dass der t-Test für die Rohwerte, die mithilfe des hier zu konstruierenden Tests ermittelt werden sollen, nicht in Frage kommt. Diese Prüfmethode setzt unter anderem eine Normalverteilung der Daten voraus, welche für die Testwerte einer lernzielorientierten Leistungsmessung üblicherweise nicht zu erwarten sind (vgl. dazu auch Abschnitt 3.5.1). Der Wilcoxon-Test stellt dagegen keine Anforderungen an die Verteilung der Daten. Er wird den so genannten verteilungsfreien bzw. nonparametrischen Verfahren zugeordnet, die für lernzielorientierte Testwerte wohl am ehesten in Frage kommen (für eine Übersicht über para- metrische und verteilungsfreie Prüfmethoden vgl. Heller & Rosemann, 1981, S. 190, S. 209).
64
durchschnittlicher Lernzuwachs der Versuchsgruppe nach Formel 13 DVG =
durchschnittlicher Lernzuwachs der Kontrollgruppe nach Formel 13 DKG =
Ist der Nettoeffekt positiv, das heißt, hat die Versuchsgruppe einen höheren Zuwachs als die Kontrollgruppe erzielt, so kann das dem Einfluss der Intervention zugeschrieben und damit auf die Lernwirksamkeit geschlossen werden (vgl. Stelzl, 1993, S. 192). Ob sich der mittlere Lernzuwachs der Versuchsgruppe signifikant von dem der Kontrollgruppe unterscheidet, kann mit dem t-Test für unabhängige Stichproben oder dem U-Test nach Mann-Whitney 32 überprüft werden (vgl. dazu z. B. Heller & Rosemann, 1981, S. 192ff., S. 226ff.). Erst durch den statistischen Vergleich der Lernzuwächse von Kontroll- und Versuchgruppe kann auf die Lernwirksamkeit der Intervention geschlossen werden.
Einen anderen Ansatz zur Quantifizierung des Lernzuwachses stellt die Kovarianzanalyse dar. Im Rahmen dieses Verfahrens wird eine Regression des Nachtests auf den Vortest bestimmt und die Nachtestwerte aus den Vortestwerten geschätzt. Der Lernzuwachs ergibt sich dann durch die Differenz der geschätzten zu den beobachteten Nachtestwerten. Im Gegensatz zur Messung des Lernzuwachses durch die Nachtest-Vortest-Differenz eliminiert die Kovarianzanalyse den bereits angesprochenen Regressionseffekt. Allerdings er-fordert sie ebenfalls vergleichbare Ausgangswerte von Kontroll- und Versuchsgruppe (vgl. Petermann, 1978, S. 34ff.). Darüber hinaus ist die Kovarianzanalyse an einige weitere Voraussetzungen geknüpft, welche die Breite der Einsatzmöglichkeiten einschränken (für das methodische Vorgehen und die Voraussetzungen vgl. Bortz, 2005, S. 361ff.).
Da bei der Ermittlung des Lernzuwachses durch den wiederholten Einsatz desselben Tests sowohl die Messfehler des ersten als auch des zweiten Testeinsatzes in den Messfehler des berechneten Lernzuwachswertes eingehen (vgl. Bortz & Döring, 2006, S. 552), empfiehlt Petermann (1978, S. 40) die Verwendung von Paralleltest. Dadurch sei eine Messwiederholung „… mit voneinander unabhängigen Fehleranteilen möglich“ (S. 40). Gleichzeitig weist Petermann aber auch auf die Schwierigkeit hin, Paralleltests zu konstruieren. Wenn es jedoch gelingen sollte, zwei äquivalente Testformen zu erstellen, so dürfte ihr Einsatz nach Auffassung des Autors der vorliegenden Arbeit in jedem Fall zu einer zuverlässigeren Quantifizierung des Lernzuwachses und damit zu einer besseren Einschätzung der Lernwirksamkeit der pädagogisch-didaktischen Intervention beitragen.
32 Da in diesem Fall die Signifikanz des Unterschieds zwischen Kontroll- und Versuchsgruppe überprüft
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 65
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“
4.1 Vorbemerkungen zur Testentwicklung
Wie bereits in Abschnitt 1.1 erwähnt, soll der Test die Lernwirksamkeit einer pädagogischdidaktischen Intervention zum Thema „Inflation“ messen. Als Testpersonen sind Schüler eines Wirtschaftsgymnasiums aus Dresden angedacht. Das Thema „Inflation“ kann in die Lehrplaneinheit „Geldwert und Geldwertmessung“ des Teilgebiets „Volkswirtschaftslehre“ des Lehrplanes für berufliche Gymnasien eingeordnet werden (vgl. Sächsisches Staatsministerium für Kultus, 1998, S. 30). In Abschnitt 2.1 wurde empfohlen, den Test sowohl vor als auch nach der Durchführung der pädagogisch-didaktischen Intervention einzusetzen. Insgesamt soll die Bearbeitung der Aufgaben nicht mehr als 30 Minuten beanspruchen. Des Weiteren wurde festgestellt, dass sich eine lernzielorientierte Leistungsmessung am besten für die Ermittlung der Lernwirksamkeit einer pädagogisch-didaktischen Intervention eignet (vgl. Abschnitt 2.2). Aus Abschnitt 3.2 geht hervor, dass die präzise Beschreibung der Lernziele mithilfe der Tyler- bzw. Lernzielmatrix erfolgen und die Strukturierung der Zeilen bzw. Spalten anhand der Kategorien der Anderson-Taxonomie (vgl. Anderson & Krathwohl, 2001) vorgenommen werden soll. Für die darauf aufbauende Konstruktion der Testaufgaben wurde erörtert, welche Aufgabentypen im Constructed-Response-Format zur Verfügung stehen, was bei der Itementwicklung beachtet werden sollte und wie die konstruierten Aufgaben letztendlich angeordnet werden können (vgl. Abschnitt 3.3 & 3.4). Da der Test im Rahmen dieser Arbeit nicht mehr an einer Gruppe von Probanden erprobt werden konnte, stellt die Version des hier entwickelten Tests lediglich eine Vorform dar, die gegebenenfalls überarbeitet werden muss.
Für die Beschreibung des Vorgehens bei der Testkonstruktion wird im Folgenden zunächst darauf eingegangen, wie die Präzisierung der zu überprüfenden Lernziele erfolgte. Die einzelnen Schritte werden nach dem in Abschnitt 3.2.4.1 erläuterten Vorgehen nach Schott (1974) beschrieben. Darüber hinaus soll dargelegt werden, wie viele Aufgaben insgesamt bzw. je Teillernziel geplant, welche Aufgaben konstruiert und wie diese im Test angeordnet wurden. Den Abschluss des Kapitels bilden Bemerkungen zu den formulierten Testanweisungen und Empfehlungen zur Bewertung der Aufgaben.
4.2 Lernzielbeschreibung und Planung der Aufgabenanzahl
Problematisch für die Entwicklung des Tests war, dass zu Beginn der Testkonstruktion noch kein konkreter Entwurf der pädagogisch-didaktischen Intervention existierte. Mit
66
Ausnahme des Testthemas lagen weder Lernziele noch konkrete Inhalte der Intervention vor, welche Anhaltspunkte für die Testentwicklung hätten geben können. Die zu vermittelnden Lehrstoffinhalte standen anfangs nur sehr vage fest und wurden erst während der Konstruktion konkretisiert. Aus diesen Gründen war es nicht möglich, das Vorgehen der Lernzielpräzisierung von Schott (1974) exakt auf die von ihm vorgeschlagene Art und Weise zu durchlaufen (vgl. dazu näher Abschnitt 3.2.4.1) So konnten etwa die allgemein zu überprüfenden Lernziele vor der Aufstellung der Lernzielmatrix nicht vollständig festgelegt werden. Durch kontinuierliche Überarbeitung und Ergänzung im Laufe des Testentwicklungsprozesses wurden nach der Aufgabenkonstruktion folgende anzustrebende Fähigkeiten formuliert:
1. Die Schüler kennen im Zusammenhang mit der Inflation wichtige Grundbegriffe und haben die Ursachen von Inflation verstanden.
2. Sie verstehen die Bedeutung realer Größen im Zusammenhang mit der Inflation und sind in der Lage, diese auch zu berechnen.
3. Die Schüler entwickeln ein Verständnis für die grundlegenden Mechanismen des Inflationsprozesses.
4. Sie entwickeln ein Verständnis für die Rolle der Europäischen Zentralbank sowie der Geschäftsbanken bei der Geldschöpfung.
5. Die Schüler verstehen die Wirkung der geldpolitischen Instrumente der Europäischen Zentralbank auf die Geldmenge.
6. Sie können den multiplen Giralgeldschöpfungsprozess rechnerisch nachvollziehen.
Da diese Lernziele als anzustrebende Fähigkeiten zu Beginn der Testentwicklung in dieser Form noch nicht genau feststanden, konnten sie auch nicht für die Bildung bzw. Bestimmung der Inhalts- und Verhaltensklassen der Lernzielmatrix herangezogen werden. Daher wurde wie folgt vorgegangen: In Bezug auf den Verhaltensaspekt stand vor der Konstruktion bereits fest, dass der Test vor allem „verstehen“ und einfache Berechnungen, das heißt, „anwenden“ abprüfen soll. 33 Demzufolge konnten die Kategorien „analysieren“, „bewerten“ und „erschaffen“ bei der Testentwicklung außen vor gelassen werden. Vor diesem Hintergrund und unter Berücksichtigung der in Frage kommenden Lehrstoffinhalte zum Thema „Inflation“ wurden folgende Kategorien der kognitiven Prozessdimension als relevant erachtet: „abrufen“ als Unterkategorie von „erinnern“, „interpretieren“ und „er-
33 Dieskonnte in Anlehnung an den Lehrplan für das berufliche Gymnasium festgelegt werden (vgl. dazu Sächsisches Staatsministerium für Kultus, 1998, S. 30).
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 67
klären“ als Unterkategorien von „verstehen“ sowie „durchführen“ als Unterkategorie von „anwenden“ (vgl. Abschnitt 3.2.3.3). Sie werden wie folgt definiert (vgl. Anderson & Krathwohl, 2001 sowie Anhang 4):
„abrufen“: Die Unterkategorie „abrufen“ umfasst kognitive Vorgänge des Erinnerns von relevantem Wissen aus dem Langzeitgedächtnis. Im Unterschied zum „wieder erkennen“ müssen die Gedächtnisinhalte frei abgerufen werden.
„interpretieren“: „Interpretieren“ findet statt, wenn eine Person fähig ist, Informationen von einer Darstellungsform in eine andere umzuwandeln.
„erklären“: Vom Prozess des „Erklärens“ kann gesprochen werden, wenn ein Ursache-Wirkungs-Modell konstruiert und benutzt wird, um zu bestimmen, wie die Veränderung eines Bestandteils die Veränderung eines anderen in diesem System bewirkt.
„durchführen“: Beim „Durchführen“ wendet eine Person routinemäßig eine Prozedur an, um eine geläufige Aufgabe zu lösen. Das notwendige Verfahren ist dabei bekannt und muss lediglich ausgeführt werden.
Bezogen auf den Lehrstoffinhalt stand vor der Testkonstruktion fest, dass die Intervention Verfahren zur Berechnung von realen Größen, Ursachen sowie grundlegende Konzepte der Inflation vermitteln wird. Im Laufe der Aufgabenkonstruktion wurde des Weiteren festgelegt, dass auch der Geldschöpfungsprozess sowie die Einflussmöglichkeiten der Europäischen Zentralbank und der Geschäftsbanken bezüglich der Geldmenge behandelt werden sollen. Vor diesem Hintergrund und unter Zuhilfenahme von Lehr- und Fachbüchern über das Thema „Inflation“ 34 wurden in einem permanenten Überarbeitungs- und Anpassungsprozess folgende Inhaltsklassen gebildet: Grundlagen der Inflation, Geldschöpfung, Ursache-Wirkungsbeziehungen im Inflationsmodell, Berechnungen zu den Grundlagen der Inflation und Berechnungen zum multiplen Giralgeldschöpfungsprozess. Die Bezeichnungen mussten so gewählt werden, dass die entstandenen Zellen brauchbare Aufgabengeneratoren für die spätere Itemkonstruktion darstellen. Folgende Lehrstoffinhalte können den festgelegten Klassen zugeordnet werden:
Grundlagen der Inflation: Zu dieser Inhaltsklasse werden Grundbegriffe wie Geldmenge, Geldwert, Preisniveau, Arbeitsproduktivität, Warenkorb, Real- und Nominallohn gezählt.
34 Für die Bestimmung der Inhaltsklassen bzw. für die Spezifizierung der Lehrstoffinhalte wurden Lehrbücher für das berufliche Gymnasium (vgl. u.a. Hartmann, 2004, S. 256ff.; Hartmann, 2005, S. 247ff.; Feist, Goebel, Reip & Ulshöfer, 2002, S. 307ff.) sowie volkswirtschaftliche Fachbücher (vgl. u.a. Mankiw, 2004, S. 702; Pohl, 1981, S. 87ff.; Ströbele, 1994, S. 42ff.) herangezogen.
68
Des Weiteren umfasst diese Klasse den Preisindex für die Lebenshaltung, Preisveränderungsraten und Kaufkraftveränderungen sowie den Begriff und das grundlegende Konzept der Inflation.
Geldschöpfung: Dieser Inhaltsklasse werden Begriffe wie Mindestreservesatz und Überschussreserve sowie ihre Zusammenhänge im Rahmen der Geldschöpfung zugeordnet. Aber auch der Geldschöpfungsbegriff, der multiple Giralgeldschöpfungsprozess der Geschäftsbanken und die Instrumente der Europäischen Zentralbank zur Beeinflussung der Geldmenge kennzeichnen diese Klasse.
Ursache-Wirkungsbeziehungen im Inflationsmodell: Hier geht es um die Theorien zur Erklärung von Inflation (Angebotsdruck-, Nachfragesog- und Quantitätstheorie) sowie um die Zusammenhänge und Wechselwirkungen der Inflationstheorien untereinander. Die Beziehungen sind in einem Modell in Anhang 5 dargestellt.
Berechnungen zu den Grundlagen der Inflation: In dieser Klasse geht es um Verfahren zur Berechnung der Arbeitsproduktivität, des Preisindex und der Preisveränderungsrate.
Berechnungen zum multiplen Giralgeldschöpfungsprozess: Diese Inhaltsklasse umfasst Verfahren zur Berechnung des Geldschöpfungsbetrags, des Mindestreservesatzes und des Geldschöpfungsmultiplikators.
Nachfolgende Tabelle zeigt die Lernzielmatrix mit den festgelegten Verhaltenskategorien und den Bezeichnungen der Inhaltsklassen:
Tab. 9: Zu überprüfende Teillernziele und geplante Aufgabenanzahl je Zelle
(Quelle: eigene Darstellung)
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 69
Aus der Tabelle wird ersichtlich, dass die Inhaltsklassen ausschließlich den Wissensarten „konzeptuelles“ und „prozedurales Wissen“ der Taxonomie von Anderson und Krathwohl (2001) zugeordnet werden. Die Kategorien „Faktenwissen“ und „metakognitives Wissen“ sind für den Test irrelevant und wurden daher nicht in die Matrix aufgenommen. In Tabelle 9 sind ferner die relevanten Kombinationen der Inhalts- und Verhaltensklassen dargestellt. Jede Zelle, die mit einer Zahl besetzt ist, symbolisiert ein erwünschtes Teillernziel bzw. Aufgabenuniversum. 35 Durch die Zuordnung der Inhaltsklassen zu den Kategorien der Wissensdimension konnten bei der Festlegung der Teillernziele die üblicherweise zu erwartenden Übereinstimmungen zwischen Inhalts- und Verhaltenskategorien als Hilfestellung herangezogen werden (vgl. Anderson & Krathwohl, 2001, S. 107 sowie Abschnitt 3.2.3). So stand z. B. fest, dass die Kategorie „durchführen“ mit den Inhaltsklassen „Berechnungen zu den Grundlagen der Inflation“ und „zum multiplen
Giralgeldschöpfungsprozess“ kombiniert werden kann. Dagegen wäre eine Kombination von „durchführen“ mit den restlichen drei Inhaltsklassen, welche „konzeptuelles Wissen“ umfassen, weniger sinnvoll gewesen. Jedes relevante Feld in der Lernzielmatrix ist nun durch eine Inhalts- und eine Verhaltensklasse eindeutig beschrieben, wodurch die möglichen Aufgaben je Zelle bereits implizit feststehen. Beispielsweise umfasst das Feld links oben in der Matrix Aufgaben, die ausschließlich das „Abrufen“ von Lehrstoffinhalten der Inhaltsklasse „Grundlagen der Inflation“ abprüfen. Für die anschließende Itemerstellung wurde es nicht als notwendig erachtet, jedes Aufgabenuniversum zusätzlich verbal zu definieren.
In Tabelle 9 ist weiterhin die geplante Aufgabenanzahl je Zelle ersichtlich. Da der Test nicht mehr als 30 Minuten beanspruchen soll, wurden insgesamt 23 Items geplant. Die benötigte Dauer für die Bearbeitung der Aufgaben kann allerdings nur vermutet werden. Nach einer praktischen Erprobung des Tests muss gegebenenfalls entweder die Zahl der Items oder die Bearbeitungszeit angepasst werden. Bei der Planung der Aufgabenanzahl für jedes Aufgabenuniversum müssen in erster Linie die Schwerpunkte der pädagogischdidaktischen Intervention berücksichtigt werden. Je nachdem sind mehr oder weniger Aufgaben für jedes relevante Teillernziel zu planen. Zum Zeitpunkt der Testentwicklung konnten die Schwerpunkte jedoch nur vermutet werden. Durch die Verteilung der Itemanzahl in Bezug auf den Verhaltensbereich soll deutlich werden, dass der Test hauptsächlich „ver- 35 Dasich erst zu einem späteren Zeitpunkt entscheiden wird, welche Lehrstoffinhalte in welcher Art und Weise durch die pädagogisch-didaktische Intervention vermittelt werden, konnten die erwünschten Teil- lernziele lediglich angenommen werden.
70 4. Entwicklung der Vorform eines Tests zum Thema „Inflation“
stehen “ und insbesondere „erklären“ abprüft. Die Anzahl der Aufgaben bezogen auf den
Inhaltsaspekt soll ausdrücken, dass der Schwerpunkt der Intervention auf den „Grundlagen
der Inflation“ und auf dem Inhaltsbereich „Geldschöpfung“ liegt. Darüber hinaus wurde
darauf geachtet, dass jede gewünschte Zelle durch mindestens zwei Items vertreten ist,
damit ansatzweise ausgeschlossen werden kann, dass das Teillernziel nur scheinbar er-
reicht wurde (vgl. Abschnitt 3.2.4.2) Im nachfolgenden Abschnitt wird erläutert, welche
Items auf Grundlage der Lernzielmatrix für den Test konstruiert wurden.
4.3 Aufgabenkonstruktion
4.3.1 Einordnung der Items in die Lernzielmatrix und verwendete Aufgabenformate
In der Regel werden ausgehend von den relevanten Aufgabenuniversen und der geplanten
Aufgabenanzahl je Zelle Testitems konstruiert. Für die vorliegende Arbeit wurde jedoch
auf Grundlage der Lernzielmatrix aus Tabelle 9 zunächst für jede mögliche Kombination
der Inhaltsklassen mit den Verhaltenskategorien eine bestimmte Menge von Aufgaben
entwickelt. Da bis zum jetzigen Zeitpunkt noch nicht definitiv festgelegt werden kann,
welche Teillernziele von der pädagogisch-didaktischen Intervention angestrebt werden
sollen , schien die Erstellung eines Aufgabenpools die beste Lösung zu sein (vgl. dazu An-
hang 6, 7 Anhang 8) Später können aus diesem dann die Testitems entsprechend den
tats ächlichen Teillernzielen und Schwerpunkten der Intervention ausgewählt werden. Für
den in der vorliegenden Arbeit konstruierten Test konnten die relevanten Teillernziele und
die Schwerpunkte lediglich vermutet werden (vgl. Tab. 9) Diesen Annahmen entspre-
chend wurden 23 Aufgaben aus dem Itempool ausgewählt und zu einem Test zusammen-
gestellt (vgl. Anhang 9) Die nachfolgende Tabelle verdeutlicht, welche Aufgaben für den
Test aus dem Pool entnommen wurden und wie diese in die Lernzielmatrix einzuordnen
sind
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 71
Tab. 10: Einordnung der konstruierten Testaufgaben in die Lernzielmatrix
(Quelle: eigene Darstellung) Lesebeispiel: 3 (26a) = Aufgabe Nr. 3 im Test (Item Nr. 26a im Aufgabenpool) In Abschnitt 1.1 wurde darauf hingewiesen, dass der Test die aktive Lernleistung zum Thema „Inflation“ überprüfen soll. Daher kamen für die Itemkonstruktion lediglich Aufgabenarten in Betracht, bei denen die Probanden die Antworten selbst formulieren müssen (vgl. dazu Abschnitt 3.3). Für die Konstruktion der Testaufgaben wurden das Short-Answer-, das Completion- sowie das Essay-Format mit begrenzter Beantwortungsfreiheit gewählt. Aus nachfolgender Tabelle kann entnommen werden, welche Aufgabenarten für die einzelnen Items verwendet wurden und welche Verhaltenskategorie berührt wird.
Tab. 11: Zuteilung der verwendeten Aufgabenformate zu den konstruierten Items
(Quelle: eigene Darstellung)
Testitems, die sich auf die Verhaltenskategorien „abrufen“ und „durchführen“ beziehen (vgl. Tab. 11), wurden in Form von Short-Answer- bzw. Completion-Aufgaben formuliert. Bei der Verhaltenskategorie „abrufen“ werden definitionsgemäß Gedächtnisinhalte frei erinnert (vgl. Abschnitt 4.2 sowie Anhang 4). Zum Abprüfen dieser Unterkategorie empfehlen Anderson und Krathwohl (2001, S. 70) daher Constructed-Response-Items. Gronlund (1974, S. 21; vgl. dazu Abschnitt 3.3) ist der Auffassung, dass sich Short- Answer- und Completion-Aufgaben gut für die Erfassung von Erinnerungsleistungen eig-
72
nen, wenn die Antwort, wie es für die Überprüfung der Kategorie „abrufen“ erforderlich ist, selbstständig formuliert werden soll.
Für die Überprüfung der Verhaltenskategorie „durchführen“ können nach Anderson und Krathwohl (2001, S. 71, S. 78) Testaufgaben herangezogen werden, bei denen die Probanden die Antworten entweder selbst formulieren oder aus Vorgaben auswählen müssen. Da alle zu dieser Kategorie konstruierten Aufgaben Berechnungen erfordern (vgl. Anhang 9), das heißt, die Antworten in Form von Zahlen gegeben werden müssen, konnte die Formulierung der Items in Completion- bzw. Short-Answer-Form dem Selected-Response-Format eindeutig vorgezogen werden (vgl. Gronlund, 1974, S. 61 sowie Abschnitt 3.3).
Aufgabe 6 prüft Verhaltensweisen der Kategorie „interpretieren“ ab und wurde ebenfalls als Completion-Aufgabe verfasst. Testaufgabe 13 hingegen, die sich auf die gleiche Ver-haltenskategorie bezieht, wurde im Essay-Format mit begrenzter Beantwortungsfreiheit formuliert (vgl. Tab. 11). Nach Anderson und Krathwohl (2001, S. 70f.) können Aufgaben zum Abprüfen der Kategorie „interpretieren“ ebenfalls sowohl im Constructed- als auch im Selected-Response-Format verfasst werden. Da der Test in erster Linie die aktive Lernleistung überprüfen soll, wurden die Items so formuliert, dass die Probanden die Antwort selbst produzieren müssen, anstatt sie aus Vorgaben auszuwählen.
Die Aufgaben 14 bis 23 prüfen Fähigkeiten der Unterkategorie „erklären“ ab. Diese Items sollen vor allem testen, ob die Probanden wesentliche Zusammenhänge verstanden haben. Zur Überprüfung der Fähigkeit „erklären“ gibt es nach Anderson & Krathwohl (2001, S. 76) vier Fragearten, bei denen die Testpersonen die Antworten frei formulieren müssen: Bei der Frageart logisches Denken („reasoning“) sollen die Testpersonen eine Begründung für ein gegebenes Ereignis anbieten. Bei Aufgaben zum Probleme lösen („troubleshooting“) sollen die Probanden bestimmen, was in einem gestörten System schief gelaufen ist. Bei der Frageart umgestalten („redesigning“) werden die Testpersonen dazu aufgefordert, das System zu verändern, um irgendetwas zu bezwecken. Dazu müssen imaginär eine oder mehrere Komponenten des Systems modifiziert werden. Bei der Frageart vorhersagen („predicting“) sollen die Probanden angeben, wie die Veränderung eines Systembestandteils die Änderung eines anderen bewirken wird. Für die Konstruktion der Aufgaben zum Abprüfen von „erklären“ wurden diese vier Arten von Fragen herangezogen. Da mit einzelnen Worten als Antwort nicht ausreichend gezeigt werden kann, dass die Fähigkeit zum „erklären“ vorhanden ist, wurden die Items 14 bis 23 im Essay-Format mit Antwortbeschränkung formuliert. Bei dieser Aufgabenart wird den Testpersonen die
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 73
Möglichkeit gegeben, sich umfassender zu äußern als beim Short-Answer- oder Completion-Format.
4.3.2 Erläuterungen zu den konstruierten Testaufgaben
Bei der Erstellung der Testaufgaben 1 bis 12 wurden neben den allgemeinen Konstruktionshinweisen insbesondere die Regeln zur Entwicklung von Short-Answer- und Completion-Aufgaben berücksichtigt (vgl. Abschnitt 3.3). Bei der Formulierung dieser Items musste vor allem darauf geachtet werden, dass nur eine richtige Antwort in Form von ein bis zwei Worten (Items 1 bis 5) oder Zahlen (Items 6 bis 12) in Frage kommt, die Lösung allerdings nicht schon durch die Formulierung Aufgabenstellung offensichtlich ist. Darüber hinaus sollten ausschließlich wesentliche Aspekte abgefragt werden. Zudem wurde bei der Konstruktion der Aufgaben des Completion-Formats versucht, die auszufüllende Lücke möglichst ans Ende der Feststellung zu positionieren. Darüber hinaus musste beachtet werden, dass die Aufgabenstellung keine äußeren Anhaltspunkte für die Lösung enthält. Beispielsweise wurde in Aufgabe 1 durch die Angabe aller möglichen Artikel („den / die / das“, vgl. Anhang 9) vor der Lücke vermieden, einen grammatikalischen Hinweis zum gefragten Begriff zu geben. Des Weiteren gibt es keine Unterschiede in Bezug auf die Größe der auszufüllenden Lücken bzw. der Antwortlinien, um auch diesbezüglich Anhaltspunkte für die Antwort zu vermeiden. Bei den Aufgaben 6 bis 12 müssen die Probanden Zahlen zur Beantwortung entweder in die freien Felder einer Tabelle oder auf eine dafür vorgesehene Linie eintragen. Bei der Formulierung dieser Items wurde vor allem darauf geachtet, den erforderlichen Genauigkeitsgrad und die gewünschte Einheit in die Aufgabenstellung mit aufzunehmen, wenn diese nicht offensichtlich waren. Beispielsweise wurde in Aufgabe 7 und 8 angegeben, die Ergebnisse auf zwei Nachkommastellen zu runden. Bei den Testitems 7 und 8 müssen die Testpersonen anstatt eines Wertes zwei berechnen, bei den Aufgaben 6 und 9 werden sogar drei Werte gefordert. Damit soll sichergestellt werden, dass die Fähigkeit, die mit der jeweiligen Aufgabe abgeprüft wird, auch tatsächlich vorhanden ist. Beispielsweise muss in Aufgabe 7 die Preisveränderungsrate einerseits für einen gestiegenen und andererseits für einen gesunkenen Preisindex berechnet werden. Wenn eine Testperson das Verfahren zur Berechnung von Preisveränderungsraten tatsächlich anwenden kann, wird sie für beide Fälle die richtige Lösung finden. Wären zu diesem Sachverhalt zwei Aufgaben konstruiert worden, so hätte sich die geplante Gesamtaufgabenanzahl erhöht. Außerdem würde eine Erhöhung der Aufgabenanzahl in den Feldern „durchführen von Berechnungen zu den Grundlagen der Inflation“ und „durchführen von
74
Berechnungen zum multiplen Giralgeldschöpfungsprozess“ die Gewichtung der Teillernziele verändern (vgl. Tab. 9).
Bei der Erstellung der Aufgaben 13 bis 23 wurden die allgemeinen Hinweise für die Itementwicklung sowie die speziellen Konstruktionsregeln für Essay-Aufgaben mit begrenzter Beantwortungsfreiheit herangezogen (vgl. Abschnitt 3.3). Vor allem bei der Formulierung der Aufgaben musste darauf geachtet werden, dass die Problemstellung klar umrissen und die Art bzw. der Umfang der Antwort möglichst begrenzt wurde. So sollen die Testpersonen beispielsweise in Aufgabe 18 beschreiben, welche Auswirkungen auf die Überschussreserve, die Geldschöpfungsmöglichkeit und die Geldmenge beobachtet werden können, wenn die Europäische Zentralbank den Mindestreservesatz erhöht. Hätte man in der Aufgabenstellung nicht angegeben, in Bezug auf welche Größen die Auswirkungen beschrieben werden sollen, gäbe es zahlreiche Antwortmöglichkeiten, was die Auswertung der Lösung erheblich erschweren würde. Für die Aufgaben 19, 22 und 23 gibt es mehrere richtige Antworten, die jedoch vorhersehbar sind. Um den Umfang der Beantwortung zu begrenzen, werden die Probanden aufgefordert, nur eine Maßnahme bzw. Möglichkeit zu beschreiben. Darüber hinaus ist bei allen Aufgaben des Essay-Formats angegeben, dass die Beantwortung in maximal zwei Sätzen erfolgen soll. Die dafür vorgesehenen Antwortlinien verdeutlichen den begrenzten Beantwortungsumfang zusätzlich (vgl. Anhang 9).
Inwieweit die Formulierung der Aufgaben tatsächlich eine klare Problemstellung für die Probanden darstellt und ob die Schwierigkeit der Items dem Leistungsniveau der Schüler des Wirtschaftsgymnasiums angemessen ist, muss im Rahmen einer praktischen Erprobung ermittelt werden. Dabei empfiehlt es sich, den Test ebenfalls an einer Gruppe von Wirtschaftsgymnasiasten einzusetzen. Gegebenenfalls müssen nach diesem Probedurchlauf einige Aufgabenstellungen präzisiert oder Testitems mit unangemessenem Schwierigkeitsniveau umformuliert werden. Welche Überlegungen für die Anordnung der Aufgaben im Test getroffen wurden, soll im nachfolgenden Abschnitt erläutert werden.
4.4 Anordnung der Aufgaben im Test
Wie bereits in Abschnitt 4.3.1 erwähnt, wurden 23 Items aus dem Aufgabenpool (vgl. Anhang 6) ausgewählt und zu einem Test (vgl. Anhang 9) zusammengestellt. Dabei musste beachtet werden, dass die Items die aufgestellte Lernzielmatrix mit den relevanten Teillernzielen sowie den jeweils geplanten Aufgabenanzahlen abdecken (vgl. Tab. 9). Es konn- ten jedoch nur solche Items aus dem Pool entnommen werden, die keine Hinweise für die
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 75
Beantwortung einer anderen Aufgabe enthalten (vgl. Abschnitt 3.3). Zur Verdeutlichung soll nachstehendes Beispiel dienen: Im Test wird den Probanden zunächst folgende Aufgabenstellung gegeben: „Berechnen Sie die Arbeitsproduktivität (pro Stunde) für einen Bäcker, der in 3 Stunden 120 Brötchen herstellt“ (vgl. Itemnummer 8, Anhang 6). Danach wird folgende Aufgabe gestellt: „Ein Brötchenbäcker hat eine Arbeitsproduktivität von 25 Stück / Stunde. Geben Sie in kurzen Worten an, was dieser Wert aussagt“ (vgl. Itemnummer 10a, Anhang 6). Die Aufgabenstellung des ersten Items könnte möglicherweise einen Hinweis darauf geben, wie der Wert der Arbeitsproduktivität von 25 Stück / Stunde in der zweiten Aufgabe interpretiert werden muss (nämlich, dass der Bäcker in einer Stunde 25 Brötchen herstellt). Des Weiteren dürfen sich die Items nicht überschneiden. Dies wurde bereits bei der Aufstellung des Aufgabenpools kenntlich gemacht: Items mit derselben Nummer und verschiedenen Buchstaben (z. B. 62a & 62b) dürfen nicht in denselben Test aufgenommen werden, da sie sich in Bezug auf Aufgabenstellung bzw. Ant-wort überschneiden. Diese Items könnten jedoch für die Bildung von parallelen Testformen verwendet werden (vgl. dazu auch Abschnitt 3.5.3.2). Welche Items letztendlich aus dem Aufgabenpool ausgewählt und zum Test zusammengestellt wurden, kann Tabelle 10 entnommen werden. Um sicherzugehen, dass die Aufgaben kontentvalide sind, das heißt, zweifellos zu den entsprechenden Zellen der Lernzielmatrix zugeordnet werden können, müssen diese vor der praktischen Erprobung einigen Experten zur Beurteilung vorgelegt werden (vgl. Abschnitt 3.5.2). Gegebenenfalls sind nach dieser Expertenbeurteilung einige Aufgaben zu überarbeiten.
Für die Anordnung der Items innerhalb des Tests wurden zunächst die Aufgaben gleicher Itemformate gruppiert, damit sich die Probanden in Bezug auf die Bearbeitungsart der Items nicht umstellen müssen (vgl. dazu und im Folgenden Abschnitt 3.4.1). Da davon ausgegangen werden kann, dass der komplexere Aufgabentyp mehr Bearbeitungszeit in Anspruch nehmen wird, wurden die Aufgaben im Short-Answer- bzw. Completion-Format (Aufgaben 1 bis 12) an den Testanfang positioniert, die Items im Essay-Format (Aufgaben 13 bis 23) an das Ende. Insgesamt kann der Test in drei Abschnitte aufgeteilt werden: Den ersten bilden die Aufgaben 1 bis 5. Bei diesen bestehen die Antworten lediglich aus ein bis zwei Worten. Der zweite Abschnitt besteht aus Aufgaben, bei denen Zahlen als Antworten gegeben werden müssen (Aufgaben 6 bis 12). Den letzten Abschnitt bilden die Items 13 bis 23 im Essay-Format. Innerhalb dieser Gruppen wurden die Aufgaben nach ansteigendem Schwierigkeitsgrad angeordnet. Dieser kann jedoch aufgrund der fehlenden Aufga- benanalyse (vgl. Abschnitt 3.5) nur vermutet werden. So wurde beispielsweise für Aufgabe
76
12 angenommen, dass sie den höchsten Schwierigkeitsgrad von allen Items des zweiten Testabschnitts haben wird, da bei dieser Aufgabe im Vergleich zu den anderen umfangreichere Berechnungen durchgeführt werden müssen. Item 6 wurde an den Testabschnittsanfang positioniert, da bei dieser Aufgabe keine Berechnung, sondern lediglich eine Interpretationsleistung gefordert wird. Nach Anderson und Krathwohl (2001) sind die kognitiven Denkprozesse der Verhaltenskategorie „interpretieren“ (Aufgabe 6) weniger komplex als die Prozesse der Kategorie „durchführen“ (Aufgaben 7 bis 12). Daher kann davon ausgegangen werden, dass der Schwierigkeitsgrad der Aufgabe 6 im Vergleich zu den anderen Items dieses Testabschnitts am niedrigsten sein wird. Desgleichen wurde Aufgabe 13, die ebenfalls der Kategorie „interpretieren“ zugeordnet werden kann, an den Anfang des Essay-Aufgaben-Teils gestellt. Diese Anordnung erscheint sinnvoll, da bei der Bearbeitung der Items 14 bis 23, welche der kognitiven Verhalteskategorie „erklären“ zugeordnet werden können, vergleichsweise komplexere Denkprozesse erforderlich sind (vgl. dazu auch Anderson & Krathwohl, 2001). Nach der Berechnung des Schwierigkeitsgrades im Rahmen der Aufgabenanalyse (vgl. Abschnitt 3.5.2) müssen die Items innerhalb der Gruppe gleicher Aufgabenformate gegebenenfalls neu angeordnet werden.
Nachdem die Aufgaben des gleichen Antwortformats gruppiert und nach ansteigendem Schwierigkeitsgrad angeordnet wurden, konnten innerhalb der gebildeten Gruppen die Items gleicher Inhaltsklassen zusammengefasst werden. Darüber hinaus wurde versucht, die Aufgaben, die sich auf dieselben Verhaltenskategorien beziehen, weitestgehend zu gruppieren. So beziehen sich die Items 1 bis 5 auf die Kategorie „abrufen“, die Aufgaben 7 bis 12 auf „durchführen“ und die Items 14 bis 23 auf die Verhaltenskategorie „erklären“. Lediglich die Aufgaben 6 und 13, welche die kognitiven Prozesse der Kategorie „interpretieren“ abprüfen, konnten nicht zusammengefasst werden. Die Trennung ließ sich nicht vermeiden, da sich diese Items hinsichtlich des Aufgabenformats unterscheiden und die Anordnung im Test in erster Linie nach gleichen Itemtypen erfolgen sollte.
Neben der Testvorform wurde zusätzlich eine Musterlösung erstellt (vgl. Anhang 10), um die Auswertung der Antworten zu erleichtern und zu vereinheitlichen. Sie enthält zu jeder Aufgabe die richtige Lösung bzw. Antwortmöglichkeiten, die noch als richtig bewertet werden können. Nach einem Probeeinsatz des Tests ist die Musterlösung um weitere mögliche Antworten oder Formulierungsweisen zu ergänzen. Abschließend soll im nächsten Abschnitt erläutert werden, welche Überlegungen zu den Testanweisungen und zur Bewer- tung der Aufgaben getroffen wurden.
4. Entwicklung der Vorform eines Tests zum Thema „Inflation“ 77
4.5 Formulierung der Testanweisungen und Empfehlungen zur Bewertung
Vor der Bearbeitung der Aufgaben werden den Probanden allgemeine Testanweisungen vorgelegt (vgl. Anhang 9). Diese enthalten Informationen über den Zweck des Testeinsatzes und die insgesamt zur Verfügung stehende Bearbeitungszeit. Darüber hinaus wird darauf hingewiesen, dass ein Taschenrechner benutzt werden kann (vgl. dazu Abschnitt 3.4.2). Im Anschluss an diese allgemeinen Anweisungen haben die Probanden die Möglichkeit, Fragen zu stellen. Während der Testbearbeitung sollte möglichst keine Interaktion zwischen dem Untersuchungsdurchführenden und den Testpersonen stattfinden. Nach den einleitenden Informationen kann mit der Aufgabenbearbeitung begonnen und die zur Verfügung stehende Zeit von 30 Minuten gestoppt werden. Da der Test wie bereits erwähnt in drei Abschnitte aufgeteilt wurde, konnten die Anweisungen für die Art der Aufgabenbearbeitung für jeden Testabschnitt gesondert aufgeführt werden. So wird für die Items 1 bis 5 z. B. angegeben, dass die Antworten lediglich einzelne Worte umfassen und diese auf die dafür vorgesehenen Linien geschrieben werden sollen. Vor der Bearbeitung der Aufgaben 6 bis 12 werden die Testpersonen darauf aufmerksam gemacht, dass einfache Berechnungen für die Beantwortung erforderlich sind und ein Taschenrechner benutzt werden soll. In Aufgabe 6 wird jedoch darauf hingewiesen, dass hierfür keine Rechenoperationen durchgeführt werden müssen. Für die Items 13 bis 23 wurde angegeben, dass die Antwort in ein bis zwei Sätzen formuliert und dafür die vorgesehenen Zeilen benutzt werden sollen. Darüber hinaus wurde für jeden Testabschnitt angegeben, wie viel Zeit für die Beantwortung ungefähr zur Verfügung steht. Damit soll vermieden werden, dass sich die Probanden unnötig lange an einzelnen Aufgaben aufhalten. Gegebenenfalls sind die Testanweisungen nach der praktischen Erprobung präziser zu formulieren.
Für die Bewertung der Antworten (vgl. dazu Abschnitt 3.4.3) empfiehlt der Autor der vorliegenden Arbeit, für jede entsprechend der Musterlösung (vgl. Anhang 10) richtig beant-wortete Aufgabe einen Punkt zu vergeben. Auch für die Items 4, 6, 7, 8 und 9, wo die richtige Lösung zwei oder drei Angaben umfasst, 36 sollten nicht mehr Punkte (und auch keine halben) gegeben werden, um die Gewichtung dieser Aufgaben in Bezug auf die Gesamtpunktzahl nicht zu verändern. Jedes Testitem repräsentiert eine bestimmte zu überprüfende Fähigkeit. Ist diese bei einer Testperson vorhanden, so sollte es möglich sein, die Aufgabe vollständig korrekt zu beantworten, auch wenn die Lösung aus mehreren Angaben besteht.
36 So sollen die Probanden beispielsweise in Aufgabe 4 die zwei geldpolitischen Instrumente der Europäi- schen Zentralbank nennen.
78
Diese Art der Punktvergabe dürfte nach Auffassung des Autors der vorliegenden Arbeit auch im Hinblick auf die Erstellung von Paralleltests (z. B. für die Ermittlung der Paralleltest-Reliabilität bzw. für den Einsatz vor und nach der Intervention) hilfreich sein: Wenn man beispielsweise jede richtige Angabe in Aufgabe 4 mit einem Punkt bewerten möchte, dann würde die zu erreichende Gesamtpunktzahl dieses Items zwei Punkte betragen. Für die Erstellung eines Paralleltests müsste man dann jedoch eine äquivalente Aufgabe finden bzw. konstruieren, die ebenfalls mit insgesamt zwei Punkten bewertet werden kann. Andernfalls hätte eine der beiden Parallelformen eine höhere, maximal zu erreichende Gesamtpunktzahl, womit die Vergleichbarkeit der Rohwerte der Parallelformen nicht mehr gewährleistet wäre. Die Bewertung jeder Aufgabe mit einem Punkt erleichtert demzufolge auch die Konstruktion einer parallelen Testform.
5. Hinweise für den praktischen Einsatz des Tests als Schlussbetrachtung 79
5. Hinweise für den praktischen Einsatz des Tests als Schlussbetrachtung
Zielstellung dieser Arbeit war, einen Test im Constructed-Response-Format zu entwickeln, mit dem die Lernwirksamkeit einer pädagogisch-didaktischen Intervention zum Thema „Inflation“ gemessen werden kann. Es konnte festgestellt werden, dass sich lernzielorientierte Tests am besten für diesen Zweck eignen. Daher wurden vorab die theoretischen Grundlagen einer lernzielorientierten Testentwicklung beleuchtet und darauf basierend ein Test zum Thema „Inflation“ konstruiert. Dieser kann wie bereits mehrfach erwähnt lediglich als Vorform betrachtet werden, da er im Rahmen der vorliegenden Arbeit nicht mehr erprobt wurde. Bevor dieser Test zur Messung der Lernwirksamkeit der pädagogischdidaktischen Intervention eingesetzt werden kann, sind daher noch einige Handlungsschritte notwendig. In den vorangegangenen Kapiteln wurde darauf bereits teilweise hingewiesen. Im Folgenden sollen diese in der Art eines Ablaufplans zusammengeführt und kurz erläutert werden:
1. Wenn das Konzept der pädagogisch-didaktischen Intervention zum Thema „Inflation“ vorliegt, müssen die für den Test ausgewählten Aufgaben zunächst dahingehend überprüft werden, ob sie den tatsächlichen Inhalten, Schwerpunkten und angestrebten Teillernzielen der Intervention entsprechen. Möglicherweise wird es notwendig sein, einzelne Items gegen andere aus dem Aufgabenpool auszutauschen oder neue zu konstruieren.
2. Im Zusammenhang mit der Berechnung der Lernwirksamkeit wurde darauf hingewiesen, dass für den wiederholten Testeinsatz Paralleltests empfehlenswert sind (vgl. Abschnitt 3.6). Daher sollte versucht werden, neben dem bereits konstruierten Test eine Parallel-form zu erstellen. Dafür kann zu jeder Aufgabe ein äquivalentes Item (auf dasselbe Teillernziel bezogen, gleiche Retest-Reliabilität) aus dem Aufgabenpool entnommen werden. Bei der Erstellung des Pools wurden bereits solche vermutlichen Parallelaufgaben gekennzeichnet (z. B. 62 a / 62 b).
3. Anschließend müssen die Aufgaben des Tests (falls ein Paralleltest erstellt wird, auch dessen Items) einer Gruppe von Experten vorgelegt werden. Diese sollen beurteilen, ob die Aufgaben den entsprechenden Teillernzielen tatsächlich zugeordnet werden können (vgl. Abschnitt 3.5.2). Basierend auf den Zuordnungen der Experten, kann die Kontentvalidität jedes Items ermittelt werden. Bei niedrigen Validitätswerten muss die betreffende Aufgabe überarbeitet oder ausgetauscht werden. Sollten sich solche Ergeb-
5. Hinweise für den praktischen Einsatz des Tests als Schlussbetrachtung 80
4. Bei annehmbaren Werten der Kontentvalidität kann der Test und seine Parallelform zur
5. Nach der Ermittlung der Rohwerte ist zunächst der Schwierigkeitsgrad für jede Aufgabe
6. Werden gravierende Änderungen an den Aufgaben vorgenommen, so sollten diese er- neut einer Gruppe von Probanden vorgelegt werden. Bei zufrieden stellenden Ergebnis-
5. Hinweise für den praktischen Einsatz des Tests als Schlussbetrachtung 81
sen der Aufgabenanalyse kann der Test in seine Endform überführt und einer Überprüfung der Gütekriterien unterzogen werden (vgl. Abschnitt 3.5).
7. Möglicherweise ist es angebracht, eine gesonderte Studie für die Ermittlung der Reliabilität durchzuführen. Für den Fall, dass ein Paralleltest erstellt werden soll, muss darüber hinaus auch die Retest-Reliabilität für äquivalente Aufgabenpaare überprüft werden. Wie in Abschnitt 3.5.3.2 erwähnt, sollten parallele Items dieselbe Wiederholungszuverlässigkeit aufweisen.
8. Erst wenn annehmbare Kennwerte bei der Überprüfung der Gütekriterien ermittelt werden, können die gewonnenen Testdaten zur Messung der Lernwirksamkeit der Intervention weiterverwendet werden (vgl. Abschnitt 3.6).
Abschließend sei bemerkt, dass der in dieser Arbeit konstruierte Test, trotz der noch notwendigen Maßnahmen, einen ersten Beitrag liefert, um die Lernwirksamkeit der pädago- gisch-didaktischen Intervention zum Thema „Inflation“ zu messen.
82
Literaturverzeichnis
Anderson, L. W. & Krathwohl, D. R. (Eds.). (2001). A Taxonomy for learning, teaching,
Ausubel, D. P. & Robinson, F. G. (1969). School learning: An introduction to educational psychology. New York: Holt, Rinehart and Winston.
Beck, K., Krumm, V. & Dubs, R. (1998): Wirtschaftskundlicher Bildungs-Test (WBT). Göttingen: Hogrefe.
Beiner, F. (1982). Prüfungsdidaktik und Prüfungspsychologie: Leistungsmessung und
Berk, R. A. (1978). The application of structural theory to achievement test construction. Educational Research Quarterly, 3, 62-72.
Biggs, J. B. & Collis, R. E. (1982). Evaluating the quality of learning: The SOLO taxonomy. New York: Academic Press.
Bloom, B. S. (Ed.), Engelhart, M. D., Furst, E. J., Hill, W. H. & Krathwohl, D. R. (1956).
Bloom, B. S. (Hrsg.), Engelhart, M. D., Furst, E. J., Hill, W. H. & Krathwohl, D. R.
Bormuth, J. R. (1970). On the theory of achievement test items. Chicago: University of Chicago Press.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6. Aufl.). Berlin: Sprin- ger.
Literaturverzeichnis 83
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler (4. Aufl.). Heidelberg: Springer.
Büscher, P. (1984). Testtheoretische Ansätze der kriterieumsorientierten Leistungsmessung. In K. Heller (Hrsg.). Leistungsdiagnostik in der Schule (4. Aufl.). (S. 99-116). Bern, Stuttgart, Toronto: Huber.
Cox, R. C. & Vargas, J, S. (1973). Ein Vergleich von Itemauswahltechniken für normbezogene und kriteriumsbezogene Tests. In P. Strittmatter (Hrsg.). Lernzielorientierte Leistungsmessung. (S. 104-114). Weinheim, Basel: Beltz.
DeLandsheere, V. (1977). On defining educational objectives. Evaluation in Education, 1 (2), 73-190.
Deutscher Bildungsrat (1970). Strukturplan für das Bildungswesen. Stuttgart: Ernst Klett.
Dubs, R. (1971). Die Taxonomie. Theorie und praktische Verwendung für den Unterricht. Wirtschaft und Erziehung, 23 (8), 169-173.
Ebel, R. L. (1965). Measuring educational achievement. Englewood Cliffs, N. J.: Prentice-Hall.
Feist, T., Goebel, H., Reip, H. & Ulshöfer, W. (2002). Wirtschaftslehre für Berufliche Gymnasien und Berufskollegs technischer Richtung (7. Aufl.). Troisdorf: Bildungsverlag EINS.
Frey, K. (1972). Theorien des Curriculums (2. Aufl.). Weinheim, Basel: Beltz.
Fricke, R. (1973). Testgütekriterien bei lernzielorientierten Tests (Ein Maß zur Bestimmung von Objektivität, Zuverlässigkeit, Gültigkeit und Trennschärfe bei lernzielorientierten Tests). In P. Strittmatter (Hrsg.). Lernzielorientierte Leistungsmessung. (S. 115-136). Weinheim, Basel: Beltz.
Fricke, R. (1974). Kriteriumsorientierte Leistungsmessung. Stuttgart: Kohlhammer.
84
Fricke, R. (1974a). Lehrzielorientierte Messung mit Hilfe stochastischer Meßmodelle. In
Fricke, R. & Lühmann R. (1982). Kriteriumsorientierte Tests - Theorie und Praxis. Psy-
Gagné, R. M. (1970). The conditions of learning (2nd ed.). New York: Holt, Rinehart & Winston.
Gagné, R. M. (1985). The conditions of learning (4th. ed.). Fort Worth: Holt, Rinehart & Winston.
Gagné, R. M., Briggs, L. J. & Wager, W. W. (1992). Principles of instructional design (4th. ed.). Fort Worth: Holt, Rinehart & Winston.
Glaser, R. (1973). Unterrichtstechnologie und die Messung von Lernergebnissen: Einige
Göldner, S. (2007). Studie zur Eignung von Netzwerken zum Inhaltslernen am Beispiel der
Gronlund, N. E. (1974). Die Anlage von Leistungstests. Frankfurt am Main: Diesterweg.
Gronlund, N. E. & Linn, R. L. (1990). Measurement and evaluation in teaching (6th. ed.). New York: Macmillan.
Haladyna, T. M. (1997). Writing test items to evaluate higher order thinking. Boston: Al- lyn & Bacon.
Literaturverzeichnis 85
Hannah, L. S. & Michaelis J. U. (1977). A comprehensive framework for instructional objectives: A guide to systematic planning and evaluation. Reading, MA: Addison-Wesley.
Hartmann G. B. (2004). Theorie und Praxis der Volkswirtschaftslehre (12. Aufl.). Rinteln: Merkur Verlag.
Hartmann G. B. (2005). Volkswirtschaftliches Denken und Handeln (7. Aufl.). Rinteln: Merkur Verlag.
Hauenstein, A. D. (1998). A conceptual framework for educational objectives: A holistic approach to traditional taxonomies. Lanham: University Press of America.
Heller, K. & Rosemann, B. (1981). Planung und Auswertung empirischer Untersuchungen: Eine Einführung in die Wissenschaftsmethodik und Forschungsstatistik für Pädagogen, Psychologen und Soziologen (2. Aufl.). Stuttgart: Klett-Cotta.
Helmreich, R. (1977). Strategien zur Auswertung von Längsschnittdaten. Ein Beitrag zur Messung von Veränderung in der empirischen Sozialforschung. Stuttgart: Klett.
Herbig, M. (1974). Aufgabentypen zur Leistungsüberprüfung. In K. J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott. Lehrzielorientierte Tests. Beiträge zur Theorie, Konstruktion und Anwendung (2. Aufl.). (S. 74-100). Düsseldorf: Schwann.
Herbig, M. (1976). Praxis lehrzielorientierter Tests. Düsseldorf: Schwann.
Hively, W., Patterson, H. L. & Page, S. H. (1968). A “universe defined” system of arithmetic achievement tests. Journal of Educational Measurement, 5, 275-290.
Hokanson, B. & Hooper, S. (2004). Levels of teaching: A taxonomy for instructional design. Educational Technology, 44 (6), 14-22.
Horn, R. (1984). Zum Problem der Lernzieldefinition. In K. Heller (Hrsg.). Leistungsdiag- nostik in der Schule (4. Aufl.). (S. 145-154). Bern, Stuttgart, Toronto: Huber.
86
Ingenkamp, K. (1970). Das Testen kognitiver Fähigkeiten und Leistungen. In K.
Ingenkamp, K. (1988). Lehrbuch der pädagogischen Diagnostik. Weinheim, Basel: Beltz
Klauer, K. J. (1973). Das Experiment in der pädagogischen Forschung. Eine Einführung. Düsseldorf: Schwann.
Klauer, K. J. (1974). Einführung in die Theorie lehrzielorientierter Tests. In K. J. Klauer,
Klauer, K. J. (1978). Kontentvalidität. In K. J. Klauer (Hrsg.). Handbuch der pädagogischen Diagnostik. Band 1. (S. 225-256). Düsseldorf: Schwann.
Klauer, K. J. (1987). Kriteriumsorientierte Tests. Lehrbuch der Theorie und Praxis lehr-zielorientierten Messens. Göttingen: Hofgrefe.
Köhler, R. (2007). Ableitung und Operationalisierung von Kriterien zum Nachweis von
Krathwohl, D. R. (2002). A Revision of Bloom´s Taxonomy: An Overview. Theory into Practice, 41 (4), 212-218.
Kreitzer, A. E. & Madaus, G. F. (1994). Empirical investigations of the hierarchical struc-
Literaturverzeichnis 87
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz.
Livingston, S. A. (1972). Criterion referenced applications of classical test theory. Journal of Educational Measurement, 9, 13-26.
Mager, R. F. (1984). Preparing instructional objectives (2nd. ed.). Belmont, CA.: Lake.
Mankiw, N. G. (2004). Grundzüge der Volkswirtschaftslehre (3. Aufl.). Stuttgart: Schäffer-Poeschel.
Marzano, R. J. (1992). A different kind of classroom: Teaching with dimensions of learning. Alexandria, VA: Association of Supervision and Curriculum Development.
Merrill, M. D. (1994). Instructional design theory. Englewood Cliffs, NJ: Educational Technology Publications.
Messner, R. (1970). Funktionen der Taxonomien für die Planung von Unterricht. Zeitschrift für Pädagogik, 16 (6), 755-779.
Metfessel, N. S., Michael, W. B. & Kirsner, D. A. (1969). Instrumentation of Bloom´s and Krathwohl’s taxonomies for the writing of educational objectives. Psychology in the Schools, 6, 227-231.
Metzger, Ch. (1975). Taxonomie im kognitiven Bereich - Anwendung im Wirtschaftsunterrricht. In F. Decker (Hrsg.). Wirtschaftsdidaktische Konzepte. (S. 58-72). Ravensburg: Otto Maier.
Meyer, H. L. (1991). Trainingsprogramm zur Lernzielanalyse (12. Aufl.). Frankfurt am Main: Hain.
Möller, Ch. (1976). Technik der Lernplanung: Methoden und Probleme der Lernzielerstel- lung (5. Aufl.). Weinheim, Basel: Beltz.
88
Möller, Ch. (1999). Die curriculare Didaktik. Oder: Der lernzielorientierte Ansatz. In H.
Moseley, D., Baumfield, V., Elliott, J., Gregson, M., Higgins, S., Miller, J. & Newton, D.
Nußbaum, A. (1980). Konstruktion, Planung und Analyse lehrzielorientierter Tests auf der Grundlage der Generalisierbarkeitstheorie. Dissertation. Aachen.
Ormell, C. P. (1974). Bloom’s taxonomy and the objectives of education. Educational Research, 17, 3-18.
Osburn, K. D. (1968). Item sampling for achievement testing. Educational and psychological Measurement, 28, 95-104.
Petermann, F. (1978). Veränderungsmessung. Stuttgart: Kohlhammer.
Pohl, R. (1981). Theorie und Inflation: Grundzüge der monetären Makroökonomik. München: Vahlen.
Popham, W. J. (1973). Angemessene Indizes für kriteriumsbezogene Testitems. In P.
Popham, W. J. (1980). Domain specification strategies. In R. A. Berk (ed.). Criterion-
Popham,W. J. & Husek, T. R. (1973). Implikationen kriteriumbezogener Messungen. In P.
Literaturverzeichnis 89
Presseisen, B. Z. (1989). Thinking skills: Meanings, Models, Materials. In: A. L. Costa (Ed.). Developing minds: A resource book for teaching thinking. (pp. 43-48). Alexandria, VA: Association for Supervision and Curriculum Development Publications.
Quellmalz, E. (1987). Developing reasoning skills. In J. B. Baron & R. J. Sternberg (Eds.). Teaching thinking skills: Theory and Practice. (pp. 86-105). New York: W. H. Freeman.
Raatz, U. (1978). Der Einsatz von Tests bei der Kontrolle von Schulversuchen. In K. Ingenkamp (Hrsg.). Tests in der Schulpraxis. Eine Einführung in Aufgabenstellung, Beurteilung und Anwendung von Tests (6. Aufl.). (S. 186-199). Weinheim & Basel: Belz.
Rapp, G. (1974). Messung und Evaluierung von Lernergebnissen in der Schule. Bad Heilbrunn: Klinkhardt.
Rasch, G. (1980). Probabilistic models for some intelligence and attainment tests. Chicago: University of Chicago Press.
Reigeluth, C. M. & Moore, J. (1999). Cognitive education and the cognitive domain. In C. M. Reigleluth (Ed.). Instructional-design theories and models. Vol. II: A new paradigm of instructional theory. (pp. 51-68). Mahwah, NJ: Erlbaum.
Roid, G. H. & Haladyna T. M. (1982). A technology for test-item writing. London: Academic Press.
Romiszowski. A. J. (1981). Designing instructional systems: Decision making in course planning and curriculum design. London: Kogan Page/New York: Nichols Publishing.
Rosemann, B. (1984). Konstruktion und Auswertung informeller Schulleistungstests (Lernkontrolltests). In K. Heller (Hrsg.). Leistungsdiagnostik in der Schule (4. Aufl.). (S. 163-197). Bern, Stuttgart, Toronto: Huber.
90
Rossi, P. & Freeman, H. (1993). Evaluation: A systematic approach (5th. ed.). Newbury Park: Sage.
Rütter, T. (1973). Formen der Testaufgabe: Eine Einführung für didaktische Zwecke. München: Beck.
Sächsisches Staatsministerium für Kultus (Hrsg.). (1998). Lehrplan für das berufliche
Scandura, J. M. (ed.). (1973). Structural learning I: Theory and research. New York: Gordon and Breach.
Schott, F. (1974). Präzisierung von Lehrzielen durch zweidimensionale Aufgabenklassen.
Schott, F. (1983). Probleme kriteriumsorientierter Leistungsmessung: Zum praktischen
Schott, F. & Kretschmer, I. (1977). Konstruktion lehrzielvalider Testaufgaben aufgrund
Schott, F., Neeb, K.-E. & Wieberg, H.-J. W. (1981). Lehrstoffanalyse und Unterrichtspla-
Literaturverzeichnis 91
Schwarz, E. (1970). Experimentelle und quasi-experimentelle Anordnungen in der Unter-richtsforschung. In K. Ingenkamp (Hrsg.). Handbuch der Unterrichtsforschung. Teil I: Theoretische und methodologische Grundlegung. (S. 445-632). Weinheim: Beltz.
Schwarzer, Ch. (1976). Die Bedeutung von informellen Tests für die Lösung von Beurteilungsproblemen. In E. W. Kleber, H. Meister, Ch. Schwarzer, R. Schwarzer. Beurteilung und Beurteilungsprobleme: Eine Einführung in Beurteilungs- und Bewertungsfragen in der Schule. (S. 213-251). Weinheim, Basel: Beltz.
Schwarzer, R. (1976). Die Bedeutung von lehrzielorientierten Tests für die Lösung von Beurteilungsproblemen. In E. W. Kleber, H. Meister, Ch. Schwarzer, R. Schwarzer. Beurteilung und Beurteilungsprobleme: Eine Einführung in Beurteilungs- und Bewertungsfragen in der Schule. (S. 169-212). Weinheim, Basel: Beltz.
Seelig, G. F. (1971). Arbeitsanweisung für objektivierte Leistungsprüfungen. In U.-J. Kledzik (Hrsg.). Unterrichtsplanung: Beispiel Hauptschule (2. Aufl.). (S. 243- 266). Hannover: Schroedel.
Soper, J. C. & Walstad, W. B. (1987): Test of economic literacy (2nd. ed.). New York: Joint Council on Economic Education.
Speth, H. (1996). Theorie und Praxis des Wirtschaftslehre-Unterrichts (3. Aufl.). Rintheln: Merkur Verlag.
Stelzl, I. (1993). Testtheoretische Modelle. In L. Tent & I. Stelzl. Pädagogischpsychologische Diagnostik: Theoretische und methodische Grundlagen. (S. 39- 202). Göttingen: Hofgrefe.
Sternberg, R. J. (2001). Giftedness as developing expertise: A theory of the interface between high abilities and achieved excellence. High Ability Studies, 12 (2), 159-179.
Strittmatter, P. (1971). Ansätze der Unterrichtsforschung bei der Curriculumreform. Bil- dung und Erziehung, 24, 97-108.
92 Literaturverzeichnis
Str öbele, W. (1994) Inflation: Einführung in Theorie und Politik (3. Aufl.) München:
Oldenbourg.
Tiemann , P. W. Markle, S. M. (1983) Analyzing instructional content: A guide to in-
struction and evaluation (2nd. ed.) Champain, III: Stipes Publication.
Tyler , R. W. (1973) Curriculum und Unterricht. Düsseldorf: Schwann.
Ulbricht , K. (1979) Theorie und Praxis lernzielorientierter Prüfungen in Schule und
Hochschule. Frankfurt am Main: Peter Lang
Vermunt, J. D. Verloop, N. (1999) Congruence and friction between learning and teach-
ing. Learning and Instruction, 9, 257-280.
Westphalen , K. (1980) Praxisnahe Curriculumentwicklung: Eine Einführung in die
Curriculumreform am Beispiel Bayerns (8. Aufl.) Donauwörth: Ludwig Auer.
Wieberg , H.-J. W. (1983) Probleme kriteriumsorientierter Leistungsmessung: Sicherung
der Kontentvalidität. In R. Horn, K. Ingenkamp R. S. Jäger (Hrsg.) Tests und
Trends 3: Jahrbuch der Pädagogischen Diagnostik. (S. 29-52) Weinheim, Basel:
Beltz.
Williams , R. G. (1977) A behavioral typology of educational objectives for the cognitive
domain Educational Technology, 17 (6), 39-46
Anhang 93
Anhang
Anhang 1: Überblick über die einzelnen Stufen des PLANA-Verfahrens 94
Anhang 2: Dimensionen und Kategorien der betrachteten Klassifikationssysteme 95
Anhang 3: Beschreibung der Subkategorien der Wissensdimension 97
Anhang 4: Beschreibung der Subkategorien der Dimension kognitiver Prozesse 99
Anhang 5: Ursache-Wirkungsbeziehungen im Inflationsmodell 102
Anhang 6: Aufgabenpool 103
Anhang 7: Materialien zu ausgewählten Aufgabenstellungen 115
Anhang 8: Einordnung der Items aus dem Aufgabenpool in die Lernzielmatrix 121
Anhang 9: Testvorform zum Thema „Inflation“ 122
Anhang 10: Musterlösung zur Testvorform 128
94
Anhang 1: Überblick über die einzelnen Stufen des PLANA-Verfahrens
(Quelle: Schott, Neeb & Wieberg, 1981, S. 59)
102
Anhang 5: Ursache-Wirkungsbeziehungen im Inflationsmodell
(Quelle: eigene Darstellung in Anlehnung an Göldner, 2007; Köhler, 2007) Anmerkungen:
MR-Politik …Mindestreservepolitik; OM-Politik …Offenmarktpolitik
A … Lohnkostendruckinflation, ausgelöst durch eine Nominallohnerhöhung B … Kostendruckinflation, ausgelöst durch eine Rohstoffpreiserhöhung C … Nachfrageinduzierte Inflation, ausgelöst durch eine Erhöhung der Güternachfrage D … Quantitätstheorie, ausgelöst durch eine autonome Geldmengenausweitung
Anhang 113
(Quelle: eigene Zusammenstellung)
Abkürzungen:
G… Grundbegriffe; P… Preisindex für die Lebenshaltung; I… Inflationsprinzip; GG… Geldschöpfung durch die Geschäftsbanken; GZ… Geldschöpfung durch die Europäische Zentralbank; U… Ursache-Wirkungsbeziehungen im Inflationsmodell
114
B… Konzeptuelles Wissen; C… Prozedurales Wissen
Anmerkungen:
Aufgaben mit gleichen Nummern und verschiedenen Buchstaben (z.B. 62a / 62b) sind als gleichwertig anzusehen. Sie sollten keinesfalls in ein und demselben Test aufgenommen werden, da sie sich stark überschneiden. Es besteht jedoch die Möglichkeit, diese Items im Vortest oder im Nach- test als Parallelaufgaben zu verwenden.
Anhang 115
Anhang 7: Materialien zu ausgewählten Aufgabenstellungen
zu 14. durchführen:
Betrachten Sie für diese Aufgabe bitte die nachfolgende Tabelle. Berechnen Sie die fehlenden Preisindizes (bezogen auf das Basisjahr 2006) und tragen Sie Ihre Ergebnisse in die Tabelle ein. Runden Sie die Werte gegebenenfalls auf 2 Stellen nach dem Komma.
Antwort:
zu 15. durchführen:
Betrachten Sie für diese Aufgabe bitte die nachfolgende Tabelle. Berechnen Sie die fehlenden Preisindizes (bezogen auf das Basisjahr 2006) und tragen Sie Ihre Ergebnisse in die Tabelle ein. Runden Sie die Werte gegebenenfalls auf 2 Stellen nach dem Komma.
Antwort:
zu 16. durchführen:
Betrachten Sie für diese Aufgabe bitte die nachfolgende Tabelle. Berechnen Sie die fehlenden Preisveränderungsraten (jeweils bezogen auf die Vorperiode) und tragen Sie Ihre Ergebnisse in die Tabelle ein. Runden Sie die Werte gegebenenfalls auf 2 Stellen nach dem Komma.
Antwort:
116
zu 17. durchführen:
Betrachten Sie für diese Aufgabe bitte die nachfolgende Tabelle. Berechnen Sie die fehlenden Preisveränderungsraten (jeweils bezogen auf die Vorperiode) und tragen Sie Ihre Ergebnisse in die Tabelle ein. Runden Sie die Werte gegebenenfalls auf 2 Stellen nach dem Komma.
Antwort:
zu 18. interpretieren:
Ergänzen Sie in der nachfolgenden Tabelle die fehlenden Werte zur Preisveränderungsrate und zur Kaufkraftveränderung.
Antwort:
zu 19. interpretieren:
Ergänzen Sie in der nachfolgenden Tabelle die fehlenden Werte zur Preisveränderungsrate und zur Kaufkraftveränderung.
Antwort:
Anhang 117
zu 20. erklären - logisch denken
Betrachten Sie die nachfolgende Entwicklung des Preisindex für die Lebenshaltung (bezogen auf das Basisjahr 2001). Kann man in diesem Fall von einer inflationären Entwicklung sprechen? Begründen Sie Ihre Antwort in kurzen Worten mithilfe dieser Darstellung. Es ist jedoch nicht notwendig, mit Zahlen zu argumentieren.
Preisindex für die Lebenshaltung, 2001 bis 2007,
Jahr 2001 = 100
115
110 105 100 95
2004 2005 2003 2007 2002 2006 2001
Antwort:
Man kann nicht von einer inflationären Entwicklung sprechen, da der Preisindex im Zeitverlauf gestiegen und gesunken ist / da kein stetiges Steigen des Preisindex zu verzeichnen ist.
zu 21. erklären - logisch denken
Betrachten Sie die nachfolgende Entwicklung des Preisindex für die Lebenshaltung (bezogen auf das Basisjahr 2001). Kann man in diesem Fall von einer inflationären Entwicklung sprechen? Begründen Sie Ihre Antwort in kurzen Worten mithilfe dieser Darstellung. Es ist jedoch nicht notwendig, mit Zahlen zu argumentieren.
Preisindex für die Lebenshaltung, 2001 bis 2007,
Jahr 2001 = 100
115
110 105 100 95
2004 2005 2003 2007 2002 2006 2001 Antwort:
Man kann von einer inflationären Entwicklung sprechen, da der Preisindex im Zeitverlauf stetig gestiegen ist.
118
zu 22. erklären - logisch denken
Betrachten Sie die nachfolgende Entwicklung des Preisindex für die Lebenshaltung (bezogen auf das Basisjahr 2001). Kann man in diesem Fall von einer inflationären Entwicklung sprechen? Begründen Sie Ihre Antwort in kurzen Worten mithilfe dieser Darstellung. Es ist jedoch nicht notwendig, mit Zahlen zu argumentieren.
Preisindex für die Lebenshaltung, 2001 bis 2007,
Jahr 2001 = 100
Antwort:
Man kann von keiner inflationären Entwicklung sprechen, da der Preisindex im Zeitverlauf stetig gefallen ist/ da der Preisindex nicht gestiegen ist.
zu 13. erklären - logisch denken
Betrachten Sie die nachfolgende Entwicklung des Preisindex für die Lebenshaltung (bezogen auf das Basisjahr 2001). Kann man in diesem Fall von einer inflationären Entwicklung sprechen? Begründen Sie Ihre Antwort in kurzen Worten mithilfe dieser Darstellung. Es ist jedoch nicht notwendig, mit Zahlen zu argumentieren.
Preisindex für die Lebenshaltung, 2001 bis 2007,
Jahr 2001 = 100
Antwort:
Man kann von keiner inflationären Entwicklung sprechen, da der Preisindex im Zeitverlauf weder gefallen noch gestiegen ist/ da der Preisindex nicht gestiegen ist / da der Preisindex im Zeitverlauf gleich geblieben ist.
Anhang 119
Zu 28. interpretieren:
Beschreiben Sie in kurzen Worten anhand der Graphik die Beziehung zwischen Preisniveau und Geldwert.
Wenn das Preisniveau steigt (sinkt), dann sinkt (steigt) der Geldwert.
zu 37. durchführen
Berechnen Sie den Betrag der Geldschöpfung, wenn eine Geschäftsbank zunächst über 1000 Euro Sichteinlagen verfügt und die dabei entstehende Überschussreserve immer wieder in vollem Umfang als Kredit zur Verfügung stellt. Gehen Sie dabei von einem Mindestreservesatz von 20 % aus. Durchlaufen Sie diesen Prozess lediglich 3 Mal und brechen Sie danach ab. Tragen Sie ihre Zwischenergebnisse in das nachfolgende Berechnungsschema ein. Falls notwendig, runden Sie alle Ergebnisse auf 2 Stellen nach dem Komma und rechnen Sie auch nur mit diesen gerundeten Werten weiter.
Betrag der Geldschöpfung:_____
Antwort:
Betrag der Geldschöpfung: 1.952,00 €
zu 38. durchführen
Berechnen Sie den Betrag der Geldschöpfung, wenn eine Geschäftsbank zunächst über 2000 Euro Sichteinlagen verfügt und die dabei entstehende Überschussreserve immer wieder in vollem Umfang als Kredit zur Verfügung stellt. Gehen Sie dabei von einem Mindestreservesatz von 30 % aus. Durchlaufen Sie diesen Prozess lediglich 3 Mal und brechen Sie danach ab. Tragen Sie ihre Zwischenergebnisse in das nachfolgende Berechnungsschema ein. Falls notwendig, runden Sie alle Ergebnisse auf 2 Stellen nach dem Komma und rechnen Sie auch nur mit diesen gerundeten Werten weiter.
Betrag der Geldschöpfung:_____
120
Antwort:
Betrag der Geldschöpfung: 3.066,00 €
zu 43. durchführen
Betrachten Sie für diese Aufgabe nachfolgende Tabelle. Berechnen Sie die fehlenden Werte zum Geldschöp-fungsmultiplikator und zum Mindestreservesatz und tragen Sie die Werte in die Tabelle ein.
Antwort
zu 44. durchführen
Betrachten Sie für diese Aufgabe nachfolgende Tabelle. Berechnen Sie die fehlenden Werte zum Geldschöp-fungsmultiplikator und zum Mindestreservesatz und tragen Sie die Werte in die Tabelle ein.
Antwort
Anhang 121
Anhang 8: Einordnung der Items aus dem Aufgabenpool in die Lernzielmatrix
(Quelle: eigene Darstellung)
Arbeit zitieren:
Janina Kahle, 2008, Entwicklung eines Constructed-Response-Tests, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
BWL - Didaktik, Wirtschaftspädagogik: Entwicklung eines Constructed-Response-Tests ist nun auf dem Buchmarkt erhältlich
BWL - Didaktik, Wirtschaftspädagogik: neuer Titel erschienen: Entwicklung eines Constructed-Response-Tests
Janina Kahle hat einen neuen Text hochgeladen
Responsible Test Use: Case Studies for Assessing Human Behavior
Lorraine D. Eyde, Gary J. Robertson, Samuel E. Krug
Underground Distribution Construction Mechanic: Test Preparation Study...
National Learning Corporation
Verbal Protocols of Reading: The Nature of Constructively Responsive R...
Michael Pressley, Pressley, Peter P. Afflerbach
Missouri Preparation for Constructed Response/Open-Ended/Short Answer ...
Holt Rinehart & Winston
Holt Elements of Literature Missouri: Preparation/Constructed Response...
Holt Rinehart & Winston, Holt Rinehart and Winston
Florida Preparation for Constructed Response/Open-Ended/Short Answer Q...
Joan Marie Lindsay, Annie Hartnett, Brian Howell
Florida Preparation for Constructed Response/Open-Ended/Short Answer Q...
Joan Marie Lindsay, Annie Hartnett, Brian Howell
Florida Preparation for Constructed Response/Open-Ended/Short Answer Q...
Holt Rinehart & Winston
0 Kommentare