Evaluation des Fragebogens "Wettkampf Angst Inventar - State" nach der Probabilistischen Testtheorie


Diplomarbeit, 2009

67 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

1. Einleitung

2. Theoretische Grundlagen
2.1. Die Probabilistische Testtheorie
2.1.1. Grundlegende Unterschiede der PTT gegenüber der KTT
2.1.2. Wesentliche Vorteile der Rasch-Modelle gegenüber der Klassischen Testtheorie .
2.1.3. Relevanz für die Praxis
2.1.4. Kritik an der PTT
2.2. Wettkampfangst
2.3. Messen von Wettkampfangst
2.3.1. Das CSAI-2
2.3.2. Das WAI-S

3. Methode
3.1. Beschreibung der Stichprobe
3.2. Durchführung der Datenerhebung
3.3. Rückmeldung der Werte an die Teilnehmer
3.4. Deskriptive Statistische Auswertung
3.5. Auswertung nach der Probabilistischen Testtheorie

4. Ergebnisse

5. Diskussion
5.1. Konformität des WAI-S mit den verschiedenen Rasch-Modellen
5.2. Empfehlungen für die Eliminierung von vier Items
5.3. Implikationen für die Praxis
5.4. Limitationen der vorliegenden Arbeit
5.4.1. Datenerhebung
5.4.2. Stichprobe
5.4.3. Psychometrische Eigenschaften des CSAI-2
5.4.4. Methodisches Vorgehen
5.4.5. Schwächen der PTT

6. Literaturverzeichnis

Tabellenverzeichnis

Abbildungsverzeichnis

1. Einleitung

Die wissenschaftliche Auseinandersetzung mit Emotionen im Sport ist sowohl aus theoretischer als auch aus praktischer Sicht für die Sportpsychologie sehr wichtig. Erstens beeinflussen Emotionen objektiv und/oder subjektiv die sportliche Leistung (Hanin, 1999). Zweitens liefern Emotionen wichtige Informationen über die Athlet-Umwelt-Interaktion, z. B. über die subjektive Bedeutung eines Wettkampfes, die gefühlten Ressourcen zur Bewältigung der bevorstehenden Herausforderung(en) und Verhaltenstendenzen einer Person in dieser Situation. Solche Informationen sind unabdingbar, um das Verhalten eines Sportlers1 zu verstehen, Interventionen zur Steigerung der sportlichen Leistung zu planen und zu implementieren und das generelle Wohlbefinden des Sportlers zu steigern.

Unter den vielen Emotionen, die einen Einfluss auf die sportliche Leistung haben, sticht eine Emotion besonders heraus: Wettkampfangst (Ehrlenspiel, Beckmann & Strahler, 2008). Kein anderes psychologisches Phänomen kann die Leistung eines Sportlers so stark beeinflussen wie Angst (Burton, 1998; Weinberg & Gould, 2003), wobei generell von einem negativen Einfluss von Angst auf die sportliche Leistung ausgegangen werden kann (Burton 1998; Burton, Veleay & Bump, 1990). Die Fähigkeit eines Sportlers, mit extremen Angst- und Stresssituationen umgehen zu können, kann besonders im Profisport ein entscheidendes Kriterium über Sieg und Niederlage darstellen (Craft, Magyar, Becker & Feltz, 2003).

Die Erforschung des Einflusses von Angst auf die sportliche Leistung kann als einer der am intensivsten untersuchten Teilbereiche der Sportpsychologie angesehen werden (Burton, 1998; Davies & Armstrong, 1989; Gould & Krane, 1992; Jones, 1995). In Anbetracht dieser Tatsache ist es nicht verwunderlich, dass es mittlerweile eine große Anzahl an Instrumenten gibt, die versuchen, den Angstzustand bzw. die Ängstlichkeit von Sportlern zu messen, um eine Grundlage für sportpsychologische Interventionen zu haben oder eine objektive Diagnostik zu ermöglichen. Ein sehr bekanntes und oft eingesetztes Instrument ist das englischsprachige Cognitive State Anxiety Inventory-2 (CSAI-2; Martens, Burton, Veleay, Bump, & Smith, 1990), das auf einem multidimensionalen Erklärungsansatz (Martens, Veleay & Burton, 1990) beruht. Dieser Ansatz unterscheidet zum einen zwischen Angstzustand (state anxiety) und Ängstlichkeit (trait anxiety), zum anderen zwischen kognitiver und somatischer Angst. Im deutschsprachigen Raum haben Ehrlenspiel, Brand und Graf (2009) das Wettkampf Angst Inventar - State (WAI-S) entwickelt, das auf dem CSAI-2 aufbaut. Mit dem WAI-S soll der aktuelle Angstzustand eines Sportlers vor einem Wettkampf auf den drei Skalen somatische Angst, Besorgnis und Zuversicht gemessen werden.

Ziel dieser Diplomarbeit ist es, das WAI-S nach der Probabilistischen Testtheorie (PTT) zu evaluieren und auf seine psychometrischen Eigenschaften hin zu untersuchen. Dabei wird eine Passung der drei Skalen des WAI-S mit einem der unter der PTT zusammengefassten Modelle angestrebt.

Eine für die Fragebogenkonstruktion relevante Gruppe von Modellen, basierend auf der PTT, sind die Rasch-Modelle, von denen besonders das ordinale Rasch-Modell für polytome Antwortkategorien in diesem Zusammenhang von Bedeutung ist. Erweist sich ein Fragebogen als konform mit dem ordinalen Rasch-Modell, so ergeben sich für diesen Fragebogen eine Reihe von wünschenswerten Vorteilen (Moosbrugger, 2007; Rost, 2004), die im Abschnitt 2.1.2 ausführlicher beschrieben werden. Neben dem praktischen Nutzen eines Rasch-konformen Fragebogens ist die Verwendung probabilistischer Testmodelle ein vielfach geforderter (z. B. Strauß, Büsch & Tenenbaum, 2006), theoretisch und mathematisch fundierter (Bühner, 2006; Fischer & Molenaar, 1995; Rost, 1999, 2004) aber (zumindest in der Sportpsychologie) selten umgesetzter (Strauß et al., 2006) Ansatz. Auf mathematische Herleitungen und Formeln wird jedoch in dieser Arbeit verzichtet. Stattdessen wird an den entsprechenden Stellen auf einschlägige Literatur verwiesen.

Während des Konstruktionsprozesses des WAI-S (s. Abschnitt 2.3.2; Ehrlenspiel et al., 2009) wurde anfänglich nur nach der Klassischen Testtheorie (KTT) evaluiert. Erst in einem fortgeschrittenen Stadium des Prozesses wurde überprüft, ob das WAI-S auf eines der probabilistischen Modelle passt. Dabei ergaben sich nur unzureichende bzw. partielle Modellpassungen des WAI-S an das ordinale Rasch-Modell. Während sich für die Skala somatische Angst eine zufriedenstellende Passung an das Rasch-Modell ergab, erwiesen sich die Skalen Besorgnis und Zuversicht als nicht Modell-konform (Ehrlenspiel, 2007). Durch einen weiteren Konstruktionsschritt, in dem kognitive (qualitative) Interviews durchgeführt wurden, um Hinweise für die Modifikation bestimmter „Problemitems“ zu bekommen (Dietrich & Ehrlenspiel, 2010), entstand die aktuelle Version (WAI-S 2.3) des Fragebogens mit insgesamt 16 Items.

Hauptaufgabe der vorliegenden Diplomarbeit ist es, diese aktuelle Version des Fragebogens quantitativ an einer repräsentativen Stichprobe von Sportlern zu evaluieren und Aussagen über die Konformität des WAI-S 2.3 mit dem Rasch-Modell oder einem der anderen nach der PTT formulierten Modelle (s. Abschnitt 2.1.2) zu machen. Dabei ist die Passung des WAI-S bzw. seiner drei Skalen auf eines der Modelle als Nullhypothese formuliert (H0= Modell wird akzeptiert, H1= Modell wird verworfen).

Des Weiteren sollen Empfehlungen für die Eliminierung von vier Items aus den Skalen Besorgnis und Zuversicht gegeben werden, so dass das WAI-S wieder den angestrebten, praxisfreundlichen Umfang von 12 Items hat, ohne jedoch seine positiven psychometrischen Eigenschaften einzubüßen.

2. Theoretische Grundlagen

2.1. Die Probabilistische Testtheorie

Die Entwicklung und Anwendung probabilistischer Testmodelle in der psychologischen Forschung und Methodenlehre ist ein stark wachsendes Feld (Strauß et al., 2006). Die Vorteile der probabilistischen Testtheorie (IRT - Item-Response-Theory im englischsprachigen Raum) gegenüber der Klassischen Testtheorie (KTT) sind weitestgehend anerkannt (Bühner, 2006; Molenaar, 1995). So schreibt Molenaar (1995) zusammenfassend:

It is now widely recognized that classical test theory has some deficiencies which render it more desirable to model measurement processes with item response theory (IRT). Briefly stated, IRT can do the same things better and can do more things, when it comes to modeling existing tests, constructing new ones, applying tests in non- standard settings, and above all interpreting the results of measurement. (S. 4)

Trotzdem führt die PTT neben der KTT „ein eigenartiges Schattendasein“ (Rost, 1999, S.140). Obwohl die PTT ursprünglich mit dem Ziel angetreten war, die KTT abzulösen oder sich wenigstens als anerkannte Alternative zu ihr zu etablieren, werden heute noch immer 95% aller Testentwicklungen nach der KTT konstruiert (Amelang & Schmidt-Atzert, 2006; Rost, 1999, 2004). Die sehr viel strengeren Kriterien und Annahmen der PTT haben zur Folge, dass eine Konstruktion eines Tests nach dieser Theorie sehr viel aufwändiger ist als eine Testkonstruktion nach der KTT. Aber insbesondere groß angelegte nationale und internationale Vergleichsstudien wie z. B. die PISA-Studie werden meist nach der PTT konstruiert (Rost, 2004). Heute werden die beiden Theorien nicht mehr als konkurrierende, sondern als komplementäre Theorien betrachtet, die beide ihre Daseinsberechtigung haben (Rost, 1999, 2004, 2006; Strauß et al. 2006). Mittlerweile gibt es innerhalb der PTT eine große Anzahl von unterschiedlichen Modellen, von denen die Familie der Rasch-Modelle die am weitesten verbreitete ist (Bühner, 2006; Kubinger, 2003; Rost, 2006). Das ursprünglich von Rasch (1960) für dichotome Leistungstests entwickelte Modell wurde mittlerweile stark diversifiziert und kann nun auf einen breiten Bereich von Instrumenten angewendet werden. Gelingt es, einen Test oder Fragebogen so zu konstruieren, dass er den Anforderungen eines Rasch-Modells genügt, ergeben sich für diesen Test ein Reihe psychodiagnostischer Vorzüge (Moosbrugger, 2007; Rost, 2004). Die grundlegenden Unterschiede zwischen der PTT bzw. der Rasch-Modelle und der KTT sowie deren Vorteile sollen in den folgenden Abschnitten erläutert werden.

2.1.1. Grundlegende Unterschiede der PTT gegenüber der KTT

Der grundsätzliche Unterschied zwischen der PTT (und somit auch der Rasch- Modelle) und der KTT besteht in ihrer messtheoretischen Fundierung. Die KTT stellt ein „deterministisches, nicht prüfbares Modell [dar], und zwar in Bezug auf den Zusammenhang von Testwert und wahrer Eigenschaftsintensität einer Person“ (Kubinger, 2003, S.415). Bei der KTT werden wahre Werte (T) einer Personeneigenschaft als Summe aus Messwert (X) und Fehlerwert (E) angesehen, ohne diese Annahme jedoch mathematisch zu belegen. Bei der KTT handelt es sich also im Grunde um eine Messfehlertheorie (Bühner, 2006; Rost, 2004), die sich mit den verschiedenen Bestandteilen eines Messwertes, nicht aber mit dem Zustandekommen dieses Messwertes auseinandersetzt. Dahingegen macht die PTT Aussagen über die Lösungs wahrscheinlichkeit einer Person für ein bestimmtes Item. Die Lösungswahrscheinlichkeit ist dabei abhängig von (1) der Fähigkeits- bzw. Eigenschaftsausprägung der Person Theta ( ) und (2) der Schwierigkeit des Items sigma ( ). Diese beiden Parameter stehen also in einer probabilistischen - nicht deterministischen - Beziehung zur Lösungswahrscheinlichkeit (Bühner, 2006; Moosbrugger, 2007). Diese Eigenschaft der Lösungswahrscheinlichkeit eines Items kann durch logistische Funktionen, die sogenannten Item Characteristic Curves (ICC) bei dichotomen Items bzw. Category Characteristic Curves (CCC) bei polytomen Items dargestellt werden (s. Abbildung 1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1. Darstellung von ICC und CCC im dichotomen bzw. polytomen Rasch-Modell (nach Bühner, 2006, S.326)

Die PTT beschäftigt sich damit, wie das Testverhalten einer oder mehrerer Personen von bestimmten psychischen Merkmalen abhängt (Moosbrugger, 2007; Rost, 2004). Diese Merkmale werden als latente, also nicht direkt beobacht- oder messbare, Personenvariablen angesehen. Die in einem Test verwendeten Items werden lediglich als Indikatoren dieser latenten Personenvariablen interpretiert. Im Rahmen der PTT können, anders als in der KTT, konkrete, empirisch nachvollziehbare Aussagen darüber getroffen werden, mit welcher Wahrscheinlichkeit eine Person x mit der Eigenschaftsausprägung ein Item y mit der Schwierigkeit löst bzw. welche Antwortkategorie des Items y sie wählt (Bühner, 2006).

Weitere Unterschiede und Schwächen der KTT gegenüber der PTT, auf die hier nicht genauer eingegangen werden soll, betreffen die Skalierung der Testwerte, die Konstruktvalidität und die Stichprobenabhängigkeit der Ergebnisse (vgl. Kubinger, 2007).

Die wesentlichen Vorteile der PTT gegenüber der KTT werden im Folgenden beschrieben, wobei ich mich hier besonders auf die Rasch-Modelle als bekannteste Vertreter der PTT beziehe.

2.1.2. Wesentliche Vorteile der Rasch-Modelle gegenüber der Klassischen Testtheorie

Spezifische Objektivität. Auch in der PTT lassen sich die klassischen Gütekriterien wie Reliabilität, Objektivität, und Validität anlegen. In der Bewertung der Objektivität kommt der spezifischen Objektivität eine zentrale Bedeutung zu. Spezifische Objektivität bezeichnet die Unabhängigkeit der Testergebnisse von der Auswahl der Items (Bühner, 2006; Rost, 2004, 2006). So kann ein Test immer nur eine begrenzte Anzahl an Items umfassen, das Ergebnis soll aber Aussagen über die Fähigkeit der getesteten Person machen, diesen Typ von Item zu lösen, also eine hypothetisch unbegrenzte Anzahl von ähnlichen Items. Der Aspekt spezifisch objektiver Vergleiche bedeutet, „das der Schwierigkeitsunterschied zweier Items unabhängig davon festgestellt werden kann, ob Personen mit niedrigen oder hohen Merkmalsausprägungen untersucht wurden“ (Moosbrugger, 2007, S.78). Auch das Ergebnis eines Eigenschaftsvergleiches zweier Personen sollte unabhängig sowohl von anderen Personen als auch von der Verteilung der dazu herangezogen Items sein (Kubinger, 2003). Die spezifische Objektivität bezieht sich also sowohl auf die Unabhängigkeit der Personenparameter von den Items als auch auf die Unabhängigkeit der Itemparameter von den Personen.

Lokale Unabhängigkeit und lokale stochastische Unabhängigkeit. Man spricht von lokaler Unabhängigkeit, wenn innerhalb eines Tests bei Konstanthaltung der Personenparameter (z.

B. wiederholte Messung einer Person oder Messung mehrerer Personen mit gleichen Merkmalsausprägungen) keine Korrelationen zwischen den Items bestehen, d. h. die Lösung eines Items nicht von der Bearbeitung eines anderen Items beeinflusst wird (Rost, 2004). Sind außerdem Multiplikationen der einzelnen Lösungswahrscheinlichkeiten zweier oder mehrerer Items für eine Person zulässig, bedeutet dies, dass die Beantwortung der Items unabhängig voneinander erfolgt und nur von der latenten Variablen beeinflusst wird. In diesem Fall spricht man von lokaler stochastischer Unabhängigkeit. Es dürfen sich dann (auf dieser lokalen Stufe des latenten Merkmals) keine Korrelationen zwischen den Items mehr zeigen (Moosbrugger, 2007). Ein Test, bei dem lokale Unabhängigkeit oder lokale stochastische Unabhängigkeit vorliegt, gilt als eindimensional. Somit können dessen Items als Indikatoren des latenten Merkmals (Personeneigenschaft) angesehen werden (Bühner, 2006; Moosbrugger, 2007). Sie sind bezüglich des latenten, zu messenden Merkmals homogen. Gilt das Rasch-Modell, liegt lokale (stochastische) Unabhängigkeit vor, genauso wie andere positive Testeigenschaften, die im Folgenden beschrieben werden.

Summenwert als ersch ö pfende Statistik. Gilt ein Test als Rasch-konform, bilden die ungewichteten Summenwerte einer Person auf einer bestimmten Skala so genannte ersch ö pfende oder suffiziente Statistiken (Bühner, 2006; Rost, 1999, 2004) . Diese Items enthalten alle Informationen über das latente Merkmal, also die wahre, aber unbekannte Eigenschaftsausprägung einer beliebigen Person (Kubinger, 2003). Jede Lösung eines Items, ungeachtet ob leicht oder schwer, erhöht den Summenscore dieser Person um denselben Betrag (Rost, 1999). Eine Betrachtung des individuellen Antwortmusters einer Person ist somit hinfällig, da hieraus keine weiteren Informationen gewonnen werden können (Bühner, 2006; Rost, 2004). Auch wenn es intuitiv logisch erscheint, bei der Berechnung der Summescores einer Person die einzelnen Itemantworten nach ihrer Schwierigkeit zu gewichten, „ist eine solche Gewichtung nicht nur überflüssig, sondern auch falsch“ (Rost, 2004, S.124). Es ist, wie bereits erwähnt, nicht wichtig, welche Items eine Person gelöst hat, sondern nur wie viele. Umgekehrt ist es für die Berechnung der Itemparameter nicht von Interesse, welche Person ein Item gelöst hat, sondern wie oft dieses Item insgesamt gelöst wurde.

Alle Items besitzen die gleiche Trennschärfe. Diese Annahme ist nur für das dichotome Rasch-Modell zwingend, beim ordinalen Rasch-Modell sind geordnete Antwortschwellen (so genannte thresholds) notwendig. Eine solche Schwelle kann man sich vorstellen als den Punkt, an dem die Wahl einer anderen Antwortkategorie wahrscheinlicher wird. Im dichotomen Rasch-Modell entspricht diese Schwelle dem Punkt, „an dem die Wahl der Antwortalternativen „Ja“ und „Nein“ gleich wahrscheinlich ist“ (Bühner, 2006, S.325). Die Schwelle zweier benachbarter Antwortkategorien im ordinalen Rasch-Modell wird durch den Schnittpunkt ihrer logistischen Funktionen definiert (vgl. Abb. 1). Die Wahrscheinlichkeit für eine Person, eine der beiden benachbarten Kategorien zu wählen, ist hier immer gleich groß. Gleichzeitig repräsentiert das Lot (der Abszissenwert) dieses Schnittpunktes die Lage der Schwelle auf dem latenten Kontinuum (Rost, 2004). Während es im dichotomen Rasch- Modell nur eine Schwelle gibt, z. B. zwischen den Antwortkategorien „Ja“ und „Nein“, existieren im ordinalen Rasch-Modell mehrere Schwellen, nämlich bei k Antwortkategorien k- 1 Schwellen (Bühner, 2006). Da es im WAI-S vier Antwortkategorien gibt (vgl. Abschnitt 2.3.2), entstehen dementsprechend drei Schwellen: jeweils eine zwischen den Kategorien gar nicht/ein wenig, ein wenig/ziemlich und ziemlich/sehr. Dieser Sachverhalt ist in Abbildung 2 verdeutlicht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2. Die Kategoriefunktionen eines Items mit vier Antwortkategorien (nach Rost, 2004, S.204)

Ergeben sich, wie in Abbildung 2 zu sehen, geordnete Antwortschwellen, kann man daraus schließen, dass für eine Auswahl einer höheren Kategorie (z. B. Kategorie 4: „sehr“) auch eine höhere Eigenschaftsausprägung ( ) erforderlich ist. Bei einem leichteren Item wären die CCC der Abbildung 2 lediglich insgesamt nach links, bei einem schweren Items insgesamt nach rechts verschoben (Moosbrugger, 2007). So lassen sich aufeinander folgende Kategorien auch als aufeinander folgende Eigenschaftsausprägungen der latenten Personenvariablen interpretieren. Die beiden Extremkategorien (z. B. „gar nicht“ und „sehr“) haben eine monoton fallende bzw. monoton steigende CCC, während die beiden mittleren Kategorien (z. B. „ein wenig“ und „ziemlich“) nicht-monotone, eingipflige Verläufe haben. In Abbildung 3 ist zum Vergleich ein Beispiel eines Items mit ungeordneten Antwortschwellen dargestellt. Bei diesem Item hat die Kategorie 1 ständig eine niedrigere Wahrscheinlichkeit, gewählt zu werden, als Kategorie 0 oder 2. Man kann hier nicht davon ausgehen, dass die aufeinander folgenden Kategorien auch aufeinander folgende Ausprägungen des latenten Merkmals repräsentieren (Rost, 2004).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3. Vierkategorielles Item mit ungeordneten Schwellen (nach Rost, 2004, S.205)

Nur wenn die Schwellenparameter wie in Abbildung 2 über alle Items hinweg geordnet sind, wird jeder Antwortkategorie ein eigener Abschnitt auf der y-Achse (dem latenten Merkmal) zugeordnet, in dem die Wahl dieser Kategorie am wahrscheinlichsten ist (Rost, 2006). Wird in einem Fragebogen für alle Items das gleiche Antwortformat mit den gleichen Antwortkategorien verwendet, können die Items bezüglich ihrer Antwortkategorien und der dazugehörigen Schwellenparameter direkt verglichen werden. Um Hypothesen über die Eigenschaften der Antwortkategorien und der dazugehörigen Schwellen zu testen, wurden unterschiedliche Modelle aus dem ordinalen Rasch-Modell abgeleitet (Bühner, 2006). Sie werden im Folgenden kurz beschrieben und jeweils durch eine Abbildung veranschaulicht.

Das Ratingskalen-Modell geht davon aus, dass die Schwellendistanzen über alle Items (nicht innerhalb eines Items!) hinweg gleich groß sind. In Abbildung 4 haben die erste und zweite Schwelle über alle fünf Items hinweg die gleiche Distanz, ebenso die zweite und dritte Schwelle.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4. Schwellenparameter im Ratingskalen-Modell (nach Rost, 2004, S.219)

Das Äquidistanz-Modell geht von gleich großen Schwellendistanzen innerhalb eines Items aus, die jedoch über verschiedene Items hinweg variieren können. Ein Beispiel für Schwellendistanzen nach dem Äquidistanz-Modell ist in Abbildung 5 zu sehen, in der die Distanz zwischen der ersten und zweiten Schwelle bei jedem der fünf Items genauso groß ist wie zwischen der zweiten und dritten Schwelle.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5. Schwellenparameter im Äquidistanz-Modell (nach Rost, 2004, S.219)

Das Dispersions-Modell kann als Kombination der beiden oben genannten Modelle betrachtet werden. Hier sind die Schwellendistanzen sowohl innerhalb eines Items als auch über verschiedene Items hinweg unterschiedlich groß, wobei jedoch das Verhältnis der Abstände jeweils gleich bleibt. Ein Beispiel für geordnete Schwellenparameter nach dem Dispersions-Modell ist in Abbildung 6 dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6. Schwellenparameter im Dispersions-Modell (nach Rost, 2004, S.219)

Wie Abbildung 7 veranschaulicht, sind alle drei Modelle Spezialfälle des ordinalen Rasch-Modells, d. h. sie gehen aus Restriktionen desselben hervor. Das Dispersions-Modell ist wiederum ein übergeordnetes Modell des Ratingskalen- und Äquidistanz-Modells (Rost, 2004).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7. Hierarchische Struktur der verschiedenen Modelle für ordinale Itemantworten (nach Rost, 2004, S.224)

Werden die Schwellenparameter wie in den Abbildungen 4-6 als Profilverläufe dargestellt, dürfen sich dementsprechend keine Überschneidungen der Linien ergeben, falls von Konformität mit einem der Modelle ausgegangen wird. Die Abstände der einzelnen Schwellen zueinander sollten darüber hinaus auch im ordinalen Rasch-Modell, dem am wenigsten restriktiven der hier dargestellten Modelle, möglichst gering variieren.

Stichprobenunabhängigkeit der Parameterschätzungen. Um die Möglichkeit spezifisch objektiver Vergleiche (s. o.) zu rechtfertigen, ergibt sich eine weitere Anforderung an Rasch- konforme Tests: die Schätzungen der Item- und Personenparameter sind unabhängig davon, welche Stichprobe einer bestimmten Population dafür herangezogen wird (Kubinger, 1996). Allerdings ist diese Stichprobenunabhängigkeit für jede neue Stichprobe zu testen und kann keinesfalls als gegeben angesehen werden (Bühner, 2006). Gilt das Rasch-Modell für eine bestimmte Stichprobe, sind Vergleiche sowohl der Item- als auch der Personenparameter innerhalb dieser Stichprobe spezifisch objektiv. Somit sind dann auch Differenzvergleiche von Paaren (Item- oder Personenpaaren) verschiedener Stichproben möglich. Ein anschauliches Beispiel für diesen Sachverhalt findet sich bei Bühner (2006) auf Seite 340f.

Item- und Personenparameter k ö nnen unabhängig voneinander bestimmt werden. Im Gegensatz zur KTT, wo die Bestimmung der Personeneigenschaft von der Verteilung der Schwierigkeit der Itemstichprobe (und umgekehrt die Bestimmung der Itemschwierigkeit von der Personenstichprobe) anhängig ist (Bühner, 2006), können bei einigen Rasch-Modellen die beiden Parameter unabhängig voneinander geschätzt werden (Büsch, Hagemann & Bender, 2009). Bei Modellgeltung ist es für die Parameterschätzungen irrelevant, welche Items von welcher Person gelöst wurden bzw. welche Person ein Item gelöst hat, entscheidend ist jeweils die Anzahl (Moosbrugger, 2007). Zur Berechnung der Parameter gibt es verschiedene Verfahren, von denen die Maximum-Likelihood -Methoden, insbesondere das conditional Maximum-Likelihood (cML)-Verfahren, von Relevanz sind (Rost, 2004). Die cML-Methode hat den entscheidenden Vorteil, dass sie Itemparameter auch ohne Berücksichtigung der Personenparameter schätzen kann (Moosbrugger, 2007), ist jedoch nur beim dichotomen und ordinalen Rasch-Modell anwendbar (Bühner, 2006). Vereinfacht ausgedrückt werden bei diesem Verfahren die Itemparameter iterativ (schrittweise) so geschätzt, dass die Likelihood für die beobachteten Daten möglichst groß wird (Maximum Likelihood), also eine bestmögliche Passung an die empirisch beobachteten Daten erreicht wird. Auf die genaue mathematische Herleitung der cML-Methode, zu deren Durchführung spezielle Software wie z. B. WINMIRA (von Davier, 2001) nötig ist, verzichte ich in diesem Zusammenhang.

2.1.3. Relevanz für die Praxis

Wie bereits unter Abschnitt 2.1. erwähnt, werden heutzutage immer noch 95% aller psychologischen Tests nach der KTT konstruiert. Angesicht dieser Tatsache könnte man auch von einem Scheitern der PTT sprechen, zumindest was den Anspruch angeht, die KTT abzulösen (Rost, 1999). Kubinger (2000) widerspricht jedoch in einer Replik auf den Artikel von Rost (1999) dessen Aussage, das Rasch-Modell führe ein eigenartiges Schattendasein, und postuliert schon im Titel: „Und für die Psychologische Diagnostik hat es doch revolutionäre Bedeutung“ (S.1). Moosbrugger (2007) behauptet sogar: „Die Klassische Testtheorie wird heute von der Item-Response-Theorie mehr und mehr überholt“ (S. 87). Beide Autoren weisen besonders auf die Möglichkeit des adaptiven Testens hin, welches eine höhere Testökonomie ermöglicht und eine Über- bzw. Unterforderung der Testpersonen vermeiden hilft. So werden beim adaptiven Testen nur Items vorgelegt, die tatsächlich wichtige Rückschlüsse auf das zu untersuchende latente Merkmal (Personeneigenschaft) versprechen, redundante Items werden hingegen weggelassen (Moosbrugger, 2007). Somit werden Motivationsprobleme der Testpersonen vermieden, und es kann mit der gleichen Anzahl an Items mehr Information bzw. mit weniger Items die gleiche Information gewonnen werden (Kubinger, 2003).

Kubinger (2000) behauptet, dass es eine hinreichend große Anzahl an Lehrbüchern im Bereich der Psychologischen Diagnostik gibt, die die PTT ausführlich behandeln und nicht zugunsten der KTT vernachlässigen. Allerdings kann der Autor dieser Diplomarbeit aus eigener Erfahrung berichten, dass zumindest in der Lehre der Universität Bremen die Probabilistische Testtheorie eher peripher tangiert wurde und die KTT eindeutig die etabliertere der zwei Testtheorien darstellt. Als Beispiel sei das Standardwerk der psychologischen Statistik- und Methodenlehre (u. a. der Universität Bremen) „Forschungsmethoden und Evaluation“ von Bortz & Döring (2006) genannt, in der die PTT auf nur fünf Seiten abgehandelt wird.

Obgleich in vielen Feldern der Psychologie zunehmend probabilistische Testmodelle eingesetzt werden, kann man dies für die Sportpsychologie nicht behaupten (Strauß et al., 2006). Selbst das umfangreiche Lehrbuch mit dem viel versprechenden Titel „ Advances in Sport and Exercise Psychology Measurement “ von Duda (1998) beinhaltet nur einen Artikel, der sich mit probabilistischen Modellen beschäftigt.

Durch die Entwicklung von anwenderfreundlicher Software (z. B. WINMIRA; von Davier, 2001) für Analysen nach der PTT dürfte die Zahl der Studien mit probabilistischen Modellen, auch in der Sportpsychologie, in Zukunft weiter steigen.

2.1.4. Kritik an der PTT

Auch wenn es eine breite Palette von Vorteilen der PTT gegenüber der KTT gibt, so sollen doch auch die vermeintlichen Nachteile bzw. Kritikpunkte an der PTT hier Erwähnung finden. Dabei wird allerdings im Rahmen dieser Diplomarbeit nicht näher auf die (mathematische) Begründung der einzelnen Kritikpunkte eingegangen, sondern es wird jeweils auf einschlägige Quellen verwiesen.

Viele Autoren und Wissenschaftler kritisieren den geringeren Zusatznutzen durch eine Testkonstruktion nach der PTT bei gleichzeitig erheblich höherem Zeit- und somit auch Kosten-Aufwand. Häufig ergeben sich aus der Sicht des Testpraktikers keine signifikant unterschiedlichen Ergebnisse bei der Testanalyse nach der PTT und der KTT (Bühner, 2006). Rost (1999, 2004) geht von einer Korrelation von r = 0,95 aus.

Bortz und Döring (2006) weisen darauf hin, dass benutzerfreundliche Software, die für probabilistische Testkonstruktionen unabdingbar ist, bisher nicht dieselbe Verbreitung gefunden hat wie Standardprogramme für Analysen nach der Klassischen Testtheorie.

Oft scheitert ein Rasch-Modell auf Grund seiner strengen Kriterien auch an der Empirie, d. h. das Rasch-Modell muss öfter verworfen werden als angenommen. Hier ist vor allem die Annahme der lokalen stochastischen Unabhängigkeit zu erwähnen, die bei vielen Testanwendungen verletzt wird (Rost, 1999, 2006).

Des Weiteren hat sich die KTT in der psychodiagnostischen Praxis bewährt und liefert durchaus zufriedenstellende Ergebnisse (Amelang & Schmidt-Atzert, 2006), was eine Etablierung einer alternativen Testtheorie nicht zwingend notwendig macht.

Das ordinale Rasch-Modell ist nicht gegen eine nachträgliche Dichotomisierung mehrkategorieller Daten invariant, eine in empirischen Studien durchaus gängige Praxis (Rost, 1999).

Eine Schätzung der Personenparameter von Personen, die sich in extremen Bereichen befinden, also entweder kein Item oder alle Items gelöst haben, ist nur ungenau möglich, auch wenn es für diese Fälle spezielle Verfahren gibt (Moosbrugger, 2007). So lässt sich für diese Personen mittels WINMIRA kein Personenparameter berechnen, sie tragen also nichts zur Genauigkeit der Schätzungen der Itemparameter bei.

[...]


1 Im Folgenden stehen Begriffe wie Sportler, Athlet, Trainer oder Teilnehmer für beide Geschlechter. Sollte eine Unterscheidung aus theoretischer oder empirischer Sicht notwenig sein, wird gesondert darauf hingewiesen.

Ende der Leseprobe aus 67 Seiten

Details

Titel
Evaluation des Fragebogens "Wettkampf Angst Inventar - State" nach der Probabilistischen Testtheorie
Hochschule
Universität Bremen
Note
1,0
Autor
Jahr
2009
Seiten
67
Katalognummer
V181815
ISBN (eBook)
9783656093909
ISBN (Buch)
9783656094197
Dateigröße
1095 KB
Sprache
Deutsch
Schlagworte
Probabilistische Testtheorie, Evaluation, Wettkampfangst, Sportpsychologie, Testtheorie, Rasch Modell
Arbeit zitieren
cand. Dipl.-Psy. Hanno Dietrich (Autor:in), 2009, Evaluation des Fragebogens "Wettkampf Angst Inventar - State" nach der Probabilistischen Testtheorie, München, GRIN Verlag, https://www.grin.com/document/181815

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Evaluation des Fragebogens "Wettkampf Angst Inventar - State" nach der Probabilistischen Testtheorie



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden