Danksagung
An dieser Stelle möchte ich mich bei allen bedanken, die mich während meiner Studienzeit unterstützt, begleitet und an mich geglaubt haben. Besonderer Dank und Wertschätzung gilt meinen Eltern Marita und Peter, ohne deren kontinuierliche Unterstützung finanzieller und moralischer Art ich meinen besonderen Weg nicht hätte gehen können. Meiner restlichen Familie, insbesondere meinem Bruder, möchte ich danken, dass ich mich immer auf sie verlassen konnte. Herzlichen Dank an Tilman Gerth, Melanie Kaindl, Dr. Rolf Bachmann und Judith Mund. Danke an das gesamte Team der Manova Netbusiness Solutions GmbH und der Mayrhofner Bergbahnen AG. Käte, vielen Dank für die guten Zeiten und deine Rücksichtnahme. Vielen Dank an meine Freunde, Mitbewohner und Kommilitonen die meine Studienzeit positiv geprägt haben. Vielen Dank an Dr. Sebastian Kaiser für die kontinuierliche Betreuung. Letztlich vielen Dank an die Deutsche Sporthochschule Köln, die mir die Möglichkeit gegeben hat meinen Traum zu leben.
IV
Inhaltsverzeichnis
Inhaltsverzeichnis IV
Abbildungsverzeichnis VII
Tabellenverzeichnis IX
Abk ürzungsverzeichnis X
1 Einleitung. 1
1.1 Thema und Zielsetzung 2
1.2 Relevanz. 3
1.3 Problem und Fragestellung. 5
1.4 Aufbau der Arbeit. 5
2 Einführung in die Thematik 6
2.1 Qualitätskriterien eines Messinstrumentes 7
2.2 Objektivität. 7
2.3 Reliabilität 8
2.4 Validität. 8
2.4.1 Interne und externe Validität 10
2.4.2 Inhaltsvalidität 11
2.4.3 Kriteriumsvalidität 12
2.4.4 Konstruktvalidität 14
2.5 Überprüfung der Validität. 16
2.5.1 Mathematische Beschreibung der Validität 16
3 SaMon 17
3.1 Die wirtschaftliche Bedeutung der Seilbahnbranche 18
3.2 Das Unternehmen Mayrhofner Bergbahnen AG. 19
3.2.1 Organigramm 21
3.2.2 Angebot und Unternehmensziele 22
3.3 Blueprint der Mayrhofner Bergbahnen AG. 23
3.4 Die SaMon-Teilnehmer 24
V
3.4.1 Zielgruppe 24
3.4.2 Unternehmen 25
3.5 Stichprobe 25
3.6 Hintergrund, Ziele und Kernnutzen der Befragung 26
3.7 SaMon 27
3.8 Der Fragebogen 27
3.8.1 Methodik und Studiendesign 30
3.8.2 Homepagebefragung. 32
3.9 Gewinnspiel 32
3.10 Nach der Befragung. 33
3.11 Dateneingabe in WebMark 34
4 Auswertung und Ergebnisse. 35
4.1 Gästestruktur 35
4.2 Zufriedenheit. 39
4.3 Datenanalyse: Einstellungen, Motive, Stärken und Schwächen 42
5 Bewertung der Validität des Erhebungsinstrumentes 44
5.1 Interne Validität. 45
5.1.1 Zeiteffekte und -einflüsse 45
5.1.2 Selektionseffekte 51
5.1.3 Instrumentelle Reaktivität 54
5.1.4 Instrumentelle Validität 56
5.1.5 Hilfsmittel und Interviewer 59
5.2 Externe Validität 61
5.2.1 Reaktive Effekte der Untersuchungssituation. 61
5.2.2 Hawthorne Effekte. 64
5.2.3 Repräsentativität der Stichprobe 65
5.3 Testverfälschung 69
5.4 Inhaltsvalidität. 74
5.5 Kriterienbezogene Validität. 77
5.6 Konstruktvalidität 80
5.6.1 Probleme und Fehlerquellen bei der Eingabe 81
6 Zusammenfassung der Ergebnisse 82
VI
6.1 Beurteilung der Validitätsaspekte 82
6.1.1 Gesamtbeurteilung des SaMon Erhebungsinstrumentes 85
6.1.2 Hindernisse und Probleme der Prüfung 86
7 Schlussfolgerungen und Verbesserungsvorschläge 88
8 Fazit und abschließende Bemerkungen. 90
Literaturverzeichnis 92
Anhang 1. 101
Anhang 2. 107
Anhang 3 110
VII
Abbildungsverzeichnis
Abbildung 1: Die Beziehungen zwischen Gütekriterien eines Tests.
Abbildung 2: Übereinstimmungsvalidität vs. Vorhersagevalidität
Abbildung 3: Konstruktvalidität.
Abbildung 4: Kassenumsätze der Seilbahnen Österreichs Winter 2005/2006
Abbildung 5: Daten und Fakten Mayrhofner Bergbahnen AG
Abbildung 6: Organigramm der Mayrhofner Bergbahnen AG.
Abbildung 7: Grundwerte und Leitsätze der Mayrhofner Bergbahnen AG
Abbildung 8: Blueprint der Mayrhofner Bergbahnen AG.
Abbildung 9: Art des Interviews vor Ort.
Abbildung 10: Gewinnspiel im Rahmen der SaMon-Teilnahme
Abbildung 11: Screenshot Dateneingabe Frage 1 in WebMark.
Abbildung 12: Begleitung während der Aktivitäten
Abbildung 13: Herkunft nach Ländern.
Abbildung 14: Gästestruktur nach Gästetyp
Abbildung 15: Zufriedenheit im Zeitverlauf.
Abbildung 16: Datenvergleich Zufriedenheiten Wintersaison 2005/2006
Abbildung 17: Positionierungsanalyse Mayrhofen.
Abbildung 18: Zufriedenheiten im Saisonvergleich.
Abbildung 19: Durchschnitt Tagessummen Gäste Penkenbahn 1.12.2005 - 30.04.2006
Abbildung 20: Verletzungshäufigkeit österreichischer Wintersportler an verschiedenen Wochen-
tagen.
Abbildung 21: Verletzungshäufigkeit österreichischer Wintersportler in Abhängigkeit der Tages-
zeit
Abbildung 22: Corporate-Design Umstellung, Logo alt,neu.
Abbildung 23: Befragungsort.
Abbildung 24: Einverständnis der Befragten.
Abbildung 25: Häufigkeiten und Art der Probleme und Mängel bei SaMon
VIII
Abbildung 26: Interviewer und Anzahl der aufgelegten Fragebögen.
Abbildung 27: Gästestruktur nach Wettersituation zum Befragungszeitpunkt.
Abbildung 28: Zusammenhang Bewertung Zufriedenheit / Wetter
Abbildung 29: Sprachversionen des Fragebogens vor Ort
Abbildung 30: Entwicklung der Gästezahlen aus Osteuropa, Mayrhofen Skigebiet.
Abbildung 31: Entwicklung russischer Gästezahlen, Mayrhofen Ort
Abbildung 32: Eigene Einschätzung des Könnens
Abbildung 33: Einschätzung des eigenen Könnens bei Begleitung durch Freunde und Partner
Abbildung 34: Einschätzung des eigenen Könnens ohne Begleitung durch Freunde.
Abbildung 35: Erwarteter Service und toleriertes Qualitäts- bzw Serviceniveau
IX
Tabellenverzeichnis
Tabelle 1: Unternehmenskennzahlen Mayrhofen 05/06 20
Tabelle 2: Befragungsarten Mayrhofen. 30
Tabelle 3: Stichprobengröße und Eingabefristen. 31
Tabelle 4: Gästestruktur nach Geschlecht 35
Tabelle 5: Gästestruktur nach Alter. 36
Tabelle 6: Alter statistische Werte. 36
Tabelle 7: Generelle Zufriedenheit Wintersaison 2005/06. 39
Tabelle 8: Zufriedenheit Skigebiet. 40
Tabelle 9: Datenvergleich Zufriedenheiten 41
Tabelle 10: SWOT Analyse der SaMon Ergebnisse 44
Tabelle 11: Monatssummen Bericht je Lift 46
Tabelle 12: Ausschnitt Bereichskatalog Corporate-Design Umstellung 51
Tabelle 13: Auszug Halbjahresstatistik Mayrhofen Ort nach Nationen 67
Abkürzungsverzeichnis
Abb. Abbildung AG Aktiengesellschaft bzgl. bezüglich ca. circa d.h. das heisst ebd. ebenda engl. englisch et al et alii ggf. gegebenenfalls GmbH Gesellschaft mit beschränkter Haftung Hrsg. Herausgeber i.d.R. in der Regel MBB Mayrhofner Bergbahnen Nr. Nummer o.g. oben genannte(n) o.J. ohne Jahresangabe PC Personal Computer S. Seite(n) SaMon Satisfaction Monitoring sog. sogenannte(n) SPSS Datenauswertungssoftware SWOT Strenghts, Weaknesses, Opportunities, Threats Tab. Tabelle TVB Tourismusverband u.a. unter anderem u.ä. und ähnliches u.U. unter Umständen vs. versus
Einleitung 1
1 Einleitung
Die hochentwickelten Volkswirtschaften befinden sich seit geraumer Zeit auf dem Weg in die Dienstleistungsgesellschaft, die in Deutschland mit etwa 60 Prozent der Gesamtbeschäftigten rund 55 Prozent der Bruttowertschöpfung generiert (Meffert & Bruhn 1997, VII). In nahezu allen Branchen müssen Unternehmen durch Globalisierung, Technisierung und Polarisierung der Märkte unter veränderten bzw. erschwerten Bedingungen im Wettbewerb bestehen. Dabei basieren Geschäftsentscheidungen, insbesondere im Dienstleistungssektor, zunehmend auf mittels Befragungsinstrumenten gewonnen Informationen (Schaarschmidt & Herrmann 2002, 110). Vor diesem Hintergrund erklärt sich die in jüngster Zeit stark zunehmende Bedeutung der Operationalisierung von Kundenzufriedenheit, die Meffert und Bruhn (1997, VII) wie folgt beschreiben: „Die hohe Wettbewerbsintensität im nationalen und internationalen Kontext zwingt sowohl Dienstleistungsunternehmen als auch Sachgüterunternehmen, die zusätzliche Serviceleistungen anbieten, sich durch eine systematische und konsequente Kundenorientierung zu profilieren.“ Bevor nun aber eine auf Kundenwünsche abgestimmte Geschäftsstrategie entwickelt werden kann, müssen Fragen nach erwünschter Qualität, Angebot oder gegebenen Schwachstellen im Dienstleistungsprozess mittels Instrumenten zur Erfassung der Dienstleistungsqualität beantwortet werden (Quartapelle & Larsen 1994). Allerdings kann nur die realistische Abbildung der Dienstleistungsqualität im Anschluss an die Messung ein an die Kundenbedürfnisse angepasstes Management zulassen. Die Qualität der zugrunde liegenden Daten ist für die Verlässlichkeit abgeleiteter Aussagen von zentraler Bedeutung. Durch verschiedene Einflussfaktoren kann die Datenqualität in Unternehmen leicht vermindert werden. Falsche, fehlende oder inkonsistente Daten können in hohem Maße zu Fehlentscheidungen mit teils erheblichen Auswirkungen beitragen. Eine der zentralen Herausforderungen der Unternehmen für ein erfolgreiches Bestehen im Markt ist somit eine deutliche Verbesserung der Qualität ihrer Erhebungsinstrumente und damit deren Datenbasis zur Entscheidungsfindung (vgl. Schaarschmidt & Herrmann 2002). Diese Arbeit beschäftigt sich daher mit der Überprüfung der Validität
Einleitung 2
eines Erhebungsinstrumentes als Möglichkeit zur Verbesserung der Datenqualität, die als zentrale Aufgabe im Rahmen von
Kundenzufriedenheitsstudien verstanden werden soll.
Dies führt die Frage nach den jeweils geeigneten Methoden und Mitteln ins Feld, die ein realitätsnahes Bild des Konstrukts Kundenzufriedenheit bzw. Dienstleistungsqualität liefern können. Weit verbreitet im Dienstleistungssektor sind Kundenbefragungen, die Wissen und Daten über Kunden und deren Bedürfnisse greifbar machen sollen. Der Nachteil liegt nach Roth und Heidenreich (1993, 148) in der weit verbreiteten Überschätzung der Befragung als Messinstrument sozialer Daten und führt zu Anwendungen in ungeeigneten Bereichen, wie auch zu unkritischer Übernahme von aggregierten Befragungsdaten, deren Validität näheren Überprüfungen nicht standhalten können.
Möglichkeiten zur Beantwortung der Frage nach der Tauglichkeit eines Messinstruments, sollen anhand der Überprüfung der Validität der SaMon-Befragung ausgelotet und angewendet werden.
1.1 Thema und Zielsetzung
„The collection of data is the crucial operation in the execution of a good research design. The quality of the research rests upon the quality of the data.” (Miller 1991, 115). Miller (ebd.) beschreibt hier die Bedeutung des Erhebungsinstrumentes für die Qualität einer Befragung und sieht es als zentrale Vorraussetzung für hochwertige und somit verwertbare Datensätze. Bei dem vorliegenden Thema stehen die Möglichkeiten und Grenzen der Validierung 1 eines ausgesuchten Befragungsinstrumentariums auf dem Prüfstand: SaMon, das strategische Mess-, Kontroll-, und
Benchmarkinginstrument der österreichischen Seilbahnwirtschaft, soll dem
1 Das Vorgehen bei der Überprüfung der Validität wird nach Lienert und Raatz (1994, 220) als Validierung bezeichnet.
Einleitung 3
Anwender die Möglichkeit geben, den Kunden durch einen Fragebogen näher kennen zu lernen und etwas über dessen Zufriedenheit, Meinungen und Wünsche im Zusammenhang mit der erbrachten Dienstleistung zu erfahren. Eine wesentliche Funktion dabei, liegt im anonymen Vergleich der Ergebnisse zwischen den teilnehmenden Seilbahnunternehmen (Anhang 2). Dieser soll Hinweise für die strategische sowie allgemeine Marketingarbeit der Seilbahnen geben. Das wesentliche Anliegen der eigenen Arbeit ist zu bestimmen, inwiefern sich das zu untersuchende Messinstrument eignet, um hinreichend gültige Informationen für dessen Verwendungszweck zu generieren. Ein diesbezüglich zufriedenstellender Test soll als Hauptgütekriterien, Forderungen nach Objektivität, Reliabilität und Validität erfüllen (Lienert 1961, 12). Da zwischen diesen Testgütekriterien eine einseitige, lineare Abhängigkeit besteht, legt dies die Konzentration der Untersuchung auf die bedeutendste Zielgröße der Leistungsfähigkeit - die Validität - nahe (Steinke 1999, 158). Die Validität beschäftigt sich innerhalb der Gütebeurteilung mit der Gültigkeit von Messungen (Homburg, Fassnacht & Werner 2003, 555). Dabei gibt sie an, ob das Messinstrument tatsächlich das misst, was es zu messen vorgibt - sie beschreibt die Richtigkeit eines Messverfahrens (Steinke 1999, 158). Aufbauend sind Verbesserungsvorschläge hinsichtlich des Testaufbaus und der Untersuchungsmethodik zu erarbeiten, die mögliche Fehlerquellen reduzieren und somit Gültigkeit und Qualität des Instrumentariums maximieren können.
1.2 Relevanz
Bei der Beurteilung der Qualität der Ergebnisse einer Messung der Kundenzufriedenheit stellt die der Datenanalyse und -interpretation vorgelagerte Gütebeurteilung des Messinstruments eine oft vernachlässigte, aber wichtige Rolle dar. Oft wird einer kritischen Reflexion der praktizierten Forschungsmethodik eine zu geringe Bedeutung beigemessen oder vor dem Hintergrund standardisierter Leitideen ausgewählt. Die Auseinandersetzung mit der Frage nach der Eignung des gewählten Verfahrens, nach Anwendungsvorraussetzungen, -möglichkeiten und -grenzen sowie der
Einleitung 4
Berücksichtigung alternativer methodischer Zugänge werden zu wenig aufgegriffen. Eine wissenschaftliche Aufarbeitung, wie sie in anderen Forschungsbereichen Standard ist, findet in der Regel nicht statt. Dies indiziert somit eine Reflektion des Themas aus theoretischer sowie praktischer Sicht.
Das Thema Validitätsprüfung von Erhebungsinstrumenten ist nicht neu. Schon Spearman (1910) hat Anfang des 20. Jahrhunderts erste Ansätze zur Frage der Validitätskontrolle mittels der Korrelation geliefert (Lienert & Raatz, 1994). Einige wissenschaftliche Arbeiten bzw. Werke über die Bewertung empirischer Forschungsarbeit hinsichtlich Ihrer Gütekriterien wurden in Deutschland seit Anfang der sechziger Jahre verfasst. Dennoch ist die Bewertung speziell hinsichtlich Tests oder Fragebögen als ein relativ vernachlässigtes Forschungsgebiet einzuordnen. Im Vergleich mit anderen wissenschaftlichen Themenbereichen sind nur wenige herausragende wissenschaftliche Werke zur Validierung empirischer Forschung und Methodik einzusehen. Exemplarische Werke sind hauptsächlich mit human-, sportmedizinischem oder psychologischem Hintergrund einzusehen - hier wird der Validierung eines Testverfahrens eine besondere Bedeutung und Tragweite beigemessen. Besonders aus sportwissenschaftlicher bzw. sportökonomischer
Betrachtungsweise wird in diesen vergleichsweise jungen Wissenschaften, eine kritische Auseinandersetzung mit Erhebungsinstrumenten weitgehend vermisst.
Nach Opp (2002, 190) bestätigt sich in Anbetracht der Historie der Wissenschaften, dass immer wieder für gültig befundene Theorien durch andere, bessere, relevantere ersetzt wurden. Diese ständige Verbesserung des Wahrheitsgehalts setze die möglichst kritische Auseinandersetzung mit Theorien voraus, um Irrtümer finden und korrigieren zu können (ebd.). Die Bestätigung bzw. der Erfolg vieler Theorien der Naturwissenschaften konnte nur erreicht werden, indem diese fortlaufender, strenger Kritik unterzogen worden sind, d.h. Wissenschaftler immer wieder versuchten, diese zu widerlegen (ebd.). Somit liegt ein zentraler Aspekt der Relevanz dieser Arbeit im Kern der Wissenschaft an sich und trägt praxisorientiert bei, Möglichkeiten der Kritik sozial- bzw. sportwissenschaftlicher Theorien und Forschung anzuwenden. “Wenn Theorien einer (...) Kritik unterzogen werden, dann erreichen wir eher
Einleitung 5
einen Erkenntnisfortschritt, als wenn Theorien nicht dieser Kritik ausgesetzt werden.“ (Opp 2002, 199)
1.3 Problem und Fragestellung
Von zentraler Bedeutung ist also die Frage nach adäquaten Methoden und Verfahren, die eine möglichst genaue Bestimmung der Validität realisierbar machen. Da kaum vergleichbare sportwissenschaftlich orientierte Arbeiten als Bezugspunkt dienen können, sollte die gesamte Bandbreite an Möglichkeiten der Validitätsprüfung in Betracht gezogen werden. Die Heterogenität der Validitätsarten, also jene Möglichkeiten festzustellen, was der Test wirklich misst, deutet die Komplexität der Problematik an (Grubittzsch & Rexilius 1978, 129). Es wird zu klären sein, welche der zahlreichen Validitätskriterien undaspekte, aus der sich die Gesamtvalidität zusammensetzt, im Argumentationsgang untersucht werden müssen und können, um speziell bei diesem Erhebungsinstrument das Ziel einer adäquaten, möglichst vollständigen Validitätsbestimmung zu erreichen (vgl. Hager, Spies & Heise 2000). Fragebogenresultate, werden darüber hinaus, in besonderem Maße von verschiedenen Einflüssen des Designs und der Methodik beeinflusst, die auch Bestandteil der Validität (interne, externe Validität) und deren Überprüfung sind (Schaipp 2001, 26). Weiter stellt sich die Frage nach der Interpretierbarkeit der Ergebnisse - hierbei wird zu klären sein, inwiefern die Validität bzw. Qualität der Ergebnisse die Interpretierbarkeit des Erhebungsinstrumentes SaMon einschränkt.
1.4 Aufbau der Arbeit
Abschnitt zwei behandelt die Einführung in die zum Verständnis des Sachverhalts unerlässlichen theoretischen Grundlagen. Ausgehend von Begriffserklärungen im Zusammenhang mit der Thematik wird vertiefend auf die Qualitätskriterien eines Messinstruments eingegangen, um daraufhin die spezielle Bedeutung und Rolle der einzelnen Aspekte der Validität darzustellen.
Einführung in die Thematik 6
Basierend auf den theoretischen Grundlagen und sensibilisiert für die Perspektive der Validitätsuntersuchung, stellt Abschnitt drei das zu untersuchende Erhebungsinstrument, aus einem betriebswirtschaftlichen Blickwinkel vor. Dabei reicht diese Übersicht von Hintergründen, Zielen und den Besonderheiten des Erhebungsinstrumentes bis zur Darstellung der Befragungsmethodik und des Studiendesigns. Die anschließende Darstellung der zentralen Studienergebnisse und die Identifizierung erster möglicher Fehlerquellen stellen die Verbindung zum fünften Abschnitt der Arbeit her. Hier wird konkret auf die einzelnen Validitätskriterien des Messinstruments SaMon eingegangen werden. Im ersten Schritt wird der Bezug der verschiedenen Validitätsformen zu SaMon hergestellt, um daraufhin den jeweiligen Validitätsaspekt am Erhebungsinstrument genauer zu untersuchen. Aufbauend auf die Untersuchung der Teilbereiche der Validität wird im Anschluss in Abschnitt sechs eine zusammenfassende Beurteilung der Validität gegeben. Hier soll ebenso auf die Problematiken der Validitätsuntersuchung eingegangen werden. Anschließend werden Schlussfolgerungen und Verbesserungs-vorschläge aus den Ergebnissen des fünften und sechsten Abschnitts abgeleitet, welche die Validitätsdiskussion komplettieren.
2 Einführung in die Thematik
Die Messtheorie erforscht die Grundlagen des Messens an sich und untersucht die Bedingungen und Voraussetzungen für die Messbarkeit von Eigenschaften. Sowohl physikalische Eigenschaften (z.B. Länge, Zeit und Gewicht) als auch psychische Eigenschaften bzw. Einstellungen, wie beispielsweise die Kundenzufriedenheit, sind grundsätzlich messbar (Roth & Heidenreich 1993, 343). Kromrey (2006) beschreibt den Test bzw. das Messinstrument als systematisches Instrument, dass die Erfassung relevanter Sachverhalte ermöglicht und dessen Zweck es ist, Informationen zu gewinnen. Schnell, Hill und Esser (2005, 149) weisen explizit darauf hin, dass das Ziel einer jeden Erhebung möglichst exakte und fehlerfreie Daten sind, schränken aber auch gleichzeitig ein: „Dieses Ziel wird bei kaum einem Messvorgang erreicht.“ Die
Einführung in die Thematik 7
Vorstellung der Existenz des einen perfekten Weges, um Daten mit vollständiger Validität zu messen, muss demnach verworfen werden. Die Frage nach der zufriedenstellenden Höhe an die Validität der SaMon-Befragung bzw. Erhebungen im Allgemeinen, rückt somit in den Vordergrund.
2.1 Qualitätskriterien eines Messinstrumentes
„Die Qualität eines Tests bzw. eines Fragebogens lässt sich an drei zentralen „Kriterien der Testgüte“ festmachen: Objektivität, Reliabilität und Validität (Bortz & Döring 2002, 193). Testgütekriterien stellen unverzichtbare Bedingungen für die Brauchbarkeit eines Tests dar und sind notwendige Voraussetzungen für die praktische Anwendung eines Tests. Sie können in Haupt- und Nebengütekriterien klassifiziert werden, wobei erstgenannte als unverzichtbar, letztere als „bedingte Forderungen“ (abhängig von Testzielen und Anwendungsinteressen) beschrieben werden (Lienert & Raatz 1994, 7). Lienert und Raatz (ebd.) nennen als Nebengütekriterien Normierung, Vergleichbarkeit, Ökonomie und Nützlichkeit.
2.2 Objektivität
„Ein Test oder Fragebogen ist objektiv, wenn verschiedene Testanwender bei denselben Personen zu den gleichen Resultaten gelangen, d.h. ein objektiver Test ist vom konkreten Testanwender unabhängig“ (Bortz & Döring 2002, 194). Folglich wäre ein Test nicht objektiv, wenn in die Durchführung oder Auswertung besonderes Expertenwissen oder individuelle Deutungen des Anwenders einfließen würden (ebd., 195). Die Objektivität eines Messinstruments gibt also Auskunft darüber, in welchem Maße die Testergebnisse unabhängig von der Person sind, die das Instrument anwendet (Diekmann 1998, 216). Vollkommene Objektivität liegt vor, wenn verschiedene Untersucher bei denselben Probanden zu exakt den gleichen Untersuchungsergebnissen gelangen, also Anwender A und B mit dem gleichen Messinstrument jeweils
Einführung in die Thematik 8
identische Untersuchungsergebnisse erzielen und der Korrelationskoeffizient 1 betrüge (ebd., 216). Die Standardliteratur unterscheidet vielfach weiter nach Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität, wobei auf deren nähere Beschreibung hinsichtlich der Konzentration auf die Validitätsprüfung hier verzichtet wird.
2.3 Reliabilität
„Unter der Reliabilität oder Zuverlässigkeit eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht“ (Lienert & Raatz 1994, 9).
Somit bezeichnet die Reliabilität das Ausmaß, in dem wiederholte Messungen eines Objekts mit einem Messinstrument die gleichen Werte liefern (Schnell, Hill & Esser 2005, 151). Nicht zuverlässig oder reliabel ist folglich ein Erhebungsinstrument, das bei wiederholten Messungen desselben Objektes, völlig verschiedene Messwerte liefert (ebd.). Ein Test ist demnach vollkommen reliabel, wenn die mittels seiner Anwendung erzielten Ergebnisse genau und fehlerfrei sind.
2.4 Validität
Nach Peter (1979, 6) stellt die Validität die wichtigste wissenschaftstheoretische Anforderung an Messinstrumente dar. „Die Validität (Gültigkeit) ist das wichtigste Testgütekriterium. Die Validität gibt an, ob ein Test das mißt, was er messen soll bzw. was er zu messen vorgibt.“ (Bortz & Döring 2002, 199) Steinke (1999, 158) spricht von der Gültigkeit und Richtigkeit eines Messverfahrens. Scheurich (1997, 81) vergleicht Validität bildhaft mit einer „Bohrung in das Herz der Wissenschaft.“ Laut Diekmann (1998) besteht zwischen den einzelnen Hauptgütekriterien eine hierarchische Beziehung. Steinke (1999, 158) beschreibt eine einseitige lineare Abhängigkeit, in der die
Einführung in die Thematik 9
Objektivität eine notwendige, aber nicht hinreichende Bedingung der Reliabilität ist und die Reliabilität wiederum eine notwendige, aber nicht hinreichende Bedingung der Validität. Die Validität ist somit das zentrale Gütekriterium eines Tests (Bös et al., 2001, 545). Bös (ebd.) erkennt des Weiteren, dass ein objektiver, reliabler Test, der keine Gültigkeit besitzt, praktisch wertlos ist. Zur Verdeutlichung der Beziehung der drei Gütekriterien wird in Abb. 1 das Beziehungsgefüge der Testgütekriterien bildhaft dargestellt.
Abbildung 1: Die Beziehungen zwischen Gütekriterien eines Tests (eigene Darstellung in Anlehnung an Roth und Heidenreich 1993, 397).
Die klassische Testtheorie (vgl. Novick & Lord, 1968) besagt, dass eine Messung, beispielsweise eines Konstrukts, wie der Kundenzufriedenheit, genau dann fehlerfrei ist, wenn der gemessene Wert dem unbekannten „wahren“ Wert des Konstrukts entspricht. Da eine gänzlich fehlerfreie Messung in der Praxis nicht möglich ist (vgl. Gadenne 1976, Bortz 1984, Schnell, Hill & Esser 2005, Balderjahn 2003), sollte es nach Bagozzi (1998, 73) eine Übereinkunft darüber geben, welche Grade an Ergebnisverzerrung durch Verletzung von Gütekriterien toleriert werden sollten. Hierzu Bortz (1984, 139) wörtlich: „Vor diesem Hintergrund fällt es schwer, verbindliche Angaben über die Minimalhöhe der Validität eines Tests zu machen.“ Der Einsatz eines Tests, so Bortz (ebd.),
Einführung in die Thematik 10
sei generell gerechtfertigt, wenn „die Entscheidungen und Vorhersagen, die auf der Basis des Tests getroffen werden, tauglicher sind als Entscheidungen und Vorhersagen, die ohne den Test möglich wären (...)“. Ansätze zur Einschätzung der Höhe von Validitätskoeffizienten beschreiben Weise (1975), Grubitsch und Rexilius (1978), Lienert und Raatz (1994) und Roth und Heidenreich (1993).
Es werden drei Hauptarten von Validität unterschieden: Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität (vgl. Hildebrandt 1998). Hierbei ist zu beachten, dass das testtheoretische Kriterium, das die Gültigkeit und Qualität von Messinstrumenten angibt, nicht zu verwechseln ist mit den Kriterien der „internen“ und „externen“ Validität, die als Gütekriterien empirischer Untersuchungsdesigns gelten (Bortz & Döring 2002, 199).
2.4.1 Interne und externe Validität
Externe und interne Validität befinden sich in einem Spannungsverhältnis zueinander, bei dem Bemühungen um eine möglichst hohe interne Validität, den Grad der externen Gültigkeit beeinflussen (Pepels 2004, 296). Nach Bortz (1984, 29) muss man sich folglich mit Kompromisslösungen begnügen. Für Gadenne (1976, 9) sind die Gütekriterien interne und externe Validität, mit bestimmten Annahmen darüber verbunden, welche Eigenschaften eine Erhebung haben muss, damit ihre Daten sinnvoll interpretiert werden können.
Intern valide, ist eine Untersuchung nach Bortz (1984), wenn ihre Ergebnisse eindeutig zu interpretieren sind. Steigt die Anzahl plausibler
Alternativerklärungen, so sinkt der Grad an interner Gültigkeit (ebd, 29). Alternative Erklärungshypothesen für die Ausprägung der abhängigen Variablen (Kundenzufriedenheit), können nach Schnell, Hill und Esser (2005, 217) in verschiedenen Störfaktoren begründet sein: „Die Güte eines Designs bemisst sich nun daran, inwieweit solche Alternativerklärungen bzw. der Einfluss von Störfaktoren möglichst weitgehend ausgeschlossen werden können.“ In den Arbeiten von Campbell (1957) und Campbell & Stanley (1963, 175f) werden die wichtigsten Störvariablen externer und interner Validität aufgezählt, die bei
Einführung in die Thematik 11
Erhebungen auftreten können. Für den Fall der SaMon-Studie könnten unter anderem die Störfaktoren instrumentelle Reaktivität, instrumentelle Validität, zeit- und kulturbedingte Veränderungen der instrumentellen Validität, systematischer Ausfall von Untersuchungsteilnehmern, Hawthorne Effekte und Zeiteffekte (vgl. Bortz, 1984) Einfluss auf die Güte der Erhebung haben. Nach Pepels (2004, 296) kann Interne Validität nur bei Laborexperimenten gegeben sein, bei der Feldforschung hingegen werde ein realitätsfremdes Abbild erzeugt. Aus dieser Aussage kann vorab der Schluss gezogen werden, dass die interne Validität der SaMon-Erhebung nicht vollständig gegeben sein kann.
Sind die Ergebnisse einer Untersuchung, über die Bedingungen und Personen der Untersuchungssituation hinaus, generalisierbar, spricht man von externer Validität deren Grad mit zunehmender Unnatürlichkeit der
Untersuchungsbedingungen bzw. mit abnehmender Repräsentativität sinkt (Bortz 1984, 29). Gadenne (1976, 15) beschreibt die Abgrenzung der externen Validität wie folgt: „Eine Untersuchung wird als >>extern valide<< bezeichnet, wenn sie so beschaffen ist, dass man von den Stichproben von Individuen, Umgebungen und Variablen der Untersuchung auf entsprechende Populationen generalisieren darf (...)“. Dabei steht nach Bortz (1984, 29) die Repräsentativität der untersuchten Stichproben im engen Zusammenhang mit der externen Gültigkeit.
An dieser Stelle sei an die inhaltliche Abgrenzung der internen und externen Validität, gegenüber den im folgenden beschriebenen Validitätsarten hingewiesen. Während die interne bzw. externe Validität nur Schlüsse hinsichtlich des Untersuchungsdesigns bzw. der Untersuchungsmethodik zulassen, beschäftigen sich nachfolgend beschriebene Validitätsarten mit der Güte des Messinstruments an sich.
2.4.2 Inhaltsvalidität
Die Inhaltsvalidität wird von Roth und Heidenreich (1993, 356) als eine inhaltliche Analyse der einzelnen Testaufgaben interpretiert. Hier soll klar
Einführung in die Thematik 12
gestellt werden, dass der Begriff „face validity“ (augenscheinliche Gültigkeit) die Tatsache kennzeichnet, dass ein Test für den Laien den Anschein erweckt, Validität zu besitzen. Diese Augenschein-Validität ist nicht mit der inhaltlichen Gültigkeit gleichzusetzen. Bortz und Döring (2002, 199) dagegen sehen Inhaltsvalidität gegeben, wenn der Inhalt der Testbestandteile, dass zu messende Konstrukt (im vorliegenden Fall die Kundenzufriedenheit) in seinen wichtigsten Aspekten ganzheitlich erfasst und stellen fest: „Die Höhe der Inhaltsvalidität eines Tests kann nicht numerisch bestimmt werden, sondern beruht allein auf subjektiven Einschätzungen.“ Gleicher Ansicht ist Bohrnstedt (o.J, 97), der die Bestimmung der Inhaltsvalidität als theoretischen Prozess bezeichnet und in Zusammenhang mit dem Grad der Repräsentativität des untersuchten Sachverhalts bringt. Schnell, Hill und Esser (2005) schränken die Bedeutsamkeit der Inhaltsvalidität als Validitätskriterium aus Gründen der mangelnden Objektivität ein.
2.4.3 Kriteriumsvalidität
„Die Kriteriumsvalidität gibt an, inwieweit die zu validierende Messung eines Konstrukts mit der Messung eines externen Kriteriums, dem so genannten Außenkriterium, von dem bekannt ist, dass es das Konstrukt valide erfasst bzw. dass es in einem validen kausalen Zusammenhang mit dem Konstrukt steht, übereinstimmt“ (Balderjahn, 2003, 131).
Die kriteriumsbezogene Validität, die also als Korrelation zwischen Testergebnissen (z.B. Berufseignung, Kundenzufriedenheit) und den Messungen eines für sinnvoll gehaltenen Kriteriums (z.B. beruflicher Erfolg, Wiederkaufrate) ermittelt werden kann, ist nach Bortz (1984, 138) die wichtigste Validitätsart. Bohrnstedt (o.J.) bezeichnet sie auch als die empirische Validität, die sich auf gegenwärtige oder zukünftige Verhaltensweisen bzw. Sachverhalte beziehen kann (Predicitve / Concurrent Validity) und zu deren Überprüfung man sich der Methode der Korrelation bedient (Lienert & Raatz, 1984).
Einführung in die Thematik 13
Die Vorhersagevalidität, auch als prognostische oder Prognosevalidität (engl.: Predictive Validity) betitelt, liegt vor, wenn es sich bei dem Kriterium um einen Beobachtungssachverhalt handelt, der erst zu einem späteren Zeitpunkt gemessen werden kann (vgl. Bortz & Döring 2002, 200). Dies wäre beispielsweise der Fall bei einem Fragebogen zur individuellen Produktpräferenz, der durch die Umsetzung des Kunden in reelles Kaufverhalten zu einem späteren Zeitpunkt verifiziert bzw. validiert werden könnte. Der Validitätsgrad würde sich also daran bemessen lassen, ob der Fragebogen das spätere Verhalten korrekt voraussagen kann (vgl. Bortz & Döring 2002, 200).
Die Übereinstimmungs-, Konkurrenz- , Gegenwarts- oder auch innere Validität (Engl.: Concurrent Validity) 1 hingegen findet Anwendung, wenn Kriteriumswert und Testwert zum selben Messzeitpunkt erhoben werden. Hier könnte eine Validierung des Erhebungsinstrumentes zum Beispiel durch gleichzeitige Befragung von Gruppen mit bekannter Merkmalsausprägung, erfolgen (Bortz & Döring 2002).
Abb. 2 stellt den Unterschied zwischen Übereinstimmungsvalidität und Vorhersagevalidität bildhaft dar und verdeutlicht deren zentrale Unterscheidungsmerkmale.
1 Vgl. hierzu Abschnitt 6.1.2 Hindernisse und Probleme der Prüfung, der auf die Kritik an der Formulierung zahlreicher Validitätsarten von Scheurich (1979) eingeht.
Einführung in die Thematik 14
Abbildung 2: Übereinstimmungsvalidität vs. Vorhersagevalidität (Quelle: eigene Darstellung in Anlehnung an Roth 1984, 367).
Die Schwierigkeit bzw. besondere Problematik bei dieser Methode stellt die Bestimmung geeigneter, ihrerseits gültiger Kriterien zur Überprüfung und Korrelation dar (Lienert & Raatz 1994, 221). Operationalisierungen theoretischer Konstrukte, wie beispielsweise der Kundenzufriedenheit, können oft nur mit dem Test selbst erfassbar gemacht werden (Bortz 1984, 138). Anwendung findet diese Art der Validität daher häufig wenn Kurzversionen von Messinstrumenten mit der langen, bekannten Version des Tests validiert werden sollen. Inwiefern sich die Kriteriumsvalidität eignet, um bei der SaMon-Studie Anwendung zu finden, wird in Abschnitt 5.5 diskutiert werden.
2.4.4 Konstruktvalidität
Nach Bortz und Döring (2002, 200) sowie Schnell, Hill und Esser (2005, 156) wird der Konstruktvalidität eine besondere Bedeutung beigemessen, da die Kriteriumsvalidierung (vgl. Abschnitt 2.4.3) nur bei geeigneten Außenkriterien sinnvoll und die Inhaltsvalidität (vgl. Abschnitt 2.4.2) nicht objektivierbar ist. Lienert und Raatz dagegen sehen historisch und praktisch die
Arbeit zitieren:
Markus Otto, 2006, Untersuchung der Validität des Erhebungsinstruments SaMon, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Markus Otto's Text Untersuchung der Validität des Erhebungsinstruments SaMon ist nun auf dem Buchmarkt erhältlich
Markus Otto hat den Text Untersuchung der Validität des Erhebungsinstruments SaMon veröffentlicht
Markus Otto hat einen neuen Text hochgeladen
KESS 7Skalenhandbuch zur Dokumentation der Erhebungsinstrumente
Wilfried Bos, Martin Bonsen, Carola Gröhlich, Karin Guill, Katja Scharenberg
KESS 8 - Skalenhandbuch zur Dokumentation der Erhebungsinstrumente
Wilfried Bos, Carola Gröhlich, Denisa-F. Dudas, Karin Guill, Katja Scharenberg
Probleme des interkulturellen Einsatzes von Fragebogen
Vergleichende Analyse von Benc...
Ralf Horn
0 Kommentare