Untersuchung der Validität des Erhebungsinstruments SaMon

Über die Validität eines Fragebogens


Diplomarbeit, 2006

120 Seiten, Note: 2,1


Leseprobe


Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1 Einleitung
1.1 Thema und Zielsetzung
1.2 Relevanz
1.3 Problem und Fragestellung
1.4 Aufbau der Arbeit

2 Einführung in die Thematik
2.1 Qualitätskriterien eines Messinstrumentes
2.2 Objektivität
2.3 Reliabilität
2.4 Validität
2.4.1 Interne und externe Validität
2.4.2 Inhaltsvalidität
2.4.3 Kriteriumsvalidität
2.4.4 Konstruktvalidität
2.5 Überprüfung der Validität
2.5.1 Mathematische Beschreibung der Validität

3 SaMon
3.1 Die wirtschaftliche Bedeutung der Seilbahnbranche
3.2 Das Unternehmen Mayrhofner Bergbahnen AG
3.2.1 Organigramm
3.2.2 Angebot und Unternehmensziele
3.3 Blueprint der Mayrhofner Bergbahnen AG
3.4 Die SaMon-Teilnehmer
3.4.1 Zielgruppe
3.4.2 Unternehmen
3.5 Stichprobe
3.6 Hintergrund, Ziele und Kernnutzen der Befragung
3.7 SaMon
3.8 Der Fragebogen
3.8.1 Methodik und Studiendesign
3.8.2 Homepagebefragung
3.9 Gewinnspiel
3.10 Nach der Befragung
3.11 Dateneingabe in WebMark

4 Auswertung und Ergebnisse
4.1 Gästestruktur
4.2 Zufriedenheit
4.3 Datenanalyse: Einstellungen, Motive, Stärken und Schwächen

5 Bewertung der Validität des Erhebungsinstrumentes
5.1 Interne Validität
5.1.1 Zeiteffekte und –einflüsse
5.1.2 Selektionseffekte
5.1.3 Instrumentelle Reaktivität
5.1.4 Instrumentelle Validität
5.1.5 Hilfsmittel und Interviewer
5.2 Externe Validität
5.2.1 Reaktive Effekte der Untersuchungssituation
5.2.2 Hawthorne Effekte
5.2.3 Repräsentativität der Stichprobe
5.3 Testverfälschung
5.4 Inhaltsvalidität
5.5 Kriterienbezogene Validität
5.6 Konstruktvalidität
5.6.1 Probleme und Fehlerquellen bei der Eingabe

6 Zusammenfassung der Ergebnisse
6.1 Beurteilung der Validitätsaspekte
6.1.1 Gesamtbeurteilung des SaMon Erhebungsinstrumentes
6.1.2 Hindernisse und Probleme der Prüfung

7 Schlussfolgerungen und Verbesserungsvorschläge

8 Fazit und abschließende Bemerkungen

Literaturverzeichnis

Anhang 1

Anhang 2

Anhang 3

Abbildungsverzeichnis

Abbildung 1: Die Beziehungen zwischen Gütekriterien eines Tests

Abbildung 2: Übereinstimmungsvalidität vs. Vorhersagevalidität

Abbildung 3: Konstruktvalidität

Abbildung 4: Kassenumsätze der Seilbahnen Österreichs Winter 2005/2006

Abbildung 5: Daten und Fakten Mayrhofner Bergbahnen AG

Abbildung 6: Organigramm der Mayrhofner Bergbahnen AG

Abbildung 7: Grundwerte und Leitsätze der Mayrhofner Bergbahnen AG

Abbildung 8: Blueprint der Mayrhofner Bergbahnen AG

Abbildung 9: Art des Interviews vor Ort

Abbildung 10: Gewinnspiel im Rahmen der SaMon-Teilnahme

Abbildung 11: Screenshot Dateneingabe Frage 1 in WebMark

Abbildung 12: Begleitung während der Aktivitäten

Abbildung 13: Herkunft nach Ländern

Abbildung 14: Gästestruktur nach Gästetyp

Abbildung 15: Zufriedenheit im Zeitverlauf

Abbildung 16: Datenvergleich Zufriedenheiten Wintersaison 2005/2006

Abbildung 17: Positionierungsanalyse Mayrhofen.

Abbildung 18: Zufriedenheiten im Saisonvergleich

Abbildung 19: Durchschnitt Tagessummen Gäste Penkenbahn 1.12.2005 – 30.04.2006

Abbildung 20: Verletzungshäufigkeit österreichischer Wintersportler an verschiedenen Wochen- tagen

Abbildung 21: Verletzungshäufigkeit österreichischer Wintersportler in Abhängigkeit der Tages- zeit

Abbildung 22: Corporate-Design Umstellung, Logo alt,neu

Abbildung 23: Befragungsort

Abbildung 24: Einverständnis der Befragten

Abbildung 25: Häufigkeiten und Art der Probleme und Mängel bei SaMon

Abbildung 26: Interviewer und Anzahl der aufgelegten Fragebögen.

Abbildung 27: Gästestruktur nach Wettersituation zum Befragungszeitpunkt

Abbildung 28: Zusammenhang Bewertung Zufriedenheit / Wetter

Abbildung 29: Sprachversionen des Fragebogens vor Ort

Abbildung 30: Entwicklung der Gästezahlen aus Osteuropa, Mayrhofen Skigebiet

Abbildung 31: Entwicklung russischer Gästezahlen, Mayrhofen Ort

Abbildung 32: Eigene Einschätzung des Könnens

Abbildung 33: Einschätzung des eigenen Könnens bei Begleitung durch Freunde und Partner

Abbildung 34: Einschätzung des eigenen Könnens ohne Begleitung durch Freunde

Abbildung 35: Erwarteter Service und toleriertes Qualitäts- bzw. Serviceniveau

Tabellenverzeichnis

Tabelle 1: Unternehmenskennzahlen Mayrhofen 05/06

Tabelle 2: Befragungsarten Mayrhofen

Tabelle 3: Stichprobengröße und Eingabefristen

Tabelle 4: Gästestruktur nach Geschlecht

Tabelle 5: Gästestruktur nach Alter

Tabelle 6: Alter statistische Werte

Tabelle 7: Generelle Zufriedenheit Wintersaison 2005/06

Tabelle 8: Zufriedenheit Skigebiet

Tabelle 9: Datenvergleich Zufriedenheiten

Tabelle 10: SWOT Analyse der SaMon Ergebnisse

Tabelle 11: Monatssummen Bericht je Lift

Tabelle 12: Ausschnitt Bereichskatalog Corporate-Design Umstellung

Tabelle 13: Auszug Halbjahresstatistik Mayrhofen Ort nach Nationen

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Die hochentwickelten Volkswirtschaften befinden sich seit geraumer Zeit auf dem Weg in die Dienstleistungsgesellschaft, die in Deutschland mit etwa 60 Prozent der Gesamtbeschäftigten rund 55 Prozent der Bruttowertschöpfung generiert (Meffert & Bruhn 1997, VII). In nahezu allen Branchen müssen Unternehmen durch Globalisierung, Technisierung und Polarisierung der Märkte unter veränderten bzw. erschwerten Bedingungen im Wettbewerb bestehen. Dabei basieren Geschäftsentscheidungen, insbesondere im Dienstleistungssektor, zunehmend auf mittels Befragungsinstrumenten gewonnen Informationen (Schaarschmidt & Herrmann 2002, 110). Vor diesem Hintergrund erklärt sich die in jüngster Zeit stark zunehmende Bedeutung der Operationalisierung von Kundenzufriedenheit, die Meffert und Bruhn (1997, VII) wie folgt beschreiben: „Die hohe Wettbewerbsintensität im nationalen und internationalen Kontext zwingt sowohl Dienstleistungsunternehmen als auch Sachgüterunternehmen, die zusätzliche Serviceleistungen anbieten, sich durch eine systematische und konsequente Kundenorientierung zu profilieren.“ Bevor nun aber eine auf Kundenwünsche abgestimmte Geschäftsstrategie entwickelt werden kann, müssen Fragen nach erwünschter Qualität, Angebot oder gegebenen Schwachstellen im Dienstleistungsprozess mittels Instrumenten zur Erfassung der Dienstleistungsqualität beantwortet werden (Quartapelle & Larsen 1994). Allerdings kann nur die realistische Abbildung der Dienstleistungsqualität im Anschluss an die Messung ein an die Kundenbedürfnisse angepasstes Management zulassen. Die Qualität der zugrunde liegenden Daten ist für die Verlässlichkeit abgeleiteter Aussagen von zentraler Bedeutung. Durch verschiedene Einflussfaktoren kann die Datenqualität in Unternehmen leicht vermindert werden. Falsche, fehlende oder inkonsistente Daten können in hohem Maße zu Fehlentscheidungen mit teils erheblichen Auswirkungen beitragen. Eine der zentralen Herausforderungen der Unternehmen für ein erfolgreiches Bestehen im Markt ist somit eine deutliche Verbesserung der Qualität ihrer Erhebungsinstrumente und damit deren Datenbasis zur Entscheidungsfindung (vgl. Schaarschmidt & Herrmann 2002). Diese Arbeit beschäftigt sich daher mit der Überprüfung der Validität eines Erhebungsinstrumentes als Möglichkeit zur Verbesserung der Datenqualität, die als zentrale Aufgabe im Rahmen von Kundenzufriedenheitsstudien verstanden werden soll.

Dies führt die Frage nach den jeweils geeigneten Methoden und Mitteln ins Feld, die ein realitätsnahes Bild des Konstrukts Kundenzufriedenheit bzw. Dienstleistungsqualität liefern können. Weit verbreitet im Dienstleistungssektor sind Kundenbefragungen, die Wissen und Daten über Kunden und deren Bedürfnisse greifbar machen sollen. Der Nachteil liegt nach Roth und Heidenreich (1993, 148) in der weit verbreiteten Überschätzung der Befragung als Messinstrument sozialer Daten und führt zu Anwendungen in ungeeigneten Bereichen, wie auch zu unkritischer Übernahme von aggregierten Befragungsdaten, deren Validität näheren Überprüfungen nicht standhalten können.

Möglichkeiten zur Beantwortung der Frage nach der Tauglichkeit eines Messinstruments, sollen anhand der Überprüfung der Validität der SaMon-Befragung ausgelotet und angewendet werden.

1.1 Thema und Zielsetzung

„The collection of data is the crucial operation in the execution of a good research design. The quality of the research rests upon the quality of the data.” (Miller 1991, 115). Miller (ebd.) beschreibt hier die Bedeutung des Erhebungsinstrumentes für die Qualität einer Befragung und sieht es als zentrale Vorraussetzung für hochwertige und somit verwertbare Datensätze. Bei dem vorliegenden Thema stehen die Möglichkeiten und Grenzen der Validierung1 eines ausgesuchten Befragungsinstrumentariums auf dem

Prüfstand: SaMon, das strategische Mess-, Kontroll-, und Benchmarkinginstrument der österreichischen Seilbahnwirtschaft, soll dem Anwender die Möglichkeit geben, den Kunden durch einen Fragebogen näher kennen zu lernen und etwas über dessen Zufriedenheit, Meinungen und Wünsche im Zusammenhang mit der erbrachten Dienstleistung zu erfahren. Eine wesentliche Funktion dabei, liegt im anonymen Vergleich der Ergebnisse zwischen den teilnehmenden Seilbahnunternehmen (Anhang 2). Dieser soll Hinweise für die strategische sowie allgemeine Marketingarbeit der Seilbahnen geben. Das wesentliche Anliegen der eigenen Arbeit ist zu bestimmen, inwiefern sich das zu untersuchende Messinstrument eignet, um hinreichend gültige Informationen für dessen Verwendungszweck zu generieren. Ein diesbezüglich zufriedenstellender Test soll als Hauptgütekriterien, Forderungen nach Objektivität, Reliabilität und Validität erfüllen (Lienert 1961, 12). Da zwischen diesen Testgütekriterien eine einseitige, lineare Abhängigkeit besteht, legt dies die Konzentration der Untersuchung auf die bedeutendste Zielgröße der Leistungsfähigkeit - die Validität - nahe (Steinke 1999, 158). Die Validität beschäftigt sich innerhalb der Gütebeurteilung mit der Gültigkeit von Messungen (Homburg, Fassnacht & Werner 2003, 555). Dabei gibt sie an, ob das Messinstrument tatsächlich das misst, was es zu messen vorgibt – sie beschreibt die Richtigkeit eines Messverfahrens (Steinke 1999, 158). Aufbauend sind Verbesserungsvorschläge hinsichtlich des Testaufbaus und der Untersuchungsmethodik zu erarbeiten, die mögliche Fehlerquellen reduzieren und somit Gültigkeit und Qualität des Instrumentariums maximieren können.

1.2 Relevanz

Bei der Beurteilung der Qualität der Ergebnisse einer Messung der Kundenzufriedenheit stellt die der Datenanalyse und –interpretation vorgelagerte Gütebeurteilung des Messinstruments eine oft vernachlässigte, aber wichtige Rolle dar. Oft wird einer kritischen Reflexion der praktizierten Forschungsmethodik eine zu geringe Bedeutung beigemessen oder vor dem Hintergrund standardisierter Leitideen ausgewählt. Die Auseinandersetzung mit der Frage nach der Eignung des gewählten Verfahrens, nach Anwendungsvorraussetzungen, -möglichkeiten und –grenzen sowie der Berücksichtigung alternativer methodischer Zugänge werden zu wenig aufgegriffen. Eine wissenschaftliche Aufarbeitung, wie sie in anderen Forschungsbereichen Standard ist, findet in der Regel nicht statt. Dies indiziert somit eine Reflektion des Themas aus theoretischer sowie praktischer Sicht.

Das Thema Validitätsprüfung von Erhebungsinstrumenten ist nicht neu. Schon Spearman (1910) hat Anfang des 20. Jahrhunderts erste Ansätze zur Frage der Validitätskontrolle mittels der Korrelation geliefert (Lienert & Raatz, 1994). Einige wissenschaftliche Arbeiten bzw. Werke über die Bewertung empirischer Forschungsarbeit hinsichtlich Ihrer Gütekriterien wurden in Deutschland seit Anfang der sechziger Jahre verfasst. Dennoch ist die Bewertung speziell hinsichtlich Tests oder Fragebögen als ein relativ vernachlässigtes Forschungsgebiet einzuordnen. Im Vergleich mit anderen wissenschaftlichen Themenbereichen sind nur wenige herausragende wissenschaftliche Werke zur Validierung empirischer Forschung und Methodik einzusehen. Exemplarische Werke sind hauptsächlich mit human-, sportmedizinischem oder psychologischem Hintergrund einzusehen – hier wird der Validierung eines Testverfahrens eine besondere Bedeutung und Tragweite beigemessen. Besonders aus sportwissenschaftlicher bzw. sportökonomischer Betrachtungsweise wird in diesen vergleichsweise jungen Wissenschaften, eine kritische Auseinandersetzung mit Erhebungsinstrumenten weitgehend vermisst.

Nach Opp (2002, 190) bestätigt sich in Anbetracht der Historie der Wissenschaften, dass immer wieder für gültig befundene Theorien durch andere, bessere, relevantere ersetzt wurden. Diese ständige Verbesserung des Wahrheitsgehalts setze die möglichst kritische Auseinandersetzung mit Theorien voraus, um Irrtümer finden und korrigieren zu können (ebd.). Die Bestätigung bzw. der Erfolg vieler Theorien der Naturwissenschaften konnte nur erreicht werden, indem diese fortlaufender, strenger Kritik unterzogen worden sind, d.h. Wissenschaftler immer wieder versuchten, diese zu widerlegen (ebd.). Somit liegt ein zentraler Aspekt der Relevanz dieser Arbeit im Kern der Wissenschaft an sich und trägt praxisorientiert bei, Möglichkeiten der Kritik sozial- bzw. sportwissenschaftlicher Theorien und Forschung anzuwenden. “Wenn Theorien einer (...) Kritik unterzogen werden, dann erreichen wir eher einen Erkenntnisfortschritt, als wenn Theorien nicht dieser Kritik ausgesetzt werden.“ (Opp 2002, 199)

1.3 Problem und Fragestellung

Von zentraler Bedeutung ist also die Frage nach adäquaten Methoden und Verfahren, die eine möglichst genaue Bestimmung der Validität realisierbar machen. Da kaum vergleichbare sportwissenschaftlich orientierte Arbeiten als Bezugspunkt dienen können, sollte die gesamte Bandbreite an Möglichkeiten der Validitätsprüfung in Betracht gezogen werden. Die Heterogenität der Validitätsarten, also jene Möglichkeiten festzustellen, was der Test wirklich misst, deutet die Komplexität der Problematik an (Grubittzsch & Rexilius 1978, 129). Es wird zu klären sein, welche der zahlreichen Validitätskriterien und – aspekte, aus der sich die Gesamtvalidität zusammensetzt, im Argumentationsgang untersucht werden müssen und können, um speziell bei diesem Erhebungsinstrument das Ziel einer adäquaten, möglichst vollständigen Validitätsbestimmung zu erreichen (vgl. Hager, Spies & Heise 2000). Fragebogenresultate, werden darüber hinaus, in besonderem Maße von verschiedenen Einflüssen des Designs und der Methodik beeinflusst, die auch Bestandteil der Validität (interne, externe Validität) und deren Überprüfung sind (Schaipp 2001, 26). Weiter stellt sich die Frage nach der Interpretierbarkeit der Ergebnisse – hierbei wird zu klären sein, inwiefern die Validität bzw. Qualität der Ergebnisse die Interpretierbarkeit des Erhebungsinstrumentes SaMon einschränkt.

1.4 Aufbau der Arbeit

Abschnitt zwei behandelt die Einführung in die zum Verständnis des Sachverhalts unerlässlichen theoretischen Grundlagen. Ausgehend von Begriffserklärungen im Zusammenhang mit der Thematik wird vertiefend auf die Qualitätskriterien eines Messinstruments eingegangen, um daraufhin die spezielle Bedeutung und Rolle der einzelnen Aspekte der Validität darzustellen.

Basierend auf den theoretischen Grundlagen und sensibilisiert für die Perspektive der Validitätsuntersuchung, stellt Abschnitt drei das zu untersuchende Erhebungsinstrument, aus einem betriebswirtschaftlichen Blickwinkel vor. Dabei reicht diese Übersicht von Hintergründen, Zielen und den Besonderheiten des Erhebungsinstrumentes bis zur Darstellung der Befragungsmethodik und des Studiendesigns. Die anschließende Darstellung der zentralen Studienergebnisse und die Identifizierung erster möglicher Fehlerquellen stellen die Verbindung zum fünften Abschnitt der Arbeit her. Hier wird konkret auf die einzelnen Validitätskriterien des Messinstruments SaMon eingegangen werden. Im ersten Schritt wird der Bezug der verschiedenen Validitätsformen zu SaMon hergestellt, um daraufhin den jeweiligen Validitätsaspekt am Erhebungsinstrument genauer zu untersuchen. Aufbauend auf die Untersuchung der Teilbereiche der Validität wird im Anschluss in Abschnitt sechs eine zusammenfassende Beurteilung der Validität gegeben. Hier soll ebenso auf die Problematiken der Validitätsuntersuchung eingegangen werden. Anschließend werden Schlussfolgerungen und Verbesserungs-vorschläge aus den Ergebnissen des fünften und sechsten Abschnitts abgeleitet, welche die Validitätsdiskussion komplettieren.

2 Einführung in die Thematik

Die Messtheorie erforscht die Grundlagen des Messens an sich und untersucht die Bedingungen und Voraussetzungen für die Messbarkeit von Eigenschaften. Sowohl physikalische Eigenschaften (z.B. Länge, Zeit und Gewicht) als auch psychische Eigenschaften bzw. Einstellungen, wie beispielsweise die Kundenzufriedenheit, sind grundsätzlich messbar (Roth & Heidenreich 1993, 343). Kromrey (2006) beschreibt den Test bzw. das Messinstrument als systematisches Instrument, dass die Erfassung relevanter Sachverhalte ermöglicht und dessen Zweck es ist, Informationen zu gewinnen. Schnell, Hill und Esser (2005, 149) weisen explizit darauf hin, dass das Ziel einer jeden Erhebung möglichst exakte und fehlerfreie Daten sind, schränken aber auch gleichzeitig ein: „Dieses Ziel wird bei kaum einem Messvorgang erreicht.“ Die Vorstellung der Existenz des einen perfekten Weges, um Daten mit voll-ständiger Validität zu messen, muss demnach verworfen werden. Die Frage nach der zufriedenstellenden Höhe an die Validität der SaMon-Befragung bzw. Erhebungen im Allgemeinen, rückt somit in den Vordergrund.

2.1 Qualitätskriterien eines Messinstrumentes

„Die Qualität eines Tests bzw. eines Fragebogens lässt sich an drei zentralen „ Kriterien der Testgüte“ festmachen: Objektivität, Reliabilität und Validität (Bortz & Döring 2002, 193). Testgütekriterien stellen unverzichtbare Bedingungen für die Brauchbarkeit eines Tests dar und sind notwendige Voraussetzungen für die praktische Anwendung eines Tests. Sie können in Haupt- und Nebengütekriterien klassifiziert werden, wobei erstgenannte als unverzichtbar, letztere als „bedingte Forderungen“ (abhängig von Testzielen und Anwendungsinteressen) beschrieben werden (Lienert & Raatz 1994, 7). Lienert und Raatz (ebd.) nennen als Nebengütekriterien Normierung, Vergleichbarkeit, Ökonomie und Nützlichkeit.

2.2 Objektivität

„Ein Test oder Fragebogen ist objektiv, wenn verschiedene Testanwender bei denselben Personen zu den gleichen Resultaten gelangen, d.h. ein objektiver Test ist vom konkreten Testanwender unabhängig“ (Bortz & Döring 2002, 194). Folglich wäre ein Test nicht objektiv, wenn in die Durchführung oder Auswertung besonderes Expertenwissen oder individuelle Deutungen des Anwenders einfließen würden (ebd., 195). Die Objektivität eines Mess-instruments gibt also Auskunft darüber, in welchem Maße die Testergebnisse unabhängig von der Person sind, die das Instrument anwendet (Diekmann 1998, 216). Vollkommene Objektivität liegt vor, wenn verschiedene Untersucher bei denselben Probanden zu exakt den gleichen Untersuchungsergebnissen gelangen, also Anwender A und B mit dem gleichen Messinstrument jeweils identische Untersuchungsergebnisse erzielen und der Korrelationskoeffizient 1 betrüge (ebd., 216). Die Standardliteratur unterscheidet vielfach weiter nach Durchführungsobjektivität, Auswertungsobjektivität und Interpretations-objektivität, wobei auf deren nähere Beschreibung hinsichtlich der Konzentration auf die Validitätsprüfung hier verzichtet wird.

2.3 Reliabilität

„Unter der Reliabilität oder Zuverlässigkeit eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal mißt, gleichgültig, ob er dieses Merkmal auch zu messen beansprucht“ (Lienert & Raatz 1994, 9).

Somit bezeichnet die Reliabilität das Ausmaß, in dem wiederholte Messungen eines Objekts mit einem Messinstrument die gleichen Werte liefern (Schnell, Hill & Esser 2005, 151). Nicht zuverlässig oder reliabel ist folglich ein Erhebungsinstrument, das bei wiederholten Messungen desselben Objektes, völlig verschiedene Messwerte liefert (ebd.). Ein Test ist demnach vollkommen reliabel, wenn die mittels seiner Anwendung erzielten Ergebnisse genau und fehlerfrei sind.

2.4 Validität

Nach Peter (1979, 6) stellt die Validität die wichtigste wissenschaftstheoretische Anforderung an Messinstrumente dar. „Die Validität (Gültigkeit) ist das wichtigste Testgütekriterium. Die Validität gibt an, ob ein Test das mißt, was er messen soll bzw. was er zu messen vorgibt.“ (Bortz & Döring 2002, 199) Steinke (1999, 158) spricht von der Gültigkeit und Richtigkeit eines Messverfahrens. Scheurich (1997, 81) vergleicht Validität bildhaft mit einer „Bohrung in das Herz der Wissenschaft.“ Laut Diekmann (1998) besteht zwischen den einzelnen Hauptgütekriterien eine hierarchische Beziehung. Steinke (1999, 158) beschreibt eine einseitige lineare Abhängigkeit, in der die Objektivität eine notwendige, aber nicht hinreichende Bedingung der Reliabilität ist und die Reliabilität wiederum eine notwendige, aber nicht hinreichende Bedingung der Validität. Die Validität ist somit das zentrale Gütekriterium eines Tests (Bös et al., 2001, 545). Bös (ebd.) erkennt des Weiteren, dass ein objektiver, reliabler Test, der keine Gültigkeit besitzt, praktisch wertlos ist. Zur Verdeutlichung der Beziehung der drei Gütekriterien wird in Abb. 1 das Beziehungsgefüge der Testgütekriterien bildhaft dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Die Beziehungen zwischen Gütekriterien eines Tests (eigene Darstellung in Anlehnung an Roth und Heidenreich 1993, 397).

Die klassische Testtheorie (vgl. Novick & Lord, 1968) besagt, dass eine Messung, beispielsweise eines Konstrukts, wie der Kundenzufriedenheit, genau dann fehlerfrei ist, wenn der gemessene Wert dem unbekannten „wahren“ Wert des Konstrukts entspricht. Da eine gänzlich fehlerfreie Messung in der Praxis nicht möglich ist (vgl. Gadenne 1976, Bortz 1984, Schnell, Hill & Esser 2005, Balderjahn 2003), sollte es nach Bagozzi (1998, 73) eine Übereinkunft darüber geben, welche Grade an Ergebnisverzerrung durch Verletzung von Gütekriterien toleriert werden sollten. Hierzu Bortz (1984, 139) wörtlich: „Vor diesem Hintergrund fällt es schwer, verbindliche Angaben über die Minimalhöhe der Validität eines Tests zu machen.“ Der Einsatz eines Tests, so Bortz (ebd.), sei generell gerechtfertigt, wenn „die Entscheidungen und Vorhersagen, die auf der Basis des Tests getroffen werden, tauglicher sind als Entscheidungen und Vorhersagen, die ohne den Test möglich wären (...)“. Ansätze zur Einschätzung der Höhe von Validitätskoeffizienten beschreiben Weise (1975), Grubitsch und Rexilius (1978), Lienert und Raatz (1994) und Roth und Heidenreich (1993).

Es werden drei Hauptarten von Validität unterschieden: Inhaltsvalidität, Kriteriumsvalidität und Konstruktvalidität (vgl. Hildebrandt 1998). Hierbei ist zu beachten, dass das testtheoretische Kriterium, das die Gültigkeit und Qualität von Messinstrumenten angibt, nicht zu verwechseln ist mit den Kriterien der „internen“ und „externen“ Validität, die als Gütekriterien empirischer Untersuchungsdesigns gelten (Bortz & Döring 2002, 199).

2.4.1 Interne und externe Validität

Externe und interne Validität befinden sich in einem Spannungsverhältnis zueinander, bei dem Bemühungen um eine möglichst hohe interne Validität, den Grad der externen Gültigkeit beeinflussen (Pepels 2004, 296). Nach Bortz (1984, 29) muss man sich folglich mit Kompromisslösungen begnügen. Für Gadenne (1976, 9) sind die Gütekriterien interne und externe Validität, mit bestimmten Annahmen darüber verbunden, welche Eigenschaften eine Erhebung haben muss, damit ihre Daten sinnvoll interpretiert werden können.

Intern valide, ist eine Untersuchung nach Bortz (1984), wenn ihre Ergebnisse eindeutig zu interpretieren sind. Steigt die Anzahl plausibler Alternativerklärungen, so sinkt der Grad an interner Gültigkeit (ebd, 29). Alternative Erklärungshypothesen für die Ausprägung der abhängigen Variablen (Kundenzufriedenheit), können nach Schnell, Hill und Esser (2005, 217) in verschiedenen Störfaktoren begründet sein: „Die Güte eines Designs bemisst sich nun daran, inwieweit solche Alternativerklärungen bzw. der Einfluss von Störfaktoren möglichst weitgehend ausgeschlossen werden können.“ In den Arbeiten von Campbell (1957) und Campbell & Stanley (1963, 175f) werden die wichtigsten Störvariablen externer und interner Validität aufgezählt, die bei Erhebungen auftreten können. Für den Fall der SaMon-Studie könnten unter anderem die Störfaktoren instrumentelle Reaktivität, instrumentelle Validität, zeit- und kulturbedingte Veränderungen der instrumentellen Validität, systematischer Ausfall von Untersuchungsteilnehmern, Hawthorne Effekte und Zeiteffekte (vgl. Bortz, 1984) Einfluss auf die Güte der Erhebung haben. Nach Pepels (2004, 296) kann Interne Validität nur bei Laborexperimenten gegeben sein, bei der Feldforschung hingegen werde ein realitätsfremdes Abbild erzeugt. Aus dieser Aussage kann vorab der Schluss gezogen werden, dass die interne Validität der SaMon-Erhebung nicht vollständig gegeben sein kann.

Sind die Ergebnisse einer Untersuchung, über die Bedingungen und Personen der Untersuchungssituation hinaus, generalisierbar, spricht man von externer Validität deren Grad mit zunehmender Unnatürlichkeit der Untersuchungsbedingungen bzw. mit abnehmender Repräsentativität sinkt (Bortz 1984, 29). Gadenne (1976, 15) beschreibt die Abgrenzung der externen Validität wie folgt: „Eine Untersuchung wird als >>extern valide<< bezeichnet, wenn sie so beschaffen ist, dass man von den Stichproben von Individuen, Umgebungen und Variablen der Untersuchung auf entsprechende Populationen generalisieren darf (...)“. Dabei steht nach Bortz (1984, 29) die Repräsentativität der untersuchten Stichproben im engen Zusammenhang mit der externen Gültigkeit.

An dieser Stelle sei an die inhaltliche Abgrenzung der internen und externen Validität, gegenüber den im folgenden beschriebenen Validitätsarten hingewiesen. Während die interne bzw. externe Validität nur Schlüsse hinsichtlich des Untersuchungsdesigns bzw. der Untersuchungsmethodik zulassen, beschäftigen sich nachfolgend beschriebene Validitätsarten mit der Güte des Messinstruments an sich.

2.4.2 Inhaltsvalidität

Die Inhaltsvalidität wird von Roth und Heidenreich (1993, 356) als eine inhaltliche Analyse der einzelnen Testaufgaben interpretiert. Hier soll klar gestellt werden, dass der Begriff „face validity“ (augenscheinliche Gültigkeit) die Tatsache kennzeichnet, dass ein Test für den Laien den Anschein erweckt, Validität zu besitzen. Diese Augenschein-Validität ist nicht mit der inhaltlichen Gültigkeit gleichzusetzen. Bortz und Döring (2002, 199) dagegen sehen Inhaltsvalidität gegeben, wenn der Inhalt der Testbestandteile, dass zu messende Konstrukt (im vorliegenden Fall die Kundenzufriedenheit) in seinen wichtigsten Aspekten ganzheitlich erfasst und stellen fest: „Die Höhe der Inhaltsvalidität eines Tests kann nicht numerisch bestimmt werden, sondern beruht allein auf subjektiven Einschätzungen.“ Gleicher Ansicht ist Bohrnstedt (o.J, 97), der die Bestimmung der Inhaltsvalidität als theoretischen Prozess bezeichnet und in Zusammenhang mit dem Grad der Repräsentativität des untersuchten Sachverhalts bringt. Schnell, Hill und Esser (2005) schränken die Bedeutsamkeit der Inhaltsvalidität als Validitätskriterium aus Gründen der mangelnden Objektivität ein.

2.4.3 Kriteriumsvalidität

„Die Kriteriumsvalidität gibt an, inwieweit die zu validierende Messung eines Konstrukts mit der Messung eines externen Kriteriums, dem so genannten Außenkriterium, von dem bekannt ist, dass es das Konstrukt valide erfasst bzw. dass es in einem validen kausalen Zusammenhang mit dem Konstrukt steht, übereinstimmt“ (Balderjahn, 2003, 131).

Die kriteriumsbezogene Validität, die also als Korrelation zwischen Testergebnissen (z.B. Berufseignung, Kundenzufriedenheit) und den Messungen eines für sinnvoll gehaltenen Kriteriums (z.B. beruflicher Erfolg, Wiederkaufrate) ermittelt werden kann, ist nach Bortz (1984, 138) die wichtigste Validitätsart. Bohrnstedt (o.J.) bezeichnet sie auch als die empirische Validität, die sich auf gegenwärtige oder zukünftige Verhaltensweisen bzw. Sachverhalte beziehen kann (Predicitve / Concurrent Validity) und zu deren Überprüfung man sich der Methode der Korrelation bedient (Lienert & Raatz, 1984).

Die Vorhersagevalidität, auch als prognostische oder Prognosevalidität (engl.: Predictive Validity) betitelt, liegt vor, wenn es sich bei dem Kriterium um einen Beobachtungssachverhalt handelt, der erst zu einem späteren Zeitpunkt gemessen werden kann (vgl. Bortz & Döring 2002, 200). Dies wäre beispielsweise der Fall bei einem Fragebogen zur individuellen Produktpräferenz, der durch die Umsetzung des Kunden in reelles Kaufverhalten zu einem späteren Zeitpunkt verifiziert bzw. validiert werden könnte. Der Validitätsgrad würde sich also daran bemessen lassen, ob der Fragebogen das spätere Verhalten korrekt voraussagen kann (vgl. Bortz & Döring 2002, 200).

Die Übereinstimmungs-, Konkurrenz- , Gegenwarts- oder auch innere Validität (Engl.: Concurrent Validity)1 hingegen findet Anwendung, wenn Kriteriumswert und Testwert zum selben Messzeitpunkt erhoben werden. Hier könnte eine Validierung des Erhebungsinstrumentes zum Beispiel durch gleichzeitige Befragung von Gruppen mit bekannter Merkmalsausprägung, erfolgen (Bortz & Döring 2002).

Abb. 2 stellt den Unterschied zwischen Übereinstimmungsvalidität und Vorhersagevalidität bildhaft dar und verdeutlicht deren zentrale Unterscheidungsmerkmale.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Übereinstimmungsvalidität vs. Vorhersagevalidität (Quelle: eigene Darstellung in Anlehnung an Roth 1984, 367).

Die Schwierigkeit bzw. besondere Problematik bei dieser Methode stellt die Bestimmung geeigneter, ihrerseits gültiger Kriterien zur Überprüfung und Korrelation dar (Lienert & Raatz 1994, 221). Operationalisierungen theoretischer Konstrukte, wie beispielsweise der Kundenzufriedenheit, können oft nur mit dem Test selbst erfassbar gemacht werden (Bortz 1984, 138). Anwendung findet diese Art der Validität daher häufig wenn Kurzversionen von Messinstrumenten mit der langen, bekannten Version des Tests validiert werden sollen. Inwiefern sich die Kriteriumsvalidität eignet, um bei der SaMon-Studie Anwendung zu finden, wird in Abschnitt 5.5 diskutiert werden.

2.4.4 Konstruktvalidität

Nach Bortz und Döring (2002, 200) sowie Schnell, Hill und Esser (2005, 156) wird der Konstruktvalidität eine besondere Bedeutung beigemessen, da die Kriteriumsvalidierung (vgl. Abschnitt 2.4.3) nur bei geeigneten Außenkriterien sinnvoll und die Inhaltsvalidität (vgl. Abschnitt 2.4.2) nicht objektivierbar ist. Lienert und Raatz dagegen sehen historisch und praktisch die Kriteriumsvalidität als bedeutendsten Aspekt. Bohrnstedt (o.J.) bezeichnet sie auch als die theoretische Validität, bei der untersucht werden soll, ob die Testbestandteile, –aufgaben oder -merkmale, auch zur Messung des Konstrukts im Fokus des Betrachters geeignet sind. Im Gegensatz zur Kriteriumsvalidität beschränkt man sich hier nicht auf einzelne Außenkriterien, sondern verwendet ein vernetztes Begriffsgefüge von Hypothesen über das Konstrukt und seine Relationen zu anderen Konstrukten (nomologische Validität, vgl. Pepels 2004, 295f). Abb. 3 stellt die Bestandteile der Konstruktvalidität und deren Beziehungen zueinander dar. Die von Cronbach und Meehl (1951) zur Diskussion gestellte Methode untersucht also den Zusammenhang zwischen Konstrukten innerhalb eines theoretischen Bezugsystems mit dem vorliegenden Test (vgl. Roth & Heidenreich 1984, 368f).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Konstruktvalidität (eigene Darstellung in Anlehnung an Roth 1984, 368).

Die Konstruktvalidierung kann durch von den Ergebnissen des Fragebogens abgeleiteten Hypothesen geschehen, die durch die Testwerte bestätigt werden können. Brewer (2000, 7) identifiziert zwei mögliche Ursachen für nicht erfüllte Konstruktvalidität: Falsche Messoperationalisierung oder falsche Theorie. Inhaltliche Zusammenhänge dieser oder ähnlicher Art nachzuweisen, wäre Bestandteil einer Konstruktvalidierung (vgl. Bortz & Döring 2002).

Die Grundlagen- und Standardliteratur differenziert in diesem Kontext weiter zwischen konvergenter und diskriminanter Validität. Als konvergente Validität bezeichnen Bortz und Döring (2002, 202), den Grad der Ergebnis-übereinstimmung, mit dem unterschiedliche Methoden, ein identisches Konstrukt erfassen können. Die Validierung hinsichtlich der Diskriminanz hingegen zielt auf die Unterscheidbarkeit von Erhebungsmethoden, hinsichtlich deren Konstrukterfassung ab (vgl. Lienert & Raatz 1994).

2.5 Überprüfung der Validität

Soll empirische Forschung bzw. sozialwissenschaftliche Theorie dazu verwendet werden, reale Sachverhalte zu erklären, vorauszusagen bzw. für praktisches Handeln angewendet werden, so reicht es nach Opp (2002, 189) nicht aus, wenn diese Theorien logisch konstruiert, präzise und reich an Informationen sind. Vielmehr sollen sie für den relevanten Sachverhalt auch zutreffen bzw. der Wahrheit möglichst nahe kommen (ebd.). Die Wahrheit, Validität oder Gültigkeit der Aussagen eines Messinstruments ist nach Clever (1973) in dessen Kritisierbarkeit zu suchen. Bei der kritischen Auseinandersetzung mit sozialwissenschaftlichen Theorien bzw. bei der Überprüfung der Validität einer Messung bzw. eines Messinstruments stehen eine Reihe von Methoden, auch als die Validitätsarten bezeichnet (vgl. Bortz & Döring, 1995, S. 185), zur Verfügung. Kapitel 5 wird im Einzelnen auf die verschiedenen Validitätsarten bzw. Validierungsmethoden eingehen und diese anhand des SaMon Erhebungsinstrumentes untersuchen.

2.5.1 Mathematische Beschreibung der Validität

Die mathematische Beschreibung des Validitäskonzepts nach Bagozzi (1998) geht davon aus, dass sich jeder i-te Messwert xi eines Konstrukts aus dem wahren Konstruktwert ξ, aus systematischen Fehlerquellen ηk und dem Zufallsfehler εi zusammensetzt. πik und ηk geben die Stärke der Wirkung des Konstrukts bzw. die der systematischen Fehlerterme auf den jeweiligen Messwert xi an (vgl. Gleichung in Anlehnung an Bagozzi, 1998, 73).

Abbildung in dieser Leseprobe nicht enthalten

Nach obiger Gleichung gibt die Validität den Grad an, zu dem eine Messung frei von systematischen oder zufälligen Fehlern ist. Da keine Erhebung frei von Fehlerquellen ist (Bortz & Döring 1995, 201), kann davon ausgegangen werden, dass diese Fehler in den einzelnen Validitätsarten enthalten sind und xi somit in negativer Weise beeinflusst wird.

3 SaMon

Das Akronym SaMon, setzt sich aus den Begriffen Satisfaction (Engl.: Zufriedenheit) und Monitoring (engl.: Überwachung) zusammen, wodurch die Zweckmäßigkeit der kontinuierlichen Messung der Kundenzufriedenheit zum Ausdruck gebracht wird. Durch die immer stärker notwendige Ausrichtung nach Kundenwünschen (Meffert & Bruhn, 1997) entstand auch bei den Seilbahnen Österreichs der Wunsch, die Servicequalität aus Sicht der Kunden zu messen und zu verbessern. Zu diesem Zweck wurde von der MaNova Netbusiness Solutions GmbH (Wien) ein Instrument für die Erfassung, Erhebung, Analyse und das Benchmarking der Kundenzufriedenheit der gesamten Seilbahnbranche entworfen. In gemeinsamen Workshops mit Unternehmens-vertretern wurde ein einheitlicher Fragebogen für die Teilnehmer entwickelt (siehe Anhang 1), welcher wesentliche Informationen über die Kundenstruktur sowie die Kundenzufriedenheit erfassen soll. Ergänzt wird die Befragung durch einige Spezialfragen (bspw. vgl. Frage 19, Anhang 1, Infoscouts1 im Skigebiet), die für jedes Unternehmen unterschiedlich sind und in Zusammenarbeit mit dem jeweiligen Seilbahnunternehmen bestimmt werden. Eine ganzheitliche Analyse des Unternehmens soll erreicht werden, indem Urteile der Kunden auch den wirtschaftlichen Kennzahlen, wie z.B. Umsatz, Rendite und Investitionen etc. gegenübergestellt werden. Zum Einsatz kommen in der Erhebung auch Links über die Webdomain der Unternehmen, sowie personalisierte E-Mails an die Kunden - meist aber wird persönlich befragt und die Daten dann online durch die Unternehmen direkt in ein Online-Eingabesystem übertragen.

Zur Durchführung der Studie wurde von der Manova Netbusiness Solutions GmbH ein Leitfaden herausgegeben, dessen Handlungsanweisungen in den nachfolgenden Ausführungen erläutert werden. Diese sollen die korrekte Durchführung der Erhebung sicherstellen, was bedeutet, dass Verstöße gegen die Handlungsrichtlinien sich unmittelbar auf die Validität der Daten auswirken könnten. Die Richtigkeit der Handlungsanweisungen und Einhaltung von Seiten des Interviewers wird Bestandteil der Validitätsprüfung sein.

3.1 Die wirtschaftliche Bedeutung der Seilbahnbranche

Über die Struktur der österreichischen Seilbahnen soll im Folgenden ein kleiner Überblick gegeben werden. Insgesamt wurden im Winter 2005/2006 259 Seilbahnunternehmen in Österreich registriert, deren stärkste Umsatzgruppe (über 7,5 Mio Gesamtumsatz) 30 Seilbahnunternehmen beinhaltet (Fachverband der Seilbahnen Österreichs, 2006). Im Laufe des Winters konnten die österreichischen Seilbahnen 50,3 Mio. Skifahrertage registrieren, welche 602 Mio. Beförderungen und damit an knapp 30.500 Betriebstagen einen Kassenumsatz von 927 Mio. € generierten (ebd.). Abbildung 4 zeigt die stets wachsende Umsatzentwicklung der letzten Jahre, welche einen stark positiven Trend erkennen lässt. Im Schnitt wird jeder Kunde elf bis zwölf mal am Tag auf den Berg befördert und tätigt dabei durchschnittlich einen Kassenumsatz von knapp 19 €, mit welchem er indirekt für die Unkosten (Betriebskosten von Liften und Anlagen, Pistenpräparierung und Kunstbeschneiung sowie Anschaffung und Erhalt der Zusatzleistungen) des Leistungsangebots aufkommt (ebd.).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Kassenumsätze der Seilbahnen Österreichs Winter 2005/2006 (Quelle: Fachverband der Seilbahnen Österreichs, 2006).

Die österreichischen Seilbahnen stellen einen bedeutenden Faktor regionaler Wertschöpfung dar (ebd.). Sie sind Arbeitgeber für rund 14.000 Mitarbeiter, von denen etwa 6.000 ganzjährig angestellt sind (ebd.). Siebzig Prozent aller Touristen Österreichs geben als Grund für Ihren Österreichbesuch den Wintersport an. Die Bergbahnen erhöhen die touristische Nachfrage in Bergregionen und bewirken hohe Mehreinnahmen in den Bereichen Gastronomie, Beherbergung und Sportartikelwirtschaft (ebd.)

3.2 Das Unternehmen Mayrhofner Bergbahnen AG

Mit einem Umsatz von rund 20 Mio. Euro pro Jahr, zählt die Mayrhofner Bergbahnen AG, zu den erfolgreichsten der Branche – auch international. Die Gesellschaft investierte in den letzten zehn Jahren rund 80 Mio Euro in Neuanlagen und Kunstbeschneiung. Etwa 100 ganzjährige Mitarbeiter und 80

Saisonkräfte sorgen für den Betrieb der Seilbahnanlagen. Als Mitglied einer Skischaukel verfügt das Gebiet über rund 157 Pistenkilometer und 49 Liftanlagen, zu denen ab der Saison 2006/2007 auch die größte Seilbahn Österreichs (160 Personengondel) gehören wird. Die Gesamtförderkapazität von etwa 80.000 Personen pro Stunde, liegt deutlich über dem Branchendurchschnitt. An den beförderungsstärksten Tagen der Hochsaison konnten über 10.000 Beförderungen der Zubringerbahnen1 registriert werden. Der Sommerumsatz 2004/2005 trug zu 7 Prozent zum Gesamtergebnis beider Saisonabschnitte bei. In Tabelle 1 sind die wichtigsten Unternehmens-kennzahlen zusammengefasst einzusehen.

Tabelle 1: Unternehmenskennzahlen Mayrhofen 05/06 (Quelle: eigene Darstellung).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5 veranschaulicht die wichtigsten Hintergrundinformationen über das Unternehmen Mayrhofner Bergbahnen AG.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Daten und Fakten Mayrhofner Bergbahnen AG (Quelle: eigene Darstellung).

3.2.1 Organigramm

Abbildung 6 zeigt den Verwaltungsapparat des Betriebs (rechte Seite) sowie die Organisationsstruktur des technischen Bereichs (linke Seite). Die Durchführung der jährlichen SaMon-Studie obliegt der Marketing-Abteilung unter der Leitung von Dipl. Spoec. Melanie Kaindl, wobei das Projekt SaMon der Saison 2005/06 dem Aufgabenbereich des Praktikanten der Abteilung zugeteilt wurde.

[...]


1 Das Vorgehen bei der Überprüfung der Validität wird nach Lienert und Raatz (1994, 220) als Validierung bezeichnet.

1 Vgl. hierzu Abschnitt 6.1.2 Hindernisse und Probleme der Prüfung, der auf die Kritik an der Formulierung zahlreicher Validitätsarten von Scheurich (1979) eingeht.

1 Die Mayrhofner Bergbahnen AG stellt ein Team mit ca. 30 Personen, die auf den Pisten als fahrende Informationsstellen fungieren und die Servicequalität steigern sollen.

1 Die „Zubringerbahnen“ (Penken-, Ahorn- und Horbergbahn) ermöglichen dem Gast den Einstieg in das Skigebiet.

Ende der Leseprobe aus 120 Seiten

Details

Titel
Untersuchung der Validität des Erhebungsinstruments SaMon
Untertitel
Über die Validität eines Fragebogens
Hochschule
Deutsche Sporthochschule Köln  (Sportökonomie und Sportmanagement)
Note
2,1
Autor
Jahr
2006
Seiten
120
Katalognummer
V137759
ISBN (eBook)
9783640456352
ISBN (Buch)
9783640456468
Dateigröße
2616 KB
Sprache
Deutsch
Anmerkungen
Diese Diplomarbeit beschäftigt sich mit der Validität von Fragebögen. Sie untersucht diese am Beispiel des Fragebogens der Mayrhofner Bergbahnen in Österreich - SAMON heisst dabei "Satisfaction Monitoring" also die Bestimmung der Kundenzufriedenheit der Gäste des Skigebietes.
Schlagworte
Untersuchung, Validität, Erhebungsinstruments, SaMon, Validität, Fragebogens
Arbeit zitieren
Markus Otto (Autor:in), 2006, Untersuchung der Validität des Erhebungsinstruments SaMon, München, GRIN Verlag, https://www.grin.com/document/137759

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Untersuchung der Validität des Erhebungsinstruments SaMon



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden