Das Stichprobenproblem in der empirischen Sozialforschung

Eine forschungshistorische und forschungssoziologische Studie


Diplomarbeit, 2007

113 Seiten, Note: 1.0


Leseprobe

Inhaltsverzeichnis

1. Die Prinzipien der Wissenschaft

2. Die Zufallsstichprobe in Theorie und Praxis
2.1 Das Grundprinzip der Zufallsstichprobe
2.2 Das Stichprobenproblem
2.3 Ausfalltypen und ihre Auswirkungen
2.4 Zwischenfazit

3. Pluralisierung der Datenerhebungsverfahren
3. 1 Entwicklung und Bedeutung der verschiedenen Datenerhebungsverfahren
3.2 Relevante Spezifika der einzelnen Verfahren

4. Die Entwicklung der Stichprobentechniken – Einhaltung des Zufalls?
4.1 Zufallsstichprobe auf Basis von Einwohnermeldeamtsregistern
4.2 ADM-Design: Address-Random, Random-Route und Standard-Random
4.3 Stichprobentechniken bei Telefonbefragungen
4.3.1 Listenbasierte Stichprobenbildung
4.3.2 RDD und RLD
4.3.3 Das Gabler-Häder Design
4.4 Onlinestichproben
4.5 Zwischenfazit

5. Das Problem der Stichprobenrealisierung Rückgang der Ausschöpfung?
5.1 Internationale Befunde
5.2 Befunde für Deutschland
5.3 Mangelnde Vergleichbarkeit von Ausschöpfungsquoten
5.4 Mangelnde Aussagekraft von Ausschöpfungsquoten
5.5 Entwicklung von Nonresponse am Beispiel des ALLBUS
5.6 Zwischenfazit

6. Die Antworten der Wissenschaft
6.1 Umgang mit den Problemen durch die Stichprobentechnik
6.2.1 Maßnahmen zur Erhöhung der Ausschöpfung
6.2.2 Nachträgliche Kontrolle und Korrektur

7. Repräsentative Zufallsstichprobe?

8. Die Wissenschaft in der Kritik – eine weiterführende Zusammenfassung

Literaturverzeichnis

ALLBUS-Methodenberichte

Beiträge aus dem Internet

Eine repräsentative Umfrage im Auftrag von Reader’s Digest bringt es an den Tag: 33 Millionen Deutsche glauben an Außerirdische “ – befragt wurden 1000 Deutsche ab 14 Jahren.[1]

Eine solche oder ähnliche Meldung ist jedem bekannt. Die Prozesse und Schwierigkeiten, die dahinter stehen, jedoch nicht. Die folgende Arbeit soll Licht ins Dunkel bringen, indem sie das Stichprobenproblem untersucht, wie es sich bei allgemeinen Bevölkerungsumfragen in der empirischen Sozialforschung stellt.

Die hierbei eingenommene Perspektive ist sowohl forschungssoziologischer als auch forschungshistorischer Art. Forschungssoziologisch insofern, da das Stichprobenproblem und der Umgang mit ihm vor dem Hintergrund der wissenschaftlichen Prinzipien der Wahrheitsfindung betrachtet werden. Ziel dieses Vorgehens ist es, den gegenwärtigen „state of the art“ der empirischen Sozialforschung im Allgemeinen und der akademischen Sozialforschung im Besonderen kritisch zu hinterfragen, Schwachstellen zu identifizieren und Lösungsvorschläge zu unterbreiten.

Die forschungshistorische Sichtweise erfüllt dabei eine doppelte Zweckmäßigkeit. Zum einen soll sie das Verständnis des gegenwärtigen Status quo fördern und zum anderen soll sie dazu beitragen, die Entwicklungstendenzen der aktuellen Wissenschaftspraxis abschätzen zu können.

Um dem soeben dargestellten Forschungsanliegen nachgehen zu können, werden zunächst die theoretischen Grundlagen geschaffen, indem die Grundprinzipien der Wissenschaft skizziert (Kap. 1) und das Konzept der Zufallsstichprobe erläutert werden (Kap. 2). Ein Abriss über die Genese der Datenerhebungsverfahren und ihrer Besonderheiten (Kap. 3) ist erforderlich für das Verständnis der Entwicklung der mit den Datenerhebungsformen verbundenen Stichprobentechniken und deren spezifischer Probleme (Kap. 4). Vor diesem Hintergrund werden die Schwierigkeiten bei der (Beurteilung der) Stichprobenrealisierung (Kap. 5) und anschließend der wissenschaftliche Umgang mit ihnen (Kap. 6) kritisch reflektiert. Auf Basis der somit erlangten Ergebnisse werden das Konzept der „repräsentativen Zufallsstichprobe“ hinterfragt (Kap. 7) und schließlich die Wissenschaftspraxis bezüglich der Umsetzung ihrer eigenen Ideale beurteilt (Kap. 8).

1. Die Prinzipien der Wissenschaft

Das Ziel der Wissenschaft ist das Streben nach Wahrheit. Die Wissenschaft und ihr Streben stützen sich dabei auf drei grundlegende Säulen (im Folgenden: vgl. Schulze 2006a & 2007a):

1. Wissensvorsprung
2. Reflexivität
3. Intersubjektivität

Die Wissenschaft erhebt den Anspruch des Wissensvorspung s, also anderen Formen der Erkenntnisproduktion gegenüber überlegen zu sein und sich der Wahrheit bestmöglich annähern zu können. Dieser Überlegenheitsanspruch wird durch die systematische Berücksichtigung der beiden anderen Prinzipien, der Reflexivität und der Intersubjektivität, legitimiert.

Der Begriff der Reflexivität zielt auf die Denkmethode ab. Erst durch die Orientierung des Denkens an expliziten Prinzipien der Selbstbeurteilung wird Wissensproduktion zur Wissenschaft. Das Denken über das Denken muss sich dabei an zwei verschiedenen Traditionen orientieren: erstens an einer philosophischen, axiomatischen, normativen und verfahrenstechnischen Tradition, also an der klassischen Methodenlehre, und zweitens an einer selbstbeschreibenden Tradition, die durch Wissenschaftssoziologie, Wissenschaftspsychologie und Wissenschaftsgeschichte begründet wird.

Die Intersubjektivität beschreibt die Tatsache, dass der Produktionsprozess des Wissens sozial organisiert ist. Die soziale Organisation der Wahrheitssuche schließt mehrere Aspekte in sich ein. Im Allgemeinen verbindet sich damit die Forderung nach Nachvollziehbarkeit der methodischen Prinzipien des Denkens. Erst hierdurch kann eine Denkgemeinschaft entstehen, in der es möglich ist, die Prinzipien als allgemeinverbindlich anzuerkennen und im Sinne der Reflexivität anzuwenden. Nachvollziehbarkeit bezieht sich aber nicht nur auf die methodischen Prinzipien, sondern auch auf deren Anwendung und auf die Erkenntnis, zu der man hierdurch gelangt. Der bloße Verweis auf die Verwendung z. B. eines bestimmten Stichprobenverfahrens und einer bestimmten Datenerhebungsform allein reicht nicht aus, um die Qualität der Erkenntnis beurteilen zu können. Erst, wenn auch die Probleme und Schwierigkeiten offen gelegt werden, die sich bei der Anwendung der Methoden ergeben haben, ist es der Wissenschaftsgemeinschaft möglich, die Qualität des Wissens und somit die Frage nach der Annäherung an die Wahrheit beurteilen zu können.

Die soziale Organisation der Wissenschaft ist also unabdingbar für die Annäherung an die Wahrheit. Gleichzeitig kann sie aber zur Deformation der Erkenntnis führen, da sie Einfallstore für Störfaktoren öffnet

Störfaktoren werden in den Sozialwissenschaften einerseits vom Erkenntnisobjekt, seien es ganz allgemein gesagt einzelne Menschen oder Kollektive, z. B. durch Reaktivität bei der Datenerhebung oder durch subjektive Einflüsse bei der Konstitution von Stichproben, erzeugt.

Andererseits werden sie vom Erkenntnissubjekt, also dem Forscher selbst, verursacht. Dies ist dann der Fall, wenn die wissenschaftliche Rationalität dem Streben nach sozialem Erfolg und sozialer Sicherheit, dem Bedürfnis nach Vermeidung von Ungewissheit oder der Eigenlogik von wissensproduzierenden Instituten, also der sozialen oder gar ökonomischen Rationalität untergeordnet wird.

Soziale und ökonomische Rationalität der Erkenntnissubjekte können den Prozess der Erkenntnisproduktion z. B. dadurch deformieren, dass die vorhandenen Methoden – sei es aufgrund mangelnder Zeit, mangelnden Geldes oder mangelnder Bereitschaft, sich das notwendige (neue) Wissen anzueignen und/oder umzusetzen – nicht adäquat angewandt oder gar gänzlich ignoriert werden. Dies schließt auch die fehlende Bereitschaft zur Veröffentlichung von Informationen über die Probleme bei der Anwendung der Methoden mit ein.

In solchen Fällen wird die kognitive Rationalität der sozialen bzw. ökonomischen Rationalität untergeordnet. Der Idealfall ist im Gegenteil zu suchen.

Aufgabe der Wissenschaftssoziologie ist es, solche problematischen Tendenzen aufzudecken und die Wiederherstellung des Ideals anzustreben. Es gilt also, die Umsetzung der Prinzipien der Reflexivität und Intersubjektivität (als Voraussetzung für eine bestmögliche Wahrheitsannäherung) kritisch zu untersuchen. Hierfür stehen im Rahmen der vorliegenden Arbeit zwei zentrale wissenschaftssoziologische Fragestellungen im Vordergrund:

1. Die Frage nach der Adäquatheit der Methoden bzw. ihrer Anwendung und
2. die Frage nach möglichen Störfaktoren, die zu einem Auseinanderdriften von idealer und realer Wissenschaft führen.

Bezugspunkt für diese Fragen ist das Stichprobenproblem, wie es sich bei allgemeinen Bevölkerungsumfragen in der empirischen Sozialforschung stellt.

2. Die Zufallsstichprobe in Theorie und Praxis

2.1 Das Grundprinzip der Zufallsstichprobe

Ganz allgemein formuliert ist es das Ziel der quantitativen empirischen Sozialforschung, zu Aussagen über multivariate Verteilungen individueller Merkmale in einem Kollektiv zu gelangen. Beispiele hierfür sind die Verteilungen von soziodemographischen und sozioökonomischen Merkmalen (Alter, Geschlecht, Religion, Familienstand, Wohnort, Bildung, Erwerbsstatus, Einkommen, …) oder von kognitiven und psychologischen Variablen (Einstellungen, Meinungen, Wertvorstellungen…).[2]

Lässt man die Verzerrungen, die sich durch einzelne Messinstrumente ergeben können, außer acht, so wäre es prinzipiell notwendig, eine Totalerhebung durchzuführen, um die Ausprägungen der interessierenden Merkmale möglichst präzise und akkurat bei jedem einzelnen Mitglied des zu untersuchenden Kollektivs bestimmen zu können (Porst 1985: 88).

Eine Totalerhebung ist aber zumeist nicht möglich. Vor allem bei großen Kollektiven – z. B. bei der Bevölkerung der Bundesrepublik Deutschland – scheitert sie vor allem an den hohen Kosten und dem enormen Zeitaufwand (Allerbeck 1981: 26). Die notwendigen finanziellen Ressourcen stehen in aller Regel nicht zur Verfügung und die Ergebnisse der Untersuchung sollten zumeist möglichst bald verfügbar sein. Um dennoch Aussagen über das Kollektiv treffen zu können, wird auf das Konzept der „repräsentativen“ Zufallsstichprobe zurückgegriffen.

Grundprinzip einer jeden Zufallsstichprobe ist es, zu Aussagen über das interessierende Kollektiv auf Basis einer kleinen Teilpopulation, die ihm entnommen wurde, zu gelangen. Genauer gesagt werden die unbekannten Parameter des Kollektivs – der sogenannten Grundgesamtheit – anhand der gemessenen Kennwerte (z. B. Mittelwerte, Anteilswerte) einer Stichprobe geschätzt.

Voraussetzung für die Generalisierung der gemessenen Werte auf die Grundgesamtheit ist laut landläufiger Meinung, dass die Stichprobe „repräsentativ“ für die Grundgesamtheit ist. Der Begriff der „Repräsentativität“ zielt darauf ab, dass die Stichprobe ein „ Abbild der Grundgesamtheit “ sein soll; in ihr sollen also die gleichen proportionalen Merkmalsverteilungen herrschen wie in der Grundgesamtheit selbst (Porst 1985: 88; von der Lippe et al. 2002: 3).

Im statistisch-mathematischen Sinne setzt der Inferenzschluss (i. e. die Generalisierung) ausschließlich und zwingend voraus, dass die Stichprobe durch eine echte Zufallsauswahl gewonnen worden ist (Allerbeck 1981: 34, Biemer 2003: 312).

Im Falle einer echten Zufallsstichprobe haben alle Elemente der Grundgesamtheit eine positive, berechenbare und im Idealfall die gleiche Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden (Diekmann 2006: 13). Bei einer einfachen Zufallsstichprobe beispielsweise werden die Stichprobenelemente nach einem reinen oder systematischen Zufallsprinzip direkt aus der Grundgesamtheit ausgewählt, so dass nicht nur die Bedingung positiver und berechenbarer Auswahlwahrscheinlichkeiten erfüllt ist, sondern auch, dass diese für jedes Stichprobenelement gleich groß sind.[3]

Das Konzept der Zufallsstichprobe setzt dabei zweierlei voraus: Erstens muss die Grundgesamtheit exakt abgrenzbar sein. Das bedeutet, dass eine „ sachliche, räumliche und zeitliche Definition der Menge von Elementen (möglich sein muss: SW) , für die die aus der Stichprobe gewonnenen Aussagen gültig sein sollen “ (Häder 2000: 2).

Zweitens müssen für alle Elemente der Grundgesamtheit diejenigen Informationen zur Verfügung stehen, die für die Stichprobenziehung notwendig sind; es muss also eine geeignete Auswahlliste existieren.

Diese sollte im Idealfall vollständig, aktuell, leicht zugänglich und nicht zu teuer sein. Vollständigkeit und Aktualität bedeuten, dass jedes Mitglied – und nur jedes Mitglied – der zu analysierenden Grundgesamtheit genau einmal – und nur einmal – in der Liste vertreten sein muss (Häder et al. 2006: 154).

Liegt eine so beschaffene Auswahlliste vor, ist der Idealfall der Übereinstimmung von Grund- und Auswahlgesamtheit (Biemer 2003: 64) gegeben.

Weiterhin ist zwischen der angestrebten und der realisierten Stichprobe zu differenzieren. Beide stimmen dann miteinander überein, wenn alle Elemente bzw. Individuen, die aus der Auswahlgesamtheit für die Stichprobe ausgewählt wurden, auch tatsächlich in die Stichprobe aufgenommen werden können und sich dazu bereit erklären, die ihnen gestellten Fragen (wahrheitsgemäß und vollständig) zu beantworten.

Wenn Grund- und Auswahlgesamtheit einerseits und angestrebte und realisierte Stichprobe andererseits miteinander übereinstimmen und wenn die Stichprobenziehung anhand eines zufälligen Verfahrens durchgeführt wurde, das die Berechnung der individuellen Auswahlwahrscheinlichkeiten (und somit gegebenenfalls die statistische Korrektur ungleicher Auswahlwahrscheinlichkeiten) ermöglicht, dann kann man die gemessenen Merkmale als Zufallsvariablen auffassen und somit das gesamte Instrumentarium der Inferenzsstatistik anwenden (Biemer 2003: 64, von der Lippe et al. 2002: 4f, Bamberg 2002: 135, Allerbeck 1981: 34).

Auch bei einer einfachen Zufallsauswahl weichen die gemessenen Werte der Stichprobe, aufgrund zufälliger Einflüsse, in der Regel von den wahren Werten in der Grundgesamtheit ab. Diese Art der Abweichung kommt im Begriff des Stichprobenfehlers zum Ausdruck. Der Stichprobenfehler hängt sowohl von der Varianz des gemessenen Merkmals in der Grundgesamtheit als auch von der Stichprobengröße ab. Die Größe der Stichprobe ist üblicherweise bekannt und die Varianz des zu messenden Merkmals kann auf Basis der Stichprobe geschätzt werden. Der Stichprobenfehler lässt sich somit, durch die Berechnung von Konfidenzintervallen und Irrtumswahrscheinlichkeit, statistisch kontrollieren. Außerdem kann er durch eine Erhöhung des Stichprobenumfangs reduziert werden. Dabei gilt, dass sich der Stichprobenfehler umgekehrt proportional zur Stichprobengröße verhält. Möchte man den Stichprobenfehler also halbieren, so müsste man die Stichprobengröße vervierfachen (Höpflinger 2001).

2.2 Das Stichprobenproblem

Kritisch kann die Schätzung der Parameter der Grundgesamtheit aber dann werden, wenn auch nichtzufällige Einflüsse wirken. Hierbei lassen sich im Rahmen der Stichprobenziehung zunächst drei mögliche Problembereiche[4] – die nicht völlig trennscharf sind und sich zum Teil gegenseitig beeinflussen – identifizieren (vgl. Faulbaum et al. 2006: 8):

1. Die Auswahlgesamtheit stimmt nicht mit der Grundgesamtheit überein (Frame Error).
2. Die Ziehung der Stichprobe erfolgt nicht zufällig.
3. Die realisierte Stichprobe weicht von der gezogenen Stichprobe ab.

Die mangelnde Kongruenz von Grund- und Auswahlgesamtheit hat zwei mögliche Ursachen (Biemer 2003: 64f). Erstens ist es denkbar, dass in der Auswahlliste Elemente aufgeführt werden, die gar nicht zur Grundgesamtheit gehören (overcoverage). Zweitens ist es möglich (und meist auch der Fall), dass Mitglieder der Grundgesamtheit von der Auswahlliste nicht erfasst werden (undercoverage). Overcoverage ist unproblematisch, wenn es sich um zufällige Fehler handelt und die betreffenden Fälle im Nachhinein aus der Stichprobe ausgeschlossen werden können. Problematisch ist overcoverage hingegen dann, wenn es in Form von ungleichen Auswahlwahrscheinlichkeiten (z. B. durch mehrfache Eintragung einer Person in einer Auswahlliste) auftritt und diese nicht berücksichtigt werden. Undercoverage wiederum führt dazu, dass bestimmte Elemente der Grundgesamtheit systematisch von der Stichprobe ausgeschlossen werden. Dadurch wird nicht nur das Prinzip der Zufallsauswahl gestört (Auswahlwahrscheinlichkeit der ausgeschlossenen Elemente = 0), sondern es kann auch, je nach Beschaffenheit der ausgeschlossenen Gruppe(n), zu systematischen Verzerrungen in den Daten kommen.

Gängige Praxis ist es, dem Frame Error dadurch zu entkommen, dass man einen „ argumentativen Trick “ anwendet und die Grundgesamtheit dergestalt redefiniert, dass sie mit der Auswahlgesamtheit übereinstimmt (Allerbeck 1981: 34; Landgrebe 1992: 19).

Eine Stichprobenziehung ist – abgesehen vom Fall des undercoverage bei gleichzeitig mangelhafter oder fehlender Redefinition der Grundgesamtheit – dann nicht mehr zufällig, wenn der Stichprobenplan selbst unzureichend ist und/oder wenn bei seiner Umsetzung nichtzufällige, subjektive Faktoren ins Spiel kommen. In einem solchen Fall wird die Grundlage der Inferenzsstatistik unterminiert.

Die Abweichung der realisierten von der anvisierten bzw. gezogenen Stichprobe wird durch sogenannte „Ausfälle“ verursacht, die bei jeder Stichprobe auftreten. Von einem Ausfall ist in diesem Zusammenhang dann die Rede, wenn das angestrebte Interview nicht durchgeführt werden kann. Im Allgemeinen unterscheidet man zwei Arten von Ausfällen: zufällige und nicht-zufällige bzw. systematische Ausfälle. Je nach Ausfalltypus sind unterschiedliche Auswirkungen auf die Daten zu erwarten.

2.3 Ausfalltypen und ihre Auswirkungen

Zufällige bzw. stichprobenneutrale Ausfälle lassen sich dadurch charakterisieren, dass der Ausfallgrund nicht mit den zu untersuchenden Merkmalen im Zusammenhang steht.

Typische stichprobenneutrale Ausfälle sind z. B. eine falsche bzw. nicht (mehr) existente Adresse, der Umstand, dass die Zielperson verstorben ist oder die Feststellung, dass die vermeintliche Zielperson gar nicht zur Grundgesamtheit gehört (vgl. overcoverage).

Zufällige Fehler verringern lediglich die Stichprobengröße und erhöhen somit den Stichprobenfehler, was sich bekanntermaßen durch eine Erhöhung des Stichprobenumfangs bekämpfen lässt.

Wären alle Ausfälle zufällig, so ließe sich die realisierte Stichprobe als Zufallsstichprobe aus der anvisierten Stichprobe auffassen und die Anwendung der Inferenzstatistik wäre – abgesehen von einer geringeren Schätzgenauigkeit – ohne Probleme möglich. Aber es gibt immer auch systematische bzw. nicht-stichprobenneutrale Ausfälle.

Diese sind dadurch definiert, dass bei ihnen die „ Variablen des Untersuchungsgegenstandes mit den Ursachen des Ausfalls zusammenhängen “ (Schnell zit. in Porst 1996: 6). Typische Beispiele und zugleich gängige Typisierungen für systematische Ausfälle sind

Verweigerung und

Nichterreichbarkeit.

Systematische Ausfälle werden unter dem Begriff der (Unit-)Nonresponse subsumiert.

Ebenso wie zufällige Ausfälle verringert Nonresponse die Stichprobengröße und somit die Schätzgenauigkeit. Zusätzlich kann Nonresponse jedoch auch systematische Verzerrungen – den sogenannten Bias – verursachen. Der Bias eines Messwertes errechnet sich aus dem Produkt des Anteils der Nichtrespondenten an der Ausgangsstichprobe einerseits und der Differenz (bezüglich dieses Merkmals) zwischen den Respondenten und den Nichtrespondenten andererseits (Biemer 2003: 91).

Aus diesem Grunde lässt er sich in der Regel nicht durch eine Erhöhung des Stichprobenumfangs auffangen, weil zu erwarten ist, dass auch bei den neu aufgenommenen Stichprobenelementen die gleichen oder zumindest ähnliche Ausfälle auftreten werden (Höpflinger 2001). Der Versuch der Kompensation von Nonresponse durch die Aufnahme zusätzlicher Fälle würde also nur dazu führen, „ dass sozusagen der falsche Wert mit größerer Genauigkeit getroffen wird “ (Diekmann 2006: 25).

Es ist zu betonen, dass grundsätzlich nicht nur davon ausgegangen werden muss, dass sich die Nonrespondenten von den Untersuchungsteilnehmern unterscheiden, sondern auch, dass es starke Unterschiede zwischen den Nichterreichbaren und den Verweigerern geben kann:

Nichterreichte und nicht-kooperative Personen unterscheiden sich z.B. bei demographischen Variablen untereinander stärker als die Non-Responses insgesamt von den Teilnehmern der Haupterhebung.“ (Erbslöh et al. 1988: 42f)

Nichterreichbarkeit korreliert mit sehr vielen markt- und sozialwissenschaftlich relevanten Variablen, wie etwa der Erwerbstätigkeit, der Zahl der Personen pro Haushalt, dem Alter, dem Postmaterialismus, dem Anteil der Grün-Wähler und vielen anderen (Schnell 2002). Diese Zusammenhänge werden deutlicher, wenn man sich die Differenzierung der Nichterreichbarkeit von Höpflinger (2001) vor Augen hält. Er unterscheidet zwischen leichter erreichbaren Personen (Hausfrauen, nichterwerbstätige Personen (Betagte, Arbeitslose), Heimarbeiter/innen, Kranke), schwer erreichbare Personen (v.a. jüngere, unverheiratete Personen, die aus beruflichen und/oder privaten Gründen eine erhöhte Mobilität aufweisen) und nicht erreichbaren Personen (Gefängnisinsassen, Spital-, Anstalts- und Heimbewohner). Letztgenannte Gruppe wird in der Regel von keiner Auswahlliste erfasst (vgl. undercoverage).

Dabei darf aber die Betonung jüngerer, unverheirateter Personen in der Gruppe der schwer Erreichbaren nicht darüber hinwegtäuschen, dass „ auch Schwererreichbare (…) keine homogene Gruppe sind “ (Schnell 2002).

Ebenso wie Nichterreichbarkeit hängen auch Verweigerungen mit soziodemographischen und sozioökonomischen Variablen zusammen. Zusätzlich können Verweigerungen direkt mit den zu messenden Einstellungen assoziiert sein (Höpflinger 2001).

So entwerfen beispielsweise Reuband et al. (2000: 161f) auf Basis einer Studie über das „Leben in Köln“ aus dem Jahr 1992 folgendes Sozialprofil von Verweigerern:

Personen, die sich Befragungen entziehen, haben überproportional oft niedrige Schulbildung. Es sind ältere (…) Personen mit niedrigem sozialem Aktivitätsniveau. Sie sind politisch weniger interessiert und weisen eine unterdurchschnittlich hohe lokale Identifikation auf.“

Ohne sich mit dem Fragenprogramm der besagten Studie auseinandergesetzt zu haben, kann man allein aufgrund des Themas („Leben in Köln“) und der Eigenschaften der ausgefallenen Zielpersonen (niedriges soziales Aktivitätsniveau, unterdurchschnittliche lokale Identifikation) mit einiger Berechtigung davon ausgehen, dass zentrale Untersuchungsvariablen überschätzt worden sind.

Ein weiteres Beispiel für die Auswirkungen von Nonresponse auf das Untersuchungsergebnis sei an dieser Stelle noch genannt: Cohen et al. (2002) kommen auf Grundlage einer Wiederholungsbefragung zum Thema Gesundheit zu dem Ergebnis, dass sich zwischen Respondenten und Nichtrespondenten signifikante Unterschiede hinsichtlich ihrer Sterblichkeit zeigten.

Unabhängig vom jeweils wirksamen Ausfallgrund kann das Ausmaß an Nonresponse durch die sogenannte Ausschöpfungsquote angegeben werden. Diese wird – ganz allgemein – dadurch berechnet, dass man von der Ausgangsstichprobe die stichprobenneutralen Ausfälle subtrahiert und die systematischen Ausfälle zu dem so erhaltenen „bereinigten Stichprobenbrutto“ ins Verhältnis setzt. Prinzipiell gilt, dass der potentielle Bias umso größer ist, je geringer die Ausschöpfungsquote ausfällt (Koch 1998: 67).

Diesem Umstand kann man dadurch begegnen, dass man sich entweder darum bemüht, die Ausschöpfungsquote zu erhöhen, um somit Verzerrungen zu verhindern bzw. abzumildern, oder indem man versucht, existierende Verzerrungen nachträglich zu kontrollieren bzw. sogar zu korrigieren. Mit beiden Strategien können zusätzliche Probleme verbunden sein.

2.4 Zwischenfazit

Während das theoretische Konzept der Zufallsstichprobe eindeutig definiert ist, kann man bei seiner empirischen Umsetzung vielen und unterschiedlichen Fallstricken begegnen. Es können insgesamt drei Problemkomplexe spezifiziert werden, die sich dazu anbieten, den zu Beginn dieser Arbeit gestellten Fragen nach a) der Adäquatheit der Methoden bzw. ihrer Anwendung und b) den Störfaktoren, die zu einem Auseinanderdriften von idealer und realer Wissenschaft führen, nachzugehen. Diese sind

1. Probleme aufgrund der Stichprobentechnik (Frame Error; Verletzung des Zufallsprinzips)
2. Probleme bei der Stichprobenrealisierung (Nonresponse) und
3. Probleme, die durch etwaige Gegenstrategien erzeugt werden können.

Alle drei Bereiche hängen mehr oder minder stark vom Typus des jeweiligen Datenerhebungsverfahrens ab (Faulbaum 2006: 8f). Aus diesem Grund werden zunächst die Entwicklung, die Bedeutung sowie relevante Spezifika der einzelnen Datenerhebungsverfahren skizziert.

3. Pluralisierung der Datenerhebungsverfahren

3. 1 Entwicklung und Bedeutung der verschiedenen Datenerhebungsverfahren

Das persönlich-mündliche (oder auch „Face-to-Face“-) Interview galt lange Zeit als „ Königsweg “ (Reuband et al 1996: 296) und somit als einzig akzeptierte Datenerhebungsform in der akademischen Sozialforschung.

Selbst die postalische Befragung fand – obwohl sie technisch möglich gewesen wäre – zunächst kaum Anwendung. Als aber die Ausschöpfungsquoten bei Face-to-Face-Befragungen sukzessive sanken und somit die Kosten dieses Erhebungsverfahrens stiegen, gewann die postalische Befragung immer mehr an Bedeutung. Letzteres ist unter anderem auch darauf zurückzuführen, dass das allgemeine Bildungsniveau in der deutschen Bevölkerung zunahm und damit verbunden auch die Kompetenz der Befragten, selbständig mit dem Fragebogen umzugehen. Zudem wurden die Techniken beim Einsatz der schriftlichen Befragung verbessert (vgl. Kap. 6.2.1.1), so dass sich die chronisch schlechten Rücklaufquoten verbesserten (Reuband et al. 1996: 297; Hopf et al. 1994: 33).

Mittlerweile wird die schriftliche Befragung als „ brauchbare Alternative “ zum Face-to-Face-Interview angesehen (Reuband et al. 1996: ebd.), allerdings findet sie weit weniger häufig Anwendung als die persönliche Befragung (vgl. Tabelle 1).

Die sukzessive Verbreitung von Telefonanschlüssen in der BRD ermöglichte es schließlich auch der akademischen Forschung, die Telefonbefragung als weitere Alternative zu akzeptieren. Während dieses Instrument in den 70er Jahren in der Marktforschung bereits längst zur Anwendung kam, wurde es von der Wissenschaft bis dato als „ quick and dirty “ verschrien (Diekmann 2006: 9). In den 80er Jahren des 20. Jahrhunderts erreichte die Telefondichte in Deutschland jedoch ein Niveau, das dem einer Vollversorgung nahe kam, so dass das Telefon als Medium für repräsentative Bevölkerungsumfragen immer interessanter wurde. In der Folge hat die telefonische Befragung innerhalb der letzten drei Jahrzehnte stark zugenommen.

Dieser Technisierung der Umfrageforschung durch das Telefon folgte in den 90er Jahren die Computerisierung. Das persönlich-mündliche Interview wurde zum CAPI (computer assisted personal interview) und die telefonische Befragung zum CATI (computer assisted telephone

interview) aufgerüstet. Gleichsam entwickelte sich mit der Verbreitung des Internets die Möglichkeit der Online-Umfragen. Letztere werden zwar vorwiegend von der Markt- und

Tabelle 1: Quantitative Interviews der Mitgliedsinstitute des ADM nach Befragungsart (in Prozent)

Abbildung in dieser Leseprobe nicht enthalten

Quelle: ADM 2007; überarbeitet

Meinungsforschung eingesetzt, finden aber zunehmend auch in der akademischen Sozialforschung Verwendung (Couper et al. 2004: 217).

Insgesamt betrachtet wurde also die „ frühere Dominanz des Face-to-Face-Interviews (…) abgelöst durch das gleichberechtigte nebeneinander verschiedener Interviewformen “ (Wiegand 2000: 13). Allerdings zeichnet sich in den letzten Jahren aufgrund des zunehmenden Einsatzes von onlinegestützten sowie von telefonischen Interviews eine Gewichtsverlagerung zulasten der schriftlichen Befragung ab (vgl. Tabelle 1).

3.2 Relevante Spezifika der einzelnen Verfahren

Neben der Form der Datenerhebung (persönlich-mündlich, telefonisch, schriftlich, online) und der Technologie, die bei der Erhebung eingesetzt wird (z. B. computerunterstützt, paper and pencil), lassen sich die einzelnen Verfahren auch danach unterscheiden, ob sie intervieweradministriert oder selbstadministriert sind.

Die Administrationsform ist sowohl für das Ausmaß von Nonresponse (vgl. Kap. 5.1 und 5.2) als auch für die Möglichkeit, Informationen über die Ausfälle zu erhalten, von großer Bedeutung. Zusätzlich spielen hinsichtlich der Ausfallproblematik technische und ökonomische Gesichtspunkte der einzelnen Datenerhebungsverfahren eine Rolle. Die wichtigsten dieser Aspekte werden im Folgenden skizziert. Messspezifische Probleme, die ebenfalls die Datenqualität beeinflussen, werden nur erwähnt.

Face-to-Face-Befragung

Bei persönlich-mündlichen Befragungen nimmt der Interviewer in mehrfacher Hinsicht eine zentrale Stellung ein. Er ist in der Interviewsituation präsent und kann somit sämtliche Umstände dokumentieren, die sich in irgendeiner Form auf die zu sammelnden Daten auswirken (z. B. Anwesenheit und Einflussnahme von Dritten). Ebenso steht er dem Befragten bei Rückfragen zur Verfügung und kann bei Problemen oder Unklarheiten mit dem Fragebogen flexibel reagieren.

Im Rahmen dieser Arbeit viel wichtiger ist jedoch, dass der Interviewer sozusagen die Schnittstelle zwischen dem Forscher und dem Untersuchungsobjekt ist. Er übermittelt wichtige explizite Informationen (z. B. über Thema, Dauer und Auftraggeber der Umfrage), aber auch zentrale implizite Informationen (Aussehen und Auftreten des Interviewers, Kleidung, Sprache, ...) an die Zielperson (Porst et al. 1998: 8). Beides ist für die Entscheidung über Teilnahme oder Nichtteilnahme an einer Befragung von großer Bedeutung. Dies gilt vor allem für allgemeine Bevölkerungsumfragen, weil diese in der Regel beim Befragten zu Hause durchgeführt werden und somit Zugang zur Wohnung der Zielperson verlangen. (Allerbeck 1981: 15; Neller 2005: 19). Der Interviewer muss der Zielperson daher mehr oder minder sympathisch und vertrauenserweckend erscheinen, um sie zur Teilnahme an der Befragung bewegen zu können. Ebenso sollte er fähig sein, mit kritischen Situationen umgehen zu können. Das heißt, er sollte unter anderem in der Lage sein, eine Verweigerung der Interviewteilnahme nach Möglichkeit zu vermeiden.

Kann ein Interview nicht realisiert werden, so obliegt es ihm auch, die genauen Ausfallgründe zu eruieren und zu dokumentieren, damit mögliche Verzerrungen der Daten abgeschätzt werden können.

Der Einsatz von Interviewern vor Ort kann also (trotz Reaktivität) für die Sicherung der Datenqualität von Vorteil sein. Allerdings ist er mit hohen Kosten verbunden; vor allem dann, wenn die anzustrebende Stichprobe relativ groß ist, ihre Elemente räumlich weit gestreut sind und die Interviewer qualifiziert und erfahren sein sollen.

Telefonische Befragung

Im Gegensatz hierzu zeichnet sich die telefonische Befragung durch niedrige Kosten aus. Zwar müssen die Verbindungsgebühren für die Telefonate getragen werden, aber diese sind, aufgrund des zunehmenden Konkurrenzkampfes nach der Liberalisierung des Telekommunikationsmarktes im Jahre 1989, stetig und deutlich gesunken. Zudem muss der Interviewer die Zielpersonen nicht vor Ort aufsuchen. Das bedeutet, dass sowohl die Anfahrtskosten als auch der Zeitaufwand, den es benötigt, von einem Befragten zum anderen zu gelangen, entfallen.

Aus zeitlichen und finanziellen Gründen ist es also prinzipiell möglich, viele Kontaktversuche zu unternehmen, um somit den Anteil der Nichterreichbaren zu reduzieren.

Ebenso wie beim Face-to-Face-Interview steht bei der Telefonbefragung die soziale Interaktion zwischen Zielperson und Interviewer im Zentrum. Allerdings fließt ein zusätzlicher Faktor ein, der sich als Forschungsrestriktion erweist: das Telefon.

Erstens schränkt das Telefon als Zugangsmedium die denkbare Stichprobe ein. Wer keinen Telefonanschluss besitzt, kann nicht befragt werden. Zweitens werden auch die Messinstrumente selbst eingeschränkt, weil sich die Befragung mit verbal vermittelbaren Inhalten begnügen muss. Und drittens bietet es dem zu Befragenden in zweifacher Hinsicht die Möglichkeit, sich dem Interview zu entziehen: Einerseits erschweren es zusätzliche Technologien

(z. B. Anrufbeantworter, Rufnummernerkennung), überhaupt einen Kontakt zur Zielperson herstellen zu können. Andererseits fällt es – wenn der Kontakt hergestellt werden konnte – der Zielperson bei der telefonischen im Gegensatz zur persönlich-mündlichen Befragung mitunter leichter, das Interview zu verweigern. Beide Befragungsformen sind zwar intervieweradministriert, jedoch ist die soziale Kontrolle bei der Telefonbefragung aufgrund der „ absence of a face “ (Porst et al. 1998: 12) weitaus geringer. Wortloses und unbegründetes Auflegen bereits in den ersten Gesprächssekunden (aber auch mitten im Interview) ist keine Seltenheit. Häder (2006: 160) betont daher die Bedeutung der Phase der Kontaktaufnahme und hierbei insbesondere der Auswahl der Zielperson. Beides ist entscheidend für die weitere Teilnahme- bzw. Vermittlungsbereitschaft derjenigen Person, die den Anruf entgegennimmt.

CATI/CAPI

Seit Mitte der 90er Jahre werden sowohl Face-to-Face- als auch telefonische Befragungen vermehrt durch die Verwendung von Computern unterstützt.

In beiden Fällen liegen die Vorteile des elektronischen Fragebogens in einer Ökonomisierung der Datenerhebung und in einer Steigerung der Datenqualität. Da die Daten schon während der Befragung elektronisch erfasst werden, entfallen unter anderem die Druckkosten für die Fragebögen sowie die Kosten für die Dateneingabe. Zudem stehen die Daten jederzeit zur Verfügung. Die Datenqualität kann außerdem durch den Einbau logischer Kontrollen (z. B. Plausibilitäts- und Konsistenzchecks, Rotation der Items und Antwortvorgaben zur Vermeidung von Reihenfolgeeffekten) und durch eine problemlose Anwendung auch komplexer Filterführungen gesichert werden.

Die Gewährleistung der Datenqualität beim CATI (nicht aber beim CAPI) bezieht sich jedoch nicht nur auf die Messung einzelner Variablen, sondern auch auf die Umsetzung des Stichprobenplans: die Zielrufnummern werden vom Computer generiert und dem Interviewer vorgegeben. Sämtliche Kontaktversuche werden gespeichert und der Supervisor[5] kann sich jederzeit bei einem Telefonat zuschalten. Zudem werden die Interviewer üblicherweise nach der tatsächlich geleisteten Arbeitszeit und nicht, wie bei Face-to-Face-Befragungen üblich, nach der Anzahl realisierter Interviews bezahlt (Jung 1990: 390). Das bedeutet, dass beim CATI weder Anreiz noch Möglichkeit zur Manipulation des Stichprobenplans besteht. Somit ist weitestgehend sichergestellt, dass die interviewten Personen auch tatsächlich zur anvisierten Stichprobe gehören.

Postalische Befragung

Während die persönliche Befragung – sei es vor Ort oder per Telefon – intervieweradministriert ist, so stellt die postalische Befragung eine selbstadministrierte Datenerhebungsform dar.

In Abwesenheit eines Interviewers muss der Fragebogen für sich alleine stehen. Dies bedeutet zunächst einmal, dass er leicht verständlich, übersichtlich und problemlos ausfüllbar sein muss. Doch diese gestalterischen Aspekte sind irrelevant, wenn der Fragebogen von der Zielperson gar nicht erst zur Hand genommen wird, weil bereits die Übermittlung des Fragebogens gescheitert ist. Daher muss dem Brief „ (s)chon von außen (…) anzusehen sein, dass es sich um eine wichtige Angelegenheit handelt, nicht um irgendeine beliebige Werbesendung, die gleich im Papierkorb abgelegt werden kann.“ (Allerbeck 1981: 16)

Zudem ist es wichtig, den zu Befragenden in einem Anschreiben über die Bedeutung seiner Teilnahme an der Umfrage aufzuklären.

Das zentrale Problem der postalischen Befragung ist es, dass keinerlei Informationen zur Verfügung stehen, wenn der Fragebogen nicht zurückgesandt wird. Man weiß nicht einmal, ob das Anschreiben die Zielperson überhaupt erreicht hat oder nicht. Allerdings ist das Verfahren auch weniger voraussetzungsvoll als die Telefonbefragung: der zu Befragende muss lediglich über einen festen Wohnsitz und einen Briefkasten (nicht jedoch über ein Telefon) verfügen.

Onlinegestützte Befragung

Onlinegestützte Erhebungsverfahren kann man differenzieren in WWW- und Email-Befragungen (Bandilla et al. 2000: 168f). Bei ersteren wird der Fragebogen auf einem Server abgelegt. Der zu Befragende muss die betreffende Internetseite selbständig aufrufen und die Fragen online beantworten. Ebenso wie bei CAPI und CATI kann die Datenerhebung – nicht aber die Umsetzung des Stichprobenplans – durch den Einbau logischer Kontrollen qualitativ aufgewertet werden. Allerdings sind WWW-Befragungen an zahlreiche Voraussetzungen gebunden: Der zu Befragende muss über einen Computer mit Internetzugang verfügen und die nötige Kompetenz für den Umgang mit diesem Medium besitzen. Zudem können vielfältige technische Hindernisse auftreten. Vor allem dann, wenn multimediale Komponenten in den Fragebogen eingebaut werden, scheitert eine Teilnahme oftmals daran, dass der Browser nicht aktuell genug ist bzw. die nötigen Plug-Ins oder aber Cookies nicht akzeptiert (Couper et al. 2004: 224). Außerdem kann es jederzeit zu Server-, Rechner- oder Netzwerkproblemen kommen (Engel et al. 2004a: 137).

Des Weiteren sind die Verbindungskosten vom Interviewten selbst zu tragen. Gerade bei langsamen Modem-Verbindungen kann das Ausfüllen des Fragebogens bei der WWW-Variante mit erheblichen zeitlichen und finanziellen Kosten verbunden sein, die nicht jeder zu tragen gewillt ist. Allerdings dürfte dieses Problem mit der Verbreitung sogenannter Flatrates sukzessive reduziert werden.

Bei Email-Umfragen wird der Fragebogen per Email versandt, im Idealfall ausgefüllt und anschließend wiederum per Email zurückgeschickt. Das Ausfüllen selbst ist offline möglich, so dass die Kosten für die Zielperson reduziert werden. Auch ist dieses Variante weniger störanfällig, weil z. B. keine multimedialen Anwendungen eingebaut werden können. Ansonsten aber stellt eine Email-Befragung die gleichen technischen Anforderungen wie eine WWW-Umfrage. Zusätzlich müssen auch die Emailadressen der Zielpersonen bekannt sein. Bei einer WWW-Umfrage kann dies ebenfalls Voraussetzung sein, muss es aber nicht.

Beide Online-Befragungsarten sind äußerst kostengünstig, da z. B. Interviewer-, Druck- und/oder Versandkosten für den Fragebogen entfallen (Wolling et al. 2003: 140f). Auch liefern sie schnelle Ergebnisse, weil die Dateneingabe entweder direkt erfolgt (WWW) oder relativ leicht umzusetzen ist (Email).

Jedoch sind sie in jedem Fall voraussetzungsvoller als andere Datenerhebungsverfahren. Zudem sind sie, ebenso wie postalische Befragungen, selbstadministriert. Über die Ursachen von Totalausfällen stehen keinerlei Informationen zur Verfügung.

Unabhängig davon, ob die Daten persönlich, telefonisch, postalisch oder onlinegestützt erhoben werden sollen, ist zunächst die Stichprobe zu bilden. Da die einzelnen Erhebungsarten spezifische Restriktionen aber auch Möglichkeiten mit sich bringen, haben sich unterschiedliche Stichprobenverfahren entwickelt. Diese werden nachfolgend skizziert und problematisiert, nachdem die Grundlagen für das Verständnis von komplexen Zufallsstichproben geschaffen worden sind.

4. Die Entwicklung der Stichprobentechniken – Einhaltung des Zufalls?

Noch im 19. Jhdt. glaubte man, dass nur eine Totalerhebung eine akkurate Messung der Parameter einer Population erlaubt. Erst um 1900 entwickelte der norwegische Statistiker Kiaer erstmals die Idee, dass eine kleine Stichprobe einer Population ausreicht, um die Parameter der Grundgesamtheit schätzen zu können. Kiaer nannte seine Idee die „ repräsentative Methode “. Repräsentativ war sie insofern, da sie versuchte, anhand ausgewählter Merkmale eine Miniaturgesellschaft zu modellieren, die hinsichtlich dieser Merkmale mit der Grundgesamtheit übereinstimmte. Die „repräsentative Methode“ war also nichts anderes als eine Quotenauswahl (Biemer 2003: 306).

Erst um 1930 führte der Engländer Bowley das Prinzip der einfachen Zufallsauswahl ein (ebd.). Seitdem hat sich das Repertoire an zufallsgesteuerten Auswahlverfahren und vor allem deren Umsetzung immens erweitert. Dies ist insbesondere für allgemeine Bevölkerungsumfragen von Interesse, da hier eine einfache Zufallsauswahl nicht immer möglich und/oder erkenntnistheoretisch nicht immer sinnvoll ist. Um diesen beiden Problemen zu begegnen, wurden immer komplexere Auswahlverfahren entwickelt.

Nicht möglich ist eine einfache Zufallsauswahl z. B. bei allgemeinen Bevölkerungsumfragen, die sich auf Face-to-Face-Interviews stützen: Da die Grundgesamtheit geographisch sehr weit gestreut ist und die Zielpersonen bei einer einfachen Auswahl über das gesamte Erhebungsgebiet verteilt wären, müssten die Interviewer weite Strecken zurücklegen, um überhaupt zu den Zielpersonen zu gelangen. Ein solches Vorgehen wäre äußerst zeit- und kostenintensiv (Kromrey 2000: 282f). Zudem setzt eine einfache Zufallsauswahl eine zentrale Auswahlliste voraus, die für allgemeine Bevölkerungsumfragen jedoch meist nicht verfügbar ist.

Daher wird in der Regel auf eine gestufte Zufallsauswahl zurückgegriffen. Hierbei wird der Auswahlprozess hierarchisch in mehrere Stufen untergliedert, wobei im Idealfall auf jeder Auswahlstufe das Zufallsprinzip angewandt wird und die Stichprobe der jeweils „höheren“ Stufe die Auswahlgesamtheit der jeweils „niedrigeren“ Stufe bildet.

Erkenntnistheoretisch nicht sinnvoll ist eine einfache Zufallsauswahl immer dann, wenn man den Kontext der Befragten berücksichtigen will. Das heißt: Wenn „ Die Aussagen (...) sich nicht auf die eigentlichen Merkmale (...) der befragten Personen oder Haushalte beschränken, sondern auch die Gegebenheiten der sozialen und/oder materiellen Umwelt berücksichtigen “ sollen (Kromrey 2000: 282).

Eine einfache Zufallsauswahl lässt den Kontext außen vor. Falls er jedoch von Interesse ist, so kann er im Rahmen einer geschichteten Zufallsauswahl berücksichtigt werden.

Hierbei wird die Grund- bzw. Auswahlgesamtheit anhand von erkenntnistheoretisch relevanten und bekannten Merkmalen in sogenannte Schichten unterteilt. Aus den Schichten werden dann getrennte Stichproben gezogen. Bei allgemeinen Bevölkerungsbefragungen gängig ist

z. B. die Unterteilung der Grundgesamtheit in alte und neue Bundesländer, da anzunehmen ist, dass sich die zu messenden Variablen in Ost- und Westdeutschland systematisch voneinander unterscheiden.

Die Schichtung kann sowohl proportional als auch disproportional erfolgen. Bei einer proportionalen Schichtung sind die einzelnen Subgruppen in der Stichprobe entsprechend ihrer Anteile an der Grundgesamtheit vertreten. Bei einer disproportionalen Schichtung werden in der Regel kleinere Subgruppen absichtlich überrepräsentiert, um die einzelnen Merkmale in dieser Subgruppe präziser messen zu können.

Stufung und Schichtung können kombiniert werden. Die allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) basiert zumeist auf einer mehrstufig disproportional (nach alten und neuen Bundesländern) geschichteten Zufallsauswahl.[6]

Während die Schichtung im Folgenden vernachlässigt wird, kommt der Stufung – neben anderen Aspekten – eine zum Teil große Bedeutung zu. Jedoch sollte nicht vergessen werden, dass die ungleichen Auswahlwahrscheinlichkeiten bei einer disproportional geschichteten Stichprobe vor der Datenanalyse durch eine sogenannte „Designgewichtung“ wieder ausgeglichen werden müssen.

4.1 Zufallsstichprobe auf Basis von Einwohnermeldeamtsregistern

Bei der Zufallsstichprobe auf Basis von Registern der Einwohnermeldeämter handelt es sich um ein zweistufiges Auswahlverfahren, das sowohl für Face-to-Face- als auch für postalische Befragungen, nicht jedoch für Telefonumfragen (Granato 1999: 58f), Anwendung finden kann.

Das zweistufige Vorgehen ist notwendig, weil für Deutschland kein Zentralregister aller gemeldeten Einwohner existiert. Wohl aber sind diese Informationen über die entsprechenden Behörden der einzelnen Städte und Gemeinden zugänglich.

Es gilt also zunächst, eine zufällige Auswahl von Städten und Gemeinden zu treffen. Da hinreichend genaue und aktuelle Informationen über die jeweilige Größe der einzelnen Ortschaften verfügbar sind, ist bei der Stichprobe der ersten Stufe eine Berücksichtigung der größenproportionalen Auswahlwahrscheinlichkeiten möglich (Rösch 1998: 103, Koch 2002: 14).[7]

Auf Basis der Einwohnermelderegister der so ermittelten Gebietskörperschaften wird in einem zweiten Schritt eine (systematische) Zufallsauswahl von Zielpersonen gezogen (Hoffmeyer-Zlotnik 2006: 24).

Dieses Verfahren bringt drei zentrale Vorteile mit sich: Erstens handelt es sich um eine echte Zufallsauswahl mit designbedingt gleichen Auswahlwahrscheinlichkeiten auf Personenebene (Koch 2002: 15). Die gleichen Auswahlwahrscheinlichkeiten der einzelnen Zielpersonen ergeben sich dadurch, dass eine Personenliste (und nicht wie z. B. beim ADM-Design eine Haushaltsliste (vgl. Kap. 4.2)) vorliegt. Zudem hat der Interviewer selbst keinerlei Einfluss auf die Auswahl der Zielpersonen; die Zufallsauswahl kann also vom Forscher kontrolliert werden.

Zweitens können dem Register, neben Namen und Anschrift, zusätzliche Informationen über die zu Befragenden entnommen werden. Sollte es zum Ausfall einer Zielperson kommen, so sind zumindest Geschlecht, Alter und Staatsangehörigkeit bekannt.

Drittens sind die Auswahllisten weitestgehend vollständig und relativ aktuell. Allerdings sind sie nicht perfekt. So werden z. B. Personen ohne festen Wohnsitz in Deutschland (Binnenschiffer, Obdachlose, deutsche Staatsangehörige mit dauerndem Wohnsitz im Ausland) nicht erfasst. Auch ist, trotz gesetzlicher Meldepflicht, „ die faktische Übereinstimmung zwischen Aufenthalt und behördlicher Meldung nicht gewährleistet “ (Salentin 1999: 117). So unterlassen vor allem Studenten und Ausländer bei einem Umzug – sei es innerhalb Deutschlands, vom Ausland nach Deutschland oder von Deutschland ins Ausland – oftmals die vorgeschriebenen Ab-, Um- oder Anmeldungen. Auch wenn ein Ortswechsel ordnungsgemäß gemeldet wird, so dauert es immer eine gewisse Zeit, bis der faktische Umzug auch tatsächlich registriert ist.

Obgleich die Zufallsstichprobe auf Basis von Melderegistern aus theoretischen Gesichtspunkten eigentlich das Mittel der Wahl sein müsste, wird sie nur relativ selten verwendet. Der Marktforschung stehen die relevanten Listen nicht zur Verfügung, da die Einsichtnahme den Nachweis eines öffentlichen und nicht-kommerziellen Interesses voraussetzt (ebd.). Der akademischen Sozialforschung hingegen sind die Listen prinzipiell zugänglich – aber meist zu teuer und in ihrer Anwendung zu zeitintensiv (Schneekloth et al. 2003: 52).

Eine probate Alternative – sowohl für persönlich-mündliche als auch für postalische Befragungen – scheint daher das ADM-Design zu bieten.

4.2 ADM-Design: Address-Random, Random-Route und Standard-Random

Noch in den 60er Jahren herrschte, aufgrund der hohen Kosten von Registerstichproben und in Ermangelung einer Alternative, die Quotenstichprobe vor. In den 70er Jahren jedoch entwickelte der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. (ADM) das sogenannte ADM-Master-Sample, das seitdem als Standard-Stichprobendesign in der Markt-, Media- und Sozialforschung angewendet wird (Koch 1997: 99; Koch 2002: 12f).

Das ADM-Design ist als dreistufiges Auswahlverfahren konzipiert: Zuerst werden Stimmbezirke (Sample Points) zufällig ausgewählt, innerhalb derer, im nächsten Schritt, eine Auswahl von Haushalten getroffen wird. In der daran anschließenden dritten Stufe des Auswahlverfahrens, werden innerhalb dieser Haushalte schließlich die Zielpersonen bestimmt.

Das ursprüngliche ADM-Design war jedoch mit einem Rückgang der Ausschöpfungsquoten und daher mit steigenden Kosten bei der Stichprobenrealisierung konfrontiert. In der Folge wurde das Master-Sample zunehmend modifiziert und vereinfacht (Hoffmeyer-Zlotnik

2006: 19).

Mittlerweile sind drei verschiedene Versionen des ADM-Designs zu unterscheiden: Address-Random (i. e. das ursprüngliche Master-Sample), Random-Route und Standard-Random. Alle drei Versionen basieren auf dem Grundprinzip der dreistufigen Auswahl und auf jeder dieser Stufen gibt es prinzipiell problematische Aspekte zu berücksichtigen. Zusätzlich weisen die drei Varianten erhebliche Unterschiede bezüglich der Strenge der Umsetzung des Zufallsprinzips und somit bezüglich der zeitlichen und finanziellen Kosten auf. Während das Address-Random hinsichtlich beider Aspekte hohe Anforderungen stellt, gilt das Standard-Random als günstigstes, aber auch fragwürdigstes Verfahren (Hoffmeyer-Zlotnik 2005: 25f; Koch 2002: 25 & 28f). Die gemeinsamen und spezifischen Probleme der Varianten des ADM-Designs werden im Folgenden für jede Stufe getrennt untersucht.

Stufe 1: Klumpeneffekt und Verzerrung durch Auswahl und Ausfall von Sample Points

Auf der ersten Auswahlstufe werden die Stimmbezirke ausgewählt. Die Stimmbezirke, auch „Sample Points“ genannt, sind nichts anderes als Gruppen von Auswahlelementen, die als „Klumpen“ bezeichnet werden können. Diese Klumpen – nicht mehr die Menge aller zur Grundgesamtheit gehörenden Elemente – bilden nun die Auswahlgesamtheit für die zweite Auswahlstufe. Klumpen neigen dazu, in sich relativ homogen und untereinander relativ heterogen zu sein. Ist dies der Fall, so sind sich die auf Basis der Klumpen gezogenen Stichprobenelemente ähnlicher als sie es bei einer reinen Zufallsstichprobe wären. Dieser sogenannte „ Klumpeneffekt “ ist zwar „ ökonomisch notwendig “, führt aber zu einer Reduktion der Varianz der zu messenden Merkmale und somit zur Erhöhung des Stichprobenfehlers (Jung 1990: 388, Schulte 1997: 149).

Zu kritisieren ist die Verwendung von Sample Points als Grundlage der Stichprobenbildung aber vorrangig aus anderen Gründen: Vor allem bei kurzen Feldzeiten ist es häufig unvermeidlich, dass ein Interviewer und mit ihm der komplette Sample Point[8] ausfällt (ebd.). Ein Sample Point kann auch dann ausfallen, wenn er als problematisch angesehen und vollständig durch einen anderen ersetzt wird. Eine derartige Substitution ist eine von allen Instituten akzeptierte Praxis, von der „ oft die ‚Hallig’ (als Synonym für Nicht-Erreichbarkeit) und die ‚Herbertstraße’ (als Synonym für das Rotlichtbezirk) “ betroffen sind (Hoffmeyer-Zlotnik 2006: 25). Unabhängig von der Ursache des Ausfalls eines Sample Points ist nicht nur mit einer Verzerrung der Daten zu rechnen (ebd.), sondern auch die Abkehr vom Zufallsprinzip zu akzeptieren. Alle potentiellen Zielhaushalte bzw. Zielpersonen der ausgefallenen Sample Points haben, ungeachtet ihrer ursprünglichen Auswahl wahrscheinlichkeit, keine Chance, in die Stichprobe aufgenommen zu werden.

Stufe 2: Identifizierung der Haushalte – unzureichende Richtlinien und subjektive Einflüsse

Innerhalb der Sample Points gilt es nun, die Zielhaushalte auszuwählen. Hierbei steht man vor dem Problem, dass mangels eines Melderegisters die Adressen der Zielhaushalte nicht bekannt sind. Aus diesem Grunde wird ein zufälliger „Startpunkt“ im Sample Point bestimmt, von dem aus der Interviewer nach bestimmten Begehungsrichtlinien eine Auflistung von Haushalten vornimmt (Koch 2002: 12f).

Beim Address-Random erfolgt die Auflistung im Vorfeld der Feldphase und die Stichprobenziehung im Institut.[9] Bei den Varianten Random-Route und Standard-Random hingegen werden die Haushalte während der Feldphase aufgelistet. In jedem Fall aber obliegt die Identifizierung der Haushalte der alleinigen Verantwortung des Interviewers. Die Einhaltung der Begehungsrichtlinien und die korrekte Auflistung der Haushalte durch den Interviewer kann vom Forscher nicht kontrolliert werden. Jedoch gibt es auf Seiten des Interviewers mitunter starke Anreize, von seinen Vorgaben abzuweichen (vgl. unten).

Unabhängig vom Einfluss des Interviewers sind bereits die Begehungsrichtlinien zu kritisieren. Um es mit den Worten von Mohler (2003: 13) auszudrücken:

Da durch die Begehungsunterlagen und Begehungsrichtlinien bestimmte Gebiete (z.B. Neubaugebiete, Adressen mit hohen Hausnummern in längeren Straßen, kleine Orte) praktisch keine Auswahlchance haben, verabschiedet man sich faktisch von einer Zufallsstichprobe mit berechenbaren Inklusionswahrscheinlichkeiten.“

Zudem kritisiert Schulte (1997: 150) die „ faktischen Schwierigkeiten, jeden Haushalt hinter einem Eingang und Klingelschild zu identifizieren.“

Selbst wenn es auf der ersten Auswahlstufe nicht zu einem Ausfall eines oder mehrerer Sample Points gekommen sein sollte, so gilt bereits auf der zweiten Stufe weniger das Prinzip des Zufalls als vielmehr das „ Prinzip Hoffnung “ (ebd.). Letzteres muss sehr stark ausgeprägt sein, wenn man sich zusätzlich noch die Schwierigkeiten der dritten Auswahlstufe vor Augen hält.

[...]


[1] Reader’s Digest Deutschland. Januar 2007. Stuttgart: Verlag Das Beste GmbH, S. 46

[2] Diese Formulierung darf nicht zu der Annahme verleiten, dass in der quantitativen Sozialforschung ausschließlich deskriptive Aspekte im Vordergrund stehen. Ganz im Gegenteil: die erhobenen Daten bilden nur die Grundlage für die Überprüfung von Hypothesen und somit von Kausalerklärungen.

[3] Bei der einfachen Zufallsauswahl kann die Ermittlung der einzelnen Stichprobenelemente durch eine reine oder eine systematische Zufallsauswahl erfolgen. In beiden Fällen sind die Auswahlwahrscheinlichkeiten für jedes Element der Auswahlgesamtheit vor dem Auswahlprozess gleich. Bei der reinen Zufallsauswahl werden die Stichprobenelemente unabhängig voneinander gezogen. Bei der systematischen Zufallsauswahl wird nur das erste zu ziehende Element zufällig bestimmt. Alle übrigen Elemente werden anschließend systematisch gezogen. Wenn die Auswahlliste systematisch und nicht zufällig geordnet ist, so können bei der systematischen Zufallsauswahl systematische Verzerrungen auftreten. (vgl. Kromrey 2000: 277ff)

[4] Im Folgenden nicht berücksichtigt werden a) Fehler, die im Zusammenhang mit dem Antwortprozess selbst stehen (Verweigerung einzelner Antworten (Item-Nonresponse), Messfehler durch Befragtenverhalten, Messfehler durch Interviewerverhalten, Fehler durch das Messinstrument) und b) bestimmte Fehler, die im Zusammenhang mit der Datenverarbeitung (z.B. falsche Dateneingabe, falsche Kodierung, mangelhafte Klassierung) auftreten können. (vgl. Faulbaum 2006: 8)

[5] Seit der Einführung von CATI werden telefonische Befragungen in der Regel nicht mehr dezentral, sondern nur noch zentral in einem Telefonlabor durchgeführt. Dort können die Interviewer von einer Aufsichtsperson (dem „Supervisor“) jederzeit kontrolliert werden.

[6] Die ALLBUS-Datensätze aus der Zeit vor der Wiedervereinigung Deutschlands sind nicht nach alten und neuen Bundesländern geschichtet.

[7] Hierbei stehen auch aggregierte demographische Daten zur Verfügung, so dass auch eine Schichtung nach diesen Merkmalen möglich ist.

[8] Jedem Sample Point ist ein einziger Interviewer zugeordnet.

[9] Unter anderem aus diesem Grunde ist das Address-Random-Verfahren das zeitaufwändigste und kostenintensivste der drei Verfahren.

Ende der Leseprobe aus 113 Seiten

Details

Titel
Das Stichprobenproblem in der empirischen Sozialforschung
Untertitel
Eine forschungshistorische und forschungssoziologische Studie
Hochschule
Otto-Friedrich-Universität Bamberg
Note
1.0
Autor
Jahr
2007
Seiten
113
Katalognummer
V87443
ISBN (eBook)
9783638022514
ISBN (Buch)
9783638921183
Dateigröße
1306 KB
Sprache
Deutsch
Schlagworte
Stichprobenproblem, Sozialforschung, Eine, Studie
Arbeit zitieren
Sebastian Wiesnet (Autor:in), 2007, Das Stichprobenproblem in der empirischen Sozialforschung, München, GRIN Verlag, https://www.grin.com/document/87443

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Das Stichprobenproblem in der empirischen Sozialforschung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden