Interviewerfälschungen in sozialwissenschaftlichen Umfragen. Leistungsfähigkeit statistischer Aufdeckungsmethoden und Verzerrungspotenzial


Masterarbeit, 2018
139 Seiten, Note: 1,0

Leseprobe

Inhalt

1. Einleitung

2. Grundlegende Definition und Abgrenzung des Forschungsinteresses
2.1 Begriffsdefinition
2.2 Arten von Interviewerfälschung
2.3 Fokus dieser Arbeit

3. Verortung von Interviewerfälschung im Framework des Total Survey Error

4. Forschungsstand
4.1 Ausmaß und Folgen von Fälschungen
4.2 Interviewer-Charakteristika und weitere Faktoren
4.3 Datenquellen und Verfahren zur Aufdeckung von Fälschungen

5. Theoretischer Hintergrund
5.1 Warum Fälschen Interviewer?
5.2 Wie unterscheiden sich Fälschungen von echten Interviews?

6. Durchführung der Fälschungsstudie
6.1 Forschungsdesign und methodisches Vorgehen
6.2 Datenbasis ALLBUS
6.3 Fragebogen für „Fälscher“
6.4 Ziehung der Fälschungsstichprobe und zur Verfügung gestellte Informationen
6.5 Studienteilnehmer und -Unterlagen
6.6 Pretest und Datenerhebung

7. Generierung der Fälschungsindikatoren

8. Ergebnisse
8.1 Angewandte statistische Tests auf Gruppenunterschiede
8.2 Deskriptive Analyse und Betrachtung von Gruppenunterschieden
8.3 Hypothesentests (logistische Regression)
8.3.1 Testung der Modellannahmen und Art der Effektinterpretation
8.3.2 Ergebnisse der logistischen Regression
8.4 Clusteranalytische Bestimmung der „at risk“-Interviewer
8.4.1 Vorstellung der angewandten Verfahren und Prüfung der Voraussetzungen
8.4.2 Durchführung der Clusteranalyse
8.5 Quantifizierung des Verzerrungspotentials (Studienreplikation)

9. Zusammenfassung und Diskussion

10. Quellenverzeichnis

11. Anhang

Tabellen

Tabelle 1: Erwartete Verteilung der Anfangsziffern nach Benford's Law

Tabelle 2: Merkmale, die den Studienteilnehmern zur Verfügung gestellt wurden

Tabelle 3: Deskriptive Analyse von Filter-Ratio

Tabelle 4: Auffällige Interviewer bei Filter-Ratio

Tabelle 5: Deskriptive Analyse von Others-Ratio

Tabelle 6: Auffällige Interviewer bei Others-Ratio

Tabelle 7: Deskriptive Analyse von Item-Nonresponse-Ratio

Tabelle 8: Auffällige Interviewer bei Item-Nonresponse-Ratio

Tabelle 9: Deskriptive Analyse von Extreme-Ratio

Tabelle 10: Auffällige Interviewer bei Extreme-Ratio

Tabelle 11: Deskriptive Analyse von Acquiescence-Ratio

Tabelle 12: Auffällige Interviewer bei Acquiescence-Ratio

Tabelle 13: Deskriptive Analyse von Rounding-Ratio

Tabelle 14: Auffällige Interviewer bei Rounding-Ratio

Tabelle 15: Deskriptive Analyse von Straightlining-Ratio

Tabelle 16: Auffällige Interviewer bei Straightlining-Ratio

Tabelle 17: Deskriptive Analyse von X2-Anfangsziffern

Tabelle 18: Auffällige Interviewer bei X2-Anfangsziffern

Tabelle 19: Aufsummierung der Auffälligkeiten der deskriptiven Analyse

Tabelle 20: Logistische Regression des Fälschungsstatus auf die Indikatoren

Tabelle 21: Zusammenfassung der Hypothesentests

Tabelle 22: Schätzung des Fälscher-Status

Tabelle 23: Distanzen der letzten 10 fusionierten Objekte: Average-Linkage

Tabelle 24: Distanzen der letzten 10 fusionierten Objekte: Average-Linkage

Tabelle 25: Distanzen der letzten 10 fusionierten Objekte: Single-Linkage

Tabelle 26: Distanzen der letzten 10 fusionierten Objekte: Single-Linkage

Tabelle 27: Zusammengefasste Ergebnisse aller 8 Clustervarianten

Tabelle 28: Auffällige Interviewer in den Clusteranalysen

Tabelle 29: Auffällige Interviewer deskriptive und Clusteranalyse gesamt

Tabelle 30: Angabe des Mean Standardized Bias (MSB) vor und nach dem Matching

Tabelle 31: Vergleich verschiedener Algorithmen bzgl. ATT und S.E

Tabelle 32: Vergleich der drei Modelle zwischen ALLBUS-Datensatz und Datensatz mit Fälschungen

Tabelle 33: Vergleich der Verteilung der Anfangsziffern des Einkommens mit Benford´s Law

Tabelle 34: Deskriptive Merkmalsverteilungen der Fälschungsstichprobe (metrische Merkmale)

Tabelle 35: Deskriptive Merkmalsausprägungen der Fälschungsstichprobe (nom. und kat. Merkmale)

Tabelle 36: Datenblatt mit Informationen für Studienteilnehmer (beispielhaft dargestellt für Teilnehmer 1)

Tabelle 37: Übersicht Replikationsstudie

Abbildungen

Abbildung 1: Fehlerquellen in Surveys

Abbildung 2: Visualisierung der beobachteten und erwarteten Anfangsziffernverteilung nach Benford

Abbildung 3: Screenshot Online-Fragebogen

Abbildung 4: Abbildung 4: Kennziffern der beruflichen Stellung (Liste 103)

Dokumente

Dokument 1: Anleitung für Teilnehmer der Fälschungsstudie

Dokument 2: Fälschungsfragebogen

1. Einleitung

Persönliche-mündliche Befragungen (engl. Face-to-Face Interviews) stellen aufgrund ihrer Vorteile hinsichtlich des Coverage und der Datenqualität einen bevorzugten Erhebungsmodus bei großen sozialwissenschaftlichen Umfragen, wie z. B. der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) oder dem European Social Survey (ESS), dar (European Social Survey 2018; GESIS 2017a; Groves et al. 2009). Interviewern1 kommt bei dieser Art der Befragung zweifellos eine Schlüsselrolle zu. Sie stellen das Bindeglied zwischen Forschern und Befragten dar und die Qualität der erhobenen Daten hängt, neben der Qualität des Fragebogens an sich, maßgeblich von ihrer Arbeit ab. Der Einsatz von Interviewern kann einerseits einige Vorteile mit sich bringen. Sie können Befragungspersonen über die jeweilige Studie aufklären, Vertrauen schaffen und zur Teilnahme motivieren. Dadurch können meist höhere Response-Raten erreicht werden. Des Weiteren kann ein Interviewer auch Hilfestellungen geben, wenn sich Verständnisprobleme bei Fragen oder bestimmten Aufgaben im Fragebogen ergeben (Diekmann 2011: 514 f.; De Leeuw und Hox 2008: 240 f.). Andererseits können sich jedoch auch Nachteile durch den Einsatz von Interviewern ergeben. Befragungspersonen neigen innerhalb einer direkten sozialen Interaktion besonders dazu, sozial erwünschtere Antworten zu geben, um sich in einem möglichst guten Licht darzustellen (Schnell et al.2011: 348; Dillman et al. 2009: 313). Dies kann in einem entsprechenden Measurement Bias resultieren. Neben der sozialen Erwünschtheit gibt es jedoch noch ein weiteres potentielles Problem bei der Befragung durch Interviewer, das im Gegensatz dazu nur recht selten erwähnt wird: Es kann vorkommen, dass ein Interviewer Fragebögen komplett oder teilweise selbst ausfüllt, und somit Daten generiert, ohne den Befragten die entsprechenden Fragen gestellt zu haben. Interviewerfälschung kann ein sehr gravierendes Problem darstellen und ebenfalls zu einem starken Measurement Bias führen. Erst Anfang dieses Jahres deckte das Magazin „Der Spiegel“ in einer Artikelserie auf, dass „Schummeleien“ in der Marktforschung keine Seltenheit sind und in der Branche mitunter sogar zum ganz normalen Usus gehören. In insgesamt 13 Artikeln, die auf einer großangelegten Recherche beruhen, ist bei Umfragen von regelmäßigen Daten- Manipulationen und -Fälschungen durch Interviewer und sogar Vorgesetzte die Rede (Spiegel Online 2018). Handelt es sich dabei um ein Problem, dass sich rein auf die Branche der Marktforschung begrenzt? Diese Frage lässt sich ganz klar mit Nein beantworten. Auch Meinungsumfragen und offizielle Erhebungen zu statistischen oder wissenschaftlichen Zwecken sind von dieser Problematik betroffen. Der Anteil an Fälschungen in sozialwissenschaftlichen Umfragen wird auf bis zu 5 Prozent geschätzt (Schnell 1991: 27).

In der vorliegenden Arbeit werden Total- und Teilfälschungen bei Face-to-Face-Befragungen thematisiert. Diese lassen sich dadurch charakterisieren, dass der Interviewer Angaben selbst fabriziert, anstelle diese von der eigentlichen Zielperson zu erfragen. Der eigentliche Schwerpunkt der Arbeit beruht dabei auf Teilfälschungen. Andere Arten des Abweichens von Vorgaben, wie z. B. die Befragung der Falschen Zielperson oder ein Proxy-Interview, sowie weitere mögliche Formen des Betrugs, wie z. B. das Kopieren und mehrfache Einfügen von identischen Fällen durch einen Vorgesetzten/Projektleiter (Blasius 2015) werden nur am Rande thematisiert. Gängige gründliche Qualitätskontrollen, wie die Durchführung von Re- Interviews (Bredl et al. 2013: 19 f.; Biemer und Stokes 1989), sind mit hohem Aufwand und hohen Kosten verbunden, weshalb sie sich meist auf eine Stichprobe der erhobenen Interviews begrenzen (Menold und Kemper 2014: 42 f.; Forsman und Schreiner 1991). Die Kontrolle von zufälligen Stichproben wiederum erweist sich als höchst ineffektiv (Li et al. 2011: 436). Im Fokus der empirischen Arbeit sollen daher Verfahren stehen, die es ermöglichen eine Gruppe von „at risk“-Interviewern, die eine erhöhte Wahrscheinlichkeit aufweisen, Interviews (teilweise) gefälscht zu haben (Hood und Bushery 1997), zuverlässig zu bestimmen. Gründlichere Kontrollen bzw. Re-Interviews können sich dann auf diesen Teil der Interviewer beschränken und somit effizient und zielgerichtet erfolgen. Wie Studien zeigen, erreicht man dadurch deutlich höhere Trefferquoten als bei Kontrollen von Zufallsstichproben (Li et al. 2011; Hood an Bushery 1997). Diesen Ansatz empfehlen auch Bredl et al. (2013) im Anschluss an ein extensives Literatur-Review. Moderne Erhebungsmodi, wie die Benutzung von Laptops bei Computer-Assisted-Personal-Interviews (CAPI), erschweren zwar durch neue Möglichkeiten der Kontrolle, wie zum Beispiel Zeitstempel, das („erfolgreiche“) Fälschen. Allerdings ist ein CAPI-Modus auch nicht immer verfügbar bzw. praktikabel und selbst wenn er zum Einsatz kommt noch keine Garantie dafür, dass die komplexen Berechnungen auch durchgeführt werden (Blasius 2014: 327 f.). Beim ALLBUS 2008 hat die Verwendung von CAPI zumindest auch nicht verhindert, dass manche Interviewer ihre Aufgabe bei einer großen Itembatterie „stark vereinfacht“ haben. Bei den verdächtigen Interviewern zeigen sich auffällig viele Antwortmuster mit nahezu identischen Angaben über alle 13 Items hinweg (Blasius und Thiessen 2013). Aus diesem Grund sollen im Zuge der vorliegenden Forschungsarbeit statistische Methoden getestet werden, um „at risk“-Interviewer rein auf Basis der erhobenen Umfrage-Daten ermitteln zu können. Hierfür werden Daten von Studienteilnehmern experimentell gefälscht, theoriegeleitete Indikatoren gebildet und diese dann mit uni-, bi- und multivariaten Verfahren analysiert. Zusätzlich wird eine Studie mit einem Datensatz, der etwa 5 Prozent an Fälschungen enthält, repliziert, um beispielhaft zu untersuchen, welche Folgen sich durch einen solch durchaus realistischen Anteil an Fälschungen im Hinblick auf Effektgrößen, Signifikanz und Schlussfolgerungen ergeben können.

Der Aufbau der weiteren Arbeit gliedert sich wie folgt: Zunächst wird das Verständnis von Interviewerfälschung in dieser Arbeit definiert, die verschiedene Arten von Interviewerfälschung dargestellt und das Forschungsinteresse genau abgegrenzt (Kapitel 2). Danach wird die Thematik im Framework des Total Survey Error verortet (Kapitel 3) und der Forschungsstand aufgearbeitet (Kapitel 4), bevor der theoretische Hintergrund erläutert (Kapitel 5) und die Indikatoren generiert werden (Kapitel 6). Im Anschluss daran, wird die Durchführung der experimentellen Fälschungsstudie detailliert dargelegt (Kapitel 7). Das darauffolgende, vorletzte Kapitel geht ausführlich auf alle Ergebnisse ein (Kapitel 8). Die Arbeit schließt mit einer Zusammenfassung der zentralen Ergebnisse mit anschließender Diskussion (Kapitel 9).

2. Grundlegende Definition und Abgrenzung des Forschungsinteresses

2.1 Begriffsdefinition

Unter dem Begriff der Interviewerfälschung (engl. interviewer cheating (Finn und Ranchhod 2017: 130; Schräpler 2010: 2) können eine Vielzahl an verschiedenen, von den Interviewer- Anweisungen abweichenden, Verhaltensweisen verstanden werden. Die American Association for Public Opinion Research (AAPOR), die führende Organisation für Demoskopie und Umfrageforschung in den USA, definiert Interviewerfälschung folgendermaßen:

„´Interviewer falsification´ means the intentional departure from the designed interviewer guidelines or instructions, unreported by the interviewer, which could result in the contamination of data. ´Intentional´ means that the interviewer is aware that the action deviates from the guidelines and instructions.“ (AAPOR 2003: 1).

Damit eine Interviewerfälschung vorliegt, müssen nach diesem Verständnis also zunächst einmal drei Bedingungen erfüllt sein: (1) Die Fälschung muss von einem Interviewer ausgehen. Auch wenn dies trivial erscheinen mag, ist es wichtig, hier eine klare Grenze zu ziehen. „Schummeleien“ durch andere Angestellte, die sich beispielsweise in Form einer Imputation fehlender Werte bzw. einer Duplikation ganzer Fälle durch Projektmitarbeiter oder Vorgesetzte äußern kann (Kuriakose und Robbins 2016: 283 f.; Blasius und Thiessen 2015: 480 f., 482, 489 f.; Blasius und Thiessen 2012: 67), fallen somit explizit nicht darunter (AAPOR 2003: 2). (2) Der Interviewer muss sich über seine Abweichung von den Anweisungen bzw. Regeln bewusst sein. Dies ist auf jeden Fall immer dann der Fall, wenn Daten bereits mit Vorsatz gefälscht werden. Unabsichtliche Fehler, z. B. aufgrund von Missverständnissen oder einer versehentlichen Auswahl der falschen Zielperson/Antwortkategorie, sind daher erst einmal nicht als Fälschung anzusehen. Sie werden allerdings zu solchen, wenn sich der Interviewer nachträglich über Fehler bewusst wird und Punkt 3 zutrifft. (3) Der Interviewer meldet seine Abweichung(en) dem auftraggebenden Institut nicht. Geschieht die Fälschung vorsätzlich, wird dies ohnehin der Normalfall sein. Handelt es sich ursprünglich um versehentliche Fehler des Interviewers, über die er sich aber im Nachhinein bewusst wird, werden diese, wenn er sie nicht angibt, auch als Fälschungen angesehen. Erst ab diesem Punkt entsteht auch ein konkretes Risiko, dass die gefälschten Daten auch tatsächlich in Umlauf kommen und bei Datennutzern zu falschen Rückschlüssen führen. Wie die AAPOR zusammenfasst, ist für die korrekte Bestimmung, ob es sich bei einer bestimmten Abweichung um eine Fälschung handelt, also immer auch eine Einschätzung der Intention und der tatsächlichen Kenntnis des betreffenden Interviewers von Nöten (AAPOR 2003: 2).

Für die AAPOR fallen folgende abweichende Verhaltensweisen unter Interviewerfälschung:

„a. fabricating all or part of an interview - the recording of data that are not provided by a designated survey respondent and reporting them as answers of that respondent;
b. deliberately misreporting disposition codes and falsifying process data (e.g., the recording of a refusal case as ineligible for the sample; reporting a fictitious contact attempt);
c. deliberately miscoding the answer to a question in order to avoid followup questions;
d. deliberately interviewing a nonsampled person in order to reduce effort required to complete an interview; or
e. otherwise, intentionally misrepresenting the data collection process to the survey management.“ (AAPOR 2003: 2)

Demnach gilt also ein Interview auch bereits dann als gefälscht, wenn der Interviewer zum Beispiel bei einer nicht kontaktierten Zielperson eine Verweigerung angibt oder einen falschen Haushalt bzw. eine falsche Zielperson im korrekten Haushalt befragt. Die Auflistung der AAPOR eignet sich auch gut als Ausgangspunkt für die nun folgende Betrachtung der verschiedenen Arten von Interviewerfälschung, da sie bereits einige gängige Unterscheidungen enthält.

2.2 Arten von Interviewerfälschung

Welche Formen von Interviewerfälschung gilt es zu unterscheiden? In diesem Abschnitt soll zunächst ein kurzer Überblick der wichtigsten Fälschungsformen in persönlich-mündlichen Befragungen gegeben werden, bevor im Anschluss daran auf den konkreten Fokus in dieser Arbeit eingegangen wird. Eine vollständige Fälschung, oder auch Totalfälschung, stellt die schwerwiegendste Betrugsform dar. Hierbei wird der Fragebogen vom Interviewer selbst ausgefüllt, ohne dass dieser den eigentlich zu befragenden Haushalt bzw. die eigentlich zu befragende Zielperson jemals kontaktiert hat (Bredl et al. 2012: 1; Koch 1995: 90). Das U.S. Census Bureau benennt diese Form der Fälschung als falsification oder auch fabrication. Ein weiterer, inoffizieller Begriff für dieses Vorgehen ist curbstoning. Dieser entstand bereits während der Erhebung des amerikanischen Zensus im 18. Jahrhundert, als beobachtet wurde, dass Interviewer auf dem Bordstein (engl. curbstone) stehend, die Anzahl der Personen in einem Haus abschätzten, ohne dieses zu betreten. Über die Zeit hinweg wurde der Begriff dann auch allgemein auf die Totalfälschung von Umfragen übertragen und hat mittlerweile Einzug in die Forschungsliteratur gefunden. Interviewer, die auf diese Art fälschen, werden auch als curbstoners bezeichnet (Schräpler 2010: 2). Von einer Teilfälschung (engl. partial falsification) spricht man hingegen, wenn der Interviewer während eines „Kurzinterviews“ ein paar grundlegende Daten direkt von der Zielperson erfragt und die restlichen Angaben dann selbst produziert. Bei den erfragten Daten handelt es sich klassischerweise um ein Repertoire aus soziodemografischen Informationen (Alter, Bildung, Familienstand, etc.), sowie teilweise einfachen Einstellungsfragen zum Beispiel zur Parteipräferenz (Menold und Kemper 2014: 42, 48). Auf Basis der gewonnenen Grundkenntnisse und daraus abgeleiteten Annahmen über diesen Menschen, füllt der Interviewer den restlichen Fragebogen später so aus, wie er es für plausibel hält (Blasius und Thiessen 2012: 67; Koch 1995: 90). Auch das Verkürzen von Interviews kann als eine Art der Teilfälschung angesehen werden. Hierbei lässt der Interviewer, während der laufenden Befragung und ohne Wissen des Befragten, einzelne Fragen weg oder beantwortet Filterfragen so, dass zusätzliche Fragen übersprungen werden (Schnell 2012: 230). Darüber hinaus gibt es noch zahlreiche weitere Varianten abweichender Verhaltensweisen, die nach der oben genannten Definition von AAPOR zu den Fälschungen durch Interviewer zu zählen sind. Die wichtigsten werden im Folgenden kurz angesprochen. So können Interviewer bewusst die vorgegebenen Auswahlregeln (wie z. B. die Anwendung der sogenannten „Geburtstagsmethode“ oder des „Schwedenschlüssels“) missachten und das Interview anstelle der Zielperson mit einer anderen Person führen, die beispielsweise leichter erreichbar oder kooperationsbereiter ist (Koch 1995: 90). Ebenso ist es möglich, ein sogenanntes Proxy-Interview zu führen, bei dem die Informationen, die die eigentliche Zielperson selbst geben soll, von einer anderen Person im Haushalt, wie z. B. dem (Ehe- )Partner, erfragt werden (Schnell 2012: 230). Eine weitere Fälschungsform besteht darin, unerlaubt den Befragungsmodus zu ändern, also zum Beispiel das Interview telefonisch durchzuführen, wenn persönlich-mündlich vorgeschrieben ist. Die letzte hier angesprochene Betrugsform ist eine Fehlklassifikation von Zielpersonen. Interviewer können kontaktierte Personen beispielsweise als nicht zur Zielgruppe gehörend einordnen, wenn sie in Wirklichkeit das Interview verweigert haben. Dies macht für den Interviewer insofern Sinn, als dass sich stichprobenneutrale Ausfälle im Gegensatz zu Verweigerungen nicht auf ihre Erfolgsquote realisierter Interviews auswirken (Koch 1995: 102; Schreiner et al. 1988: 491, 493). Unter diese Art der Fälschung ist auch die Angabe von fingierten Kontaktversuchen einzuordnen, bei denen beispielsweise eine Verweigerung oder ein stichprobenneutraler Ausfall angegeben wird, ohne überhaupt einen Kontakt mit der Zielperson hergestellt zu haben (AAPOR 2003: 2).

2.3 Fokus dieser Arbeit

Das grundlegende Verständnis von Interviewerfälschung dieser Arbeit orientiert sich an dem der AAPOR (2003: 2). Eingeschränkt wird dieses allerdings deutlich in Bezug auf die Reichweite des Begriffs. Im Folgenden sollen unter Interviewerfälschung nur diejenigen Betrugsformen gefasst werden, bei denen der Interviewer tatsächlich Angaben selbst fabriziert, anstelle diese von der eigentlichen Zielperson zu erfragen. Dies trifft also auf Total- und Teilfälschungen zu. Alle anderen Arten der Abweichung von Regeln und Vorgaben, die beispielsweise die Auswahl der Zielperson, den Befragungsmodus oder die Klassifikation der Zielperson betreffen können, werden ausgeblendet. Dieses Vorgehen hat hauptsächlich die folgenden vier Gründe: (1) Als erstes ist hier zu nennen, dass es sich bei Total- und Teilfälschungen sicher um die „klassischen“ Formen der Fälschung handelt, also das, was den meisten Menschen bei dem Begriff Fälschung als erstes in den Sinn kommt. Bei diesen Fälschungsarten handelt es sich zudem um die (2) am häufigsten vorkommenden (Schreiner et al. 1988: 493) und (3) schwerwiegendsten Formen. (4) Im Fokus dieser Arbeit stehen quantitative Indikatoren und statistische Methoden, die dazu beitragen können, eine Gruppe von verdächtigen („at risk“) Interviewern, zuverlässig und mit möglichst hoher Trefferquote an tatsächlichen Fälschungen, von der Gruppe aller nicht-verdächtigen Interviewer zu trennen. Bei den meisten anderen Abweichungen von Regeln oder Vorgaben lassen sich im Normalfall in den eigentlichen Umfragedaten wenig bis keine Hinweise auf verdächtige Interviewer finden, was bedeutet, dass auch statistische Verfahren hier oft nicht viel weiterhelfen können. Meist kann das Vorliegen solcher Fälschungsformen nur überprüft werden, indem die Zielpersonen erneut kontaktiert werden (Schnell 2012: 230), der Auswahlprozess (inklusive einer etwaigen Random-Walk-Anweisung und/oder Geburtstagsmethode) rekonstruiert wird (Blasius 2014: 325 f.; Blasius und Thiessen 2013: 70) oder wie im Falle der Fehlklassifikation weiterführende Paradaten analysiert werden.

Obwohl in dieser Arbeit sowohl Total- als auch Teilfälschungen thematisiert werden, liegt der eigentliche Schwerpunkt auf letzteren. Der Hauptgrund dafür ist, dass Teilfälschungen deutlich schwieriger zu entlarven sind, da der Interviewer ja tatsächlich im jeweiligen Haushalt war und zumindest ein paar Fragen (insbesondere solche, die leicht nachgeprüft werden können) gestellt hat (Blasius und Thiessen 2012: 67; Blasius und Friedrichs 2012: 51, 53 f.). Die Wahrscheinlichkeit erwischt zu werden, ist dadurch geringer (Blasius und Friedrichs 2012: 53 f.; Schnell 1991: 28). Bei Totalfälschungen hingegen, können bereits routinemäßige Kontrollanrufe bei den Zielpersonen Aufschluss darüber geben, ob ein Interview stattgefunden hat oder nicht (Blasius und Thiessen 2013: 70). Des Weiteren gelten Teilfälschungen gegenüber Totalfälschungen auch als für Interviewer einfacher umsetzbar, da nicht alle Angaben komplett „an den Haaren herbeigezogen“ werden müssen (Menold und Kemper 2014: 42; Schnell 2012: 230). In zwei experimentellen Untersuchungen kann gezeigt werden kann, dass sich Teilfälschungen von Meinungs- und Verhaltensfragen, vor allem hinsichtlich von Randverteilungen und univariaten Statistiken, aber größtenteils sogar auch bei multivariaten Analysen, nur erstaunlich gering von echten Interviews unterscheiden (Schnell 1991; Reuband 1990). Es ist also gut möglich, dass Teilfälschungen häufig erst gar nicht identifiziert werden. All dies führt zu der Vermutung, dass Teilfälschungen auch häufiger vorkommen als vollständige Fälschungen (Blasius und Friedrichs 2012: 54; Moser und Kalton 1985: 389 f.; Evans 1961). Die ausgeführten Punkte in diesem Abschnitt liefern also genug Gründe, speziell Teilfälschungen in das Zentrum des Forschungsinteresses zu stellen. Nichtsdestotrotz erscheint es sinnvoll, vollständige Fälschungen nicht gänzlich von der Betrachtung auszuschließen. Denn zwischen Total- und Teilfälschungen gibt es durchaus Gemeinsamkeiten. In beiden Fällen werden tatsächliche Umfragedaten von eigentlich zu befragenden Zielpersonen durch Interviewer „imputiert“. Zudem ist dadurch, dass bei Teilfälschungen im Normalfall nur einige wenige Fragen gestellt werden, davon auszugehen, dass auch hier sehr große Anteile der Daten in betroffenen Interviews gefälscht bzw. vom Fälscher „logisch geschlussfolgert“ sind. Zwar kann die Qualität gefälschter Interviews durch die zur Verfügung stehenden Basisinformationen bei Teilfälschungen höher sein, sie ist es aber auch nicht zwangsläufig. Viele Indikatoren, die zur Aufspürung von Totalfälschungen (ohne erneute Kontaktierung der Zielpersonen) erforscht und diskutiert werden, könnten somit auch im Hinblick auf Teilfälschungen wertvolle Hinweise liefern. Zusammenfassend macht auch aus einer Rational-Choice-Perspektive das Erstellen von Teilfälschungen durchaus Sinn: Grundlegende und durch das Umfrageinstitut einfach zu überprüfende Daten werden korrekt abgefragt, während Item-Batterien und andere zeitintensive Fragen gefälscht (oder übersprungen) werden. Dadurch kann zum einen die Befragungszeit erheblich verringert werden und zum anderen ist auch ein Nachweis des Betrugs schwieriger als bei Totalfälschungen. Denn schließlich hatte der Interviewer ja tatsächlich persönlichen Kontakt mit der Zielperson und hat ihr zumindest einige Fragen gestellt (Blasius und Thiessen 2012: 67).

3. Verortung von Interviewerfälschung im Framework des Total Survey Error

In diesem Kapitel erfolgt zunächst eine kurze, allgemeine Darstellung des Total Survey Error Frameworks nach Grove et al. (2009), bevor im Anschluss daran das Thema „Teilfälschungen durch den Interviewer“ in diesem verortet wird. Wie in Abbildung 1 ersichtlich, gibt es bei Umfragen zwei parallele Dimensionen der Inferenz: Die Dimension der Messung von Konstrukten beschreibt in insgesamt vier Stufen, um was es in einer Umfrage thematisch geht und welche Daten hierfür konkret über die Beobachtungseinheiten gesammelt und schlussendlich beibehalten werden. Die Dimension der Repräsentativität beschreibt in fünf Stufen hingegen, über welche Personengruppen in dem jeweiligen Survey Aussagen gemacht werden können. Hier geht es also darum, welche Populationen eine Umfrage abdeckt und welche Maßnahmen (z. B. Gewichtung) für eine möglichst gute Repräsentativität angewandt werden (Groves et al. 2009: 41). Betrachtet man den Umfrageprozess nun aus einer qualitativen Perspektive, so stehen die in der Abbildung in Ovalen dargestellten Qualitätskonzepte im Mittelpunkt, bei denen man mit Ausnahme der Validität im Allgemeinen von Fehlern spricht. Diese beziehen sich auf Probleme, die durch Fehlanpassung zwischen jeweils zwei aufeinander folgenden Stufen hervorgerufen werden können. Summiert man alle potentiellen Fehler bzw. Störgrößen in einer Umfrage auf, so erhält man den Total Survey Error. Wichtig ist hierbei noch anzumerken, dass Surveys nicht als Ganzes anhand der Qualitätskonzepte bzw. des Total Survey Errors beurteilt werden können, sondern immer nur getrennt nach einzelnen statistischen Maßzahlen (wie z. B. Mittelwert oder Regressionskoeffizient). Ein und derselbe Survey kann nämlich durchaus hinsichtlich einer bestimmten statistischen Kenngröße eine hohe Qualität und gleichzeitig bei einer anderen eine niedrige Qualität aufweisen (Groves et al. 2009: 49).

Abbildung 1: Fehlerquellen in Surveys

Abbildung in dieser Leseprobe nicht enthalten

Quelle: eigene Darstellung nach Groves et al. 2009: 48

Im Kontext dieser Arbeit ist nun ein Qualitätskonzept von besonderer Relevanz: Bei Total- und Teilfälschungen durch Interviewer handelt es sich um eine Form des Measurement-Fehlers. Unter einem Measurement-Fehler versteht man im Allgemeinen eine Abweichung zwischen dem wahren und dem angegebenen Messwert einer Befragungseinheit. Dies kann in einer realen Befragungssituation zum Beispiel gut anhand von Fragen zu Verhaltensweisen, wie dem Drogenkonsum, verdeutlicht werden, die als sozial unerwünscht gelten. Personen tendieren dazu, solche Verhaltensweisen auch dann zu verneinen, wenn sie in Wirklichkeit zutreffen, um sich in einem besseren Licht darzustellen, oder weil sie sich schlicht dafür schämen (Phänomen der sozialen Erwünschtheit). Ist ein solches Antwortverhalten üblich und geschieht systematisch über verschiedene Befragte hinweg, ergibt sich dadurch eine Diskrepanz zwischen dem angegebenen und dem wahren Messwert. Betrachtet man dann beispielsweise den Mittelwert der Stichprobe, würde man den Anteil an Personen, die in ihrem Leben Erfahrungen mit Drogen gemacht haben, wahrscheinlich deutlich unterschätzen. Jede Messung kann nun wiederum als eine von theoretisch unendlich vielen innerhalb der Grundgesamtheit angesehen werden. Ist die Abweichung des angegebenen Werts vom wahren Wert systematisch, ist sie also über verschiedene Messungen hinweg existent und zeigt in dieselbe Richtung, kann sich daraus eine Antwortverzerrung (engl.: Response Bias) ergeben. Die „Verzerrung“ zeigt sich dann in einer Differenz zwischen dem erwarteten Wert über alle Messungen hinweg und dem wahren Schätzwert (Groves et al. 2009: 52 f.). Neben systematischen Abweichungen kann auch eine Instabilität im Antwortverhalten zu einem Problem werden. So kann es zum Beispiel vorkommen, dass Personen bei der Beantwortung bestimmter Fragen, neben den durch den Fragebogen bedingten Reizen, auch auf andere Stimuli der direkten Messumgebung reagieren. Da es sich hierbei um einen recht willkürlichen Prozess handelt, ergibt sich in diesem Fall eine Antwortvariabilität (engl. Response Variance), die bei Durchführung mehrerer Messungen zu unterschiedlichen Schätzwerten führen würde. Diese können aufgrund der geringen Reliabilität der Antworten nicht nur stark voneinander abweichen, sondern sich auch als gegenläufig erweisen (Groves et al. 2009: 53). Angewandt auf den Kontext dieser Arbeit, können sich durch beide hier vorgestellte Arten des Measurement-Fehlers Probleme ergeben. Zunächst einmal sind einem Fälscher die wahren Antworten auf die gefälschten Fragen natürlich nicht bekannt. Selbst, wenn er aufgrund der meist wenigen Daten, die während eines Kurzinterviews gewonnen werden, in den ein oder anderen Bereichen gute Rückschlüsse ziehen kann, werden sich so auch immer Abweichungen zwischen den von einem Fälscher angegebenen und den wahren Werten ergeben, die Schätzwerte verzerren können. Zum einen ist es, bedingt durch fehlende Kenntnisse oder falsche Vermutungen, sehr wahrscheinlich, dass Fälscher in den von ihnen „ergänzten“ Teilen der Fragebögen Häufigkeiten bzw. Anteile, in denen bestimmte Einstellungen oder Verhaltensweisen auftreten, systematisch über- bzw. unterschätzen. Zum anderen ist es auch plausibel, dass Fälscher Fragen, die für sie in keiner besonderen Verbindung zu grundlegenden Charakter- oder Soziodemografischen-Eigenschaften stehen, mit einer gewissen Willkür beantworten. Und selbst bei Fragen, die eine solche Verbindung aufweisen, kann das „Antwortverhalten“ Zufallsschwankungen unterworfen sein. So ist die Einschätzung einer Befragungsperson während eines Kurzinterviews ein recht individueller Prozess und kann von Fälscher zu Fälscher anders ausfallen. Ebenso kann die Einschätzung durch verschiedene situationelle Faktoren, wie beispielsweise die aktuelle Stimmungslage der Befragungsperson, variieren. In allen drei Fällen würde sich in dem gedanklichen Experiment einer wiederholten Kurzbefragung derselben Zielperson mit anschließender Fälschung der restlichen Angaben, eine Instabilität im „Antwortverhalten“ des Fälschers zeigen.

4. Forschungsstand

4.1 Ausmaß und Folgen von Fälschungen

Angaben über das konkrete Ausmaß an Fälschungen in Umfragen sind auch in der entsprechenden Forschungsliteratur selten zu finden. Das U.S. Bureau oft the Census entdeckte in den 15 in ihrer Verantwortung liegenden Surveys im Zeitraum von September 1982 bis August 1987 insgesamt 205 Interviews, bei denen auf irgendeine Weise betrogen wurde. Bei 162 (72 Prozent) der Betrugsfälle handelt es sich um Fälschungen (Schreiner et al. 1988). Beim Sozio-oekonomische Panel (SOEP) beinhalteten die jeweils ersten Wellen der Samples A bis F1 zwischen 0,1 und 2,4 Prozent an gefälschten Interviews. Über alle Samples hinweg waren dies 184 Fälle bzw. 0,6 Prozent (Schräpler und Wagner 2005). Und auch beim ALLBUS 2008 haben manche Interviewer mit großer Wahrscheinlichkeit zumindest Teile des Fragebogens gefälscht (Blasius und Thiessen 2013). Betrachtet man Länder außerhalb von Europa und Amerika, so weisen Studien dort sogar auf höhere Fälschungsanteile hin. In einem großangelegten Survey in Südafrika (South Africa’s longitudinal National Income Dynamics Study) erwiesen sich etwa 7 Prozent der Interviews als Fake (Finn und Ranchhod 2017). Ein krasses Beispiel, dass dieser Anteil noch viel höher ausfallen kann, liefert die Studie von Bredl et al. (2012). Nachdem sich in einer Umfrage in einem ehemaligen Land der Sowjetunion (wurde nicht genauer spezifiziert) erste Verdachtsmomente ergaben, stellte sich hier heraus, dass sogar alle 42 zu diesem Zeitpunkt vorliegenden Interviews gefälscht waren.

Welche Folgen können nun vollständige und teilweise gefälschte Interviews für Datennutzer mit sich bringen? Generell zeigen sich univariate Analysen gegenüber Fälschungen als relativ robust, so lange der Anteil an gefälschten Interviews nicht allzu hoch und/oder die Qualität der Fälschungen gut ist (Finn und Ranchod 2017; Schräpler und Wagner 2003; Schnell 1991). Bei multivariaten Analysen ergibt sich hingegen ein differenzierteres Bild. Bei Simulationen von Schnell zeigen sich bei einer linearen Regression mit 4,8 Prozent an Fälschungen zwar keine substanziellen Unterschiede in den Koeffizienten, jedoch nimmt auch hier die Verzerrung mit dem Anteil an Fälschungen zu. Außerdem betont er, dass bei multivariaten Analysen je nach individuellem Anwendungsfall auch bereits einige wenige Fälschungen starke Verzerrungen hervorrufen können (Schnell 1991). Bei Schräpler und Wagner zeigen sich bei Betrachtung des SOEP-Samples E mit einem Anteil von nur 2,4 Prozent an Fälschungen bereits beträchtliche Verzerrungen hinsichtlich eines Korrelations- und einiger Regressionskoeffizienten (Schräpler und Wagner 2005; 2003). In einer Studie von Finn und Ranchod zeigen sich bei etwa 7 Prozent an „Fakes“ zwar kaum Unterschiede bei einer querschnittlichen linearen Regression, dafür aber umso deutlichere Verzerrungen in einer längsschnittlichen First-Difference-Regression (Finn und Ranchod 2017). Insgesamt lässt sich somit festhalten, dass Fälschungen besonders bei multivariaten Analysen sehr problematisch sein können.

4.2 Interviewer-Charakteristika und weitere Faktoren

Über die Zusammenhänge zwischen bestimmten Merkmalen von Interviewern und der Wahrscheinlichkeit, Interviews zu fälschen, ist bislang relativ wenig bekannt. Mehrere Studien liefern jedoch Hinweise darauf, dass es den ein oder anderen relevanten Faktor geben könnte. Eine Rolle scheint hierbei die Dauer des Beschäftigungsverhältnisses der Interviewer zu spielen. Basierend auf Umfragen des U.S. Census Bureau in den 1980er Jahren, zeigt sich, dass die Beschäftigungsdauer von Interviewern, denen eine Fälschung nachgewiesen werden konnte, im Durchschnitt 1,72 Jahre beträgt (S.D. = 0,26), und damit deutlich unter dem gesamten Durchschnitt aller Interviewer von 6,22 Jahren liegt. Es ist jedoch anzumerken, dass in dieser Studie unter Interviewerfälschung neben den „klassischen“ Fälschungsformen auch andere Abweichungen, wie ein falscher Befragungsmodus, Proxy-Interviews und Fehlklassifikationen gefasst werden. Nach Betrachtung aller Ergebnisse kommen die Autoren zu dem Schluss, dass die Fälschungswahrscheinlichkeit eines Interviewers umso höher ist, je kürzer dessen Beschäftigungsverhältnis andauert (Schreiner et al. 1988). Unterstützung erhält diese These durch eine Untersuchung auf Totalfälschungen im SOEP, in der die Autoren beschreiben, dass alle 9 entlarvten Fälscher zum ersten Mal für die Panelstudie tätig waren (Schäfer et al. 2004: 4).

Was könnten die Gründe dafür sein, dass Fälschungen bei Interviewern mit geringerer Beschäftigungsdauer häufiger auftreten? Einen möglichen Grund könnte darstellen, dass unerfahrene Interviewer sich schlichtweg nicht über Art und Effektivität der durchgeführten Qualitätskontrollen bewusst sind, und sie das Risiko aufzufliegen dadurch unterschätzen. Dies wird zumindest in Bezug auf das SOEP vermutet, bei dem aufgrund der Panelstruktur Fälscher durch sogenannte Konsistenzchecks (Vergleiche der Angaben der selben Befragungsperson zwischen zwei Erhebungszeitpunkten) verhältnismäßig leicht zu entlarven sind (Schäfer et al. 2004: 4). Bei allen erfahrenen Interviewern dürfte das Wissen um das hohe Risiko in einem solchen Studiendesign entdeckt zu werden, hingegen dazu führen, dass im Normalfall keine Total- oder Teilfälschungen angefertigt werden. Mehrere Autoren stimmen auch dahingehend überein, dass unerfahrene Interviewer aufgrund eines höheren Fälschungsrisikos eine besondere Aufmerksamkeit bei Kontrollen erfahren sollten (Turner et al. 2002: 9; Biemer und Stokes 1989: 36; Schreiner et al. 1988: 496). Untersuchungen, die auf der 1982 gestarteten Interviewer Falsification Study des U.S. Census Bureaus beruhen, weisen auch tatsächlich auf Unterschiede zwischen erfahrenen und unerfahrenen Fälschern hin. Hood und Bushery (1997) berichten, dass neue Interviewer (mit weniger als 5 Jahre Erfahrung) eine höhere Wahrscheinlichkeit aufweisen, beim Fälschen erwischt zu werden. Sie tendieren im Falle eines Betruges dazu, einen relativ hohen Anteil ihrer eingereichten Interviews und diese dann auch komplett zu fälschen. Erfahrene Interviewer (mit 5 und mehr Jahren Erfahrung) tendieren hingegen dazu, etwas kleinere Anteile ihrer Interviews und diese dann nur teilweise zu fälschen (Hood und Bushery 1997: 821). Schreiner et al. (1988) kommen auf Basis der Studie des U.S. Census Bureaus zusätzlich zu dem Ergebnis, dass erfahrene Interviewer (länger als ein Jahr tätig) beim Fälschen zum einen ausgeklügelter Vorgehen und zum anderen auch selektiver Fälschen als unerfahrene (weniger als Jahr tätig). Dazu gehört, dass sie ihre Strategie am Design der jeweiligen Studie so ausrichten, dass das Risiko erwischt zu werden möglichst geringgehalten wird. So zeigen sich bei erfahrenen Interviewern eher „abgeschwächte“ Arten von Fälschungen, wie das (oftmals sogar korrekte) Übertragen der Daten einer Befragungseinheit zwischen zwei Erhebungszeitpunkten (bei einer monatlichen Befragung) und die Verletzung von Interviewer-Regeln. Zusammengefasst sind zwar Unterschiede zwischen erfahrenen und unerfahrenen Interviewern vorhanden, diese prägen sich aber weniger deutlich in Bezug auf die Fälschungshäufigkeit/-Wahrscheinlichkeit aus, sondern mehr auf das Vorgehen beim Fälschen. Es also durchaus denkbar, dass erfahrene Interviewer nicht weniger Fälschen, sondern aufgrund ihres durchdachteren Vorgehens nur eine geringere Wahrscheinlichkeit aufweisen entdeckt zu werden (Bredl et al. 2013: 18 f.; Biemer und Stokes 1989: 25). In beiden Untersuchungen auf Basis der Interviewer Falsification Study ist jedoch abermals die geringe Fallzahl anzumerken, die meist keine (verlässlichen) statistische Tests zulässt. Weitere Interviewer-Merkmale, zu denen es jedoch keine eindeutigen Ergebnisse gibt, sind Geschlecht, Alter und Bildung. Bei einer Untersuchung des ALLBUS 1994 stellt sich heraus, dass Unregelmäßigkeiten bezüglich der Angaben des Geschlechts bzw. des Alters der Zielpersonen2 vor allem bei jungen Interviewern (unter 40 Jahren in West- bzw. unter 30 Jahren in Ostdeutschland) sowie bei Interviewern mit Abitur auftreten. Wie der Autor anmerkt, kann der Alterseffekt kann auch durch einen etwaigen Effekt der Beschäftigungsdauer (siehe vorheriger Abschnitt) hervorgerufen werden. Denn es ist davon auszugehen, dass jüngere im Vergleich zu älteren Interviewern im Durchschnitt auch noch nicht so lange als Interviewer tätig sind. Ein Geschlechtereffekt findet sich nur für Ostdeutschland. Dort weisen Interviews von Frauen häufiger Inkonsistenzen auf (Koch 1995). In der Studie von Schäfer et al. (2004) kann all dies im Hinblick auf Totalfälschungen jedoch nicht bestätigt werden: Im SOEP sind alle 9 Fälscher mittleren Alters und männlich. Auch Bildungseffekte können nicht nachgewiesen werden. Die Fallzahl ist natürlich auch generell zu niedrig für (verlässliche) statistische Tests.

Abgesehen von Merkmalen der Interviewer, werden auch noch ein paar andere Faktoren als mögliche Determinanten von Fälschungen diskutiert. So scheint eine schlechte Erreichbarkeit von Zielpersonen einen positiven Einfluss auf die Fälschungswahrscheinlichkeit zu haben. In einer Untersuchung, in der telefonischen Kontrollanrufe („Re-Interviews“) bei befragten Zielpersonen durchgeführt wurden, zeigt sich folgendes Muster: Der Anteil an Abweichungen (= nicht-verifizierten Interviews) steigt tendenziell mit der Anzahl der Kontaktversuche, die nötig sind, um einen telefonischen Kontakt mit der Zielperson herzustellen. Abweichungen beziehen sich in dieser Studie aber nicht nur auf Total- bzw. Teilfälschungen, sondern auch auf viele andere Verletzungen der Interviewer-Vorgaben (Case 1971). Des Weiteren kommen zwei Studien zu dem Schluss, dass Fälschungen allgemein bzw. speziell Totalfälschungen eher in städtischen als in ländlichen Gebieten auftreten (Biemer und Stokes 1989; Stokes und Jones 1989). Stokes und Jones sprechen in diesem Zusammenhang davon, dass städtische Gebiete berüchtigt für ihre Schwierigkeit sind, Personen zu erreichen (Stokes und Jones 1989: 698).

4.3 Datenquellen und Verfahren zur Aufdeckung von Fälschungen

Ein an sich simples und auch gängiges Verfahren zur Aufdeckung von Fälschungen ist das bereits zu Beginn dieser Arbeit kurz angesprochene, sogenannte Re-Interview. Dabei werden Befragte im Anschluss an das Interview nochmals (persönlich, postalisch oder telefonisch) kontaktiert, um abzuklären ob ein Interview überhaupt stattgefunden hat. In diesem Kontext werden in aller Regel auch weitere Daten, wie Zeit und Datum des Interviews, abgeglichen und nachgehakt, ob bestimmte Themenblöcke behandelt bzw. Fragen gestellt wurden (Murphy et al. 2016: 317; Bredl et al. 2013: 12 f.; AAPOR 2003). Probleme bei dieser Art der Verifikation stellen jedoch Erinnerungslücken oder eine schlechte Erreichbarkeit bzw. niedrige Bereitschaft der Rücksendung der Postkarte dar (Koch 1995). Da es sich beim Re-Interview eben auch um ein recht kostenintensives Verfahren handelt, wird dies meist nur bei einer kleinen Zufallsstichprobe durchgeführt. In Kombination mit der Tatsache, dass es sich bei Interviewerfälschungen um ein Phänomen handelt, dass meist nur einen geringen Prozentsatz der Interviews betrifft, ist das Re-Interview ein insgesamt ineffizientes Verfahren zur Aufdeckung von Fälschungen (Murphy et al. 2016: 317; Bredl et al. 2013: 12 f.; Li et al. 2011: 433 f.; Schreiner et al. 1988: 491). Aus diesem Grund ist es deutlich sinnvoller und effektiver, wenn Interviewer nicht zufällig kontrolliert werden, sondern die Auswahl der zu kontrollierenden Interviewer auf einem vorherigen Screening nach verdächtigen Fällen beruht (Bredl et al. 2013: 13). Für ein solches Screening kommen prinzipiell drei verschiedene Datenquellen in Frage. Neben dem in dieser Arbeit betrachteten Antwortverhalten von Befragten bzw. Fälschern (aus denen formale Indikatoren gebildet werden), sind dies zum einen Meta- bzw. Paradaten und zum anderen inhaltliche Unterschiede in den tatsächlichen Antworten, die die Basis für „content-related“-Indikatoren bilden (Menold und Kemper 2014: 43 f.). Bei Meta- bzw. Paradaten handelt es sich um Daten, die während des Interviewprozesses als „Nebenprodukt“ der eigentlichen Datenerhebung anfallen (Bredl et al. 2013: 14). Hierunter können sehr viele verschiedene Variablen verstanden werden, von denen überblickshaft ein paar kurz genannt werden. So können beispielsweise zu hohe Erfolgsraten realisierter Interviews (Turner et al. 2002), ein hoher Anteil an Personen, die als nicht zur Grundgesamtheit gehörend deklariert werden (Hood und Bushery 1997), eine sehr hohe Anzahl an Interviews innerhalb eines Tages oder überdurchschnittlich häufiges Fehlen von Kontaktdaten des Befragten verdächtig sein (Krejsa et al. 1999). Ebenso fallen darunter Daten, die typischerweise bei Computer-Assisted-Personal-Interviews (CAPI) automatisch gespeichert werden. Eine zu geringe Dauer von Interviews insgesamt bzw. eine zu schnelle Bearbeitung bestimmter Fragen/Items kann ebenso verdächtig sein, wie zum Beispiel Befragungen zwischen 22 und 8 Uhr (Bushery et al. 1999; Krejsa et al. 1999). Betrachtet man als Datenquelle den Inhalt der erhobenen Antworten, so können sich auch hier viele Variablen als nützlich erweisen (Menold und Kemper 2014). Gerade was sensitive Themen anbelangt, scheinen Fälscher die tatsächlich in der Population vorliegende Verteilung oft falsch einzuschätzen. So konnte in Studien, in denen die Fälschungen bekannt waren, gezeigt werden, dass Fälscher sowohl den Drogenkonsum (Murphy et al. 2004) als auch die sexuelle Aktivität (Turner et al. 2002) durchschnittlich überschätzen. In einem solchen Fall könnte sich also ein Vergleich zwischen Durchschnittswerten oder Verteilungen eines jeden Interviewers mit dem restlichen Sample als aufschlussreich erweisen. Selbst, wenn man im realen Fall nicht weiß, ob Fälscher bestimmte Angaben über- oder unterschätzen, kann man so trotzdem Interviewer mit stark abweichenden Werten erkennen und genauer unter die Lupe nehmen. Die Schwierigkeit bei inhaltsbezogenen Indikatoren ist jedoch, dass, falls Interviewer in verschiedenen räumlichen Gebieten eingesetzt werden, oft nicht zweifelsfrei festgestellt werden kann, ob eine unterschiedliches Antwortverhalten nun tatsächlich auf Interviewerfälschung schließen lässt, oder vielleicht an tatsächlichen Unterschieden zwischen bestimmten Gebieten liegt (z. B. Stadt und Land, Bayern und Sachsen, etc.). Dies könnte dann nur durch multivariate Verfahren mit entsprechenden Kontrollvariablen valide untersucht werden. Einen vielversprechenden Ansatz stellen inhaltsbezogene Indikatoren dar, die explizit zur Differenzierung von ehrlichen Interviewern und Fälschern in den Fragebogen integriert werden. Sie beruhen darauf, entweder nur fiktive oder neben realen auch fiktive Antwortalternativen bereitzustellen. Befragte werden z. B. nach Magazinen gefragt, die sie gerne lesen und unter den vorgefertigten Antworten ist die Hälfte aller aufgelisteten Titel frei erfunden. Ein weiteres Beispiel ist die Frage, wie vertraut bestimmte Worte dem Befragten sind. Hier sind alle fünf Begriffe frei erfunden. Menold und Kemper (2014) können nachweisen, dass Fälscher in diesen Fällen signifikant häufiger erfundene Magazine auswählen bzw. erfundene Begriffe als vertraut bezeichnen. Schließlich können zu den inhaltlichen Variablen auch soziodemographische Angaben oder die Haushaltszusammensetzung gezählt werden. In einer Studie geben Fälscher beispielsweise deutlich häufiger an, dass im kontaktierten Haushalt nur eine für die Befragung geeignete Person lebt (Turner et al. 2002).

Variablen bzw. Indikatoren können nun einzeln analysiert werden oder anhand von multivariaten Methoden. Bei der einzelnen Betrachtung kann beispielsweise auf Ausreißer hin untersucht werden. Eine solche Untersuchung geschieht auch im Deskriptiven Teil dieser Arbeit. Bei Hood und Bushery (1997) führt dies zu einem viel besseren Verhältnis zwischen der Anzahl an aufgedeckten und der Gesamtzahl an untersuchten Fällen im Vergleich zu einer zufälligen Stichprobe. Eine logistische Regression, ebenfalls Teil dieser Arbeit und z. B. auch bei Li et al. (2011) angewandt, ist zwar gut geeignet, wenn die Fälschungen/Fälscher bekannt sind und im Nachhinein nun analysiert werden soll, inwiefern sich diese von den echten Interviews/ ehrlichen Interviewern unterscheiden. Um Fälscher ohne diese a priori Kenntnis zu identifizieren, kommt sie allerdings eher nicht in Frage. Die einzige Ausnahme wäre der (unrealistische) Fall, dass so etwas wie ein Testdatensatz mit bekannten Fälschungen der entsprechenden Befragung in ausreichend großer Fallzahl (bezüglich sowohl gefälschter als auch nicht gefälschter Daten) vorliegt. Nur so könnte erst eine logistische Regression auf Basis dieses Testdatensatzes geschätzt und später dann die Fälschungswahrscheinlichkeit der echten Daten durch dieses vorab geschätzte Modell berechnet werden. Anders sieht es bei der in dieser Arbeit angewandten Clusteranalyse aus. Hier ist explizit keine a priori Kenntnis des Fälschungsstatus nötig, weshalb es sich um ein in diesem Kontext sehr interessantes Verfahren handelt, das in den kommenden Kapiteln noch genauer beleuchtet wird. Zu guter Letzt gibt es auch noch die Berechnung komplexer Algorithmen als mögliches Aufdeckungsverfahren zu nennen (Birnbaum 2012). Für eine genaue Darstellung dieses mathematisch anspruchsvollen Verfahrens wird an dieser Stelle an die entsprechende Quelle verwiesen.

5. Theoretischer Hintergrund

5.1 Warum Fälschen Interviewer?

Zunächst stellt sich die Frage, warum Interviewer überhaupt fälschen. In Anlehnung an Blasius und Friedrichs (2012) werden zwei Theorien vorgestellt, die dazu imstande sind, Erklärungsansätze hierfür zu liefern. Das Fälschen von Interviews kann als ein von einer Norm abweichendes Verhalten beschrieben werden. Bei der ersten Theorie handelt es sich daher um die sogenannte Anomie-Theorie von Merton (1995). In dieser sind zunächst einmal zwei Elemente von besonderer Bedeutung. Auf der einen Seite gibt es in einer Gesellschaft immer bestimmte, kulturell definierte Ziele bzw. Interessen, die als erstrebenswert gelten und von denen sich eigene persönliche Ansprüche ableiten lassen. Auf der anderen Seite ist das Streben nach diesen Zielen aber auch immer an gewisse soziale Regeln und Normen gebunden. Längst nicht jedes Mittel, dass theoretisch möglich und auch effektiv wäre, darf auch angewandt werden. Solange Individuen durch das Streben nach und/oder dem Erreichen der Ziele Befriedigung erfahren, kann ein Gleichgewicht zwischen kulturellen Zielen und institutionellen Normen aufrechterhalten werden. Besteht nun aber ein gewisser Druck, kulturell definierte Ziele zu erreichen bzw. vorgeschriebenen Ansprüchen zu genügen und die den Individuen zur Verfügung stehenden, gesellschaftlich legitimierten Mittel reichen hierzu schlichtweg nicht aus, so kann es zu deviantem Verhalten kommen. Abweichendes Verhalten kann somit als eine Art Bewältigungsstrategie für eine bestehende Dissonanz zwischen kulturell erstrebenswerten Zielen und den auf institutionellen Normen beruhenden Handlungsmöglichkeiten angesehen werden. Ebenso kann es aber auch darin begründet liegen, dass die Erreichung bestimmter Ziele schlichtweg überbetont wird, und die eigentlich geltenden institutionellen Spielregeln, die den Menschen durchaus bekannt sind, dadurch mehr und mehr an Wert verlieren (Merton 1995: 128 ff., 154 ff., 160, 173). Angewandt auf das vorliegende Thema, kann zunächst konstatiert werden, dass es sich bei der erfolgreichen Erfüllung der beruflichen Aufgaben und damit verbunden auch der Erhaltung der Beschäftigung um erstrebenswerte Ziele in unserer Gesellschaft handelt. Somit dürften Interviewer in der Regel darum bemüht sein, das vorgegebene Arbeitspensum zu erfüllen. Sind die Vorgaben, zum Beispiel im Hinblick auf das Sampling oder die Anzahl an realisierten Interviews, jedoch generell oder innerhalb einer bestimmten Zeit schlicht unrealistisch, so kann es dazu kommen, dass Interviewer, aus Mangel an legitimierten Mitteln und Alternativen, das Fälschen von Befragungen als einzige Möglichkeit sehen, um das Ziel der Erfüllung der beruflichen Aufgaben erreichen zu können. Je mehr Druck dabei insgesamt auf die Interviewer ausgeübt wird, desto mehr dürften auch die den Interviewern natürlich sehr genau bekannten Regeln bei der Durchführung ihres Berufs in den Hintergrund geraten und moralische Hemmungen in Bezug auf die „Fabrikation“ von Fälschungen fallen. Dass ein hohes Arbeitspensum und die Ausübung von hohem Druck auf Interviewer zumindest in der Marktforschung nicht unüblich sind, zeigen beispielsweise die Aussagen von Telefoninterviewern in einer Fokusgruppe (Nelson und Kiecker 1996: 1110 f.). Auch Blasius und Thiessen (2012) wenden die Anomie-Theorie konkret auf den Kontext von Interviewerfälschung an. Sie nennen weitere Faktoren, die ebenfalls auf ausgeübtem Druck auf Interviewer, ein bestimmtes Arbeitspensum zu bewältigen, aufbauen und Interviewerfälschung wahrscheinlicher machen können. So sind die rechtlichen Möglichkeiten eines Instituts gegen Fälscher vorzugehen meist generell, und bei schlechten Arbeitsbedingungen und unrealistischen Vorgaben umso mehr, einerseits stark limitiert. Andererseits kann die Missachtung der Interviewerregeln aufgrund von ausgeübtem Druck und einem meist geringen persönlichem Interesse an den Ergebnissen der Umfragen (und gleichzeitig höherem Interesse an einer angemessenen Bezahlung) auch noch nachvollziehbar erscheinen, und unter den Interviewern sogar als einzige Möglichkeit zur Bewältigung des Arbeitspensums angesehen und akzeptiert werden. Sowohl die limitierten rechtlichen Möglichkeiten der Institute, als auch die allgemeine Nachvollziehbarkeit und Akzeptanz abweichenden Verhaltens durch Interviewer und Außenstehende können Interviewerfälschung begünstigen.

Ein zweiter theoretischer Ansatz, der eine Erklärung für das Fälschen von Interviews liefern kann, ist die Rational Choice Theory. Der Ansatz von Esser basiert dabei auf dem sogenannten RREEM-Modell (Menschenbild eines „Resourceful Restricted Expecting Evaluating Maximising Man”), das davon ausgeht, „(…) daß der Akteur sich Handlungsmöglichkeiten, Opportunitäten bzw. Restriktionen ausgesetzt sieht; daß er aus Alternativen seine Selektionen vornehmen kann; daß er dabei findig, kreativ, reflektiert und überlegt, also: resourceful, vorgehen kann; daß er immer eine ‚Wahl‘ hat; daß diese Selektionen über Erwartungen (expectations) einerseits und Bewertungen (evaluations) andererseits gesteuert sind; und daß die Selektion des Handelns aus den Alternativen der Regel der Maximierung folgt.“ (Esser 1999: 238).

Dieses Modell des Menschen wird von Esser mit dem Makro-Mikro-Makro-Modell der soziologischen Erklärung verbunden, wodurch sich insgesamt drei Schritte ergeben. Im ersten Schritt werden die soziale Situation und der Akteur über die Logik der Situation verbunden (Makro → Mikro). Die Variablen bestehen hier aus den möglichen Handlungsalternativen und den mit der jeweiligen Situation einhergehenden Opportunitäten und Restriktionen für deren Selektion. Letztere bilden sozusagen den Rahmen, innerhalb dessen die Selektion einer Alternative möglich ist. Da der Mensch als resourceful angesehen wird, ist er aber auch dazu fähig, stetig nach neuen Alternativen zu suchen, um bestehende Restriktionen zu umgehen. Der zweite Schritt besteht aus der Verbindung zwischen dem Akteur und dem sozialen Handeln, die über die Logik der Selektion vermittelt wird (Mikro → Mikro). Eine wichtige Rolle spielen hierbei die subjektiven Erwartungen und Bewertungen der Akteure. Dem zugrundeliegenden RREEMM-Modell entsprechend, wird diejenige Handlungsalternative ausgewählt, die den subjektiven Erwartungen und Bewertungen entsprechend in der jeweils konkret vorliegenden Situation den Nutzen maximiert. Im dritten und letzten Schritt wird das Handeln der Akteure, über die die Logik der Aggregation, mit den sich daraus ergebenden kollektiven Folgen verbunden (Mikro → Makro). Die Variablen sind hier die konkret selegierten Alternativen und die bereits im vorherigen Schritt relevanten Erwartungen und Bewertungen, die nun als Randbedingungen fungieren. Es handelt sich um eine Transformation individueller Handlungen zu kollektiven Phänomenen/Zuständen (Esser 1999: 98 ff.; 237 ff.; 245 ff.). Wendet man diesen erweiterten Rational-Choice-Ansatz auf die vorliegende Fragestellung an, ergibt sich folgendes Bild: Im ersten Schritt werden die möglichen Handlungsalternativen betrachtet und hinsichtlich ihrer Anwendbarkeit verglichen. Interviewer können also beispielsweise die beiden grundlegenden Möglichkeiten, Interviews den Regeln und Vorgaben entsprechend durchzuführen oder sie zu fälschen, gegenüberstellen. Zu den Opportunitäten des Fälschens kann sicherlich gezählt werden, dass Interviewer hierdurch viel Zeit sparen bzw. ihren Stundenlohn (im Falle der üblichen Bezahlung pro Interview), deutlich erhöhen können (Blasius 2014: 324; Blasius und Friedrichs 2012: 51). Natürlich kann dadurch der bereits angesprochene, etwaige Druck, eine (unrealistisch) hohe Anzahl von Interviews in einem vorgegebenen Zeitraum zu realisieren, zudem deutlich verringert bzw. gänzlich aus dem Weg gegangen werden. Außerdem kann das Fälschen bei den Interviewern auch psychologische Belohnungen, wie ein Gefühl von Cleverness oder eine gewisse positive Aufregung aufgrund eines risikobehafteten Verhaltens, auslösen. Dies kann einen zusätzlichen Reiz für Interviewer haben (Harrison und Krauss 2002: 325 f.). Dem ist jedoch entgegenzuhalten, dass sicherlich auch das ordnungsgemäße und den Regeln entsprechende Erreichen eines vorgegebenen Ziels positive psychologische Belohnungen hervorrufen kann. Restriktionen in dieser konkreten Entscheidungssituation können zum einen in den individuellen Persönlichkeitseigenschaften der Interviewer, sowie insbesondere auch ihren eigenen Moralvorstellungen gesehen werden. Denn diese entscheiden letztlich darüber, ob man ein solches Verhalten überhaupt irgendwie mit den eigenen Prinzipien vereinbaren kann. Außerdem muss man auch bedenken, dass, wenn sich dazu entschließt zu fälschen, dies nicht zu auffällig geschehen darf, denn man möchte ja schließlich nicht erwischt und eventuell gar, vor Vorgesetzten und Kollegen, bloßgestellt werden. In diesem Zusammenhang ist es denkbar, dass auch etwaige Arbeitsvertragsinhalte eine Rolle spielen können, da man sich natürlich auf gar keinen Fall durch ein zu „plumpes“ Vorgehen am Ende vielleicht sogar strafbar machen möchte. Völlig unbedacht und ohne Konzept sollte man also auch nicht Fälschen. Dies kann auch dazu führen, dass der Interviewer, da als resourceful erachtet, neue Alternativen sucht, für die die genannten Restriktionen nicht oder nicht in gleichem Umfang gelten. So kann beispielsweise durch eine nur teilweise Fälschung oder das Überspringen einiger weniger Fragen das eigene Gewissen etwas beruhigt sowie das Risiko, erwischt zu werden, deutlich reduziert werden. Diese Gedanken leiten bereits die im zweiten Schritt stattfindenden, subjektiven Erwartungen und Bewertungen ein. All die Vorteile, Nachteile und Erwartungen werden, während sie zuvor noch eher abstrakter Natur waren, auf dieser Ebene nun ganz genau evaluiert und konkret gegeneinander abgewogen. Die Ersparnis von Zeit und Geld, ein etwaiger Druck durch das Institut, die persönlichen Moralvorstellungen und mögliche soziale und rechtliche Folgen spielen auch hier wieder eine Rolle. Darüber hinaus gibt es zahlreiche weitere, begünstigende Argumente für das Fälschungen. Hierunter fällt das persönliche Interesse der Interviewer an der Thematik bzw. den Ergebnissen der Umfrage, welches mitunter relativ gering ausfallen kann (Blasius und Friedrichs 2012: 51). Hinsichtlich der Gefahr potentieller Folgen (z. B. Entlassung, strafrechtliche Konsequenzen, soziale Ächtung) wird auf dieser Ebene das (subjektiv wahrgenommene) tatsächliche Risiko erwischt zu werden und die Wahrscheinlichkeit, dass solche Sanktionen in diesem Falle überhaupt zur Anwendung kommen würden, eingeschätzt. Das Risiko, erwischt zu werden, ist – insbesondere bei Teilfälschungen – allgemein als eher gering einzuschätzen. Ebenso halten sich potentiellen Folgen meist sehr in Grenzen, da Unternehmen aufgedeckte Fälle aus Eigeninteresse ihrer eigenen Glaubwürdigkeit normalerweise nicht „an die große Glocke“ hängen möchten (Blasius 2014: 324). Außerdem können qualitative Mängel des Fragebogens (z. B. eine übermäßige Länge, zu viele Nachfragen oder Wiederholungen, Verständnisprobleme) und eine schlechte Interviewerverwaltung bzw. schlechte Arbeitsbedingungen (z. B. wegen zu wenig persönlichem Kontakt, schlecht bezahlten (Teilzeit)Jobs oder allgemein schlechter Organisation) die Interviewer demoralisieren und somit ein Fälschen von Interviews wahrscheinlicher machen. Ebenso verhält es sich auch bei zu komplexen Stichprobendesigns, deren Realisierung kaum oder nur schwer umsetzbar ist. Weitere externe Faktoren, die eine Rolle spielen können sind schlechtes Wetter, ein schlechter Zustand der Straßen, große Entfernungen zu den Zielpersonen und mangelhafte Sicherheit am Zielort (Crespi 1945: 437 ff.). Im dritten und letzten Schritt werden dann die individuellen Entscheidungen der Interviewer zu fälschen oder eben nicht auf die Makroebene transformiert. Dort drück sich dann das Phänomen Interviewerfälschung in einem konkreten Anteil an Fälschungen in Umfragen aus.

5.2 Wie unterscheiden sich Fälschungen von echten Interviews?

Bei der Unterscheidung zwischen Fälschern und echten Interviewern nimmt, wie bei Menold et al. (2013), auch in dieser Arbeit das Konzept des Satisficing eine zentrale Rolle ein. Der Begriff Satisficing wird normalerweise für ein Antwortverhalten von Befragungspersonen verwendet, bei dem anstelle der optimalen einfach eine akzeptable bzw. zufriedenstellende Antwort gegeben wird. Der vierstufige, kognitive Prozess der Fragebeantwortung (Verstehen der Frage, Abrufen relevanter Informationen, Urteilsbildung und Antwortabgabe (Tourangeau et al. 2000: 7 ff.)) wird dabei nicht mit der für eine optimale Antwort benötigen Tiefe durchlaufen. Auf diese Weise können Befragte ihren geistigen Aufwand minimieren, um Energie zu sparen, und von außen betrachtet gleichsam den Anschein erwecken, vernünftig zu antworten, um „unbeschadet“ aus der Interviewsituation herauszukommen (Blasius und Thiessen 2015: 481; Krosnick 1991: 214 ff.; Krosnick und Alwin 1987: 203). Das Konzept des Satisficing lässt sich auch auf fälschende Interviewer übertragen, denn auch beim Fälschen von Interviews kann man einen geringeren oder höheren kognitiven (und damit einhergehend auch zeitlichen) Aufwand betreiben. Betrachtet man die Motivation, sich über die Interviewervorgaben hinwegzusetzten und zu fälschen, so kann einerseits sicherlich gerade das Vorhaben, den Aufwand möglichst zu reduzieren, als eines der hauptsächlichen Ziele angesehen werden. Das Ziel der Fälscher, den Aufwand zu reduzieren, geht also mit einem stärker ausgeprägten Satisficing einher. Demgegenüber steht jedoch andererseits auch das Ziel, beim Fälschen gründlich genug vorzugehen, um nicht erwischt zu werden. Dies wiederum steht mit einem höheren Aufwand im Vergleich zu echten Befragten und dadurch geringerem Satisficing in Verbindung. Zusammengefasst besteht die Motivation des Fälschens also aus zwei hauptsächlichen, sich eigentlich widersprechenden Zielen: (1) Der Aufwand soll reduziert werden, was ein stärker ausgeprägten Satisficing im Vergleich zu echten Befragten bedeutet. (2) Man will nicht erwischt werden, was im Gegensatz dazu ein im Vergleich schwächer ausgeprägtes Satisficing impliziert. Diese beiden sich auf den ersten Blick widerstrebenden Ziele miteinander in Einklang zu bringen, ist auf den zweiten Blick relativ simpel. Das Antwortverhalten der Fälscher kann nämlich, je nach Frage bzw. möglichen Antworten, variieren und weißt konsequenterweise nur an solchen Stellen des Fragebogens stärker ausgeprägtes Satisficing auf, an denen es auch entsprechende, legitime Möglichkeiten dazu gibt. Als legitime Möglichkeiten dürften Antworten insbesondere dann gelten, wenn sie von den Fälschern als nicht auffällig eingeschätzt werden. Ist eine solche legitime Möglichkeit nicht gegeben, zeigt sich hingegen ein geringer ausgeprägtes Satisficing im Vergleich zu echten Befragten. Eine Möglichkeit den Aufwand zu minimieren, ohne dabei Gefahr zu laufen, sich sofort verdächtig zu machen, dürfte bei der Beantwortung von Filterfrage bestehen. Im Hinblick auf die benötigte Zeit und den kognitiven Aufwand, sollte Fälschern daran gelegen sein, nicht mehr Fragen bearbeiten zu müssen, als unbedingt notwendig (Menold und Kemper 2014: 45; Menold et al. 2013: 28 f.). Zu dieser Vermutung kommen auch Hood und Bushery, die über Kontrollmaßnahmen des US Census Bureau berichten: „Interviewers who falsify will try to keep it simple and fabricate a minimum of falsified data.” (Hood und Bushery 1997: 820). Filterfragen können daher von Fälschern, die den Fragebogen ja gut kennen, bewusst so beantwortet werden, dass Zusatz- bzw. Folgefragen übersprungen werden, was einer Form von Satisficing entspricht (Menold et al. 2013: 29). In vielen Fällen ist dies durch Auswahl einer vorgegebenen, inhaltlich sinnvollen (und oft auch gültigen) Antwort möglich, so dass man dadurch erst einmal keinen großen Verdacht erweckt. Hinzu kommt in diesem Fall noch, dass echte Befragte natürlich keine konkrete Kenntnis über die Filterführung im Fragebogen haben. Sie mögen zwar ein ebenso großes Interesse haben, den Fragebogen abzukürzen und vielleicht manchmal erahnen können, dass die Beantwortung einer bestimmten Frage auf eine bestimmte Weise zusätzliche Folgefragen nach sich ziehen könnte, aber insgesamt erscheinen ihre Möglichkeiten diesbezüglich doch arg limitiert. Aus den genannten Gründen ist bei Fälschern im Bezug auf Filterfragen mit einem stärker ausgeprägten Satisficing im Vergleich zu echten Befragten zu rechnen. Diese theoretischen Überlegungen stehen im Einklang mit den Ergebnissen der Studien von Bredl et al. (2012), Menold et al. (2013) und Menold und Kemper (2014). Hieraus ergibt sich, angewandt auf die Interviewerebene, folgende erste Hypothese:

H1: Fälscher weisen einen höheren Anteil an Fragen auf, die durch entsprechende Beantwortung vorgeschalteter Filterfragen übersprungen werden, als ehrliche Interviewer.

Bei halboffenen Fragen müssen sich Fälscher bei Auswahl der offenen Alternativantwort (meist betitelt mit „Sonstige(s)“ oder „Andere(n)“) explizit etwas ausdenken. Dies bedeutet für sie einen viel höheren kognitiven Aufwand als für Befragte in realen Interviews, die die wahre Alternativantwort im Normalfall ja sofort parat und deshalb in der Regel auch ein geringeres Bedürfnis zu Satisficing haben dürften. Hinzu kommt, dass die Auswahl von vorgefertigten, gültigen Kategorien bei halboffenen Fragen, als nicht sonderlich auffällig angesehen werden kann. Um auch hier wieder die sich bietenden legitime Möglichkeit, den kognitiven Aufwand möglichst gering zu halten und Zeit zu sparen, zu nutzen, sollten Fälscher im Vergleich zu echten Befragten daher vermehrt dazu neigen, eine der bereits vorgegebenen, geschlossenen Antwortkategorien auszuwählen (Menold et al. 2013: 29). Die Ergebnisse in den Studien von Bredl et al. (2012) und Menold et al. (2013) stützen diese theoriegeleiteten Ausführungen. Hieraus ergibt sich, kumuliert auf Interviewerebene, die zweite Hypothese:

H2: Fälscher weisen bei halboffenen Fragen einen geringeren Anteil an offenen Angaben auf, als ehrliche Interviewer.

Die These einer stärkeren Ausprägung von Satisficing gilt jedoch wie bereits angesprochen nicht generell, sondern nur an den Stellen des Fragebogens, die nach Einschätzung der Fälscher konkret eine legitime Möglichkeit dazu bieten. Bei geschlossenen (Nicht-Filter-) Fragen bzw. Itembatterien zeigt sich hingegen ein völlig anderes Bild (Menold et al. 2013: 29). Eine Form von Satisficing bei Befragten ist es, anstelle sich in eine Fragestellung hineinzudenken, einfach eine ausweichende Antwort, wie zum Beispiel „weiß nicht“, anzugeben und somit einen fehlenden Wert (Missing Value) durch Item-Nonresponse zu produzieren (Krosnick 1991: 219 f.). Eine weitere Form kann darin gesehen werden, extreme Antworten zu bevorzugen, vor allem wenn der Befragte das Gefühl hat, dass es sich dabei um eine erwartete, gewöhnliche Antwort handelt (Aichholzer 2013: 960; Krosnick und Alwin 1988: 532). Fälscher beantworten solche Fragen dem theoretischen Ansatz zufolge im Vergleich zu echten Befragten überdurchschnittlich gründlich und legen somit weniger Satisficing an den Tag. Dies kann durch die Motivation bzw. das weiter oben formulierte zweite Ziel begründet werden, nicht erwischt werden zu wollen. Es geschieht dadurch etwas Paradoxes: Aus Angst, Auffälligkeiten zu produzieren, arbeiten sie so gründlich, dass dies wiederum eine Auffälligkeit an sich darstellt. Hierunter dürfte eine bei Fälschern geringere Tendenz zu Item-Nonresponse und zur Angabe von Extremwerten fallen (Menold et al. 2013: 29). Was bei Menold et al. (2013) nicht explizit genannt wird, aber implizit dennoch mitschwingt, ist natürlich, dass Fälscher somit auch das wahre Ausmaß an Item-Nonresponse und Extremwerten von Befragten unterschätzen. Denn nur so lässt sich erklären, dass ein umgehen solcher Antworten als weniger auffällig angesehen wird. Losgelöst vom Kontext des Satisficing, und bezogen auf die Varianz über den kompletten Fragebogen hinweg, kommen Schäfer et al. (2004) zu fast identischen Aussagen. Sie sprechen davon, dass es sich bei einer allgemein geringeren Varianz bei Interviews von Fälschern im Vergleich zu den Interviews ehrlicher Interviewer um eine empirischen Evidenz handelt, die unter anderem durch eine Tendenz weniger Missing-Values zu produzieren, weniger extreme Werte anzugeben und dadurch, dass der Fälscher den Fragebogen bereits gut kennt, hervorgerufen wird. Der letztgenannte Punkt baut darauf auf, dass Fälscher dadurch die genaue Bedeutung der Fragen in der Regel sehr gut verstehen, weshalb sich bei ihnen normalerweise keine „Ausreißer“ beobachten lassen, die durch Missverständnisse seitens des Befragten entstehen können (Schäfer et al. 2004: 8). Die dargelegten theoretischen Überlegungen werden im Hinblick auf Item-Nonresponse durch Ergebnisse von Bredl et al. (2012) und Menold und Kemper (2014) bzw. bezüglich von Extremwerten von Menold et al. (2013) und Menold und Kemper (2014) gestützt. Die entsprechenden Hypothesen lauten:

H3: Fälscher weisen in der Gesamtheit aller tatsächlich gestellten Fragen einen geringeren

Anteil an Item-Nonresponse auf als ehrliche Interviewer.

H4: Der Anteil an ordinalen Fragen bzw. Items, bei denen die höchste oder niedrigste Kategorie gewählt wurde, ist bei Fälschern niedriger als bei ehrlichen Interviewern.

Geht man davon aus, dass bei Fälschern im Vergleich zu Befragten ein weniger stark ausgeprägtes Satisficing, bezüglich Antworten bzw. Antwortmustern, die als nicht legitim bzw. auffällig eingeschätzt werden, auftritt, so lassen sich weitere Indikatoren bilden (Menold et al. 2013: 30 f). Um den Aufwand zu minimieren, kommt es speziell bei der Beantwortung von Itembatterien aber auch bei offenen Zahlenwerten bei echten Befragten immer wieder zu Antworttendenzen, die auf Satisficing zurückgeführt werden können. Bekannte Antwortmuster bei Itembatterien sind zum Beispiel eine Zustimmungstendenz unabhängig vom Inhalt oder der Richtung von Fragen oder Items (Akquieszenz) oder die Angabe desselben Wertes über die gesamte Itembatterie hinweg (undifferenziertes Antwortverhalten; engl. Straightlining) (Krosnick 1991: 217 ff.). Bei offenen Zahlenangaben besteht bei Befragten hingegen eine Tendenz zur Angabe von gerundeten Werten (Rounding). Je nach Skala können sich gerundete Werte natürlich etwas unterscheiden. Inder Regel versteht man darunter aber das Vielfache von Zahlen wie beispielsweise 5, 10 oder 100 (Tourangeau et al. 2000: 232 ff.). Für all diese Antwortmuster, die bei normalen Befragten vorkommen, aber eben auch als verhältnismäßig auffällig eingestuft werden dürften, erwartet man bei Fälschern weniger Satisficing und dementsprechend eine geringere Ausprägung (Menold et al. 2013: 30 f.). Dabei dürfte erneut auch wieder eine Unterschätzung der Häufigkeiten bzw. Anteile dieser Antwortmuster bei echten Befragten eine Rolle spielen. Studien, die mit den theoretischen Ausführungen korrespondieren sind Menold und Kemper (2014) sowie Menold et al. (2013) für Akquieszenz, Menold und Kemper (2014) für Rounding und Blasius und Thiessen (2013) für Straightlining. Die drei zugehörigen Hypothesen lauten:

H5: Der Anteil an Itembatterien, bei denen Akquieszenz auftritt, ist bei Fälschern geringer als bei ehrlichen Interviewern.

H6: Der Anteil an gerundeten Werten ist bei Fälschern geringer als bei ehrlichen Interviewern.

H7: Bei Fälschern tritt anteilig weniger häufig Straightlining bei Itembatterien auf als bei ehrlichen Interviewern.

Der letzte Indikator baut auf der Idee auf, dass Fälscher gewisse Datenstrukturen nicht adäquat nachbilden können, da sie entweder gar nicht die Kenntnis darüber haben, oder diese Datenstrukturen schlicht so komplex sind, dass sie nur schwer während des Fälschungsvorgangs realitätsgetreu konstruiert werden können. Bedford’s Law hat in diesem Zusammenhang seit etwa Mitte der 1990er Jahre hohe Aufmerksamkeit erfahren (Bredl et al. 2012: 2 f.). Das empirische „Gesetz“ besagt, dass in Tabellen mit numerischen Daten die führenden Ziffern (von 1 bis 9, ohne Beachtung der 0) nicht gleichverteilt sind, sondern einer bestimmten logarithmischen Wahrscheinlichkeitsverteilung folgen Benford (1938). Eine Erklärung für dieses Phänomen liefert das „Random-Samples-from-Random-Distribution“ Theorem von Hill (1995: 360). Die Idee hinter diesem Indikator ist es, die Abweichung der interviewerspezifischen Verteilung der Anfangsziffern aller offenen Einkommensangaben (persönliches und Haushaltsnettoeinkommen) von Bedford’s Law, getrennt für jeden Interviewer, in Form eines ��2-Wertes zu messen. Die Daten von Fälschern sollten eine schlechtere Passung an das Gesetz aufweisen, was höheren ��2-Werten entspricht (Bredl et al. 2012: 2 f.; Schäfer et al. 2004: 5 ff.; Schräpler und Wagner 2003: 11 ff.). Die mathematische Formel der Wahrscheinlichkeitsverteilung lautet wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

Darstellung nach Bredl et al. (2012: 3)

Demnach wird die Verteilung der einzelnen Anfangsziffern mit folgender Wahrscheinlichkeit erwartet:

Tabelle 1: Erwartete Verteilung der Anfangsziffern nach Benford's Law

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Benford (1938: 556), eigene Darstellung.

Abbildung 2: Visualisierung der beobachteten und erwarteten Anfangsziffernverteilung nach Benford

Abbildung in dieser Leseprobe nicht enthalten

Quelle: eigene Darstellung auf Basis des ALLBUS 2016. N = 4033 Beobachtungen. Ohne Berücksichtigung der Fälscher. Jedes Interview, in dem sowohl das persönliche Nettoeinkommen als auch ein Haushaltsnettoeinkommen angegeben wurden, ging doppelt (je einmal für die beiden Einkommensformen) in die Berechnung mit ein.

Wie anhand Abbildung 2 im Text und Tabelle 33 im Anhang ersichtlich, unterscheidet sich jedoch die Verteilung der Anfangsziffern des Einkommens bei den echten Interviewern bereits relativ deutlich von einer Verteilung, die Benford’s Law folgt. Aus diesem Grund erfolgt eine Adaption der Methode nach Porras und English (2004), wie sie auch bei Bredl et al. (2012) zum Einsatz kommt. Hierbei wird die Verteilung der Anfangsziffern der Einkommensangaben in den Interviews jedes einzelnen Interviewers mit der Verteilung in jeweils allen restlichen, nicht von ihm geführten, Interviews im Gesamtsample verglichen und die Abweichung dann ebenso anhand eines ��2-Werts quantifiziert. Selbstverständlich stehen auch hier höhere Werte für größere Abweichungen. Die sich hieraus ergebende, achte und letzte Hypothese lautet:

H8: Die Verteilung der Anfangsziffern der offen Einkommensangaben weicht bei Fälschern stärker von der entsprechenden Verteilung der jeweils restlichen Stichprobe ab, als bei ehrlichen Interviewern.

6. Durchführung der Fälschungsstudie

6.1 Forschungsdesign und methodisches Vorgehen

Das Forschungsdesign dieser Arbeit orientiert sich grundlegend an dem der beiden Studien von Menold und Kemper (2014). Um das Vorgehen speziell für diese Untersuchung zu optimieren, werden dabei allerdings Elemente der beiden unterschiedlich aufgebauten Studien zu einem neuen Forschungsdesign verknüpft und teilweise noch etwas modifiziert. Auf das Forschungsdesign, dessen genaue Zusammensetzung und die Gründe hierfür wird nun im Folgenden genauer eingegangen.

Die Fälschungsstudie basiert auf der ALLBUS-Erhebung aus dem Jahr 2016 (GESIS 2017a). Ähnlich wie in der ersten Studie von Menold und Kemper, wird für das Fälschen ein Auszug der Fragen und Items aus dem ALLBUS-Fragebogen verwendet. Diese werden vornehmlich nach der Prämisse ausgewählt, eine gute Eignung für die Bildung der Indikatoren aufzuweisen. Beim ALLBUS erfolgt die Datenerhebung seit einigen Jahren durch eine computergestützte, persönliche Befragung (CAPI – Computer Assisted Personal Interviewing). Menold und Kemper gehen nicht darauf ein, ob die Fragebögen in Papierform oder digital von den Fälschern ausgefüllt werden. Um die Fälschungssituation möglichst realitätsnah zu gestalten, werden die ausgewählten Fragen und Items, inklusive Filterführung, eins zu eins in einen Online- Fragebogen (Sosci Survey) übertragen. Somit sind die Fragebögen, wie bei der Datenerhebung im ALLBUS, an einem Computer auszufüllen (genaueres zur Auswahl der Fragen/Items und zur Fragebogenprogrammierung siehe Kapitel 6.3). Im Gegensatz zu den genannten Untersuchungen von Menold und Kemper (2014), werden sämtliche Analysen dieser Arbeit jedoch nicht auf der Ebene einzelner Interviews, sondern nach Bredl et al. (2012) gebündelt auf Interviewer-Ebene durchgeführt. Dies ist dem bereits geschilderten Umstand geschuldet, dass Interviewer im Betrugsfall dazu tendieren, einen Großteil ihrer eingereichten Interviews zu fälschen. Wie Bredl at al. argumentieren, erhöht ein solches Vorgehen die Datenmenge, auf dem die einzelnen Indikatoren basieren, und sollte sie so reliabler und weniger anfällig für Ausreißer machen (Bredl 2012: 3 f.). Damit die Datenmenge für eine reliable Berechnung aller Indikatoren ausreicht, wurde die Mindestanzahl an Interviews pro Interviewer bzw. Studienteilnehmer auf 15 festgesetzt. Um gleichzeitig auch eine genügend große Gesamtzahl an Fälschungen zu erhalten, um anhand der geplanten Studienreplikation das Verzerrungspotential quantifizieren zu können, fiel die Entscheidung darauf, insgesamt 15 Studienteilnehmer zu rekrutieren. Somit soll eine Gesamtzahl von 225 Interviews gefälscht werden (15 Interviewer * 15 Interviews). Entsprechend werden aus dem Original-Datensatz des ALLBUS 2016 auch nur alldiejenigen Interviewer in der Analyse berücksichtigt, die mindestens 15 Interviews durchgeführt haben (119 Interviewer mit insgesamt 3040 Interviews). Aus der Gesamtzahl der Interviews dieser echten ALLBUS-Interviewer werden 225 Stück mittels eines zweistufigen Zufallsverfahrens ausgewählt (siehe Kapitel 6.4 für eine detailliertere Beschreibung) und im Anschluss von den Studienteilnehmern gefälscht. Entsprechend der ersten Studie von Menold und Kemper, wurden den Teilnehmern dabei folgende Informationen über die jeweiligen Personen, deren Interviews sie fälschen sollten, zu Verfügung gestellt: Angaben zum Wohnort, Alter, Geschlecht, Familienstand, Nationalität, Bildung, Religionszugehörigkeit, Anzahl an Kindern und Parteipräferenz. Laut den Autoren handelt es sich dabei um Charakteristiken, die sich ein Fälscher (leicht) durch ein Kurzinterview beschaffen kann (Menold und Kemper 2014: 48). Dieses Repertoire an Basisinformationen wurde in der vorliegenden Studie um eine bzw. zwei Angabe(n) erweitert. Die Fälscher bekamen zusätzlich den Status der Erwerbstätigkeit und, falls zutreffend, den Status der Nichterwerbstätigkeit der befragten Personen mitgeteilt. Die Gründe hierfür sind, dass der Status der (Nicht-)Erwerbstätigkeit in unserer Gesellschaft nicht nur allgemein eine große Bedeutung besitzt, sondern sich aus ihm auch einige Rückschlüsse auf andere Merkmale ziehen lassen. Darunter zählt beispielsweise das Einkommen, das bei Personen, die hauptberuflich ganztags beschäftigt sind, in der Regel höher sein dürfte als bei Schüler, Studenten oder Arbeitslosen. Außerdem kann man unter Umständen auch Hinweise in Bezug auf die Einstellungen der Personen ableiten. Zudem lässt sich der Status der (Nicht- )Erwerbstätigkeit auch noch schnell und unkompliziert im Kontext eines Kurzinterviews abfragen. Da es daher plausibel erscheint, dass dieses Merkmal häufig auch bei „echten Fälschern“ auf der Beschaffungsliste steht, wird es den Teilnehmer der Fälschungsstudie bereitgestellt. Welche Merkmale bzw. Variablen des ALLBUS sich explizit hinter allen gerade aufgezählten und den Fälscher zur Verfügung gestellten Informationen verbergen, ist in Tabelle 2 des Kapitels 6.4 aufgelistet. Die deskriptiven Verteilungen aller tatsächlichen Ausprägungen der genannten Merkmale in der gezogenen Fälschungsstichprobe (der Auswahl der ALLBUS-Interviews, die von den Studienteilnehmern gefälscht werden sollten) sind in den Tabelle 34 und 35 im Anhang dargestellt. Jedem Fälscher wurde eine zweiseitige Anleitung zur Durchführung der Studie per E-Mail zugesendet (siehe Dokument 1 im Anhang). Ähnlich wie bei Menold und Kemper, wurden die Teilnehmer darin unter anderem kurz über das Thema („Interviewerfälschung in sozialwissenschaftlichen Umfragen“) und das primäre Ziel der Studie (zu untersuchen, inwiefern sich Interviews von Fälschern und ehrlichen Interviewern unterscheiden) aufgeklärt. Ebenso wurde die ALLBUS-Erhebung anhand der Kernpunkte, die für die Durchführung der Fälschungsstudie wichtig sind, vorgestellt. Die Teilnehmer wurden darin zudem gebeten, sich bei der Bearbeitung der ihnen zugeteilten, 15 Fragebögen vorzustellen, für den ALLBUS als Interviewer tätig zu sein, von der jeweiligen Zielperson bewusst nur ein paar grundlegenden Informationen erfragt zu haben und nun von zu Hause die restlichen Angaben zu fälschen. Dabei sollten sie sich an den grundlegenden Informationen der befragten Person orientieren und den restlichen Teil des Fragebogens so ausfüllen, wie sie es für plausibel halten. Die Bearbeitungsanweisungen unterscheiden sich somit etwas von denen der Studien von Menold und Kemper, bei denen die Fälscher angehalten wurden, sich vorzustellen ein persönliches Interview mit dieser jeweiligen Person zu führen. In der vorliegenden Studie wird hingegen eine konkrete, realistische Fälschungssituation beschrieben und diese somit auch offener thematisiert. Um zum einen die Teilnahmebereitschaft zu erhöhen, zum anderen aber auch die Fälschungssituation wieder so realitätsnah wie möglich zu halten, bekam jeder Teilnehmer eine pauschale Aufwandsentschädigung von 15 €. Wie bei echten Interviewern, bei denen eine Bezahlung pro geführtem Interview den Regelfall darstellt (Schnell 2012: 193), hängt somit bei Teilnehmern der Fälschungsstudie der konkrete Stundenlohn erst einmal von der benötigten Zeit pro Befragung ab. Damit Studienteilnehmer nun nicht durch die Fragebögen hasten und einfach irgendetwas angeben, wurde zusätzlich ein kleiner Wettbewerb ins Leben gerufen: Derjenige, der innerhalb der geplanten Analysen am wenigsten auffällt (der „beste Fälscher“), soll am Ende ein zusätzliches Preisgeld von 50 Euro erhalten. So wurde zumindest Motivation geschaffen, qualitativ hochwertige Fälschungen zu produzieren, um nicht entdeckt zu werden. Sowohl die Idee der Bezahlung der Fälscher, als auch die des Wettbewerbs zur Kür des „besten Fälschers“ entstammen ursprünglich der zweiten Studie von Menold und Kemper (2014) und wurden für die vorliegende Studie geringfügig angepasst. Nachdem die Daten der Fälschungsstudie erhoben sind, werden sodann für die original ALLBUS-Interviewer (mit mindestens 15 Interviews) und für alle Fälscher die Indikatoren berechnet und mit der Datenanalyse fortgefahren. An dieser Stelle gilt es noch auf das Vorgehen mit den Interviews hinzuweisen, die durch eine Zufallsauswahl für das Fälschen ausgewählt werden. Diese Fälle kommen nach Abschluss der Datenerhebung doppelt im Datensatz vor. Einmal als Original- Interview und einmal als gefälschtes Pendant. Die einzigen Daten, die zwischen originalem und gefälschtem Exemplar wirklich eins zu eins übernommen werden, sind die vorhin genannten, grundlegenden Informationen, die den Fälschern zur Verfügung gestellt werden. Alle restlichen Daten werden von den Studienteilnehmern neu generiert. Da die Indikatoren nur auf Grundlage der künstlich produzierten Daten errechnet werden und es sich zudem um rein formale Indikatoren handelt, die weder vom Inhalt der Befragung noch von Eigenschaften des Befragten abhängig sein sollen, ist diese Dopplung der Fälle unproblematisch. Die Fälschungen ersetzen also die Originale nicht und die Fälscher mit ihren jeweils 15 „Interviews“ werden wie zusätzliche Interviewer des ALLBUS behandelt. Die echten Entsprechungen der Interviews werden somit selbstverständlich weiterhin auch den originalen Interviewern des ALLBUS zugerechnet. Nur im letzten Analyseschritt, der Studienreplikation zur Abschätzung des Verzerrungspotentials, werden die jeweiligen Original-Interviews durch ihre gefälschten Entsprechungen ersetzt.

[...]


1 Aus Gründen der besseren Lesbarkeit wird in dieser Arbeit bei Termini, wie Interviewer, Fälscher u. ä., auf die explizite Nennung der weiblichen Form verzichtet. Die männliche Form wird als geschlechtsneutrale Bezeichnung verwendet und steht stellvertretend für beide Geschlechter.

2 Die Aufsplittung nach demografischen Merkmalen erfolgt in der Studie nur auf allgemeinerer Ebene für Unregelmäßigkeiten bei der Datenerhebung. Diese sind, in einem Abgleich zwischen den erhobenen Daten und den Daten aus den Einwohnermeldeämtern, definiert als Abweichung des Geschlechts und/oder des Alters um mindestens 3 Jahre. In der Nachprüfung erweisen sich schlussendlich etwa die Hälfte aller Fälle von Inkonsistenzen als definitive Fälschungen (Koch 1995).

Ende der Leseprobe aus 139 Seiten

Details

Titel
Interviewerfälschungen in sozialwissenschaftlichen Umfragen. Leistungsfähigkeit statistischer Aufdeckungsmethoden und Verzerrungspotenzial
Hochschule
Otto-Friedrich-Universität Bamberg  (Fakultät für Sozial- und Wirtschaftswissenschaften)
Note
1,0
Autor
Jahr
2018
Seiten
139
Katalognummer
V456400
ISBN (eBook)
9783668897298
ISBN (Buch)
9783668897304
Sprache
Deutsch
Schlagworte
Interviewerfälschung, Fälschung, Survey, Fälschung durch Interviewer, Umfragen, Face-to-Face-Befragungen, Teilfälschung, at risk Interviewer, statistische Aufdeckungsmethoden, Verzerrung, Verzerrungspotential, statistische Methoden, Persönlich-mündliche Befragungen, Fälscher, Totalfälschung, Indikatoren, Fälschungsindikatoren, abweichendes Verhalten, Anomie-Theorie, Rational Choice Theory, Satisficing, logistische Regression, Clusteranalyse, Studienreplikation, cheating, falsification, Interviewer, fabrication, curbstoning
Arbeit zitieren
Thomas Beer (Autor), 2018, Interviewerfälschungen in sozialwissenschaftlichen Umfragen. Leistungsfähigkeit statistischer Aufdeckungsmethoden und Verzerrungspotenzial, München, GRIN Verlag, https://www.grin.com/document/456400

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Interviewerfälschungen in sozialwissenschaftlichen Umfragen. Leistungsfähigkeit statistischer Aufdeckungsmethoden und Verzerrungspotenzial


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden