Computerunterstützte Datenanalyse - Deskriptiv- und Inferenzstatistik


Hausarbeit (Hauptseminar), 2004

53 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Datenbasis (ALLBUS)

3 Durchführung der Analysen
3.1 Analyse des Zusammenhangs zwischen der Beurteilung der allgemeinen wirtschaftlichen Lage und der Beurteilung der eigenen wirtschaftlichen Lage
3.2 Analyse des Zusammenhangs zwischen dem Bildungsniveau und dem Vertrauen in öffentliche Einrichtungen und gesellschaftliche Organisationen
3.3 Analyse der Beziehung zwischen dem Lebensalter der Ehemänner und dem Lebensalter der Ehefrauen
3.4 Analyse des Zusammenhangs zwischen dem Lebensalter und der Einstellung gegenüber einer Berufstätigkeit von Frauen

4 Schluss

5 Literaturangaben

6 Anhang

1 Einleitung

Die folgende empirische Forschungsarbeit befasst sich mit den Zusammenhängen der statistischen Datenanalyse und mit der Beziehung zwischen Variablen. Bivariate Verteilungen von nominal, ordinal und metrisch skalierten Variablen werden untersucht und mit den für das jeweilige Messniveau angemessenen Korrelationskoeffizienten beschrieben und charakterisiert. Anhand von Fragestellungen, die mit Hilfe des Computerprogramms zur Datenanalyse SPSS bearbeitet werden, und durch die Heranziehung von nominalen, ordinalen und metrischen Assoziationsmaßen zur Beschreibung der Beziehung zwischen Variablen sollen die theoretischen Hintergründe sowie die sozialwissenschaftlichen Implikationen der Deskriptiv- und Inferenzstatistik verdeutlicht werden.

Die Maßzahlen der bivariaten Statistik beschreiben den Grad und die Richtung einer Beziehung zwischen zwei Variablen. „Die Zahlenwerte der meisten Koeffizienten variieren zwischen 0 (keine Beziehung) und 1 (perfekte Beziehung). Die Zahlenwerte der Koeffizienten, die auch die Richtung der Beziehung angeben, variieren zwischen –1 (perfekte negative Beziehung) und +1 (perfekte positive Beziehung).“[1] Diese Maßzahlen beruhen auf zwei unterschiedlichen Konzepten der statistischen Beziehung: auf der Abweichung von der statistischen Unabhängigkeit zum einen und auf der Vorhersagbarkeit der einen Variable auf der Basis der anderen Variable zum anderen. Im zweiten Fall können die Koeffizienten im Sinne der proportionalen Fehlerreduktion als PRE-Maße interpretiert werden.(B, 187-189) Auf diese beiden unterschiedlichen Konzepte der statistischen Beziehung soll im Verlauf der Arbeit noch näher eingegangen werden.

Im folgenden soll die Vorgehensweise der Arbeit transparent gemacht werden. Zunächst erfolgt eine Vorstellung der für die Forschungsarbeit verwendeten Datenbasis des ALLBUS (Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften). Nach einer globalen Erläuterung der Ziele, Verfahren, Erhebungsmethodik und des Stichprobenverfahrens des ALLBUS-Programms soll besonders auf Fragenschwerpunkte und Besonderheiten im Stichprobenverfahren der ALLBUS-Jahrgänge 1994 und 1998 eingegangen werden.

Im Anschluss erfolgt die Bearbeitung und Analyse der vier Fragestellungen zum Zusammenhang zwischen zwei Variablen. Es handelt sich bei allen Untersuchungen um Querschnittanalysen, also um die Analyse von Beziehungen zwischen Variablen zu einem bestimmten Zeitpunkt.

In der ersten Analyse des Zusammenhangs zwischen der ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ und der ‚Beurteilung der eigenen wirtschaftlichen Lage’ soll die Beziehung zwischen diesen zwei durch Dichotomisierung nominalisierten Variablen für Ost- und Westdeutschland getrennt untersucht und dazu die Assoziationsmaße für nominale Variablen Chi-Quadrat, Phi, V, C und Lambda ermittelt werden. Es lässt sich schon jetzt die Hypothese aufstellen, dass eine positive Korrelation zwischen diesen Variablen zu erwarten ist; wird also die eigene wirtschaftliche Lage positiv beurteilt, so wird auch die allgemeine wirtschaftliche Lage positiv beurteilt. Diese Hypothese wird angesichts der erzielten Ergebnisse zu überprüfen sein.

Als zweites soll die Beziehung zwischen zwei ordinal skalierten Variablen, zwischen dem ‚Bildungsniveau’ und dem ‚Vertrauen in öffentliche Einrichtungen und gesellschaftliche Organisationen’, durch Errechnung der geeigneten Maßzahlen für ordinale Variablen Kendall’s taub, Somer’s d und Gamma bestimmt werden. Es gilt dabei die These zu verifizieren oder falsifizieren, dass formal gebildete Personen öffentlichen Einrichtungen und gesellschaftlichen Organisationen ein geringeres Vertrauen entgegen bringen als Personen mit einer geringeren Bildungsqualifikation.

In der dritten Analyse wird die Beziehung zwischen metrischen Variablen, dem ‚Lebensalter der Ehemänner’ und dem ‚Lebensalter der Ehefrauen’, durch Ermittlung des Streuungsdiagramms und der Regressionsgeraden sowie durch Berechnung der für metrische Variablen geeigneten Korrelationskoeffizienten Pearsons r und r² untersucht. Es lässt sich die Hypothese einer starken, positiven Korrelation zwischen den beiden Variablen aufstellen.

Als viertes und letztes soll der Zusammenhang zwischen den zwei metrischen Variablen ‚Lebensalter’ und ‚Einstellung gegenüber einer Berufstätigkeit von Frauen’ analysiert werden. Dazu werden Streuungsdiagramm, Regressionsgerade, Pearsons r und das Bestimmtheitsmaß r² ermittelt. Dabei ist die Hypothese zu überprüfen, dass junge Menschen einer Berufstätigkeit von Frauen gegenüber positiver eingestellt sind als ältere Menschen, also die Annahme eines negativen statistischen Zusammenhangs.

Abschließend erfolgt eine Zusammenfassung und Bewertung der erlangten Ergebnisse und es werden weiterführende Fragen in Bezug auf die Kombination der Aufgaben für die multivariate Datenanalyse entwickelt sowie Überlegungen angestellt, wie die Ergebnisse für weiterführende Erhebungen genutzt werden könnten.

2 Datenbasis (ALLBUS)

Allgemeine Informationen zum ALLBUS-Projekt

Als Arbeitsgrundlage der Forschungsarbeit wird die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) der Jahre 1994 und 1998 herangezogen. Der ALLBUS wird vom ZUMA (Zentrum für Umfragen, Methoden und Analysen, Mannheim) und vom Zentralarchiv für Empirische Sozialforschung (Köln) in Zusammenarbeit mit dem ALLBUS-Ausschuss durchgeführt und von Bund und Ländern über die GESIS (Gesellschaft sozialwissenschaftlicher Infrastruktureinrichtungen) finanziert.[2]

Das Forschungsprogramm ALLBUS beschäftigt sich mit der Untersuchung des sozialen Wandels und der Datengenerierung für die empirische Sozialforschung.(A94, 3) Nach Erhebung der Daten sollen diese umgehend der Allgemeinheit für Sekundäranalysen bereitgestellt werden.(A94, 1) Die Bereitstellung der ALLBUS-Daten für die wissenschaftliche Allgemeinheit verfolgt vornehmlich drei Ziele: erstens das wissenschaftliche Ziel der Untersuchung von sozialen Lagen, Einstellungen, Werten und Verhaltensweisen; zweitens die Beschreibung des sozialen Wandels im Zeitverlauf; und drittens die Datenbereitstellung für Forscher und Lehrende, die keinen unmittelbaren Zugang zu entsprechenden Primärdaten haben.(A94, 5) Als weitere Ziele können die Ermöglichung von international vergleichbaren Analysen und die durch gesondert durchgeführte Methodenstudien erlangten Beträge zur Methodenentwicklung genannt werden.(A94, 3)

„Der ALLBUS wurde Mitte der siebziger Jahre als gemeinsames Vorhaben von ZUMA und Zentralarchiv konzipiert.“(A94, 4) Seit 1980 wurde im Rahmen des ALLBUS-Programms alle zwei Jahre eine Zufallsstichprobe der Bevölkerung der Bundesrepublik mit einer Grundgesamtheit von ca. 3000 wahlberechtigten Personen in Privathaushalten der alten Bundesrepublik inklusive Westberlin befragt. Nach der Wiedervereinigung wurde 1991 eine zusätzliche Umfrage durchgeführt, in der erstmals Bürger aus den neuen Bundesländern sowie deutschsprachige Ausländer in die Stichprobe einbezogen wurden.(A94, 3)

Kernstück der Konzeption des ALLBUS sind „regelmäßig zu wiederholende, repräsentative Bevölkerungsumfragen mit einem teils konstanten, teils variablen Fragenprogramm“(A94, 4).

Jede Umfrage des ALLBUS konzentriert sich in ihrem Fragenkatalog auf ein bis zwei Schwerpunktthemen. Die Fragen sollten dabei auf Operationalisierungen von theoretischen soziologischen Konstrukten beruhen. Die ausführliche Erhebung sozialstruktureller Hintergrundmerkmale in jeder Erhebung und Fragen zu aktuellen gesellschaftlichen Herausforderungen ermöglichen die Verwendung des ALLBUS für Querschnittanalysen. Die Verwendung des ALLBUS für Längsschnittanalysen wird durch die notwendige Fragekontinuität, durch den Rückgriff auf Fragen aus anderen sozialwissenschaftlichen Umfragen und durch ALLBUS-interne Replikationen gewährleistet.(A94, 4)

Da sich der ALLBUS auch den interkulturellen Vergleich des sozialen Wandels zum Ziel gesetzt hat, bestanden schon seit seiner Konzeption viele bilaterale Kooperationen mit ausländischen Forschungseinrichtungen.(A94, 5) 1985 wurde mit der Gründung des International Social Survey Programme (ISSP) ein institutioneller Rahmen für diese Kooperationen geschaffen. Seit 1986 ist die ISSP-Umfrage als schriftlicher drop-off-Fragebogen Bestandteil der ALLBUS-Erhebung.(A94, 3/4) In jedem Land wird eine repräsentative Zufallsstichprobe von mindestens 1000 Personen befragt. Ziel des ISSP ist ebenso die Entwicklung einer international vergleichbaren Standarddemographie, die länderspezifische Ausprägungen einiger Merkmale wie das des Bildungsabschlusses aufeinander abstimmen soll.(A94, 5) Da die ISSP-Umfrage jedes Jahr, die ALLBUS-Umfrage jedoch nur alle zwei Jahre durchgeführt wird, wird das ISSP nur in geraden Jahren als Teil des ALLBUS durchgeführt.(A94, 7)

Der ALLBUS 1994

Der ALLBUS 1994 ist die achte Studie im Rahmen des ALLBUS-Programms.(A94, 1) Es handelt sich beim ALLBUS 1994 um eine „[z]weistufige, disproportional geschichtete Zufallsauswahl in West- (incl. West-Berlin) und Ostdeutschland (incl. Ost-Berlin) aus allen deutschsprachigen Personen, die zum Befragungszeitpunkt in Privathaushalten lebten und vor dem 01.01.76 geboren sind“(A94, 11). Damit wurden auch deutschsprachige, im Bundesgebiet lebende Ausländer in die Erhebung mit einbezogen.(A94, 8) „In der ersten Auswahlstufe wurden 104 Gemeinden in Westdeutschland und 47 Gemeinden in Ostdeutschland mit einer Wahrscheinlichkeit proportional zur Zahl ihrer erwachsenen Einwohner ausgewählt, in der zweiten Auswahlstufe wurden jeweils 40 Personen (in Großstädten ein entsprechendes Vielfaches davon) aus den Einwohnermeldekarteien zufällig gezogen.“(A94, 11) Die Erhebung wurde von Februar 1994 bis Mai 1994 durchgeführt.(A94, 9) In mündlichen und schriftlichen Befragungen mit standardisiertem Frageboden wurden 3450 Personen zu 435 Fragen befragt.(A94, 11)

Inhaltliche Untersuchungsschwerpunkte des ALLBUS 1994 bildeten neben den standardmäßig erhobenen demographischen Informationen über den Befragten und sein soziales Umfeld insbesondere Replikationen von Fragen aus dem ALLBUS 1984 zum Thema ‚Soziale Ungleichheit und Wohlfahrtsstaat’ und Replikationen zum Bereich ‚Familie und sich ändernde Geschlechtsrollen’ aus dem ISSP-Teil des ALLBUS 1988.(A94, 8) Auch 1994 ist der deutsche Teil des ISSP im ALLBUS 1994 enthalten (Schwerpunkt: ‚Familie und sich ändernde Geschlechtsrollen’). „Die deutsche ISSP-Erhebung 1994 wurde als schriftlicher ‚drop-off’-Fragebogen an das eigentliche mündliche Interview der ALLBUS-Haupterhebung angefügt.“(A94, 12)

Eine Besonderheit des ALLBUS-Jahrgangs 1994 ist der Wechsel des Stichprobenverfahrens vom ADM-Stichprobenverfahren hin zu einer Gemeindestichprobe mit anschließender Ziehung von Personenadressen aus dem Einwohnermelderegister.(A94, 1) „Während die früheren ALLBUS-Erhebungen originär Haushaltsstichproben waren, ist der ALLBUS 1994 eine Personenstichprobe “.(A94, 9)

Das ADM(Arbeitsgemeinschaft Deutscher Marktforschungsinstitute)-Stichprobenverfahren, das für die ALLBUS-Studien von 1980 bis 1992 verwendet wurde, ist das am häufigsten genutzte Stichprobenverfahren und basiert auf Daten der Wahlbezirksstatistik des Statistischen Bundesamtes.(A94, 52) Da bevölkerungsrepräsentative Umfragen in Deutschland auf mehrstufige Auswahlverfahren bei der Stichprobenziehung angewiesen sind, umfasst das Stichprobenverfahren drei Auswahlstufen: als erstes die Stichprobe von Stimmbezirken, danach die Ermittlung der in die Befragung einzubeziehenden Haushalte durch die Interviewer sowie des zufälligen Startpunkts, der Fortsetzungsregeln, des Begehungswegs und schließlich die Bestimmung einer zu befragenden Person in den ausgewählten Haushalten mit Hilfe eines vorbereiteten Zufallsschemas.(A94, 52/53) Es handelt sich dabei um eine auf der Ebene der Haushalte selbstgewichtete Stichprobe, deren Auswahlwahrscheinlichkeit einer Person von der Haushaltsgröße abhängt und deshalb eine Designgewichtung notwendig macht.(A94, 53) Als Nachteile des ADM-Designs können vor allem genannt werden, dass Informationen über den Anteil der Ausländer in den Stimmbezirken nicht verfügbar sind und dass der zu große Entscheidungsspielraum des Interviewers die Zufallsauswahl beeinträchtigen kann.(A94, 53/54)

Als Alternative wurde beim ALLBUS 1994 zu dem zweistufigen Ziehungsverfahren einer Gemeindestichprobe mit anschließender Ziehung von Personenadressen aus den Einwohnermelderegistern übergegangen.(A94, 54) „Die gezogenen Adressen werden den Interviewern vorgegeben, die mit den somit eindeutig bestimmten Personen ein Interview durchführen sollen. Dadurch, daß jede Zielperson die gleiche Auswahlwahrscheinlichkeit hat, erhält man im Ergebnis eine auf Personenebene gewichtete Stichprobe.“(A94, 55)

Als Vorteile dieses Verfahrens gegenüber dem ADM-Stichprobensystem können genannt werden, dass die Beeinflussung der Ergebnisse durch den Interviewer nahezu vollkommen ausgeschlossen werden kann und dass das Ausfallgeschehen exakter quantifizierbar ist. Darüber hinaus ist der Einbezug von Ausländern in die Befragung einfacher durchzuführen und eine Prüfung möglich, ob sich Teilnehmer und Nicht-Teilnehmer in ihren Merkmalen systematisch voneinander unterscheiden. Jedoch stellen höherer Zeitaufwand und höhere Kosten erhebliche Nachteile dar.(A94, 55/56)

Beim Vergleich von ausgewählten Ergebnissen des ALLBUS 1994 mit denen des ALLBUS 1992 ist erkennbar, dass die zu beobachtenden Verzerrungen beim ADM-Verfahren, die Unterrepräsentierung von unteren sozialen Schichten, von Personen in Einpersonenhaushalten, von älteren Menschen und von Ausländern, durch das neue Stichprobenverfahren erheblich abgeschwächt werden konnten.(A94, 89) Eine höhere Repräsentation der unteren sozialen Schichten, der ausländischen Bevölkerung und allein lebender Personen, aber auch eine Zunahme des Anteils der Männer und der ganztags beruflich Erwerbstätigen in Westdeutschland ist zu verzeichnen.(A94, 91-94)

Der ALLBUS 1998

Der ALLBUS 1998 ist die zehnte Studie im Rahmen des ALLBUS-Programms.[3] Es handelt sich beim ALLBUS 1998 um eine „[m]ehrstufig geschichtete Zufallsauswahl in den alten und neuen Bundesländern aus allen deutschsprachigen Personen, die in der Bundesrepublik in Privathaushalten lebten und die bis zum Befragungstag das 18. Lebensjahr vollendet hatten“(A98, 13). Auch deutschsprachige, im heutigen Bundesgebiet lebende Ausländer wurden einbezogen.(A98, 13) Die Erhebung wurde von März 1998 bis Juli 1998 durchgeführt.(A98, 9) In mündlicher Befragung mit standardisiertem Frageboden wurden 3234 Personen zu 474 Fragen befragt.(A98, 13)

Die Umfrage 1998 enthält Informationen zu demographischen Merkmalen sowie zu Einstellungen und Verhaltensweisen in verschiedenen Bereichen. Den Schwerpunkt der diesjährigen Umfrage bildet das Thema ‚Politische Partizipation und Einstellungen zum politischen System sowie zu sozialer Ungleichheit’. Dazu wurden die entsprechenden Fragen aus dem ALLBUS 1988 in gekürzter Form repliziert und zu wichtigen neuen Theorieentwicklungen zusätzliche Fragen berücksichtigt. Neben diesem Schwerpunkt wurden im ALLBUS 1998 erstmals Informationen zur ‚Mediennutzung und Medienbewertung’ sowie zum Thema ‚persönlicher Geschmack und Lebensstile’ erfasst.(A98, 1)

Die ALLBUS-Erhebung 1998 wurde wieder durch eine Haushaltsstichprobe nach dem ADM-Design durchgeführt, wie es auch in den Jahrgängen 1980 bis 1992 geschah.(A98, 14) Die Rückkehr zum ADM-Stichprobenverfahren wurde aufgrund zu hoher Kosten der Einwohnermelderegister-Stichprobe vorgenommen. Im Anschluss an das mündliche Interview fand diesmal kein schriftlicher drop-off des ISSP statt.(A98, 1)

3 Durchführung der Analysen

3.1 Analyse des Zusammenhangs zwischen der Beurteilung der allgemeinen wirtschaftlichen Lage und der Beurteilung der eigenen wirtschaftlichen Lage

In der folgenden Analyse soll der Zusammenhang zwischen der ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ (v5) und der ‚Beurteilung der eigenen wirtschaftlichen Lage’ (v6) in West- beziehungsweise Ostdeutschland unter Verwendung der Daten des ALLBUS 1998 betrachtet und die Hypothese überprüft werden: Wird die eigene wirtschaftliche Lage positiv beurteilt, so wird auch die allgemeine wirtschaftliche Lage positiv beurteilt.

Zunächst müssen die Variablen v5 ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ und v6 ‚Beurteilung der eigenen wirtschaftlichen Lage’ im Hinblick auf ihre Skalierung, ihre fehlenden Werte (missing values) und die Anzahl ihrer Ausprägungen betrachtet werden.

Beide Variablen sind ordinal skaliert und weisen fünf Variabelenausprägungen auf (1=sehr gut; 2=gut; 3=teils, teils; 4=schlecht; 5=sehr schlecht). Die fehlenden Werte (8=Weiß nicht; 9=keine Auskunft) müssen aus der Analyse ausgeschlossen werden.

Mit der Dichotomisierung werden die fünf Variabelenausprägungen der Variabeln v5 und v6 zu jeweils zwei Ausprägungen (10=gut; 20=schlecht) zusammengefasst. Dieser Vorgang vereinfacht den weiteren Rechenvorgang und macht die Berechnung des Phi-Koeffizienten möglich, zu dessen Ermittlung eine 2x2-Tabelle vorliegen muss. Durch die Dichotomisierung wird es ebenfalls möglich, die eigentlich ordinal skalierten Variabeln wie nominale Variablen zu behandeln und nominale Assoziationsmaße zu berechnen. Die Behandlung von ordinal skalierten Variablen wie nominal skalierte hat jedoch einen Informationsverlust bezüglich der Richtung der Beziehung zur Folge.

So wird in der Untersuchung die Beziehung zwischen nominalen Variablen unter Verwendung der für nominale Variablen geeigneten Assoziationsmaße betrachtet. Daher soll zunächst der Begriff der verschiedenen Skalenniveaus von Variablen und besonders die Nominalskala und ihre Eigenschaften eingeführt werden.

Die Nominalskala:

In der Statistik werden vier Messniveaus unterschieden: Nominal-, Ordinal-, Intervall- und Ratioskala. Das niedrigste Messniveau ist die Nominalskala, die Objekte oder Untersuchungseinheiten nach Klassen und Kategorien qualitativ klassifiziert. Die Kategorien sind rangmäßig nicht geordnet, vollständig und schließen sich gegenseitig aus (Alternativklassifikation).(B, 17) Als Beispiele für nominal skalierte Variablen können das Geschlecht, der Berufsstatus und die Nationalität genannt werden.(B, 17/18) Bei zwei Ausprägungen spricht man von einer Dichotomie, bei drei Ausprägungen von einer Trichotomie bzw. Polytomie.(B, 18) Die Kategorien sind beliebig angeordnet und enthalten keine Informationen über die Richtung einer Beziehung. Daher sind die Maßzahlen für nominale Variablen meist vorzeichenlos.(B, 198) Der Koeffizient Phi, der auch in der vorliegenden Analyse ermittelt wird, produziert jedoch ein Vorzeichen, was besonders von Relevanz sein kann, wenn Phi für dichotomisierte Variablen höheren Messniveaus berechnet wird.(B, 199) Dies ist in Untersuchung 3.1 der Fall.

Beim Vorgang der Dichotomisierung muss beachtet werden, dass die Art der Dichotomisierung das spätere Ergebnis der Untersuchung stark beeinflussen kann. Würde man beispielsweise anstatt 1,2=10 und 3,4,5=20 so dichotomisieren, dass 1,2,3=10 und 4,5=20, erhielte man andere Ergebnisse. Die Frage bei der Dichotomisierung von Variablen mit einer ungeraden Anzahl an Ausprägungen ist immer, welcher Seite man die mittlere Ausprägung zuschlagen soll. Deshalb sollte man idealerweise die aus beiden Dichotomisierungsmöglichkeiten resultierenden Ergebnisse vergleichen, um sicher zugehen, dass wirklich ein aussagekräftiges Ergebnis vorliegt, und um zu überprüfen, wie sehr es durch die Dichotomisierung beeinflusst wurde. Da in der vorliegenden Untersuchung jedoch die Art der Dichotomierung vorgegeben ist, soll nur diese berücksichtigt werden.

Zur Überprüfung der Hypothese „Wird die eigene wirtschaftliche Lage positiv beurteilt, so wird auch die allgemeine wirtschaftliche Lage positiv beurteilt“ müssen zunächst für beide Landesteile getrennte Kreuztabellen mit Zellen- und Randhäufigkeiten, Spaltenprozenten, erwarteten Häufigkeiten bei statistischer Unabhängigkeit und die Werte der fünf Assoziationskoeffizienten Chi-Quadrat, Phi, V von Cramer, Pearsons Kontingenzkoeffizient C und Lambda mit Hilfe von SPSS ermittelt und dann in Tabellen einander gegenübergestellt werden.

Der Aufbau der bivariaten Tabelle (Kreuztabelle):

Liegen Daten in einer gemeinsamen, bivariaten Häufigkeitsverteilung vor, so lassen sich die Merkmalsausprägungen je zweier Variablen für jede Untersuchungseinheit in Form einer gemeinsamen Häufigkeitstabelle bzw. bivariaten Tabelle darstellen. Die bivariate Tabelle entsteht durch Kreuztabulation der beiden Variablen.(B, 171)

Tabelle 1.1: Allgemeiner Aufbau einer bivariaten Tabelle (B, 175)

Abbildung in dieser Leseprobe nicht enthalten

Variable

Y In Tabelle 1.1 ist der allgemeine Aufbau einer bivariaten Tabelle dargestellt. Die Anzahl der Merkmalsausprägungen beider Variablen entscheidet über die Form der Tabelle bzw. über die Anzahl ihrer Zellen.(B, 172) Die unabhängige, mit X bezeichnete Spaltenvariable steht im Tabellenkopf und ihre Kategorien sind horizontal angeordnet; die abhängige, mit Y bezeichnete Zeilenvariable steht am linken Tabellenrand und ihre Kategorien sind vertikal angeordnet.(B, 172/173) In den Zellen der Kreuztabelle befinden sich die gemeinsamen Häufigkeiten: „Die Häufigkeit oder Besetzung einer jeden Zelle informiert darüber, wie häufig eine bestimmte Ausprägungskombination vorkommt“.(B, 173) „Durch zeilenweise bzw. spaltenweise Auszählung der Anzahl der Fälle (engl. count) der einzelnen Zellen erhält man die Randhäufigkeiten der Zeilenvariablen (engl. row totals) bzw. die Randhäufigkeiten der Spaltenvariablen (engl. column totals), deren Summe die Gesamtzahl der Fälle (N) ergibt.“(B, 173)

Eine Kreuztabelle besteht aus Zeilen, Spalten und Zellen. Zur Bezeichnung der Zellen werden die Subskripte i = Zeile und j = Spalte verwendet. Zelleij ist Zelle der i-ten Zeile und j-ten Spalte. Die Häufigkeit der Zelleij wird mit fij bezeichnet. Die Häufigkeit fij gibt Auskunft über die Anzahl der Untersuchungseinheiten, die die Ausprägungskombination yi und xj besitzen. Die Randhäufigkeiten, auch marginale Häufigkeiten genannt, sind an den Rändern der Kreuztabelle abgetragen und werden mit n bezeichnet. Die Zeilenrandhäufigkeit n1. addiert die Häufigkeiten der ersten Zeile über alle Spalten. Die Spaltenrandhäufigkeit n.1 addiert die Häufigkeiten der ersten Spalte über alle Zeilen.(B, 174)

Zur genaueren Untersuchung der Verteilung können Zeilen- bzw. Spaltenprozente berechnet werden. Die Spaltenprozentwerte werden berechnet, indem die Zellenhäufigkeit durch die Spaltenrandhäufigkeit dividiert und der Bruch mit hundert multipliziert wird: (f11/n.1)x100; (f21/n.1)x100; (f31/n.1)x100; (f41/n.1)x100; usw.(B, 178) Sie geben an, wie sich die Häufigkeiten bei gegebener Ausprägung der X-Variable auf die Ausprägungen der Y-Variable aufteilen. „Die Grundregel der Prozentuierung lautet: Nimm die als unabhängig betrachtete Variable, also die Variable, deren Effekt untersucht werden soll, als Basis der Prozentuierung. Das heißt bei konventioneller Anordnung der X-Variablen im Tabellenkopf: Prozentuiere spaltenweise und vergleiche zeilenweise.“(B, 178) Die Berechnung der Zeilenprozente erfolgt durch die Division der Zellenhäufigkeit durch die Zeilenrandhäufigkeit mal 100: (f11/n1.)x100; (f12/n1.)x100; (f13/n1.)x100; usw. Da bei den vorliegenden Untersuchungen die X-Variable als unabhängige Variable im Tabellenkopf und die Y-Variable als abhängige Variable im linken Tabellenrand dargestellt ist, ist die Ermittlung der Spaltenprozentwerte am sinnvollsten.

Die 2x2-Tabelle stellt die einfachste Form einer Kreuztabelle dar. Grundsätzlich bildet sich die bivariate r x c-Tabelle als Ergebnis einer Kreuztabulation zweier Variablen mit r (Zeilen) und c (Spalten) Kategorien.(B, 175)

Es muss bei der Analyse einer bivariaten Verteilung zunächst die Frage geklärt werden, bei welcher der Variablen es sich um die abhängige (X-Variable) und bei welcher es sich um die unabhängige (Y-Variable) handelt.(B, 177) Eine asymmetrische Beziehung liegt vor, wenn die eine der beiden Variablen als von der anderen abhängig angesehen werden kann. Hingegen handelt es sich um eine symmetrische Beziehung, „wenn keine der beiden Variablen als unabhängige oder abhängige Variable angesehen werden kann oder wenn jede der beiden Variablen als von der anderen abhängig aufgefasst werden kann“(B, 177). Je nachdem, ob es sich um eine asymmetrische oder symmetrische Beziehung zwischen den Variablen handelt, ist die Ermittlung asymmetrischer oder symmetrischer Maßzahlen erforderlich.

Es ist nicht empirisch nachweisbar, welche der beiden Variablen die abhängige und welche die unabhängige ist. Dies festzulegen ist Aufgabe der soziologischen Theorie. Die Hypothese geht in ihrer Formulierung jedoch von der Annahme aus, dass es sich bei der ‚Beurteilung der eigenen wirtschaftlichen Lage’ um die unabhängige, die X-Variable, und bei der ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ um die abhängige Variable, die Y-Variable, handelt. Deshalb ist die Berechnung der Spaltenprozente hier sinnvoller. Die Analyse muss im folgenden für Ost- und Westdeutschland getrennt durchgeführt werden:

Analyse für Ostdeutschland:

In Bezug auf die Häufigkeitsverteilung der Variablen ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ für Ostdeutschland werden von 1022 Befragten die Angaben von 4 Befragten ausgeschlossen. Von einer Grundgesamtheit von 1018 Personen beurteilen 3 (0,3%) die allgemeine wirtschaftliche Lage als sehr gut, 148 (14,5%) als gut, 479 (47,1%) als teils, teils, 321 (31,5%) als schlecht und 67 Personen (6,6%) als sehr schlecht. Somit stellt die Antwort ‚teils, teils’ die mit Abstand meistbesetzte Kategorie dar. Diese soll durch die Dichotomisierung der Kategorie schlecht zugeordnet werden. Es ist daher zu erwarten, dass die Art der Dichotomisierung das Ergebnis stark beeinflussen wird.

Nach der Dichotomisierung beurteilen von 1018 Befragten 151 (14,8%) die allgemeine wirtschaftliche Lage als gut und 867 (85,2%) als schlecht, das sind mehr als vier-fünftel aller Befragten.

In Bezug auf die Häufigkeitsverteilung der Variablen ‚Beurteilung der eigenen wirtschaftlichen Lage’ für Ostdeutschland werden von 1022 Befragten die Angaben von 2 Befragten ausgeschlossen. Von einer Grundgesamtheit von 1020 Personen beurteilen 7 (0,7%) die eigene wirtschaftliche Lage als sehr gut, 431 (42,3%) als gut, 405 (39,7%) als teils, teils, 139 (13,6%) als schlecht und 38 Personen (3,7%) als sehr schlecht. Somit bewerten die meisten Befragten die eigene wirtschaftliche Lage als gut, gefolgt von der Bewertung ‚teils, teils’.

Nach der Dichotomisierung beurteilen von 1020 Befragten 438 (42,9%) die eigene wirtschaftliche Lage als gut und mit 582 (57,1%) etwas mehr als die Hälfte der Befragten als schlecht.

Tabelle 1.2: Kreuztabulation der Variablen ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ und ‚Beurteilung der eigenen wirtschaftlichen Lage’ für Ostdeutschland

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1.2 stellt die Kreuztabulation der abhängigen Variable ‚allgemeine wirtschaftliche Lage’ und der unabhängigen Variable ‚eigene Wirtschaftslage’ für Ostdeutschland mit Zellen- und Randhäufigkeiten, Spaltenprozenten, erwarteten Häufigkeiten und absoluten Prozenten dar.

Von der Gesamtanzahl der Untersuchungseinheiten 1016 (100%) beurteilen 437 (43,0%) die eigene Wirtschaftslage als gut und 579 (57,0%) als schlecht. Von den 100% der Befragten in Ostdeutschland, die die eigene Wirtschaftslage als gut bezeichnen, schätzen 28,6% auch die allgemeine wirtschaftliche Lage als gut und 71,4% die allgemeine Wirtschaftslage als schlecht ein. Und von 100% der Befragten, die die eigene Wirtschaftslage als schlecht bezeichnen, schätzen nur 4,5% die allgemeine wirtschaftliche Lage als gut und 95,5% die allgemeine Wirtschaftslage als schlecht ein.

Schon die konditionale Verteilung scheint die Hypothese einer positiven Korrelation zu unterstützen, da von den Ostdeutschen, die ihre eigene wirtschaftliche Lage als schlecht empfinden, 95,5% auch die allgemeine wirtschaftliche Lage als schlecht bezeichnen würden.

Analyse für Westdeutschland:

In Bezug auf die Häufigkeitsverteilung der Variablen ‚Beurteilung der allgemeinen wirtschaftlichen Lage’ für Westdeutschland werden von 2212 Befragten die Angaben von 27 Befragten ausgeschlossen. Von einer Grundgesamtheit von 2185 Personen beurteilen 29 (1,3%) die allgemeine wirtschaftliche Lage als sehr gut, 422 (19,3%) als gut, 1017 (46,5%) als teils, teils, 574 (26,3%) als schlecht und 143 Personen (6,5%) als sehr schlecht. Somit beurteilen fast die Hälfte der Personen die allgemeine Wirtschaftslage als ‚teils, teils’.

Nach der Dichotomisierung beurteilen von 2185 Befragten 451 (20,6%) die allgemeine wirtschaftliche Lage als gut und 1734 (79,4%), also knapp vier-fünftel, als schlecht.

In Bezug auf die Häufigkeitsverteilung der Variablen ‚Beurteilung der eigenen wirtschaftlichen Lage’ für Westdeutschland werden von 2212 Befragten die Angaben von 9 Befragten ausgeschlossen. Von einer Grundgesamtheit von 2203 Personen beurteilen 55 (2,5%) die eigene wirtschaftliche Lage als sehr gut, 1020 (46,3%) als gut, 811 (36,8%) als teils, teils, 263 (11,9%) als schlecht und 54 Personen (2,5%) als sehr schlecht. Die meisten Personen beurteilen somit ihre eigene wirtschaftliche Lage als gut.

Nach der Dichotomisierung beurteilen von 2185 Befragten 1075 (48,8%) die eigene wirtschaftliche Lage als gut und 1128 (51,2%) als schlecht, was etwas mehr als der Hälfte der Befragten entspricht.

[...]


[1] Benninghaus, Hans 2001: Einführung in die sozialwissenschaftliche Datenanalyse, 6. Aufl., München/Wien: Oldenbourg, S. 168. Im nachfolgenden wird aus diesem Buch im fortlaufenden Text unter Nennung von (B, Seitenzahl) zitiert.

[2] Zentralarchiv für empirische Sozialforschung 1994: Dokumentation zur ALLBUS-Erhebung 1994 (Codebuch), Köln, S. 3. Im nachfolgenden wird aus diesem Buch im fortlaufenden Text unter Nennung von (A94, Seitenzahl) zitiert.

[3] Zentralarchiv für empirische Sozialforschung 1998: Dokumentation zur ALLBUS-Erhebung 1998 (Codebuch), Köln, S. 1. Im nachfolgenden wird aus diesem Buch im fortlaufenden Text unter Nennung von (A98, Seitenzahl) zitiert.

Ende der Leseprobe aus 53 Seiten

Details

Titel
Computerunterstützte Datenanalyse - Deskriptiv- und Inferenzstatistik
Hochschule
Eberhard-Karls-Universität Tübingen  (Institut für Soziologie)
Veranstaltung
Computerunterstützte Datenanalyse. Deskriptiv- und Inferenzstatistik
Note
1,3
Autor
Jahr
2004
Seiten
53
Katalognummer
V64886
ISBN (eBook)
9783638575829
Dateigröße
947 KB
Sprache
Deutsch
Schlagworte
Computerunterstützte, Datenanalyse, Deskriptiv-, Inferenzstatistik, Computerunterstützte, Datenanalyse, Deskriptiv-, Inferenzstatistik
Arbeit zitieren
Anne-Christin Sievers (Autor), 2004, Computerunterstützte Datenanalyse - Deskriptiv- und Inferenzstatistik, München, GRIN Verlag, https://www.grin.com/document/64886

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Computerunterstützte Datenanalyse - Deskriptiv- und Inferenzstatistik



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden