Quantitative Datenanalyse. Datenanalyse des Datensatzes "Sommerumfrage 2017"


Hausarbeit, 2018
16 Seiten, Note: 2.3

Leseprobe

Inhaltsverzeichnis

1. Beschreibung des Datensatzes

2. Explorative Analyse zur Generierung der Hypothesen

3. Deduktive Analyse
3.1. Inferenz eines kategorialen Anteilswertes
3.2. t-Test für unabhängige Stichprobe
3.3. Lineare Regression
3.4. t-Test

4. Fazit
4.1. Zentrale Ergebnisse und Interpretation
4.2. Grenzen der Analysen

Anhang

1. Beschreibung des Datensatzes

In dieser Hausarbeit wird der Datensatz „Sommerumfrage 2017“ analysiert. Die Daten wurden von den Studierenden der FOM im Jahr 2017 im 1. Semester erhoben, um das Einkaufsverhalten und die Lebenseinstellung der weiblichen und männlichen Probanden zu untersuchen.

Zur Analyse des Datensatzes wird mit der Software R Studio gearbeitet. Zunächst wird der Datensatz mit folgendem Befehl geladen:

Abbildung in dieser Leseprobe nicht enthalten

Damit die Datenanalyse durchgeführt werden kann und die Grafiken korrekt angezeigt werden müssen folgende Packages heruntergeladen werden.

Abbildung in dieser Leseprobe nicht enthalten

Die Variablen und die Ausprägungen des Datensatzes können mit dem folgenden Befehl abgelesen werden. Der Datensatz der Sommerumfrage 2017 besteht aus 750 Beobach- tungen in Zeilen und 89 Variablen in Spalten und pro Variable der R-Datentyp wie „int.“ für integer, also ganze Zahlen.

Abbildung in dieser Leseprobe nicht enthalten

Nach der Analyse der Daten wurde festgestellt, dass einige Probanden keine Angaben zu bestimmten Fragen abgaben. Um eine genau Übersicht über die tatsächlich beantworte- ten Fragen zu verschaffen haben wir die „NA“ (Keine abgegebene Antwort), wie folgt, herausgefiltert:

Abbildung in dieser Leseprobe nicht enthalten

Es lässt sich erkennen, dass die Anzahl der Zeilen auf 409 gesunken ist, die Variablen bleiben bei 89.

2. Explorative Analyse zur Generierung der Hypothesen

Um potenziell interessante Beobachtungen bzw. Zusammenhänge zu finden, die aus dem Datensatz augenscheinlich hervorgehen und später in Form konkreter Hypothesen mit- tels Analysen untersucht werden, wird der vorliegende Datensatz zielführend explorativ analysiert. Für ein möglichst effizientes Vorgehen werden hierbei Variablen genauer un- tersucht, die intuitiv miteinander im Zusammenhang stehen könnten oder deren Zusam- menhänge auf Trends basieren, die in der Vergangenheit durch die Medien publik ge- macht wurden.

Zunächst hatten wir die Vermutung, dass ältere Menschen bzw. Rentner aufgrund der angenommenen geringeren Vertrautheit mit Computern mehr „offline“ informieren und auch weniger auf Online-Shopping setzen als jüngere Menschen. Da aus dem Datensatz Variablen hervorgehen, die das Online-Informationsverhalten sowie den Rentnerstatus erfassen, wollen wir die Häufigkeiten der Kategorien der Status -Variable (für berufli- chen Status) und der Info -Variable (für das Online-Verhalten) tabellarisch auszählen und vergleichen:

Abbildung in dieser Leseprobe nicht enthalten

Die Tabelle zeigt, dass Rentner im Vergleich zu den anderen Kategorien, die höchstwahr- scheinlich aus jüngeren Teilnehmern bestehen, sich vergleichsweise wenig online infor- mieren. Von den 172 Rentnern informieren sich nur 28 regelmäßig online, wohingegen die übrigen 144 sich vorwiegend offline informieren. Die Rentner sind zudem die einzige Gruppe, bei der die Mehrheit sich offline informiert. Bei allen anderen Status-Kategorien informiert sich die Mehrheit im Datensatz online.

Als nächstes haben wir beschlossen, der Frage nachzugehen, ob Frauen weniger verdie- nen als Männer, da diese Ungleichheit immer wieder in den Medien erwähnt wird und polarisiert. Da die Variable für das Netto-Einkommen als Faktor mit Variablenlabels ko- diert ist, haben wir diese zunächst mit folgendem Code in eine Ordinalskala von 1 (nied- rig) bis 10 (hoch) rekodiert:

Abbildung in dieser Leseprobe nicht enthalten

Mit dem folgenden Befehl wird ein Balken- bzw. Säulendiagramm erstellt, dass das Net- toeinkommen in den Werten von 1 (niedrig) bis 10 (hoch) nach Geschlecht darstellt.

Abbildung in dieser Leseprobe nicht enthalten

Zunächst wird wie in der explorativen Analyse für die Rentner eine Häufigkeitstabelle erstellt, die als Objekt „counts“ abgelegt wird. Dieses wird dann mit dem zweiten oben genannten Befehl als Input für das Balkendiagramm verwendet. Die resultierende Grafik zeigt, dass sichtbar mehr Frauen der eher niedrigen Kategorie 3 für das Netto-Einkommen zugeordnete werden, wohingegen deutlich mehr Männer in der höheren Kategorie 5 ent- halten sind als Frauen:

Abbildung in dieser Leseprobe nicht enthalten

Augenscheinlich kann es also sein, dass Frauen durchschnittlich tatsächlich weniger ver- dienen als Männer. Ein konkreter Hypothesentest kann die Frage beantworten, ob dieser Unterschied tatsächlich signifikant ist.

Ebenso intuitiv erschien uns ein möglicher Zusammenhang zwischen dem Alter einer Person und dem Bedürfnis nach Sicherheit. Die dafür relevanten Variablen werden im Datensatz in den Spalten Alter und W12 erfasst.

Der folgende Befehl aus dem R-Paket ggplot2 gibt ein Streudiagramm mit eingeblendeter Regressionslinie aus, welches den Zusammenhang zwischen Alter und Sicherheitsbedürf- nis (W12) zeigen wird:

Abbildung in dieser Leseprobe nicht enthalten

Das resultierende Streudiagramm zeigt durchaus eine steigende Tendenz zwischen Alter und dem Bedürfnis nach einem sicheren Umfeld (W12):

Abbildung in dieser Leseprobe nicht enthalten

Auch bei dieser Beobachtung würde ein geeigneter statistischer Test wie zum Beispiel eine lineare Regressionsanalyse Klarheit darüber schaffen, wie stark das Alter einer Per- son tatsächlich mit dem Bedürfnis nach Sicherheit zusammenhängt.

Schließlich haben wir zudem aus eigener Erfahrung die Vermutung, dass ältere Menschen eher auf dem Land leben als in der Hektik der Stadt. Boxplots sollen die Verteilung der Alterswerte in dem jeweiligen Wohnort zum Zwecke der Exploration grafisch veran- schaulichen. Wie in der vorherigen Exploration wird erneut die Variable Alter verwendet und zudem die Variable Wohnort, die angibt, ob der oder die Befragte auf dem Land oder in der Stadt lebt.

Abbildung in dieser Leseprobe nicht enthalten

[...]

Ende der Leseprobe aus 16 Seiten

Details

Titel
Quantitative Datenanalyse. Datenanalyse des Datensatzes "Sommerumfrage 2017"
Hochschule
FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Köln
Note
2.3
Autor
Jahr
2018
Seiten
16
Katalognummer
V470941
ISBN (eBook)
9783668955134
Sprache
Deutsch
Schlagworte
Datenanalyse, Hausarbeit, Quantitativ, Seminararbeit, Sommerumfrage, 2018
Arbeit zitieren
Katharina Galayev (Autor), 2018, Quantitative Datenanalyse. Datenanalyse des Datensatzes "Sommerumfrage 2017", München, GRIN Verlag, https://www.grin.com/document/470941

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Quantitative Datenanalyse. Datenanalyse des Datensatzes "Sommerumfrage 2017"


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden