Eine Datenanalyse der Sommerumfrage an der FOM 2017

Analyse mit dem Programm Rstudio


Hausarbeit, 2018

21 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

1. Einleitung
1.1 Vorstellung des Fragebogens
1.2 Vorgehensweise

2. Explorative Analyse
2.1 Beschreibung des Datensatzes
2.2 Anteilstest
2.3 Einstichproben t-Test
2.4 Lineare Regression

Fazit

Literaturverzeichnis

1. Einleitung

In dieser Seminararbeit wird der zur Verfügung gestellte Datensatz zur Sommerumfrage der FOM 2017 unter Verwendung des Statistikprogramms RStudio analysiert.

1.1 Vorstellung des Fragebogens

Die Befragung wurde durch Prof. Dr. G. – stellvertretender Direktor vom Institut für Empirie & Statistik der FOM Hochschule für Oekonomie & Management -durchgeführt.

Der Fragebogen zur Sommerumfrage 2017 ist in sechs Themengebiete unterteilt. Der erste Block, mit den Identifikationscodes W1 bis W19, heißt „Was ist in Ihrem Leben wichtig?“ und beinhaltet Fragestellungen zu den Präferenzen der Befragten bzgl. ihrer individuellen Lebenseinstellung. Im darauffolgenden Bereich des Fragebogens „Inwiefern stimmen Sie den nachfolgenden Aussagen in Bezug auf Ihr Einkaufsverhalten zu?“ werden die Probanden zu ihrem Einkaufsverhalten befragt. Dieser Block besteht aus den Identifikationscodes E1 bis E30. Der Themenblock „Wie verhalten Sie sich für gewöhnlich, wenn Sie Produkte, die Sie nicht täglich konsumieren, suchen bzw. kaufen?“ beinhaltet die beiden Identifikationscodes V1 und V2 und stellt Fragen zum Einkaufsverhalten online wie offline. Der vierte Block „Welche Themen sind für Sie bei Ihrer Wahlentscheidung zur Bundestagswahl 2017 von Bedeutung?“ mit den Identifikationscodes B1 bis B6 betrifft Präferenzen der Befragten bzgl. ihrer Wahlentscheidung bei der Bundestagswahl 2017. Der anschließende Bereich des Fragebogens „Welche Themen sollen Ihrer Meinung nach von einer zukünftigen Regierung dringend gelöst werden?“ bezieht sich auf eine Auswahl von Themenpunkten, die aus Sicht der Befragten dringend von der Regierung gelöst werden sollten. Dieser Bereich besteht aus den Identifikationscodes T.1 bis T.9. Der abschließende Teil des Fragebogens beinhaltet die Identifikationscodes D1 bis D11. Hier sollen die Befragten Angaben zu ihrer Person machen.

Im ersten, zweiten und vierten Block des Fragebogens können die Befragten zwischen sieben Abstufungen je Frage wählen. Die Auswahlmöglichkeiten reichen von „stimme überhaupt nicht zu“ (1) bis „stimme voll und ganz zu“ (7) bzw. von „ist mir überhaupt nicht wichtig“ (1) bis „ist mir sehr wichtig“ (7). Im dritten und sechsten Block haben die Befragten jeweils eine Antwortmöglichkeit pro Frage und im fünften Block sind mehrere Angaben möglich.

1.2 Vorgehensweise

Diese Seminararbeit dient dazu, erste praktische Erfahrungen aufzubauen und eine quantitative Datenanalyse mit der Statistiksoftware RStudio anzuwenden.

Im ersten Schritt wird eine explorative Analyse des Datensatzes durchgeführt, aus welcher die Forschungshypothesen gebildet werden. Um die sich daraus ergebenden Nullhypothesen falsifizieren zu können, werden zielführende statistische Verfahren verwendet. Anhand statistischer Verfahren wird ein Hypothesentest durchgeführt. Anschließend werden die Ergebnisse im Fazit interpretiert und kritisch gewürdigt.

Zu Beginn wurde die RDA-Datei, welche den betreffenden Datensatz beinhaltet, im Statistikprogramm RStudio geöffnet und das relevante Package mit dem Befehl > library(mosaic) geladen. Anschließend wurde der Datensatz durch die Befehle > View(daten) tabellarisch nach den Identifikationscodes, und > inspect(daten) nach den verschiedenen Variablen geordnet visualisiert.

2. Explorative Analyse

2.1 Beschreibung des Datensatzes

Der Datensatz zur Sommerumfrage 2017 umfasst insgesamt 750 Beobachtungen und 89 Variablen.

Beobachtungen und Variablen

Abbildung in dieser Leseprobe nicht enthalten

Er teilt sich auf in qualitative (kategoriale) und quantitative (metrische)Variablen, welche die Ergebnisse des Fragebogens wiederspiegeln.

Auflistung nach Variablen

Abbildung in dieser Leseprobe nicht enthaltenAbbildung in dieser Leseprobe nicht enthalten

Abbildung in dieser Leseprobe nicht enthalten

Zu den kategorialen Variablen gehören die Ergebnisse zu den Identifikationscodes V1 und V2, T1 bis T18, D2 bis D6 und D9 bis D11. Bei den qualitativen Variablen werden die Kennzahlen „Name der Variable“ (name), „Beobachtungen“ (n), „fehlende Beobachtungen“ (missing) und „Verteilung“ (distribution) angezeigt.

Zu den metrischen Variablen gehören die Ergebnisse zu den Identifikationscodes W1 bis W19, E1 bis E30, B1 bis B6, D1, D7 und D8. Bei den quantitativen Variablen werden die Kennzahlen „Identifikationscode“ (name), „Minimum“ (min), „1. Quantil“ (Q1), „Median“ (median), „3. Quantil“ (Q3), „Maximum“ (max) „arithmetischer Mittelwert“ (mean), „Standardabweichung“ (sd), „Beobachtungen“ (n) und „fehlende Beobachtungen“ (missing) aufgelistet.

2.2 Anteilstest

Die qualitative Variable „Kauf“ weist ein Ergebnis von „offline (70.3%), online (29.7%)“ aus, was bedeutet, dass 70,3 % der Befragten Offlineeinkäufe und 29,7 % der Befragten Onlineeinkäufe tätigen.

Die qualitative Variable „Geschlecht“ liefert einen Output von „weiblich (50.1%), männlich (49.9%)“. Dies sagt aus, dass 50,1 % der Befragten Frauen und 49,9 % der Befragten Männer sind. In dieser Befragung liegt also eine gleichmäßige Verteilung der Geschlechter vor.

Zunächst wurde die Variable Kauf über den Befehl > analyse1<- daten%>%select(„Kauf“) selektiert, mit > View(analyse1) angezeigt, die Zellen ohne Angaben (na-Daten) wurden über den Befehl > analyseclean1<- na.omit(analyse1) entfernt und über > View(analyseclean1) visualisiert. Diese Variante wurde gewählt, um nicht zu viele Beobachtungen zu eliminieren. Es verbleiben 743 Beobachtungen.

Selektion der Variable und Entfernung fehlender Angaben

Abbildung in dieser Leseprobe nicht enthalten

Mit dem Befehl > tally(~Kauf,data=analyseclean1) wurde der Anteil der Offlineeinkäufer tabelliert. Es ist zu erkennen, dass 522 von 743 Befragten offline einkaufen.

Tabellierung

Abbildung in dieser Leseprobe nicht enthalten

Im nächsten Schritt wurde mit dem Befehl

> bargraph(~Kauf,data=analyseclean1,type=“percent“) ein Balkendiagramm der Variable „Kauf“ generiert. Auf der x-Achse werden die Merkmalsausprägungen „offline“ und „online“, und auf der y-Achse die relative Häufigkeit der Ausprägungen angezeigt. Das Merkmal „offline“ ist mit 70,3 % mehr als doppelt so stark ausgeprägt wie das Merkmal „online“ mit 29,7 %.

Balkendiagramm

Abbildung in dieser Leseprobe nicht enthalten

Alternativ kann ein Anteilstest über den Befehl > prop.test(~Kauf,data=analyseclean1) durchgeführt werden.

Der Anteilstest gibt an, dass die Punktschätzung des Anteilswerts der Offlinekäufer bei Abbildung in dieser Leseprobe nicht enthalten= 0,7025572 liegt. Das 95%-Konfidenzintervall, welches die Quantile 2,5 % und 97,5 % beinhaltet, gemäß dem Anteilstest zwischen 0,6680230 und 0,7349652 liegt.

Anteilstest

Abbildung in dieser Leseprobe nicht enthalten

Die Nullhypothese ( lautet: Der Anteil der Offlineeinkäufer liegt nicht über 70 %. Die Alternativhypothese ( ) lautet: Der Anteil der Offlineeinkäufer liegt über 70 %. Also gilt:

Im folgenden Schritt wurde ein gerichteter Test über Approximation durch die Normalverteilung durchgeführt, da in der vorherigen explorativen Analyse der Anteil der Offlineeinkäufer bei 0,7025572 lag. Angewandt wurden die nachfolgenden Befehle:

Über den Befehl > n<-nrow(analyseclean1) wurde die Anzahl an Beobachtungen angezeigt. Es sind 743 Beobachtungen (n).

Abbildung in dieser Leseprobe nicht enthalten

Mit den Befehlen > se0<-sqrt((0.7*(1-0.7))/n) und > se0 wurde der Standardfehler berechnet. Er liegt bei 0,01681184.

Abbildung in dieser Leseprobe nicht enthalten Abbildung in dieser Leseprobe nicht enthalten

Die Punktschätzung erfolgte über den Befehl > pdach<- tally(~Kauf,data=analyseclean1,format=“proportion“)[„offline“] und ergab 0,703.

Abbildung in dieser Leseprobe nicht enthalten

Bei z handelt es sich um die Normalverteilung und wurde über die Befehle > z<- (pdach- 0.7)/se0 und > z generiert.

Abbildung in dieser Leseprobe nicht enthalten Abbildung in dieser Leseprobe nicht enthalten

Anschließend wurde über den Befehl > xpnorm(z,lower.tall=FALSE) eine grafische Darstellung der Normalverteilung erzeugt.

Normalverteilung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung in dieser Leseprobe nicht enthalten

Der p-Wert liegt hier bei 0,5604488. Die Nullhypothese kann bei einem Signifikanz-niveau von 5% also nicht verworfen werden.

Um das Ergebnis nochmals zu verdeutlichen wurde der gerichtete Anteilstest über den Befehl > prop.test(~Kauf,p=0.7,alternative=“greater“,data=analyseclean1) durchgeführt. Als p-Wert wurde 0,7 eingesetzt, da dieser sich aus der Hypothese ergibt. Als Ergebnis liefert das Statistikprogramm folgenden Output:

Abbildung in dieser Leseprobe nicht enthalten

Nach Auswertung der Daten lässt sich die vorherige Approximation durch die Normalverteilung bestätigen. Bei einem p-Wert von 0,4554 gegenüber einem Signifikanzniveau von 5% kann die Nullhypothese nicht verworfen werden.

2.3 Einstichproben t-Test

Aus öffentlichen Statistiken wird ersichtlich, dass den Menschen Qualität immer wichtiger wird.[1] Dieser Umstand wurde ebenfalls in der Sommerumfrage mit dem Identifikationscode E8 thematisiert. Diese Variable wird im Folgenden über einen gerichteten t-Test analysiert.

Zunächst wurde mit dem Befehl > bargraph(~E8,data=daten) ein Balkendiagramm der Variable E8 („Gute Qualität ist für mich sehr wichtig.“) generiert. Auf der x-Achse werden die Merkmalsausprägungen „stimme überhaupt nicht zu“ (1) bis „stimme voll und ganz zu“ (7) und auf der y-Achse die jeweilige Anzahl der Ausprägungen angezeigt. Das Merkmal 6 ist hier am stärksten ausgeprägt.

[...]


[1] Vgl. https://de.statista.com/statistik/daten/studie/172177/umfrage/einstellung-qualitaet-wichtiger-als-preis/ Zugriff am 25.07.2018.

Ende der Leseprobe aus 21 Seiten

Details

Titel
Eine Datenanalyse der Sommerumfrage an der FOM 2017
Untertitel
Analyse mit dem Programm Rstudio
Hochschule
FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Aachen
Note
1,7
Autor
Jahr
2018
Seiten
21
Katalognummer
V444183
ISBN (eBook)
9783668839953
ISBN (Buch)
9783668839960
Sprache
Deutsch
Schlagworte
Datenanalyse, Wissenschaftliche quantitative Methodik, Statistik, Lineare Regression, Anteilstest, T-test, R, Rstudio, Explorative Analyse, Einstichproben t-test, Fragebogen
Arbeit zitieren
Alexander Kuschel (Autor), 2018, Eine Datenanalyse der Sommerumfrage an der FOM 2017, München, GRIN Verlag, https://www.grin.com/document/444183

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Eine Datenanalyse der Sommerumfrage an der FOM 2017



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden