Angewandte Datenanalyse. Untersuchung des Datensatzes "Arrests for Marijuana Possession"


Seminararbeit, 2019

22 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

1 Vorstellung des Datensatzes „Arrests for Marihuana Possession“

2 Forschungsfragen und Hypothesen

3 Datenimport und Überblick über den Datensatz
3.1 Datenimport
3.2 Überblick

4 Variablenüberblick
4.1 Sex - Geschlecht
4.2 Age – Alter
4.3 Employed - Beschäftigt
4.4 Checks – Anzahl der Einträge in Polizeiakten

5 Beschreibung und Analyse der Hypothesen
5.1 Haben Männer und Frauen ein unterschiedliches Kriminalverhalten?
5.1.1 Deskriptive Statistik
5.1.2 Analyse
5.2 Hat ein Beschäftigungsverhältnis einen Einfluss auf das kriminelle Verhalten?
5.2.1 Deskriptive Statistik
5.2.2 Analyse
5.3 Steht das Alter der verhafteten Person in einem Zusammenhang mit dem kriminellen Verhalten?
5.3.1 Vorbereitung der Datenanalyse
5.3.2 Deskriptive Statistik
5.3.3 Signifikanztest

6 Fazit

Anhang.

1 Vorstellung des Datensatzes „Arrests for Marijuana Possession“

Für die nachfolgende Datenanalyse ist der Datensatz „Arrests for Marihuana Possession” verwendet. Diese Daten erfassen Personen, die von 1997 bis 2002 in Toronto aufgrund des Besitzes kleiner Mengen von Marihuana festgenommen worden sind. Es handelt sich dabei um einen Auszug von einer umfassenderen Erhebung, die im Rahmen eines Artikels der Toronto Star-Zeitung veröffentlicht wurde. Der vorliegende Datensatz setzt sich zusammen aus 5226 Zeilen sowie 8 Spalten und ist unter dem folgenden Link zu finden: http://vincentarelbundock.github.io/Rdatasets/datasets.html (Abgerufen am 26.07.2019).

2 Forschungsfragen und Hypothesen

Forschungsfrage:

Wird das kriminelle Verhalten von Personen, die im Besitz von Marihuana in Toronto von 1997 bis 2002 verhaftet worden sind, von den Variablen Geschlecht, Beschäftigung und Alter beeinflusst?

Hypothesen:

H1 Männer und Frauen haben ein unterschiedliches Kriminalverhalten.

H2 Beschäftigte und unbeschäftigte Personen, die durch den Besitz von Marihuana verhaftet worden sind, haben ein unterschiedlich kriminelles Verhalten.

H3 Je jünger eine verhaftete Person, desto mehr Einträge sind in dem Polizeiregister zu finden.

3 Datenimport und Überblick über den Datensatz

3.1 Datenimport

Mithilfe des RStudio wird der Datensatz analysiert. Um die Bearbeitung starten zu können ist RStudio zu öffnen und das benötigte Datenpacket für die Analyse wird geladen. Der Datensatz „Arrests for Marihuana Possession” lokal gespeichert und in das Programm RStudio eingelesen:

Abbildung in dieser Leseprobe nicht enthalten

Die Variablen „year“, „released“, „colour“ und „citizen“ werden für die nachfolgende Analyse nicht verwendet, weil diese für die aufgestellten Hypothesen und die damit verbundenen Abhängigkeiten nicht relevant sind. Eine Beschreibung dieser Variablen ist im Anhang zu finden.

Es wird ein neuer Datensatz mit dem Namen „Arrests1“ erstellt:

Abbildung in dieser Leseprobe nicht enthalten

3.2 Überblick

Durch den Befehl „inspect()“ kann eine Datenübersicht der verschiedenen Variablen generiert werden. Dadurch können, um kategoriale - qualitative Variablen und quantitative Variablen betrachtet werden.

Abbildung in dieser Leseprobe nicht enthalten

In dem Überblick sind die folgenden Variablen zu erkennen:

Sex: Geschlecht (weiblich vs. männlich)

Age: Alter (12-66)

Employed: Beschäftigt „ja“ oder „nein“

Checks: Anzahl der Einträge in den Polizeiakten (Festnahmen, Verurteilung, Bewährungsstatus)

4 Variablenüberblick

Das folgende Kapitel betrachtet die für die Analyse relevanten Variablen des Datensatzes näher. Dabei erfolgt eine Zusammenfassung der deskriptiven Kennzahlen.

4.1 Sex - Geschlecht

Die Variable „Sex“ differenziert zwischen weiblichen (Female) und männlichen (Male) Personen. Dabei handelt es sich um eine kategoriale, nominalskalierte Variable der Merkmalsausprägung. Um einen Überblick bezüglich der Geschlechterverteilung in dem Datensatz zu erhalten wird der Befehl tally verwendet:

Abbildung in dieser Leseprobe nicht enthalten

Daran lässt sich erkennen, dass wesentlich mehr Männer als Frauen für den Besitz von Marihuana von 1997 bis 2002 in Toronto festgenommen worden sind. Eine prozentuale Geschlechterverteilung lässt sich wie folgt darstellen:

Abbildung in dieser Leseprobe nicht enthalten

Der Datensatz besteht aus 8,5% weiblichen und 91,5% männlichen Straftätern, die in dem Besitz von Marihuana waren. Durch ein Balkendiagramm lassen sich diskrete nominalskalierte Merkmale graphisch darstellen.

Abbildung in dieser Leseprobe nicht enthalten

4.2 Age – Alter

Die Variable Age gibt das Alter der festgenommenen Personen an und ist eine diskrete, metrische, verhältnisskalierte Variable. Diese kann durch den Befehl favstats() dargestellt werden.

Abbildung in dieser Leseprobe nicht enthalten

Das Alter der festgenommenen Personen variiert von einem Minimum bei 12 Jahren, bis zu einem Maximum bei 66 Jahren. Das Durchschnittsalter der Festgenommenen der Stichprobe liegt bei 24 (23,8) Jahren. In dem Histogramm ist ersichtlich, dass bei der Verteilung der Stichprobe der Gipfel bei 16-20 Jahren liegt. Die Stichprobe ist rechtsschief, aufgrund dessen liegen mehrere Werte im unteren Wertebereich. Ab einem Alter von über 20 Jahren singt die Anzahl der Festnahmen mit zunehmendem Alter in der Stichprobe.

Abbildung in dieser Leseprobe nicht enthalten

4.3 Employed - Beschäftigt

Die Variable „Employed“ gibt an, ob die festgenommenen Personen zu diesem Zeitpunkt in einem Beschäftigungsverhältnis waren. Bei dieser Merkmalsausprägung handelt es sich um eine kategoriale, nominalskalierte Variable. Als erstes werden die absoluten Zahlen genannt, danach die Anteile angegeben und anschließend in zwei unterschiedlichen Diagrammen dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Es ist zu erkennen, dass wesentlich mehr Personen im Besitz von Marihuana festgenommen wurden, die zu dem Zeitpunkt ein bestehendes Arbeitsverhältnis hatten.

Abbildung in dieser Leseprobe nicht enthalten

-relative Anteile?

4.4 Checks – Anzahl der Einträge in Polizeiakten

Diese Variable weist aus, wie häufig der Name einer Person in der Polizeiakte aufgrund von früheren Festnahmen, früheren Verurteilungen oder eines Bewährungsstatusses auftaucht. Es handelt sich um eine metrische, verhältnisskalierte Variable.

Abbildung in dieser Leseprobe nicht enthalten

Die Anzahl der Einträge in den Polizeiakten variiert in der Stichprobe von 0 bis maximal 6. Der Durchschnittswert liegt bei 1,6. Insgesamt werden die Einträge von 5226 Personen betrachtet. In dem folgenden Histogramm lässt sich erkennen, dass es sich um eine annähernde rechtsschiefe Verteilung handelt.

Abbildung in dieser Leseprobe nicht enthalten

[...]

Ende der Leseprobe aus 22 Seiten

Details

Titel
Angewandte Datenanalyse. Untersuchung des Datensatzes "Arrests for Marijuana Possession"
Hochschule
FOM Hochschule für Oekonomie und Management gemeinnützige GmbH, Hochschulstudienzentrum Hamburg
Veranstaltung
M.Sc. Wirtschaftspsychologie
Note
1,3
Autor
Jahr
2019
Seiten
22
Katalognummer
V583697
ISBN (eBook)
9783346184535
ISBN (Buch)
9783346184542
Sprache
Deutsch
Schlagworte
RStudio, Datenanalyse, Datensatz
Arbeit zitieren
Lena Vogel (Autor:in), 2019, Angewandte Datenanalyse. Untersuchung des Datensatzes "Arrests for Marijuana Possession", München, GRIN Verlag, https://www.grin.com/document/583697

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Angewandte Datenanalyse. Untersuchung des Datensatzes "Arrests for Marijuana Possession"



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden