Mit der vorliegenden Modellierung soll eine Vorhersage darüber erfolgen, ob jemand eine Arbeitsstelle bekommen hat. Bei den Test- und Trainingsdatensätzen handelt es sich um Datensätze aus einer Absolventenstudie. Ziel dieser Vorhersagemodellierung ist es möglichst häufig, die im Trainingssatz vorliegende Variable “Job” vorherzusagen. Auf Basis des Trainingsdatensatzes wird ein Modell erstellt und auf den Testdatensatz angewendet. Mit den gewonnen Erkenntnissen lassen sich gegebenenfalls frühzeitig Karriereentscheidungen treffen, die zu einer Einstellung führen.

Leseprobe

Inhaltsverzeichnis

1. Einleitung und Zielsetzung

2. Studiendesign und Datenerhebung

3. Deskriptive Statistik und Datenvorverarbeitung

4. Modell und Modellwahl

5. Anwendung, Ergebnis und Vorhersage

Zielsetzung & Themen

Die vorliegende Arbeit zielt darauf ab, mittels einer Vorhersagemodellierung auf Basis von Daten einer Absolventenstudie zu prognostizieren, ob eine Person eine Arbeitsstelle erhält. Hierfür wird ein Modell konstruiert und optimiert, um durch die Analyse exogener Variablen frühzeitig Tendenzen für Karriereentscheidungen zu identifizieren.

Analyse und Vorverarbeitung von Absolventendaten
Anwendung multipler logistischer Regression
Optimierung der Modellgüte durch iterative Variablenselektion
Einsatz statistischer Methoden zur Prognosevalidierung
Evaluation der Vorhersagegenauigkeit mittels Confusion Matrix

Auszug aus dem Buch

3. Deskriptive Statistik und Datenvorverarbeitung

Die deskriptive Statistik hat das Ziel Daten zu komprimieren und daraus neue Erkenntnisse zu erlangen.¹

# Laden der Datensätze

Training <- read.csv2("2_1_2_Trainingsdaten.csv", stringsAsFactors=TRUE)

Test <- read.csv2("2_1_1_Anwendungsdaten.csv", stringsAsFactors=TRUE)

# Prüfen, ob Daten fehlen.

missmap(Training)

Es handelt sich um einen vollständigen Datensatz. Im Folgenden werden die Daten mit deskriptiver Statistik aufbereitet.

Zusammenfassung der Kapitel

1. Einleitung und Zielsetzung: Einführung in die Problemstellung der Vorhersage von Arbeitsplatzchancen basierend auf Absolventendaten.

2. Studiendesign und Datenerhebung: Beschreibung der zur Verfügung stehenden exogenen Variablen und der Zielvariablen "Job".

3. Deskriptive Statistik und Datenvorverarbeitung: Untersuchung der Datenstruktur, Prüfung auf Vollständigkeit sowie explorative Analyse der Variablenverteilungen.

4. Modell und Modellwahl: Erläuterung des gewählten statistischen Verfahrens der multiplen logistischen Regression und der Kriterien zur Modellbewertung.

5. Anwendung, Ergebnis und Vorhersage: Durchführung der Modellierung, iterative Auswahl der Prädiktoren, Interpretation der Ergebnisse und finale Prognose auf den Testdaten.

Schlüsselwörter

Vorhersagemodellierung, Logistische Regression, Absolventenstudie, Datenerhebung, Datenvorverarbeitung, Modellgüte, AIC, Pseudo-R2, Karriereentscheidungen, deskriptive Statistik, R, Prognose, Variable, Stichprobe, Erfolg

Häufig gestellte Fragen

Worum geht es in dieser wissenschaftlichen Arbeit grundlegend?

Die Arbeit befasst sich mit der Entwicklung eines Vorhersagemodells, das anhand verschiedener persönlicher und akademischer Merkmale von Absolventen prognostizieren soll, ob diese eine Arbeitsstelle erhalten.

Was sind die zentralen Themenfelder der Analyse?

Die Schwerpunkte liegen auf der statistischen Aufbereitung von Studiendaten, der Modellierung mittels logistischer Regression sowie der Evaluation der Vorhersagegenauigkeit.

Welches primäre Ziel verfolgt die Modellierung?

Das Ziel ist es, ein Modell zu erstellen, das die Variable "Job" möglichst präzise vorhersagt, um so fundierte Aussagen über die Einstellungswahrscheinlichkeit treffen zu können.

Welche wissenschaftliche Methode wird eingesetzt?

Es wird eine multiple logistische Regression angewendet, wobei die Modelloptimierung durch einen schrittweisen Auswahlalgorithmus zur Minimierung des AIC und Maximierung der Modellgüte erfolgt.

Was wird im Hauptteil der Untersuchung behandelt?

Der Hauptteil umfasst die deskriptive Datenanalyse, die Konstruktion und iterative Verbesserung des Regressionsmodells sowie die abschließende Validierung durch eine Confusion Matrix.

Welche Schlüsselwörter charakterisieren die Arbeit?

Zu den wichtigsten Begriffen zählen Vorhersagemodellierung, logistische Regression, statistische Datenanalyse, Absolventenstudie und Modelloptimierung.

Warum wurde das "log.model_4" als finales Modell ausgewählt?

Dieses Modell wies im Vergleich zu den vorherigen Iterationen den besten Fit auf, was sich durch ein niedrigeres AIC und eine signifikante Beschreibung der Variation auszeichnete.

Welche Rolle spielt die "Confusion Matrix" bei den Ergebnissen?

Die Confusion Matrix dient der quantitativen Überprüfung der Modellqualität, indem sie die vorhergesagten Werte mit den tatsächlich beobachteten Daten vergleicht.

Ende der Leseprobe aus 16 Seiten - nach oben

Details

Titel: Vorhersagemodellierung einer logistischen Regression
Hochschule: FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Dortmund früher Fachhochschule
Note: 2,0
Autor: Anonym (Autor:in)
Erscheinungsjahr: 2020
Seiten: 16
Katalognummer: V1009521
ISBN (eBook): 9783346397393
ISBN (Buch): 9783346397409
Sprache: Deutsch
Schlagworte: logistische regression vorhersagemodellierung sonstige beteiligung datenerhebung sekundärforschung
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Anonym (Autor:in), 2020, Vorhersagemodellierung einer logistischen Regression, München, GRIN Verlag, https://www.grin.com/document/1009521

Vorhersagemodellierung einer logistischen Regression