Mit der vorliegenden Modellierung soll eine Vorhersage darüber erfolgen, ob jemand eine Arbeitsstelle bekommen hat. Bei den Test- und Trainingsdatensätzen handelt es sich um Datensätze aus einer Absolventenstudie. Ziel dieser Vorhersagemodellierung ist es möglichst häufig, die im Trainingssatz vorliegende Variable “Job” vorherzusagen. Auf Basis des Trainingsdatensatzes wird ein Modell erstellt und auf den Testdatensatz angewendet. Mit den gewonnen Erkenntnissen lassen sich gegebenenfalls frühzeitig Karriereentscheidungen treffen, die zu einer Einstellung führen.
Inhaltsverzeichnis
1. Einleitung und Zielsetzung
2. Studiendesign und Datenerhebung
3. Deskriptive Statistik und Datenvorverarbeitung
4. Modell und Modellwahl
5. Anwendung, Ergebnis und Vorhersage
Zielsetzung & Themen
Die vorliegende Arbeit zielt darauf ab, mittels einer Vorhersagemodellierung auf Basis von Daten einer Absolventenstudie zu prognostizieren, ob eine Person eine Arbeitsstelle erhält. Hierfür wird ein Modell konstruiert und optimiert, um durch die Analyse exogener Variablen frühzeitig Tendenzen für Karriereentscheidungen zu identifizieren.
- Analyse und Vorverarbeitung von Absolventendaten
- Anwendung multipler logistischer Regression
- Optimierung der Modellgüte durch iterative Variablenselektion
- Einsatz statistischer Methoden zur Prognosevalidierung
- Evaluation der Vorhersagegenauigkeit mittels Confusion Matrix
Auszug aus dem Buch
3. Deskriptive Statistik und Datenvorverarbeitung
Die deskriptive Statistik hat das Ziel Daten zu komprimieren und daraus neue Erkenntnisse zu erlangen.¹
# Laden der Datensätze
Training <- read.csv2("2_1_2_Trainingsdaten.csv", stringsAsFactors=TRUE)
Test <- read.csv2("2_1_1_Anwendungsdaten.csv", stringsAsFactors=TRUE)
# Prüfen, ob Daten fehlen.
missmap(Training)
Es handelt sich um einen vollständigen Datensatz. Im Folgenden werden die Daten mit deskriptiver Statistik aufbereitet.
Zusammenfassung der Kapitel
1. Einleitung und Zielsetzung: Einführung in die Problemstellung der Vorhersage von Arbeitsplatzchancen basierend auf Absolventendaten.
2. Studiendesign und Datenerhebung: Beschreibung der zur Verfügung stehenden exogenen Variablen und der Zielvariablen "Job".
3. Deskriptive Statistik und Datenvorverarbeitung: Untersuchung der Datenstruktur, Prüfung auf Vollständigkeit sowie explorative Analyse der Variablenverteilungen.
4. Modell und Modellwahl: Erläuterung des gewählten statistischen Verfahrens der multiplen logistischen Regression und der Kriterien zur Modellbewertung.
5. Anwendung, Ergebnis und Vorhersage: Durchführung der Modellierung, iterative Auswahl der Prädiktoren, Interpretation der Ergebnisse und finale Prognose auf den Testdaten.
Schlüsselwörter
Vorhersagemodellierung, Logistische Regression, Absolventenstudie, Datenerhebung, Datenvorverarbeitung, Modellgüte, AIC, Pseudo-R2, Karriereentscheidungen, deskriptive Statistik, R, Prognose, Variable, Stichprobe, Erfolg
Häufig gestellte Fragen
Worum geht es in dieser wissenschaftlichen Arbeit grundlegend?
Die Arbeit befasst sich mit der Entwicklung eines Vorhersagemodells, das anhand verschiedener persönlicher und akademischer Merkmale von Absolventen prognostizieren soll, ob diese eine Arbeitsstelle erhalten.
Was sind die zentralen Themenfelder der Analyse?
Die Schwerpunkte liegen auf der statistischen Aufbereitung von Studiendaten, der Modellierung mittels logistischer Regression sowie der Evaluation der Vorhersagegenauigkeit.
Welches primäre Ziel verfolgt die Modellierung?
Das Ziel ist es, ein Modell zu erstellen, das die Variable "Job" möglichst präzise vorhersagt, um so fundierte Aussagen über die Einstellungswahrscheinlichkeit treffen zu können.
Welche wissenschaftliche Methode wird eingesetzt?
Es wird eine multiple logistische Regression angewendet, wobei die Modelloptimierung durch einen schrittweisen Auswahlalgorithmus zur Minimierung des AIC und Maximierung der Modellgüte erfolgt.
Was wird im Hauptteil der Untersuchung behandelt?
Der Hauptteil umfasst die deskriptive Datenanalyse, die Konstruktion und iterative Verbesserung des Regressionsmodells sowie die abschließende Validierung durch eine Confusion Matrix.
Welche Schlüsselwörter charakterisieren die Arbeit?
Zu den wichtigsten Begriffen zählen Vorhersagemodellierung, logistische Regression, statistische Datenanalyse, Absolventenstudie und Modelloptimierung.
Warum wurde das "log.model_4" als finales Modell ausgewählt?
Dieses Modell wies im Vergleich zu den vorherigen Iterationen den besten Fit auf, was sich durch ein niedrigeres AIC und eine signifikante Beschreibung der Variation auszeichnete.
Welche Rolle spielt die "Confusion Matrix" bei den Ergebnissen?
Die Confusion Matrix dient der quantitativen Überprüfung der Modellqualität, indem sie die vorhergesagten Werte mit den tatsächlich beobachteten Daten vergleicht.
- Quote paper
- Anonym (Author), 2020, Vorhersagemodellierung einer logistischen Regression, Munich, GRIN Verlag, https://www.grin.com/document/1009521