In vielen Bereichen der Wissenschaft wie auch der Praxis in Wirtschaft, Politik usw. geht es darum, die Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses zu ermitteln. Im Bereich des Marketing etwa ist es interessant zu wissen, welche Einflussgrößen die Kauf-wahrscheinlichkeit erhöhen, im Bereich der Medizin geht es darum, welche Faktoren das Ri-siko einer Erkrankung erhöhen und in der Politik wird es von Interesse sein, die Auswirkun-gen bestimmter Größen auf die Wahrscheinlichkeit gewählt zu werden zu bestimmen. Alle diese Ereignisse lassen sich als dichotome (binäre) Variablen betrachten (Kauf – Nichtkauf, Erkrankung – Nichterkrankung, Wahl – Nichtwahl, usw.). Im Folgenden wird das Eintreten eines solchen Ereignisses als 1 und das Nichteintreten als 0 gekennzeichnet (vgl. Backhaus u. a.; Litz; Hamilton; Hartung/Elpelt; Andreß/Hagenaars/Kühnel; Tutz; Voß). Die Beziehung zwischen den Eintrittswahrscheinlichkeiten lassen sich folgendermaßen darstellen
Inhaltsverzeichnis
1. Einleitung und Anwendungsfelder der logistischen Regression
2. Unterschiede zur linearen Regression
2.1 Exkurs: Binomialverteilung
3. Formulierung des Regressionsmodells
3.1 Dummy-Variablen
3.2 Schätzung der logistischen Regressionsfunktion
3.3 Interpretation der Regressionskoeffizienten
3.4 Prüfung des Regressionsmodells
4. Logit- und Probit-Modelle
4.1 Modellgüte
Zielsetzung & Themen
Diese Arbeit zielt darauf ab, die Grundlagen, mathematische Herleitung und praktische Anwendung der logistischen Regression zur Schätzung von Eintrittswahrscheinlichkeiten bei dichotomen Ereignissen fundiert darzustellen und von alternativen Verfahren wie dem Probit-Modell abzugrenzen.
- Grundlagen und Einsatzgebiete der logistischen Regression
- Abgrenzung der logistischen Regression zur linearen Regression
- Mathematische Formulierung und Schätzverfahren (Maximum Likelihood)
- Interpretation von Regressionskoeffizienten und Odds
- Methoden zur Modellprüfung und Identifikation von Ausreißern
Auszug aus dem Buch
3.2 Schätzung der logistischen Regressionsfunktion
Zur Schätzung der Parameter wird üblicherweise die Maximum Likelihood-Methode herangezogen. Dabei sollen die Parameter so geschätzt werden, dass die Wahrscheinlichkeit die beobachteten Werte zu erhalten, maximiert wird. Die empirisch beobachteten Werte betragen stets 0 oder 1.
Aus obiger Formel ist ersichtlich, dass bei einem Beobachtungswert von yk = 0 der erste Faktor gleich 1 ist und somit pk(y = 0), während bei einem Beobachtungswert von yk = 1 der zweite Faktor gleich 1 ist und pk(y = 1) folgt. Ziel der logistischen Regression ist es, alle Parameter so zu schätzen, dass die Wahrscheinlichkeit die empirischen Werte zu erhalten maximiert wird, wobei die Zuordnung zu einer Kategorie der abhängigen Variable in der Regel von einem bestimmten Wahrscheinlichkeitswert abhängt: pk > 0,5 bei y = 1 bzw. pk < 0,5 bei y = 0 (vgl. Backhaus, S. 428). Da die Wahrscheinlichkeit für alle Beobachtungswerte gleichzeitig maximiert wird, werden die Einzelereignisse miteinander multipliziert. Folgende Likelihood-Funktion hat die Aufgabe, die Wahrscheinlichkeit über alle Fälle zu maximieren (vgl. Backhaus, S. 428-429).
Zusammenfassung der Kapitel
1. Einleitung und Anwendungsfelder der logistischen Regression: Dieses Kapitel führt in die Notwendigkeit ein, Wahrscheinlichkeiten für das Eintreten binärer Ereignisse zu ermitteln, und definiert die logistische Regression als geeignetes Verfahren.
2. Unterschiede zur linearen Regression: Hier wird erläutert, warum die lineare Regression bei binären Zielvariablen zu unplausiblen Ergebnissen außerhalb des Wertebereichs [0,1] führt, und es wird ein Exkurs zur Binomialverteilung gegeben.
3. Formulierung des Regressionsmodells: Dieses Kapitel behandelt die praktische Modellierung, einschließlich der Nutzung von Dummy-Variablen, der Maximum-Likelihood-Parameterschätzung, der Interpretation von Koeffizienten sowie Methoden zur Modellprüfung.
4. Logit- und Probit-Modelle: Abschließend werden Modelle für gruppierte Daten diskutiert, die Unterschiede zwischen Logit- und Probit-Modellen erläutert und Kriterien zur Bewertung der Modellgüte vorgestellt.
Schlüsselwörter
logistische Regression, lineare Regression, dichotome Variablen, Eintrittswahrscheinlichkeit, Maximum Likelihood, Dummy-Variablen, Regressionskoeffizienten, Odds, Logit, Probit-Modell, Modellgüte, Residuenanalyse, Pseudo R-Quadrat, Wald-Statistik, Akaike-Kriterium
Häufig gestellte Fragen
Worum geht es in der vorliegenden Arbeit grundsätzlich?
Die Arbeit befasst sich mit der mathematischen Herleitung und der Anwendung der logistischen Regression zur Analyse von Wahrscheinlichkeiten bei dichotomen (binären) Ereignissen.
Was sind die zentralen Themenfelder?
Die zentralen Felder umfassen den Vergleich zur linearen Regression, die Modellformulierung mittels Maximum Likelihood, die Interpretation von Chancenverhältnissen (Odds) sowie die statistische Modellprüfung.
Welches primäre Ziel verfolgt die Arbeit?
Das Ziel ist eine fundierte theoretische und praktische Einführung in die logistische Regression als Standardwerkzeug für Fragestellungen, bei denen ein Ereignis eintritt oder nicht.
Welche wissenschaftliche Methode wird primär verwendet?
Die Arbeit nutzt schwerpunktmäßig den Maximum-Likelihood-Schätzer zur Parameterschätzung und verwendet Pseudo-R-Quadrat-Statistiken sowie Residuenanalysen zur Modellprüfung.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil widmet sich der mathematischen Modellierung, der Handhabung von kategorialen Daten (Dummy-Variablen) sowie der Abgrenzung zu Logit- und Probit-Modellen.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird maßgeblich durch Begriffe wie Logistische Regression, Maximum Likelihood, Odds, binäre Variablen und Modellgüte charakterisiert.
Warum ist die lineare Regression für dieses Vorhaben ungeeignet?
Die lineare Regression kann Schätzwerte außerhalb des Intervalls [0,1] erzeugen und verletzt die Annahme der Normalverteilung der Fehlerterme bei binären Variablen.
Was ist das Besondere an der Interpretation der Koeffizienten in der logistischen Regression?
Da der Einfluss auf die abhängige Variable nicht linear ist, müssen Regressionskoeffizienten über Odds oder Effekt-Koeffizienten interpretiert werden, um den Einfluss auf die Wahrscheinlichkeit verständlich zu machen.
Wie werden Ausreißer im Modell identifiziert?
Zur Identifikation von Ausreißern werden Residuen berechnet und standardisiert, um Einzelfälle zu identifizieren, die nicht in das geschätzte Gesamtmodell passen.
Welche Rolle spielt das Akaike-Kriterium (AIC)?
Das AIC dient als Kriterium zum Vergleich verschiedener Modellvarianten; dabei ist die Differenz der AIC-Werte relevant für die Beurteilung, welche Modelle einen ähnlich guten Fit aufweisen.
- Quote paper
- Bakk. Mag. Manfred Hammerl (Author), 2006, Logistische Regression - Die Anwendung des Logit- und Probit-Modells, Munich, GRIN Verlag, https://www.grin.com/document/94286