Grin logo
de en es fr
Shop
GRIN Website
Texte veröffentlichen, Rundum-Service genießen
Zur Shop-Startseite › BWL - Sonstiges

Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden

Veranschaulicht durch eine empirische Analyse US-amerikanischer Verbrechensraten

Titel: Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden

Bachelorarbeit , 2015 , 51 Seiten , Note: 1,0

Autor:in: Rochus Niemierko (Autor:in)

BWL - Sonstiges
Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Die folgende Arbeit beschäftigt sich mit Verfahren aus der Gruppe der Entscheidungsbäume, die eine weite Verbreitung bei der Lösung von Regressionsproblemen finden. Gemeint sind zum einen, die Regressionsbäume nach dem CART (Classification And Regression Trees)-Algorithmus, welche von Breiman et al. (1984) erarbeitet wurden.

Im Folgenden ist aus Vereinfachungsgründen von CART die Rede. Auf diesem Verfahren aufbauend, werden zusätzlich noch das Bagging, Random Forests und das Gradient-Boosting, als fortgeschrittene Methoden vorgestellt.

Grundsätzlich ist zu erwähnen, dass es eine ganze Reihe von Algorithmen gibt, die sich an die Baumstruktur anlehnen. Diese Methoden basieren auf rekursiver Partitionierung der Lernstichprobe in Untermengen entlang des Baumes. Bei CART wird zuerst ein weitverzweigter, komplexer Regressionsbaum erstellt und anschließend gemäß eines Optimalitätskriteriums gekürzt. Hierdurch entsteht ein statistisches Modell, das Strukturen und Zusammenhänge in den Daten erlernen soll, weshalb man es der Gruppe der statistischen Lernmethoden zuordnet.

Im Anschluss kann das Modell dazu genutzt werden, um Vorhersagen für weitere Beobachtungen zu machen, welche nicht zum Erstellen genutzt wurden. Die Genauigkeit dieser Vorhersagen lässt sich auf unterschiedliche Weisen messen. Dadurch dass sich das Modell graphisch gut darstellen lässt, wird die Interpretation der Ergebnisse erleichtert - um nur einen der Vorteile von CART zu nennen.

Es sei zu beachten, dass sich dieses Verfahren sowohl separat, als auch als Implementierung bei anderen Methoden anwenden lässt, bei denen es gilt einen Datensatz gemäß der Höhe der Responsevariablen aufzuteilen. Dies ist z.B. bei den drei behandelten fortgeschrittenen Methoden der Fall.

Fraglich ist, wann es sich empfiehlt auf CART zurückzugreifen und welchen Mehrnutzen man im Vergleich zur klassischen Regressionsanalyse dadurch erhält. Des Weiteren soll geklärt werden, welche Schwachstellen dieses Verfahren hat und ob diese, durch Bagging, Random Forests oder Boosting gemindert oder sogar ganz bewältigt werden können.

Der Leser soll zudem nachvollziehen können, weshalb sich diese Methoden einer großen Beliebtheit erfreuen und eine weite Verbreitung gefunden haben.

Leseprobe


Inhaltsverzeichnis

1 Allgemeiner Hintergrund

1.1 Die Entscheidungsbaum-Terminologie

1.2 Das Regressionsproblem

2 Grundlegende Konzeption von Regressionsbäumen

2.1 Erstellen von Regressionsbäumen anhand des Splitkriteriums

2.2 Regressionsbäume im Vergleich zur klassischen Regressionsanalyse

2.2.1 Anwendbarkeit und Eignung

2.2.2 Vorteile und Nachteile von Regressionsbäumen

2.3 Die optimale Baumgröße

2.3.1 Das Fehler-Komplexitätsmaß

2.3.2 Der Weakest-Link-Algorithmus

2.4 Auswahl des optimalen Teilbaumes

2.4.1 Der Teststichprobenschätzer

2.4.2 Der Kreuzvalidierungsschätzer

3 Fortgeschrittene Konzeption von Regressionsbäumen

3.1 Bootstrap-Algorithmus

3.2 Bagging

3.2.1 Out-of-bag Fehlerschätzung

3.2.2 Trennfähigkeit der Regressoren

3.3 Random Forests

3.4 Gradient-Boosting

4 Empirie

5 Fazit

Zielsetzung & Themen

Diese Arbeit untersucht die Funktionsweise und Anwendung von Entscheidungsbäumen, insbesondere des CART-Algorithmus, zur Lösung von Regressionsproblemen. Das primäre Ziel ist es, die theoretischen Grundlagen der Modellbildung und Optimierung durch Kürzung (Pruning) zu erläutern und diese durch eine praktische empirische Analyse von US-amerikanischen Verbrechensdaten zu veranschaulichen.

  • Methoden der rekursiven Partitionierung und CART-Algorithmus
  • Konzepte zur Optimierung der Baumstruktur und Fehlerschätzung
  • Fortgeschrittene Techniken wie Bagging, Random Forests und Gradient-Boosting
  • Empirische Anwendung und Prognosegenauigkeit anhand realer Datensätze
  • Vergleich zwischen linearen Modellen und Regressionsbäumen

Auszug aus dem Buch

2.3.2 Der Weakest-Link-Algorithmus

Ein am Knoten t beginnender Zweig T_t des Baumes T_1 besitzt folgende Eigenschaft.

R(T_t) = Σ R(t')

Hierbei bezeichnet T_t die Menge aller Endknoten des Zweiges T_t, sodass die rechte Seite der vorangegangenen Gleichung, die Summe der Prognosefehler über alle Endknoten des Zweiges T_t darstellt. Es soll nun an jedem Knoten t von T_1, welcher kein Endknoten ist, geprüft werden, ob der von diesem Knoten ausgehende Zweig T_t gemäß eines bestimmten Kriteriums gekürzt werden soll. Falls der Zweig T_t zu kürzen ist, stellt der Knoten t sodann einen Endknoten dar und wird mit {t} bezeichnet. Zu Beginn des Weakest-Link-Algorithmus wird das Fehler-Komplexitätsmaß des ungekürzten Zweiges, mit dem des gekürzten verglichen. Der ungekürzte Zweig T_t besitzt das folgende, bereits geläufige Fehler-Komplexitätsmaß.

R_α(T_t) = R(T_t) + α|T_t|

Das des gekürzten Zweiges {t} hat die Besonderheit, dass die Bestrafung in Höhe von nur einem α ausfällt, da dieser Zweig aus nur einem Endknoten, nämlich {t} besteht.

R_α({t}) = R(t) + α

Man rufe sich nun das in Kapitel 2.3.1 beschriebene Vorgehen ins Gedächtnis, als man T_1 aus T_max extrahiert hat. Die dort verwendete Bedingung kann hier analog angewandt werden.

R(t) > R(T_t)

Denn falls diese Bedingung verletzt wäre, und R(t) = R(T_t) gelten würde, könnte man den Zweig T_t ohnehin kürzen, ohne dabei Einbußen bzgl. der Prognosefähigkeit zu erleiden. Dies beachtend, werden nun die beiden Fehler-Komplexitätsmaße mit einander verglichen. Nimmt α einen ausreichend kleinen Wert an, folgt aus den ersten beiden Gleichungen, dass R_α({t}) > R_α(T_t) ist. Erhöht man jedoch α entsprechend kommt man an einen Punkt, an dem R_α({t}) = R_α(T_t) gilt, und somit das Kürzen des Zweiges T_t, aufgrund der geringerer Komplexität wünschenswert ist. Ziel ist es nun, genau den Wert für α zu finden, bei dem beide Prognosefehler gleich sind.

Zusammenfassung der Kapitel

1 Allgemeiner Hintergrund: Dieses Kapitel führt in die Grundlagen der Entscheidungsbaum-Terminologie ein und erläutert das Regressionsproblem sowie verschiedene Schätzverfahren für Prognosefehler.

2 Grundlegende Konzeption von Regressionsbäumen: Hier wird der CART-Algorithmus im Detail beschrieben, einschließlich der Splitkriterien, des Vergleichs zur linearen Regression sowie Verfahren zur optimalen Kürzung von Bäumen.

3 Fortgeschrittene Konzeption von Regressionsbäumen: In diesem Kapitel werden Methoden zur Modellaggregation wie Bagging, Random Forests und Gradient-Boosting vorgestellt, um die Prognosegenauigkeit und Stabilität zu verbessern.

4 Empirie: Dieser Teil demonstriert die praktische Anwendung der zuvor theoretisch behandelten Methoden anhand des UScrime-Datensatzes unter Verwendung der Statistiksoftware R.

5 Fazit: Das Fazit fasst die Stärken und Schwächen der behandelten Methoden zusammen und betont die Notwendigkeit einer anwendungsspezifischen Modellauswahl.

Schlüsselwörter

Regressionsbäume, CART-Algorithmus, Entscheidungsbäume, statistische Lernmethoden, Bagging, Random Forests, Gradient-Boosting, Prognosegenauigkeit, Kreuzvalidierung, Fehler-Komplexitätsmaß, Overfitting, UScrime, Splitkriterium, Datenanalyse, Modelloptimierung.

Häufig gestellte Fragen

Worum geht es in dieser Bachelorarbeit grundsätzlich?

Die Arbeit behandelt Verfahren zur Erstellung und Optimierung von Regressionsbäumen nach dem CART-Algorithmus sowie deren Erweiterung durch ensemblebasierte Methoden zur Verbesserung der Prognosefähigkeit.

Welche zentralen Themenfelder werden abgedeckt?

Die zentralen Themen umfassen die theoretischen Grundlagen von Entscheidungsbäumen, Strategien zur optimalen Baumgröße (Pruning), Resampling-Verfahren und die praktische Implementierung mit der Statistiksoftware R.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, zu verdeutlichen, wie komplexe Regressionsbäume erstellt und durch spezifische Algorithmen gekürzt werden können, um ein optimales Gleichgewicht zwischen Modellkomplexität und Vorhersagegenauigkeit zu finden.

Welche wissenschaftliche Methode kommt zum Einsatz?

Es wird der CART-Algorithmus verwendet, ergänzt durch mathematische Konzepte wie das Fehler-Komplexitätsmaß und statistische Validierungsmethoden (Kreuzvalidierung) zur Modellwahl.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Herleitung der CART-Modelle, die Methoden zur Korrektur von Instabilitäten (Bagging, Boosting, Random Forests) und einen empirischen Teil zur Analyse von US-amerikanischen Kriminalitätsraten.

Welche Schlüsselbegriffe charakterisieren die Arbeit?

Wichtige Begriffe sind CART, Regressionsbäume, Bagging, Random Forests, Gradient-Boosting, Kreuzvalidierung, Fehler-Komplexitätsmaß und Prognosegenauigkeit.

Warum ist das "Pruning" (Kürzen) von Bäumen notwendig?

Ohne Kürzung neigen Regressionsbäume zu "Overfitting", da sie die Trainingsdaten zu exakt abbilden und somit die statistische Aussagekraft für neue, unbekannte Beobachtungen verlieren.

Wie unterscheidet sich Random Forests vom Bagging-Ansatz?

Während beim Bagging alle verfügbaren Regressoren genutzt werden, verwendet Random Forests zusätzlich eine Zufallsauswahl von Splitvariablen pro Baum, um die Korrelation zwischen den Bäumen zu senken und die Varianz weiter zu reduzieren.

Was ist die Besonderheit des Gradient-Boosting im Vergleich zu anderen Methoden?

Beim Gradient-Boosting werden die Bäume sequentiell erstellt, wobei jeder neue Baum versucht, die Residuen (Fehler) der vorherigen Bäume zu minimieren, statt sie unabhängig voneinander zu bilden.

Was zeigt die empirische Analyse des UScrime-Datensatzes?

Die Analyse zeigt exemplarisch auf, wie ein ursprünglich zu komplexer Baum durch den Kreuzvalidierungsschätzer identifiziert und gekürzt werden kann, was zu einer deutlich besseren Prognosegenauigkeit führt.

Ende der Leseprobe aus 51 Seiten  - nach oben

Details

Titel
Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden
Untertitel
Veranschaulicht durch eine empirische Analyse US-amerikanischer Verbrechensraten
Hochschule
Universität Augsburg
Note
1,0
Autor
Rochus Niemierko (Autor:in)
Erscheinungsjahr
2015
Seiten
51
Katalognummer
V355232
ISBN (eBook)
9783668413566
ISBN (Buch)
9783668413573
Sprache
Deutsch
Schlagworte
CART CART Algorithmus Regressionsbäume Regressionsbaum Data Mining Statistik
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Rochus Niemierko (Autor:in), 2015, Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden, München, GRIN Verlag, https://www.grin.com/document/355232
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  51  Seiten
Grin logo
  • Grin.com
  • Versand
  • Kontakt
  • Datenschutz
  • AGB
  • Impressum