Die folgende Arbeit beschäftigt sich mit Verfahren aus der Gruppe der Entscheidungsbäume, die eine weite Verbreitung bei der Lösung von Regressionsproblemen finden. Gemeint sind zum einen, die Regressionsbäume nach dem CART (Classification And Regression Trees)-Algorithmus, welche von Breiman et al. (1984) erarbeitet wurden.
Im Folgenden ist aus Vereinfachungsgründen von CART die Rede. Auf diesem Verfahren aufbauend, werden zusätzlich noch das Bagging, Random Forests und das Gradient-Boosting, als fortgeschrittene Methoden vorgestellt.
Grundsätzlich ist zu erwähnen, dass es eine ganze Reihe von Algorithmen gibt, die sich an die Baumstruktur anlehnen. Diese Methoden basieren auf rekursiver Partitionierung der Lernstichprobe in Untermengen entlang des Baumes. Bei CART wird zuerst ein weitverzweigter, komplexer Regressionsbaum erstellt und anschließend gemäß eines Optimalitätskriteriums gekürzt. Hierdurch entsteht ein statistisches Modell, das Strukturen und Zusammenhänge in den Daten erlernen soll, weshalb man es der Gruppe der statistischen Lernmethoden zuordnet.
Im Anschluss kann das Modell dazu genutzt werden, um Vorhersagen für weitere Beobachtungen zu machen, welche nicht zum Erstellen genutzt wurden. Die Genauigkeit dieser Vorhersagen lässt sich auf unterschiedliche Weisen messen. Dadurch dass sich das Modell graphisch gut darstellen lässt, wird die Interpretation der Ergebnisse erleichtert - um nur einen der Vorteile von CART zu nennen.
Es sei zu beachten, dass sich dieses Verfahren sowohl separat, als auch als Implementierung bei anderen Methoden anwenden lässt, bei denen es gilt einen Datensatz gemäß der Höhe der Responsevariablen aufzuteilen. Dies ist z.B. bei den drei behandelten fortgeschrittenen Methoden der Fall.
Fraglich ist, wann es sich empfiehlt auf CART zurückzugreifen und welchen Mehrnutzen man im Vergleich zur klassischen Regressionsanalyse dadurch erhält. Des Weiteren soll geklärt werden, welche Schwachstellen dieses Verfahren hat und ob diese, durch Bagging, Random Forests oder Boosting gemindert oder sogar ganz bewältigt werden können.
Der Leser soll zudem nachvollziehen können, weshalb sich diese Methoden einer großen Beliebtheit erfreuen und eine weite Verbreitung gefunden haben.
Inhaltsverzeichnis (Table of Contents)
- Einleitung
- 1 Allgemeiner Hintergrund
- 1.1 Die Entscheidungsbaum-Terminologie
- 1.2 Das Regressionsproblem
- 2 Grundlegende Konzeption von Regressionsbäumen
- 2.1 Erstellen von Regressionsbäumen anhand des Splitkriteriums
- 2.1.1 Regressionsbäume im Vergleich zur klassischen Regressionsanalyse
- 2.1.1.1 Anwendbarkeit und Eignung
- 2.1.1.2 Vorteile und Nachteile von Regressionsbäumen
- 2.2 Die optimale Baumgröße
- 2.2.1 Das Fehler-Komplexitätsmaß
- 2.2.2 Der Weakest-Link-Algorithmus
- 2.3 Auswahl des optimalen Teilbaumes
- 2.3.1 Der Teststichprobenschätzer
- 2.3.2 Der Kreuzvalidierungsschätzer
- 3 Fortgeschrittene Konzeption von Regressionsbäumen
- 3.1 Bootstrap-Algorithmus
- 3.2 Bagging
- 3.2.1 Out-of-bag Fehlerschätzung
- 3.2.2 Trennfähigkeit der Regressoren
- 3.3 Random Forests
- 3.4 Gradient-Boosting
- 4 Empirie
- 5 Fazit
Zielsetzung und Themenschwerpunkte (Objectives and Key Themes)
Diese Arbeit beschäftigt sich mit Regressionsbäumen, insbesondere dem CART-Algorithmus und fortgeschrittenen Methoden wie Bagging, Random Forests und Gradient-Boosting. Das Ziel ist es, die Funktionsweise dieser Verfahren zu erläutern und ihren Einsatz bei der Analyse von US-amerikanischen Verbrechensraten zu demonstrieren.
- Die Funktionsweise von Regressionsbäumen nach dem CART-Algorithmus
- Die Vorteile und Nachteile von Regressionsbäumen im Vergleich zur klassischen Regressionsanalyse
- Die Anwendung fortgeschrittener Methoden wie Bagging, Random Forests und Gradient-Boosting zur Verbesserung der Prognosegenauigkeit
- Die empirische Analyse von US-amerikanischen Verbrechensraten anhand des CART-Modells
- Die Vergleichbarkeit der verschiedenen Verfahren hinsichtlich ihrer Prognosefähigkeit
Zusammenfassung der Kapitel (Chapter Summaries)
Das erste Kapitel bietet eine Einführung in die Entscheidungsbaum-Terminologie und das Regressionsproblem. Kapitel Zwei erläutert die konzeptionellen Aspekte von Regressionsbäumen, einschließlich der Konstruktion und Optimierung des Modells. Kapitel Drei befasst sich mit fortgeschrittenen Methoden wie Bagging, Random Forests und Gradient-Boosting, die auf dem CART-Algorithmus aufbauen. Schließlich werden in Kapitel Vier die Ergebnisse einer empirischen Analyse von US-amerikanischen Verbrechensraten mit Hilfe des CART-Modells präsentiert.
Schlüsselwörter (Keywords)
Regressionsbäume, CART-Algorithmus, Entscheidungsbäume, Bagging, Random Forests, Gradient-Boosting, Regressionsanalyse, empirische Analyse, US-amerikanische Verbrechensraten, Prognosegenauigkeit, Modelloptimierung, Kreuzvalidierung, Bootstrap-Algorithmus
- Arbeit zitieren
- Rochus Niemierko (Autor:in), 2015, Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden, München, GRIN Verlag, https://www.grin.com/document/355232