Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden

Veranschaulicht durch eine empirische Analyse US-amerikanischer Verbrechensraten


Bachelorarbeit, 2015
51 Seiten, Note: 1,0

Leseprobe

Einleitung

Die folgende Arbeit beschäftigt sich mit Verfahren aus der Gruppe der Entscheidungsbäume, die eine weite Verbreitung bei der Lösung von Regressionsproblemen finden. Gemeint sind zum einen, die Regressionsbäume nach dem CART (Classification And Regression Trees)-Algorithmus, welche von Breiman et al. (1984) erarbeitet wurden. Im Folgenden ist aus Vereinfachungsgründen von CART die Rede. Auf diesem Verfahren aufbauend, werden zusätzlich noch das Bagging, Random Forests und das Gradient-Boosting, als fortgeschrittene Methoden vorgestellt. Grundsätzlich ist zu erwähnen, dass es eine ganze Reihe von Algorithmen gibt, die sich an die Baumstruktur anlehnen. Diese Methoden basieren auf rekursiver Partitionierung der Lernstichprobe in Untermengen entlang des Baumes. Bei CART wird zuerst ein weitverzweigter, komplexer Regressionsbaum erstellt und anschließend gemäß eines Optimalitätskriteriums gekürzt. Hierdurch entsteht ein statistisches Modell, das Strukturen und Zusammenhänge in den Daten erlernen soll, weshalb man es der Gruppe der statistischen Lernmethoden zuordnet. Im Anschluss kann das Modell dazu genutzt werden, um Vorhersagen für weitere Beobachtungen zu machen, welche nicht zum Erstellen genutzt wurden. Die Genauigkeit dieser Vorhersagen lässt sich auf unterschiedliche Weisen messen. Dadurch dass sich das Modell graphisch gut darstellen lässt, wird die Interpretation der Ergebnisse erleichtert - um nur einen der Vorteile von CART zu nennen. Es sei zu beachten, dass sich dieses Verfahren sowohl separat, als auch als Implementierung bei anderen Methoden anwenden lässt, bei denen es gilt einen Datensatz gemäß der Höhe der Responsevariablen aufzuteilen. Dies ist z.B. bei den drei behandelten fortgeschrittenen Methoden der Fall. Fraglich ist, wann es sich empfiehlt auf CART zurückzugreifen und welchen Mehrnutzen man im Vergleich zur klassischen Regressionsanalyse dadurch erhält. Des Weiteren soll geklärt werden, welche Schwachstellen dieses Verfahren hat und ob diese, durch Bagging, Random Forests oder Boosting gemindert oder sogar ganz bewältigt werden können. Der Leser soll zudem nachvollziehen können, weshalb sich diese Methoden einer großen Beliebtheit erfreuen und eine weite Verbreitung gefunden haben.

Im ersten Kapitel werden zuerst grundlegende Sachverhalte und mögliche Ziele einer Regressionsanalyse erläutert. Außerdem wird der grobe Aufbau eines Regressionsbaumes nach CART und dessen Terminologie erklärt. Des Weiteren werden drei Fehlerschätzer in einem allgemeinen Kontext vorgestellt, von denen zwei eine wichtige Rolle auf dem Weg zum optimalen Modell spielen.

Der zweite Teil beschäftigt sich mit den konzeptionellen Aspekten der Regressionsbäume nach CART, um das Verfahren in Einzelschritten zu erläutern. Nachdem der Leser einen Einblick erhalten hat, wie ein weitverzweigter Regressionsbaum durch sukzessives Splitten entsteht, wird ein Vergleich zur klassischen Regressionsanalyse gezogen. Dabei wird geklärt, bei welchen Zusammenhängen bzw. Eigenschaften von Daten, welches der beiden Verfahren vorzuziehen ist. Zudem werden die Vor- und Nachteile von Regressionsbäumen genannt. Im Anschluss daran wird gezeigt, wie ein Regressionsbaum auf dem Weg zur Optimalität gekürzt wird. Dies geschieht mit Hilfe des sogenannten Komplexitätsparameters, sodass man in Abhängigkeit von dessen Höhe, eine Sequenz an optimalen Teilbäumen erhält. Anschließend wird mit Hilfe des Teststichproben- oder des Kreuzvalidierungsschätzers der optimale Baum aus dieser Sequenz gewählt.

Im dritten Kapitel wird gezeigt, wie sich CART in andere fortgeschrittene Methoden implementieren lässt, um die Prognosegenauigkeit gegenüber dem konventionellen Modell zu verbessern. Dies geschieht durch Aggregation mehrerer Bäume zu einem Prädiktor, mit dem Ziel, die Varianz des Modells aus Kapitel 2 zu bewältigen und dessen Prognosefähigkeit zu verbessern. Dafür wird zuerst mit dem Bootstrap-Algorithmus ein bekanntes Resampling Verfahren vorgestellt. Dieses findet Anwendung beim Bagging und bei Random Forests, bei denen ein aggregierter Prädiktor aus mehreren, von einander unabhängigen Bäumen entsteht. Beim Boosting wird ebenfalls ein aggregierter Prädiktor erstellt, jedoch ist der in jeder Iteration hinzugefügte Baum stark abhängig vom bereits bestehenden Modell. Alle drei Methoden erzielen eine bessere Prognosegenauigkeit, als das konventionelle Modell nach CART.

Der vierte Teil ist rein empirisch. Ziel ist es, das Modell nach CART dazu zu nutzen, um die Auswirkungen von 15 verschiedenen sozio-ökonomischen Faktoren auf die Verbrechensrate in den Vereinigten Staaten zu untersuchen. Dieser Datensatz wurde 1960 erhoben und beinhaltet 47 Beobachtungen. Zuerst wird gezeigt, wie ein komplexer Regressionsbaum erzeugt, und anschließend anhand des Kreuzvalidierungsschätzers gekürzt wird. Das gekürzte Modell erfüllt dabei ein Optimalitätskriterium und besitzt eine verbesserte Prognosefähigkeit.

Inhaltsverzeichnis

Einleitung.. I

Inhaltsverzeichnis.. III

Abbildungsverzeichnis.. IV

1 Allgemeiner Hintergrund.. 1

1.1 Die Entscheidungsbaum-Terminologie.. 1

1.2 Das Regressionsproblem.. 3

2 Grundlegende Konzeption von Regressionsbaumen.. 6

2.1 Erstellen von Regressionsbaumen anhand des Splitkriteriums.. 7

2.2 Regressionsbaume im Vergleich zur klassischen Regressionsanalyse.. 9

2.2.1 Anwendbarkeit und Eignung.. 9

2.2.2 Vorteile und Nachteile von Regressionsbaumen.. 10

2.3 Die optimale Baumgroge.. 11

2.3.1 Das Fehler-Komplexitatsmag.. 12

2.3.2 Der Weakest-Link-Algorithmus.. 15

2.4 Auswahl des optimalen Teilbaumes.. 17

2.4.1 Der Teststichprobenschatzer.. 18

2.4.2 Der Kreuzvalidierungsschatzer.. 19

3 Fortgeschrittene Konzeption von Regressionsbaumen.. 21

3.1 Bootstrap-Algorithmus.. 21

3.2 Bagging.. 22

3.2.1 Out-of-bag Fehlerschatzung.. 23

3.2.2 Trennfahigkeit der Regressoren.. 24

3.3 Random Forests.. 25

3.4 Gradient-Boosting.. 26

4 Empirie.. 31

5 Fazit.. 39

Anhang.. 41

Literaturverzeichnis.. 45

1 Allgemeiner Hintergrund

1.1 Die Entscheidungsbaum-Terminologie

Die hier vorgestellten Begriffe, Erklärungen und Eigenschaften sind speziell für Regressionsbäume des CART-Algorithmus bedacht. Einige dieser Aspekte treffen jedoch auch auf andere Entscheidungsbaumverfahren zu, welche nicht Gegenstand dieser Arbeit sind. Die Bezeichnung „Entscheidungsbäume“ lehnt sich an ihre graphische Darstellung an, da sie einem auf dem Kopf stehenden Baum ähneln. Im Grunde genommen teilt ein Regressionsbaum den Merkmalsraum in mehrere Hyperrechtecke und ordnet jedem dieser Bereiche eine Konstante zu (vgl. Hastie et al. 2009, S. 305 sowie Schlittgen 1998, S. 292).

[...]

Ende der Leseprobe aus 51 Seiten

Details

Titel
Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden
Untertitel
Veranschaulicht durch eine empirische Analyse US-amerikanischer Verbrechensraten
Hochschule
Universität Augsburg
Note
1,0
Autor
Jahr
2015
Seiten
51
Katalognummer
V355232
ISBN (eBook)
9783668413566
ISBN (Buch)
9783668413573
Dateigröße
1794 KB
Sprache
Deutsch
Schlagworte
CART, CART Algorithmus, Regressionsbäume, Regressionsbaum, Data Mining, Statistik
Arbeit zitieren
Rochus Niemierko (Autor), 2015, Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden, München, GRIN Verlag, https://www.grin.com/document/355232

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Regressionsbäume anhand des CART-Algorithmus und diverse fortgeschrittene Methoden


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden