Bitte warten
Bitte installieren Sie den Flash Player, wenn kein E-Book erscheint.
Seminararbeit, 2001, 20 Seiten
Autor: Steffen Kohler
Fach: Statistik
Details
Tags: Nichtparametrische, Dichteschätzung
Jahr: 2001
Seiten: 20
Note: 1,7
Sprache: Deutsch
ISBN (E-Book): 978-3-640-03969-2
Dateigröße: 272 KB
Andere Nutzer haben sich auch für folgende Titel interessiert:
Volltext (computergeneriert)
Kohler, Steffen: Nichtparametrische Dichteschätzung 1
Inhaltsverzeichnis
Inhaltsverzeichnis 1
1. Einleitung 2
1.1 Inhalt und Struktur der Seminararbeit 2
1.2 Nichtparametrische Methoden in der Statistik 3
1.3 Die Bedeutung der nichtparametrischen Dichteschätzung 3
2. Histogramme 4
2.1 Konstruktion und Herleitung 4
2.2 Eigenschaften von Histogrammen 5
2.3 WARPing 7
2.4 Vom Histogramm zum Kerndichteschätzer 7
3. Kerndichteschätzer 8
3.1 Konstruktion 8
3.2 Arten von Kernfunktionen 9
3.3 Einfluss der Bandbreite 10
3.4 Verfahren zur Bandbreitenwahl 11
3.4.1 Fehlermaße für die Dichteschätzung 12
3.4.2 Einfache Verfahren 13
3.4.3 Kreuzvalidierung 14
3.4.4 Andere Methoden 14
3.4.5 Beurteilung der Verfahren 15
3.5 Variable Kerndichteschätzer 16
4. Andere Verfahren zur Dichteschätzung 16
5. Anwendungen und Ausblick 17
Literaturverzeichnis 18
Abbildungsverzeichnis 19
Kohler, Steffen: Nichtparametrische Dichteschätzung 2
1. Einleitung
1.1 Inhalt und Struktur dieser Arbeit
Diese Arbeit hat zum Ziel einem Leser mit Grundkenntnissen der Statistik einen
Überblick über die wichtigsten Methoden der nichtparametrischen
Dichteschätzung zu geben. Es werden verschiedene Glättungsverfahren für die
Schätzung von Dichtefunktionen erläutert. Dabei wird vor allem auf eine klare,
übersichtliche und verständnisfördernde Darstellung Wert gelegt. Es wird
versucht die Verwendung von mathematischen Formeln auf das Nötigste zu
begrenzen. Der Schwerpunkt dieser Arbeit liegt auf Histogrammschätzern und
Kerndichteschätzern und die damit verbundene Problematik der Bandbreitenwahl.
Andere Verfahren der Dichteschätzung sowie Anwendungen werden nur am
Rande behandelt. Es wird nicht auf die Dichteschätzung im mehrdimensionalen
Bereich eingegangen.
In der Einleitung wird zuerst eine Abgrenzung von parametrischen und
nichtparametrischen Methoden in der Statistik vorgenommen und deren Vor- und
Nachteile diskutiert. Dann wird auf die Bedeutung der nichtparametrischen
Dichteschätzung im Speziellen eingegangen. Im zweiten Kapitel wird das
Histogramm als einfachste Form der Dichteschätzung behandelt. Es wird die
Herleitung und Konstruktion des Histogramms beschrieben sowie der Einfluss der
zwei Parameter Ursprung und Klassenbreite erläutert. Anschließend wird über
eine Erweiterung des Histogramms zu den Kerndichteschätzern im dritten Kapitel
übergeleitet. Dieses befasst sich neben der Konstruktion von Kerndichteschätzern
mit den Einflüssen der Kernfunktion sowie der Bandbreite. Das Hauptaugenmerk
wird dann auf die Wahl der Bandbreite gelegt. Dazu werden geeignete
Optimalitätskriterien diskutiert und im Anschluss gängige Verfahren der
Bandbreitenwahl erläutert. Es wird auch noch kurz auf Kerndichteschätzer mit
variabler Bandbreite eingegangen. Im vierten Kapitel werden andere Verfahren
der Kerndichteschätzung angeschnitten, die aber nicht ausführlich behandelt
werden. Kapitel fünf gibt noch einmal einen Überblick und Ausblick über
mögliche Anwendungen der Dichteschätzung.
Kohler, Steffen: Nichtparametrische Dichteschätzung 3
1.2 Nichtparametrische Methoden in der Statistik
Eines der Grundprobleme der inferentiellen Statistik ist die Bestimmung der
Verteilung einer gegebenen Zufallsvariable. Empirisch werden zu diesem Zweck
in der Regel parametrische Modelle benutzt, in welchen die Verteilung der
Zufallsvariable durch eine endlich-dimensionale Menge numerischer Parameter
ausgedrückt wird. Dabei wird gefordert, dass diese Parametrisierung stetig und
differenzierbar sei. Die Unterstellung einer Zufallsverteilung auf diese Weise hat
den Vorteil der einfachen Berechnung und Interpretierbarkeit der Parameter.
Problematisch ist allerdings, dass auch schon geringe Verletzungen der Annahme
der Verteilung die Aussagekräftigkeit der Modelle einschränken können. Dies
kann insbesondere bei Anwendungen zu großen Problemen führen.
Nichtparametrische Modelle hingegen treffen keine Annahmen über die
Verteilungen von Daten. Sie gehen von den Daten an sich aus und lassen diese für
sich selbst sprechen. Dadurch werden die Modelle flexibler und eine
Misspezifikation des Modells wird vermieden. Der nichtparametrische Ansatz
eignet sich deshalb auch besonders für Ökonomische Modelle, in denen
Verteilungen normalerweise nicht zwingend festgelegt sind.
1.3 Die Bedeutung der nichtparametrischen Dichteschätzung
Im folgenden wird davon ausgegangen, dass eine Zufallsstichprobe
X1, ..., Xn
aus
einer stetigen Verteilung
X
gegeben sei, deren unbekannte Dichte geschätzt
werden soll. Das Ziel der Dichteschätzung ist es hierbei die Struktur der Daten
wie Modalität, Symmetrie oder Schiefe zu beurteilen, als Grundlage für die
Formulierung von parametrischen Modellen zu dienen oder aber die Anwendung
in komplexeren statistischen Verfahren wie der Regression, der
Diskriminanzanalyse oder der Clusteranalyse auf die in Kapitel 5 noch kurz
eingegangen wird (vgl. Thadewald, 1998, S. III).
Kohler, Steffen: Nichtparametrische Dichteschätzung 4
2. Histogramme
2.1 Konstruktion und Herleitung
Der einfachste und älteste Dichteschätzer ist das Histogramm. Nach Bohley
(1991, S. 90) ist
,,Ein Histogramm (ist) die graphische Darstellung einer nach
einem quantitativ-stetigen Merkmal gegliederten Tabelle"
. Thadewald (1998, S.1)
definiert das Histogramm als
,,die Darstellung der Häufigkeiten klassierter Daten
einer stetigen Zufallsvariablen."
Die Idee der Histogrammdarstellung ist die
Zerlegung des Variationsintervalls
[Xmin, ... , Xmax]
der Daten
X = (X1, ... , Xn)
in
k
disjunkte, aneinander angrenzende Teilintervalle, auch Klassen oder Bins
genannt. Die Daten werden also diskretisiert. Es wird im folgenden der
Einfachheit halber davon ausgegangen dass diese Klassen jeweils die selbe
Klassenbreite (Binweite)
h
besitzen. Formal kann man das Histogramm am
Dichteschätzer folgendermaßen schreiben:
(Quelle: Thadewald, 1998)
Hierbei ist
Ii(x)
eine Indikatorfunktion, die den Wert 1 annimmt, wenn x in der
i
-
ten Klasse liegt und sonst den Wert 0.
Grafisch wird nichts anderes gemacht als für jede Beobachtung ein Block mit der
Fläche
1/n
und der Breite
h
auf der Klassenmitte gestapelt, in der die Beobachtung
fällt (vgl. Abbildung 1). Die Kreuze an der Abszisse der Schaubilder in Abbildung
1 stellen die Beobachtungen dar. Die Fläche der Rechtecke der einzelnen Klassen,
die sich als die Summe der Flächen der übereinandergestapelten Blöcke ergeben,
repräsentieren dann die Klassenhäufigkeit (vgl. Schaich, 1990, S.17).
Kohler, Steffen: Nichtparametrische Dichteschätzung 5
Abbildung 1: Das Histogramm als Summe gestapelter Blöcke auf den Klassenmitten der Klassen
der jeweiligen Beobachtungen (Quelle: Thadewald, 1998, S. 2)
2.2 Eigenschaften von Histogrammen
Histogramme hängen von der Wahl zweier Parameter ab: Der Klassenbreite
h
und
dem Ursprung
x0
. Je kleiner die Klassenbreite gewählt wird umso größer ist der
Einfluss der einzelnen Beobachtung auf die Glätte der geschätzten Dichtefunktion
(vgl. Abbildung 2).
Abbildung 2: Einfluss der Bandbreite: Histogramme für den Selben Datensatz (
n
= 109) mit
h
=
40, 60, 80, 120 (Quelle: Thadewald, 1998, S. 4)
Kohler, Steffen: Nichtparametrische Dichteschätzung 6
Auf Verfahren zur optimalen Bandbreitenwahl wird im Abschnitt 3.5, allerdings
für Kerndichteschätzer, noch eingegangen werden.
Auch die Wahl des Ursprungs x
0
, also der untersten Intervallgrenze auf der
Abszisse, spielt eine nicht zu unterschätzende Rolle bei der Darstellung des
Histogramms (vgl. Härdle/Müller, 1993, S. 10). In der Regel wird
x0
= 0
oder
x0
=
xmin
gesetzt. Wie in Abbildung 3 zu sehen ist können durch verschiedene
x0
-Werte
bei Verwendung der gleichen Daten sehr verschiedene Histogramme entstehen.
Die Histogramme in Abbildung 3 lassen für Interpretationen der Datenstruktur
jede Menge Spielraum: Eine uni-, bi- oder trimodale, symmetrische, links- oder
auch rechtsschräge Verteilung könnte begründet werden. Zum Vergleich ist unten
rechts in Abbildung 3 eine Kerndichteschätzung eingefügt. Auf ein Verfahren zur
Ausschaltung des Einflusses von
x0
wird im nächsten Abschnitt eingegangen.
Abbildung 3: Einfluss des Ursprungs: Histogramme für den selben Datensatz (
n
= 63) mit
x0
= 0,
2, 4, 6, 8 und
h
= 10 (Quelle: Härdle/Müller, 1993, S. 11)
Obwohl das Histogramm als Dichteschätzer bei geeigneter Wahl der Parameter
h
und
x0
einen brauchbaren Eindruck der Verteilung der Daten liefert, hat es doch
ein paar generelle Nachteile (vgl. Hafner, 2001):
Kohler, Steffen: Nichtparametrische Dichteschätzung 7
· Durch die Klassifizierung der Daten findet ein Informationsverlust statt
· Das Histogramm soll eine in der Regel stetige und glatte Dichtefunktion
schätzen, ist selbst aber unstetig und treppenförmig.
Diese Schwächen des Histogramms als Dichteschätzer werden von
Kerndichteschätzern, die in Kapitel 3 behandelt werden, vermieden.
2.3 WARPing
WARPing ist ein Verfahren zur Ausschaltung des Einflusses von
x0
, der in
Abbildung 3 gezeigt wurde. Der Begriff WARPing steht für
Weighted Averaging
of
Rounded Points
. Die Idee des WARPing basiert darauf
m
Histogramme mit
verschiedenen
x0
zu konstruieren und dann über diese zu mitteln. Diese Mittelung
von Histogrammen kommt, wie man zeigen kann (vgl. Härdle/Müller, 1993),
einer Gewichtung der diskretisierten Datenpunkte durch den Dreieckskern (siehe
Abschnitt 3.3) gleich. Das WARPing löst dabei nur das Problem des
x0
-
Einflusses. Für die Wahl der optimalen Bandbreite
h
, die zur Erstellung der
Histogramme benötigt wird, sei auf Abschnitt 3.5 verwiesen.
2.4 Vom Histogramm zum Kerndichteschätzer
Wie in Abschnitt 2.1 gezeigt wurde, kann das Histogramm als eine Stapelung von
gleichartigen Blöcken auf den Klassenmitten der Beobachtungen interpretiert
werden. Ein etwas verbesserter Dichteschätzer könnte nun so aussehen, dass diese
Blöcke anstatt auf den Klassenmitten direkt auf den Beobachtungen gestapelt
werden (vgl. Abbildung 4).
Formal sieht dieser Dichteschätzer folgendermaßen aus:
(Quelle: Thadewald, 1998)
Kohler, Steffen: Nichtparametrische Dichteschätzung 8
Abbildung 4: Ein verbesserter Dichteschätzer auf Basis des Histogramms: Blöcke über den
eigentlichen Beobachtungen anstatt den Klassenmitten (Quelle: Thadewald, 1998, S.2)
Dieser gegenüber dem Histogramm verbesserte Dichteschätzer hat immer noch
den Nachteil, als Schätzer für eine stetige Dichtefunktion selbst nicht stetig zu
sein. Dieses Problem kann dadurch behoben werden, dass man anstatt
rechteckigen Blöcken stetige ,,Haufen" auf die Beobachtungen platziert. Und
genau dies ist das Prinzip der Kerndichteschätzer.
3. Kerndichteschätzer
3.1 Konstruktion
Die Benutzung von Haufen anstatt von Blöcken wie beim einfachen
Dichteschätzer aus Abschnitt 2.4 entspricht formal einer Substitution der Funktion
G
im einfachen Dichteschätzer mit einer Kernfunktion
K
im Kerndichteschätzer.
Es gibt mehrere mögliche Funktionen
K
, die in Abschnitt 3.2 erläutert werden.
Gemeinsam haben die Kernfunktionen in der Regel, dass sie um Null
symmetrisch und unimodale Dichtefunktionen sind wie zum Beispiel die Dichte
der Standardnormalverteilung. Um den Kerndichteschätzer zu Konstruieren, wird
die von der Bandbreite
h
abhängige Kernfunktion
K
über jede Beobachtung gelegt
und dann gemittelt. Die Formel für Kerndichteschätzer kann als
(Quelle: Thadewald, 1998)
Kohler, Steffen: Nichtparametrische Dichteschätzung 9
oder kompakter als
(Quelle: Thadewald, 1998)
geschrieben werden. In Abbildung 5 wir die Idee der Kerndichteschätzer noch
einmal graphisch veranschaulicht.
Abbildung 5: Kerndichteschätzer: ,,Haufen auf Beobachtungen" (Quelle: Thadewald, 1998, S.3)
3.2 Arten von Kernfunktionen
Es gibt viele mögliche Kernfunktionen. Sie müssen die Eigenschaften einer
Dichtefunktion erfüllen, also
(Quelle: Thadewald, 1998)
und in der Regel sind sie um Null symmetrisch und unimodal. Beispiele oft
verwendeter Kernfunktionen sind die Dichte der Standardnormalverteilung
(Norm), auch Gauss-Kern genannt, der Epanechnikov-Kern (Epan), die
Dreiecksdichte (Drei) oder der Rechteckskern (Rech):
(Quelle: Thadewald, 1998)
Kohler, Steffen: Nichtparametrische Dichteschätzung 10
Abbildung 6 zeigt die Kerndichteschätzungen eines Datensatzes unter
Verwendung der obigen Kerne. Wie man sieht, unterscheiden sich die
Dichteschätzungen kaum, nur der Rechteckskern liefert ein etwas raueres
Ergebnis. Der Epanechnikov-Kern wird in bestimmter Hinsicht als der optimale
Kern angesehen, die anderen Kerne sind jedoch annähernd gleich effizient (vgl.
Hafner, 2001, S.86f). Die Wahl der Kernfunktion spielt jedoch eine
vergleichsweise kleine Rolle zur Bandbreitenwahl (vgl. Abschnitt 3.3).
Abbildung 6: Dichteschätzung mit Epanechnikov-Kern, Normal-Kern, Dreieckskern und
Rechteckskern (Quelle: Thadewald, 1998, S.6)
3.3 Der Einfluss der Bandbreite
Wie für Histogramme spielt auch bei Kerndichteschätzern die Wahl der
Bandbreite
h
eine zentrale Rolle. Für sehr kleine Bandbreiten zeigt die
Dichteschätzung eine sehr raue Struktur, für große Bandbreiten wird die
Dichteschätzung sehr glatt (vgl. Abbildung 7). Daher wird
h
auch oft als
Glättungsparameter bezeichnet. Wenn
h
zu groß gewählt wird kann es zum
sogenannten Überglätten (oversmoothing) kommen, dass heißt das die Dichte zu
sehr geglättet wird und möglicherweise wichtige Strukturen verloren gehen. Dem
Kohler, Steffen: Nichtparametrische Dichteschätzung 11
entsprechend wenn
h
zu klein gewählt wird, kommt es zum Unterglätten
(undersmoothing) und lokale Gegebenheiten der Daten haben einen zu großen
Einfluss auf den Verlauf der Dichteschätzung (vgl. Härdle/Müller 1993, S.14f).
Im nächsten Abschnitt werden verschiedene Verfahren zur optimalen Wahl der
Bandbreite vorgestellt.
Abbildung 7: Einfluss der Bandbreitenwahl auf die Kerndichteschätzung, hier mit Normal-Kern
(Quelle: Thadewald, 1998, S. 4)
3.4 Verfahren zur Bandbreitenwahl
Wie bisher gezeigt wurde, wird durch die in den Kerndichteschätzer integrierte
Mittelung der Einfluss des Ursprungs ausgeschalten, und auch die Wahl der
Kernfunktion spielt keine signifikante Rolle. Das Hauptproblem in der
Kerndichteschätzung ist demnach die Bandbreitenwahl. Die Bestimmung der
optimalen Bandbreite reduziert sich, wie sich zeigen wird, letztlich auf ein
mathematisches Problem. Doch zunächst einmal muss man sich fragen, anhand
welches Kriteriums man die Optimalität der Dichteschätzer mit verschiedenen
Bandbreiten misst.
Kohler, Steffen: Nichtparametrische Dichteschätzung 12
3.4.1 Fehlermaße für die Dichteschätzung
Es bieten sich verschiedene Abweichungsmaße als Kriterien an. Man kann zum
Beispiel vom mittleren quadratischen Fehler, im folgenden mit MSE (mean
squared error) abgekürzt, der als der Erwartungswert der quadrierten Abweichung
des Schätzwertes vom tatsächlichen Wert in einem Punkt definiert ist, ausgehen:
(Quelle: Thadewald, 1998)
Da der MSE aber nur den Fehler an einer Stelle der Dichtefunktion misst, bietet es
sich an, die Abweichung über die gesamte Funktion zu integrieren. Man erhält
die integrierte quadratische Abweichung ISE (integrated squared error):
(Quelle: Thadewald, 1998)
Wenn man nun den Erwartungswert von der ISE bildet bekommt man ein
Fehlerkriterium, dass sich aufgrund der Analogie zur Parameterschätzung und der
guten mathematischen Handhabung gut für die Bestimmung der Optimalität einer
Kerndichteschätzung und damit auch der Bandbreitenwahl eignet:
(Quelle: Thadewald, 1998)
Andere Fehlermaße sind der mittlere integrierte absolute Fehler MIAE (mean
integrated absolute error), der analog über die absolute Abweichung der
Schätzfunktion von der zu schätzenden Funktion konstruiert wird, und der
mittlere größte Fehler MSUPE (mean supremum error), der aus dem größten
Abstand zwischen Schätzfunktion und zu schätzender Funktion konstruiert wird
(vgl. Wertz, 1978, S.41f). Auch andere Fehlerkriterien sind denkbar. In dieser
Arbeit wird aber von MISE bzw. dem asymptotischen MISE als Fehlerkriterium
ausgegangen.
Um nun die optimale Bandbreite zu bestimmen wird der asymptotische MISE für
den Kernschätzer minimiert, also nach
h
abgeleitet und gleich Null gesetzt und
nach
h
aufgelöst (vgl. Thadewald, 1998, S. 11ff). Für die optimale Bandbreite
h*
ergibt sich:
Kohler, Steffen: Nichtparametrische Dichteschätzung 13
mit
und
(Quelle: Thadewald, 1998)
Das mathematische Problem ist hierbei, dass
h
von dem Ausdruck
R(
"
)
abhängt,
der seinerseits wieder von der unbekannten Dichte abhängt. In den nächsten
Abschnitten werden Verfahren vorgestellt um dieses Dilemma zu lösen.
3.4.2 Einfache Verfahren
Das einfachste Verfahren der Wahl der optimalen Bandbreite
h*
ist die sogenannte
,,Glättung nach Augenmaß" (smoothing by eye). Bei diesem Verfahren betrachtet
der Anwender eine Reihe von Graphen mit verschiedenen Bandbreiten und wählt
dann ein Bandbreite aus, bei der für sein Verständnis die Dichtefunktion am
sinnreichsten aussieht. Glättung nach Augenmaß kann durchaus gute Ergebnisse
liefern, wobei eine gewisse Willkür nicht vermieden werden kann (vgl. Hafner,
2001, S. 88). Außerdem ist für viele Anwendungen eine Automatisierung der
Bandbreitenwahl gefragt.
Um einen Ansatzpunkt für die Schätzung der optimalen Bandbreite zu liefern,
wurden Faustregeln entwickelt. Diese gehen in der Regel von der Verwendung
des Normal-Kerns aus, so dass sich in der Formel für die optimale Bandbreite
(siehe Abschnitt 3.4.1) für
R(K)
0.2821 und für
K
= 1 ergibt und somit nur
noch der Term
R(
"
)
unbekannt ist. Um
R(
"
)
zu schätzen, wird für eine
Normalverteilung unterstellt. Dann hängt
h*
nur noch von der
Standardabweichung und dem Stichprobenumfang
n
ab:
(Quelle: Thadewald, 1998)
In dieser Gleichung muss nun die Standardabweichung durch einen geeigneten
Schätzer
s
geschätzt werden, für den es viele Vorschläge in der statistischen
Literatur gibt (vgl. Schaich, 1990, S. 163ff). Als eine mögliche Faustregel für die
automatische Wahl der Bandbreite erhält man somit:
(Quelle: Thadewald, 1998)
Für weitere einfache Verfahren und deren Konstruktion sei auf Thadewald (1998)
S. 13f verwiesen.
Kohler, Steffen: Nichtparametrische Dichteschätzung 14
3.4.3 Kreuzvalidierung
Die Kreuzvalidierung (cross-validation) ist eine ausgefeiltere Technik zur Lösung
des Problems der Formel für
h*
aus Abschnitt 3.4.1 und damit der automatisierten
Bandbreitenwahl. Aufgrund ihrer Komplexität sollte zu ihrer Umsetzung ein
Rechner benutzt werden. Ich möchte dieses Verfahren hier nur grob darstellen. Es
sei auf Hafner (2001) S.90f, Thadewald (1998) S. 14ff und Härdle/Müller (1993)
S. 16f verwiesen.
Die Kreuzvalidierung ist ein universell einsetzbares Schätzverfahren. Mit ihr wird
ISE (vgl. Abschnitt 3.4.1) direkt geschätzt und somit die Dichteschätzung mit der
optimalen Bandbreite identifiziert (vgl. Härdle/Müller, 1993, S.16). Die Idee der
Kreuzvalidierung ist die Dichteschätzung an einem Punkt
Xi
zu bestimmen, ohne
dabei den Punkt selbst in der Schätzung zu verwenden. In anderen Worten wird
versucht, aus einem Teil einer Stichprobe Informationen über einen anderen Teil
dieser Stichprobe zu gewinnen. Es wird zwischen unverzerrter Kreuzvalidierung
(UCV: unbiased cross-validation) und verzerrter Kreuzvalidierung (BCV: biased
cross-validation) unterschieden. Die UCV schätzt MISE, die BCV schätzt den
asymptotischen MISE. Die optimalen
h
der UCV beziehungsweise BCV wird
bestimmt, indem die jeweilige Funktion minimiert wird, also nach
h
abgeleitet,
gleich Null gesetzt und nach
h
aufgelöst wird:
(Quelle: Thadewald, 1998)
bzw.
(Quelle: Thadewald, 1998)
3.4.4 Andere Methoden
Es gibt verschiedene andere Methoden und Ansätze um das Problem der Wahl der
optimalen Bandbreite zu lösen. Erwähnt sei hier noch die Plug-In Methode. Der
Plug-In Schätzer (DPI: direct Plug-In) ersetzt das unbekannte
R(
"
)
in der Formel
Kohler, Steffen: Nichtparametrische Dichteschätzung 15
aus Abschnitt 3.4.1 direkt. Dabei wird ein Rekursionsprinzip angewandt (vgl.
Thadewald, 1998, S. 17ff).
Ein neuerer Ansatz ist das sogenannte adaptive Schema zur Bandbreitenwahl
(AVF: adaptive Vorfaktor-Methode). Die AVF ist in gewisser Weise auch ein
Plug-In Ansatz, der aber weniger komplex und rechenintensiv ist. Die optimale
Bandbreite, die den asymmetrischen MISE minimiert hat dabei folgende
Struktur:
(Quelle: Thadewald, 1998)
wobei
VF
ein Vorfaktor ist, der von der Schiefe, der Wahrscheinlichkeitsmasse an
den Rändern (Tailgewicht) und der Konzentration der Wahrscheinlichkeit im
Zentrum der Verteilung (Peakedness) abhängt (vgl. Thadewald, 1998, S. 20ff).
3.4.5 Beurteilung der Verfahren
Um die Leistungsfähigkeit der betrachteten Methoden miteinander zu vergleichen
braucht man ein Kriterium. Die Konvergenzrate, mit der die geschätzte
Bandbreite gegen die optimale Bandbreite strebt, bietet sich als solches an. Man
kann zeigen, dass die unverzerrte und verzerrte Kreuzvalidierungsmethode UCV
und BCV sehr geringe Konvergenzraten haben. Die Konvergenzrate des direkten
Plug-In Schätzers DPI ist etwas besser. Das UCV-Verfahren und das BCV-
Verfahren haben beide eine hohe Streuung. Die verzerrte Kreuzvalidierung hat
zudem noch einen sehr hohen Bias, so dass man eher die unverzerrte
Kreuzvalidierung anwenden sollte. Im Vergleich schneidet der DPI-Schätzer am
besten ab (vgl. Thadewald, 1998, S.23). In Abbildung 8 werden die Methoden
unverzerrte Kreuzvalidierung (UCV), verzerrte Kreuzvalidierung (BCV), direkte
Plug-In Schätzer (DPI) und adaptive Vorfaktor-Methode (AVF) vergleichend
graphisch gegenübergestellt.
Kohler, Steffen: Nichtparametrische Dichteschätzung 16
Abbildung 8: Vergleich der Methoden zur Schätzung der Bandbreite (Quelle: Thadewald, 1998, S.
22)
3.5 Variable Kerndichteschätzer
Eine Erweiterung der Kerndichteschätzung stellen Kerndichteschätzer mit
variabler Bandbreite
h
da. Dies macht Sinn, da in Bereichen der Verteilung mit
wenigen Datenpunkten, also in der Regel in den Randbereichen, der klassische
Kerndichteschätzer die tatsächliche Dichte nicht immer gut nachbildet. Durch
Anpassung der Bandbreite von Punkt zu Punkt erhält man einen besseren
Schätzer. Die Bandbreite wird dabei in Bereichen mit hoher Dichter etwas kleiner
und in Bereichen mit niedriger Dichte größer gewählt. Es existieren verschiedene
Verfahren um dies zu bewerkstelligen, auf die hier aber nicht weiter eingegangen
wird.
4. Andere Verfahren zur Dichteschätzung
Neben den hier behandelten Histogrammen und Kerndichteschätzern gibt es auch
noch andere nichtparametrische Verfahren, mit denen Dichtefunktionen aus
bekannten Verteilungen geschätzt werden können. Erwähnt seien hier Spline-
Schätzer. Sie gehen vom Histogramm aus und versuchen eine stetige Funktion in
Kohler, Steffen: Nichtparametrische Dichteschätzung 17
dieses einzupassen (vgl. Wertz, 1978, S. 86ff). Eine weitere Methode stellen die
Nearest-Neighbour-Schätzer (nächste Nachbarn) dar. Hierbei wird die Dichte
mittels der Abstände zu den nächsten Nachbarn der Datenpunkte geschätzt (vgl.
Härdle/Linton, 1994, S. 2310ff). Daneben gibt es noch die Möglichkeit,
Dichtefunktionen aufgrund von Fourierreihen zu Schätzen (vgl. Thadewald, 1998,
S 23). In Hafner (2001) findet sich eine Methode, die mit dem Gleitenden
Differenzenquotient der Verteilungsfunktion die Dichte bestimmt. Außerdem gibt
es noch Ansätze, die Maximum-Likelihood-Methode auf die Dichteschätzung
anzuwenden (vgl. Wertz, 1978, S.95f).
5. Anwendungen und Ausblick
Die nichtparametrische Dichteschätzung eignet sich primär zur Datenpräsentation,
aufgrund derer dann eine Beurteilung der Daten erfolgen kann. Diese kann auch
als Grundlage zur Formulierung parametrischer Modelle eingesetzt werden. Eine
der wichtigsten Anwendungen der hier vorgestellten Glättungsmethoden findet
sich in der nichtparametrischen Regressionsanalyse, also der Analyse des
Zusammenhangs zweier oder mehrerer Zufallsvariablen (vgl. Härdle/Linton,
1994).
In dieser Arbeit wurden nur eindimensionale Dichteschätzer behandelt. Im
mehrdimensionalen Bereich gibt es auch viele Anwendungsmöglichkeiten. Eine
der wichtigsten Anwendungen ist hier die nichtparametrische
Diskriminanzanalyse. Sie befasst sich mit dem Problem der Zuordnung einer
Beobachtung zu bekannten unterschiedlichen Verteilungen und ihren geschätzten
Dichten (vgl. Hafner, 2001, S.94).
Weitere Anwendungen der nichtparametrischen Dichteschätzung sind die
Clusteranalyse und die geglättete Bootstrap-Methode (vgl. Hafner, 2001, S.94).
Kohler, Steffen: Nichtparametrische Dichteschätzung 18
Literaturverzeichnis
Bohley, Peter: Statistik, 4. Auflage, München, Wien: Oldenbourg 1991.
Büning, H. und G. Trenkler: Nichtparametrische statistische Methoden, 1.
Auflage, Berlin, New York 1978.
Hafner, Robert: Nichtparametrische Verfahren der Statistik, 2001, S. 75-95.
Härdle, W. und O. Linton: Applied Nonparametric Methods, in: Handbook of
Econometrics, Vol. IV, 1994, S. 2295-2339.
Härdle, W. und M. Müller: Nichtparametrische Glättungsmethoden in der
alltäglichen statistischen Praxis, in: Allgemeines Statistisches Archiv, 77. Jg.,
1993, S 9-31.
Härdle, W., Müller M., Sperlich S. und Werwatz A.: Non- and Semiparametric
Modelling, Overheads, [http://www.quantlet.de/folien/spmfolien.pdf],
(Erstelldatum: 11. Oktober 2001; Verfügbarkeitsdatum: 17. Oktober 2001)
Schaich, Eberhard: Schätz- und Testmethoden für Sozialwissenschaftler, 2.
Auflage, München 1990.
Thadewald, Thorsten: Uni- und bivariate Dichteschätzung,
Wirtschaftswissenschaftliche Dissertation, Berlin 1998.
Wertz, Wolfgang: Statistical Density Estimation, Göttingen 1978.
Kohler, Steffen: Nichtparametrische Dichteschätzung 19
Abbildungsverzeichnis
Abbildung 1: Das Histogramm als Summe gestapelter Blöcke auf den
Klassenmitten der Klassen der jeweiligen Beobachtungen (Quelle: Thadewald,
1998, S. 2) Seite 5
Abbildung 2: Einfluss der Bandbreite: Histogramme für den Selben Datensatz (
n
= 109) mit
h
= 40, 60, 80, 120 (Quelle: Thadewald, 1998, S. 4) Seite 5
Abbildung 3: Einfluss des Ursprungs: Histogramme für den selben Datensatz (
n
=
63) mit
x0
= 0, 2, 4, 6, 8 und
h
= 10 (Quelle: Härdle/Müller, 1993, S. 11) Seite 6
Abbildung 4: Ein verbesserter Dichteschätzer auf Basis des Histogramms: Blöcke
über den eigentlichen Beobachtungen anstatt den Klassenmitten (Quelle:
Thadewald, 1998, S.2) Seite 8
Abbildung 5: Kerndichteschätzer: ,,Haufen auf Beobachtungen" (Quelle:
Thadewald, 1998, S.3) Seite 9
Abbildung 6: Dichteschätzung mit Epanechnikov-Kern, Normal-Kern,
Dreieckskern und Rechteckskern (Quelle: Thadewald, 1998, S.6) Seite 10
Abbildung 7: Einfluss der Bandbreitenwahl auf die Kerndichteschätzung, hier mit
Normal-Kern (Quelle: Thadewald, 1998, S. 4) Seite 11
Abbildung 8: Vergleich der Methoden zur Schätzung der Bandbreite (Quelle:
Thadewald, 1998, S. 22) Seite 16
Kommentare
Bisher keine Kommentare
Andere Nutzer haben sich auch für folgende Titel interessiert:
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für Microsoft Word
Autor: GRIN VerlagVorlagen, Muster, Formulare, Infobroschüren, 2005 Als PDF-Datei downloaden für 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für OpenOffice.org
Autor: GRIN VerlagVorlagen, Muster, Formulare, Infobroschüren, 2005 Als PDF-Datei downloaden für 9,99 EUR
Formatvorlage zur Erstellung einer Diplomarbeit / Vorlage zur Erstellung einer Hausarbeit
Autor: Marco FeindlerVorlagen, Muster, Formulare, Infobroschüren, 2005 Als PDF-Datei downloaden für 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Autor: GRIN VerlagVorlagen, Muster, Formulare, Infobroschüren, 2008 Als PDF-Datei downloaden für 6,99 EUR
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wissenschaftlichen Arbeit
Autor: Zoran ZivkovicVorlagen, Muster, Formulare, Infobroschüren, 2004 Als PDF-Datei downloaden für 5,99 EUR
Erstellen einer schriftlichen Hausarbeit
Autor: Claudia NickelVorlagen, Muster, Formulare, Infobroschüren, 2006 Als PDF-Datei downloaden für 4,99 EUR
Grundtechniken wissenschaftlichen Arbeitens
Autor: Maik PhilippVorlagen, Muster, Formulare, Infobroschüren, 2004 Als PDF-Datei downloaden für 5,99 EUR
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - Hausarbeiten - Seminararbeiten
Autor: Mark RichterVorlagen, Muster, Formulare, Infobroschüren, 2008
Dieser Text kann über folgende URL aufgerufen und zitiert werden: