II
Inhaltsverzeichnis
1 Einle itung
2 Das Multinomial-Modell und die Dirichlet-Verteilung 1
2.1 Die Multinomialverteilung 1
2.2 Zusammenziehen und Aufteilen von multinomialverteilten Variablen 3
2.3 Die Dirichlet-Verteilung 5
2.4 Bayesianische Inferenz 6
2.5 Wahl der a priori Hyperparameter 7
2.6 Zusammenziehen und Aufteilen von dirichletverteilten Variablen 9
3 Basisalgorithmen für das gesättigte Modell 10
3.1 Charakterisierung eines unvollständigen Klassendatensatzes 10
3.2 Der E-MAlgorithmus 12
3.3 Datenvergrößerung 16
3.4 Beispiel: Schutzleistungen-Projekt für ältere Personen 18
Literaturverzeichnis 21
1
1 Einleitung
Obwohl Methoden für kategoriale D aten wie z. B. die logistische Regression und das
loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung
alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit
fehlenden Werten in der Analyse von Klassendaten umzugehen ist.
In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple
Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell
entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache
und höhere Verbindungen zwischen den Variablen zulässt.
In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen,
der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der
Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3
entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete
Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.
2 Das Multinomial-Modell und die Dirichlet-Verteilung
Die Multinomialverteilung 1
2.1
K
Y Y Y , , , 2
seien Zufallsvariablen bzw. Merkmale, die positive ganzzahlige Werte
p 1
=
1 K
d , , 2 ,
für annehmen können. Dabei handelt es sich um nominale oder
j
j
ungeordnete Klassen. Bei einer Stichprobe von n unabhängigen und identisch verteilten
p
Erhebungseinheiten kann man eine Kontingenztabelle
Y
mit
ist hier die Anzahl unterschiedlicher Kombinationen der Merkmalsausprägungen von
K
Y Y Y , , , 2
. Im Weiteren nehmen wir an, dass keine strukturellen Nullen existieren, d. h.
p 1
keine Kombination von Ausprägungen verschiedener Merkmale aufgrund bestimmter
=
logischer Bedingungen unmöglich ist. d x für
Erhebungseinheiten, die in Zelle d fallen und d
Zellhäufigkeiten und deren Wahrscheinlichkeiten werden mit
2 1 D
=
K
) , , , ( θ θ θ θ
zusammengefasst. Sind die Erhebungseinheiten unabhängig und identisch
2 1 D
D =
∑
verteilt, und ist x n fix, so hat x eine multinomiale Verteilung: d =
d 1
1 Vgl. Schafer 1997, S. 240-243.
2
x
Die Wahrscheinlichkeitsverteilung für x lautet dann
x x x
n !
=
x P θ ) | (
x x x ! ! !
D 2 1
− −
D 1 D 1 D
= − −
für ∑ ∑ ∑
n x
und sonst 0. D
d
=
d 1
sodass es nur noch
betrachten, dann muss er im Simplex
D
liegen, einem
saturiert, da es die maximale Anzahl freier Parameter
möglichen Beziehungen zwischen den Zufallsvariablen
ist als Binomialverteilung bekannt. Das erste Moment der Multinomialverteilung lautet
θ =
n x E θ ) | ( .
d d
Die Likelihoodfunktion für multinomiale Parameter ist
D
x
∝
∏
d
d I Y L ) ( ) | ( θ θ θ , (3)
Θ =
d 1
Θ ∈
θ
wobei ) (θ I gleich 1 ist für
Θ
D
=
∑
x Y l log ) | ( θ θ , (4)
d d
=
d 1
dessen Definitionsbereich der Simplex ist. Durch Gleichsetzung jeder absoluten
θ =
Zellhäufigkeit x mit seinem Erwartungswert E
d
Schätzwerte für die Zellwahrscheinlichkeiten, die den beobachteten Verhältnissen
entsprechen:
x
d
θ ˆ
=
=
d
n
3
Zusammenziehen und Aufteilen von multinomialverteilten Variablen 2 2.2
Angenommen man zieht zwei Zellen der Kontingenztabelle zusammen, indem man deren
*
Häufigkeiten addiert, so erhält man eine neue Tabelle
Die Zellwahrscheinlichkeiten lauten dann
θ
2
3 D
Summe der multinomialen Wahrscheinlichkeiten
z z
−
x P | ( θ
=
=
j 0
lässt sich zeigen, dass * x multinomialverteilt ist:
* * ) , ( ~ | θ θ n M x . (6)
Nutzen wir diese Eigenschaft und ziehen
2
D 3
x und 2 x , so gelangen wir zu
bzw. belassen es bei 1
− −
− −
Die bedingte Verteilung von
Durch Einsetzen im Zähler und Nenner der rechten Seite kommt man zu
θ θ
2 1
Folglich ist auch die bedingte Verteilung von
~ , | ) , ( θ M z x x
2 1
Nun erweitern wir das Zusammenziehen von Zellen auf eine beliebige Anzahl. Die Zellen
{ }
der zu k A gehört, also der k-te Teil von x, wird bezeichnet mit
{ }
2 Vgl. Schafer 1997, S. 243-247.
4
die zusammengezogene Tabelle dar. Die Wahrscheinlichkeit, dass eine Erhebungseinheit in
den k-ten Teil fällt, wird mit
=
∑
θ ξ
(9)
d k ∈ k
A d
und die bedingte Wahrscheinlichkeit für Zelle d gegeben k mit
θ
d
∈ ∀ = ξ
A d φ (10)
k kd k
bezeichnet. Die Sammlung aller bedingten Wahrscheinlichkeiten für den k-ten Teil lautet
{ }
=
φ
k
Unter diesen Voraussetzungen lässt sich zeigen, dass die Verteilung d er zusammengezogenen
Tabelle multinomial ist,
=
z
2 1 K
und die bedingte Verteilung der aufgeteilten Tabelle, gegeben die zusammengezogene
Tabelle, ein Satz von unabhängigen multinomialen Verteilungen:
) , ( ~ , | φ θ z M z x
,
1 1 ) 1 (
) , ( ~ , | φ θ z M z x
2 2 ) 2 (
M
) , ( ~ , | z M z x φ θ
. (12)
) ( K K K
Diesen Satz von multinomialen Verteilungen nennt man auch produkt-multinomial. Folglich
lässt sich jede multinomiale Verteilung in eine selbe durch Zusammenziehen bzw. in eine
produkt-multinomiale durch Aufteilen gegeben eine zusammengezogene verwandeln. Nun
fassen wir die Parameter aus der zusammengesetzten und aufgeteilten Tabelle mit
=
K
) , , , ( 1 φ φ ξ ψ
K
−
zusammen, das eine direkte funktionale Beziehung zu θ hat:
und damit
d ∈ ∀ = φ
=
A ξ θ ,
k
k kd k d
Die Parameter aus der zusammengezogenen und der aufgeteilten Tabelle sind gegenseitig
eindeutig, und daher k ann die Likelihoodfunktion für ψ in eine Reihe von unabhängigen
multinomialen Likelihoodfunktionen zerlegt werden:
=
L
) | ( ) | ( ) | ( ) | ( K x L x L z L x L φ φ ξ ψ
.
1 ( 1
D. h. Likelihood-basierte Folgerungen können unabhängig für jeden Teil von ψ gezogen und
die Ergebnisse anschließend kombiniert werden, um einen allgemeinen Rückschluss zu
Quote paper:
Andreas Wolf, 2003, Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Termingeschäfte - Optionen und Futures
Business economics - Banking, Stock Exchanges, Insurance, Accounting
Scholarly Research Paper, 15 Pages
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Andreas Wolf's text Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten is now available as a printed book
Andreas Wolf has published the text Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten
Andreas Wolf has uploaded a new text
Eine Einführung mit Programmbe...
Rainer Becker, Michael Falk, Frank Marohn
Einführung in die angewandte Statistik für Biowissenschaftler
Monika M. Junge, Antonia Bettina Kesel, Werner Nachtigall
Beschreibende und Explorative ...
Manfred Precht, Roland Kraft, Martin Bachmaier
R- Einführung durch angewandte Statistik
Einführung durch angewandte St...
Reinhold Hatzinger, Kurt Hornik, Herbert Nagel
0 comments