Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist.
In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt.
In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.
Johann Wolfgang Goethe-Universität Frankfurt am Main
Fachbereich Wirtschaftswissenschaften
Professur für Statistik
Sommersemester 2003
Seminar
„Angewandte Statistik“
Seminararbeit zum Thema
Methoden zum Umgang mit fehlenden Werten
in der Analyse von kategorialen Daten
Name:
Andreas Wolf
Abgabetermin: 25.08.2003
Inhaltsverzeichnis
1 Einleitung
2 Das Multinomial-Modell und die Dirichlet-Verteilung 1
2.1 Die Multinomialverteilung 1
2.2 Zusammenziehen und Aufteilen von multinomialverteilten Variablen 3
2.3 Die Dirichlet-Verteilung 5
2.4 Bayesianische Inferenz 6
2.5 Wahl der a priori Hyperparameter 7
2.6 Zusammenziehen und Aufteilen von dirichletverteilten Variablen 9
3 Basisalgorithmen für das gesättigte Modell 10
3.1 Charakterisierung eines unvollständigen Klassendatensatzes 10
3.2 Der EM-Algorithmus 12
3.3 Datenvergrößerung 16
3.4 Beispiel: Schutzleistungen-Projekt für ältere Personen 18
Literaturverzeichnis 21
1 Einleitung
Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist.
In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt.
In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.
2 Das Multinomial-Modell und die Dirichlet-Verteilung
2.1 Die Multinomialverteilung1
[....]
1 Vgl. Schafer 1997, S. 240-243.
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.