Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist.
In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt.
In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.
Inhaltsverzeichnis
- Einleitung
- Das Multinomial-Modell und die Dirichlet-Verteilung
- Die Multinomialverteilung
- Zusammenziehen und Aufteilen von multinomialverteilten Variablen
- Die Dirichlet-Verteilung
- Bayesianische Inferenz
- Wahl der a priori Hyperparameter
- Zusammenziehen und Aufteilen von dirichletverteilten Variablen
- Basisalgorithmen für das gesättigte Modell
- Charakterisierung eines unvollständigen Klassendatensatzes
- Der EM-Algorithmus
- Datenvergrößerung
- Beispiel: Schutzleistungen-Projekt für ältere Personen
Zielsetzung und Themenschwerpunkte
Die Seminararbeit zielt darauf ab, Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell zu entwickeln. Das saturierte multinomiale Modell ermöglicht die Analyse komplexer Beziehungen zwischen kategorialen Variablen, indem es dreifache und höhere Verbindungen zulässt.
- Eigenschaften der multinomialen und der Dirichlet-Verteilung
- Entwicklung von Algorithmen für die Analyse von unvollständigen Klassendaten im saturierten multinomialen Modell
- Anwendung der entwickelten Methoden auf ein Beispiel: Schutzleistungen-Projekt für ältere Personen
- Diskussion der Herausforderungen und Chancen bei der Analyse von unvollständigen Klassendaten
- Beitrag zur Erweiterung des Methodenkatalogs für die Analyse von kategorialen Daten
Zusammenfassung der Kapitel
1 Einleitung
Die Einleitung stellt die Problematik fehlender Werte in der Analyse von kategorialen Daten dar und erläutert die Relevanz des saturierten multinomialen Modells für die Behandlung dieses Problems.
2 Das Multinomial-Modell und die Dirichlet-Verteilung
Dieses Kapitel betrachtet die grundlegenden Eigenschaften der multinomialen und der Dirichlet-Verteilung, die für die Analyse unvollständiger Klassendaten essenziell sind. Es werden Zusammenhänge zwischen den beiden Verteilungen und deren Anwendungsmöglichkeiten im Kontext des saturierten multinomialen Modells beschrieben.
3 Basisalgorithmen für das gesättigte Modell
Hier werden der EM-Algorithmus und die Datenvergrößerung als grundlegende Algorithmen für die Analyse von unvollständigen Klassendaten im saturierten multinomialen Modell vorgestellt. Die Anwendung dieser Algorithmen wird anhand eines Beispiels aus dem Schutzleistungen-Projekt für ältere Personen verdeutlicht.
Schlüsselwörter
Die Arbeit konzentriert sich auf die Analyse von kategorialen Daten, insbesondere auf den Umgang mit fehlenden Werten. Wichtige Schlüsselwörter sind: saturiertes multinomiales Modell, Dirichlet-Verteilung, EM-Algorithmus, Datenvergrößerung, multiple Imputation, Klassendaten, unvollständige Daten, Parametersimulation.
- Quote paper
- Andreas Wolf (Author), 2003, Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten, Munich, GRIN Verlag, https://www.grin.com/document/28730