Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist.

In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt.

In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.

Excerpt

Inhaltsverzeichnis

1 Einleitung

2 Das Multinomial-Modell und die Dirichlet-Verteilung

2.1 Die Multinomialverteilung

2.2 Zusammenziehen und Aufteilen von multinomialverteilten Variablen

2.3 Die Dirichlet-Verteilung

2.4 Bayesianische Inferenz

2.5 Wahl der a priori Hyperparameter

2.6 Zusammenziehen und Aufteilen von dirichletverteilten Variablen

3 Basisalgorithmen für das gesättigte Modell

3.1 Charakterisierung eines unvollständigen Klassendatensatzes

3.2 Der EM-Algorithmus

3.3 Datenvergrößerung

3.4 Beispiel: Schutzleistungen-Projekt für ältere Personen

Zielsetzung und thematische Schwerpunkte

Die Arbeit beschäftigt sich mit der Entwicklung und Anwendung statistischer Verfahren für den Umgang mit fehlenden Werten bei kategorialen Daten. Ziel ist es, Methoden der Parametersimulation und multiplen Imputation innerhalb des saturierten multinomialen Modells methodisch aufzuarbeiten und anhand eines Praxisbeispiels zu demonstrieren.

Grundlagen des multinomialen Modells und der Dirichlet-Verteilung
Methodik des EM-Algorithmus zur Schätzung bei unvollständigen Daten
Techniken der Datenvergrößerung (Data Augmentation)
Umgang mit dünn besetzten Tabellen und Zufallsnullen
Empirische Anwendung im Schutzleistungen-Projekt für ältere Personen

Auszug aus dem Buch

Der EM-Algorithmus

Weil es sehr aufwendig wäre, für Formel (29) einen analytischen Ausdruck für ihre erste und zweite Ableitung über eine Gradientenmethode zu berechnen, greifen wir auf den unkomplizierten EM-Algorithmus zurück, weil dieser nur wiederholt die Log-Likelihoodfunktion vollständiger Daten (26) maximiert. Für jedes fehlendes Datenmuster s = 1, 2,...,S teilen wir die Häufigkeiten der beobachteten Tabelle z(s) den Zellen der Tabelle x(s) zu. Dies geschieht in den Verhältnissen, die die gegenwärtige Schätzung von θ vorsieht. Die resultierende Tabelle x = x(1) + x(2) + ... + x(S) unterstützt die aktualisierte Schätzung von θ. Zunächst sollten die beobachteten Daten für jedes fehlendes Datenmuster gemäß den beobachteten Variablen kreuz-klassifiziert werden, indem die Daten zu z(1), z(2),...,z(S) reduziert werden. Dabei kann z(1), z(2),...,z(S) als Anordnung variierender Dimensionen betrachtet werden, da die Anzahl der Dimensionen von z(s) gleich der Anzahl der beobachteten Variablen in Muster s ist.

Zusammenfassung der Kapitel

1 Einleitung: Dieses Kapitel motiviert die Notwendigkeit von Verfahren zum Umgang mit fehlenden Daten in kategorialen Datensätzen und führt in die Arbeit ein.

2 Das Multinomial-Modell und die Dirichlet-Verteilung: Es werden die theoretischen Grundlagen der multinomialen Verteilung und der Dirichlet-Verteilung sowie deren bayesianische Inferenz und Eigenschaften bei Zusammenfassungen von Variablen dargestellt.

3 Basisalgorithmen für das gesättigte Modell: Hier werden der EM-Algorithmus und Verfahren der Datenvergrößerung für unvollständige Datensätze entwickelt und auf ein Projekt zur Untersuchung von Sozialleistungen angewendet.

Schlüsselwörter

Statistik, kategoriale Daten, fehlende Werte, multinomiales Modell, Dirichlet-Verteilung, EM-Algorithmus, Datenvergrößerung, multiple Imputation, Bayes-Statistik, Koningenztabelle, Parametersimulation, Zufallsnullen, Wahrscheinlichkeitstheorie.

Häufig gestellte Fragen

Worum geht es in der Arbeit grundsätzlich?

Die Arbeit behandelt statistische Methoden zur Analyse kategorialer Daten, in denen Werte aufgrund von Unvollständigkeit fehlen.

Was sind die zentralen Themenfelder?

Im Zentrum stehen das saturierte multinomiale Modell, die Anwendung der Dirichlet-Verteilung als a-priori-Verteilung sowie Algorithmen zur Parameteroptimierung.

Was ist das primäre Ziel der Untersuchung?

Ziel ist die methodische Entwicklung von Techniken zur Parametersimulation und multiplen Imputation, um valide Aussagen trotz fehlender Beobachtungen zu ermöglichen.

Welche wissenschaftliche Methode wird verwendet?

Es werden insbesondere der EM-Algorithmus (Expectation-Maximization) und die Datenvergrößerung (Data Augmentation) eingesetzt und mathematisch hergeleitet.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die theoretische Herleitung der Verteilungsmodelle und die konkrete Ausarbeitung der Basisalgorithmen zur Behandlung unvollständiger Klassendatensätze.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wichtige Begriffe sind unter anderem kategoriale Daten, EM-Algorithmus, Dirichlet-Verteilung, multiple Imputation und Koningenztabelle.

Wie geht die Arbeit mit dem Problem von "Zufallsnullen" um?

Zufallsnullen werden durch die Wahl einer geeigneten a-priori-Verteilung (Dirichlet-Verteilung) behandelt, um numerische Stabilität zu gewährleisten und ein Konvergieren zu einem eindeutigen Modus zu ermöglichen.

Welches Praxisbeispiel wird für die Validierung herangezogen?

Die Methoden werden auf das "Schutzleistungen-Projekt für ältere Personen" angewendet, um den Einfluss von Sozialarbeitsleistungen auf das Wohlbefinden zu untersuchen.

Excerpt out of 23 pages - scroll top

Details

Title: Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten
College: University of Frankfurt (Main) (Fachbereich Wirtschaftswissenschaften)
Course: Seminar "Angewandte Statistik"
Grade: 1,3
Author: Andreas Wolf (Author)
Publication Year: 2003
Pages: 23
Catalog Number: V28730
ISBN (eBook): 9783638304313
ISBN (Book): 9783640203116
Language: German
Tags: Methoden Umgang Werten Analyse Daten Seminar Angewandte Statistik
Product Safety: GRIN Publishing GmbH

Quote paper: Andreas Wolf (Author), 2003, Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten, Munich, GRIN Verlag, https://www.grin.com/document/28730

Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten