Grin logo
de en es fr
Boutique
GRIN Website
Publier des textes, profitez du service complet
Aller à la page d’accueil de la boutique › Mathématique - Statistique

Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten

Titre: Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten

Exposé Écrit pour un Séminaire / Cours , 2003 , 23 Pages , Note: 1,3

Autor:in: Andreas Wolf (Auteur)

Mathématique - Statistique
Extrait & Résumé des informations   Lire l'ebook
Résumé Extrait Résumé des informations

Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist.

In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt.

In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.

Extrait


Inhaltsverzeichnis

1 Einleitung

2 Das Multinomial-Modell und die Dirichlet-Verteilung

2.1 Die Multinomialverteilung

2.2 Zusammenziehen und Aufteilen von multinomialverteilten Variablen

2.3 Die Dirichlet-Verteilung

2.4 Bayesianische Inferenz

2.5 Wahl der a priori Hyperparameter

2.6 Zusammenziehen und Aufteilen von dirichletverteilten Variablen

3 Basisalgorithmen für das gesättigte Modell

3.1 Charakterisierung eines unvollständigen Klassendatensatzes

3.2 Der EM-Algorithmus

3.3 Datenvergrößerung

3.4 Beispiel: Schutzleistungen-Projekt für ältere Personen

Zielsetzung und thematische Schwerpunkte

Die Arbeit beschäftigt sich mit der Entwicklung und Anwendung statistischer Verfahren für den Umgang mit fehlenden Werten bei kategorialen Daten. Ziel ist es, Methoden der Parametersimulation und multiplen Imputation innerhalb des saturierten multinomialen Modells methodisch aufzuarbeiten und anhand eines Praxisbeispiels zu demonstrieren.

  • Grundlagen des multinomialen Modells und der Dirichlet-Verteilung
  • Methodik des EM-Algorithmus zur Schätzung bei unvollständigen Daten
  • Techniken der Datenvergrößerung (Data Augmentation)
  • Umgang mit dünn besetzten Tabellen und Zufallsnullen
  • Empirische Anwendung im Schutzleistungen-Projekt für ältere Personen

Auszug aus dem Buch

Der EM-Algorithmus

Weil es sehr aufwendig wäre, für Formel (29) einen analytischen Ausdruck für ihre erste und zweite Ableitung über eine Gradientenmethode zu berechnen, greifen wir auf den unkomplizierten EM-Algorithmus zurück, weil dieser nur wiederholt die Log-Likelihoodfunktion vollständiger Daten (26) maximiert. Für jedes fehlendes Datenmuster s = 1, 2,...,S teilen wir die Häufigkeiten der beobachteten Tabelle z(s) den Zellen der Tabelle x(s) zu. Dies geschieht in den Verhältnissen, die die gegenwärtige Schätzung von θ vorsieht. Die resultierende Tabelle x = x(1) + x(2) + ... + x(S) unterstützt die aktualisierte Schätzung von θ. Zunächst sollten die beobachteten Daten für jedes fehlendes Datenmuster gemäß den beobachteten Variablen kreuz-klassifiziert werden, indem die Daten zu z(1), z(2),...,z(S) reduziert werden. Dabei kann z(1), z(2),...,z(S) als Anordnung variierender Dimensionen betrachtet werden, da die Anzahl der Dimensionen von z(s) gleich der Anzahl der beobachteten Variablen in Muster s ist.

Zusammenfassung der Kapitel

1 Einleitung: Dieses Kapitel motiviert die Notwendigkeit von Verfahren zum Umgang mit fehlenden Daten in kategorialen Datensätzen und führt in die Arbeit ein.

2 Das Multinomial-Modell und die Dirichlet-Verteilung: Es werden die theoretischen Grundlagen der multinomialen Verteilung und der Dirichlet-Verteilung sowie deren bayesianische Inferenz und Eigenschaften bei Zusammenfassungen von Variablen dargestellt.

3 Basisalgorithmen für das gesättigte Modell: Hier werden der EM-Algorithmus und Verfahren der Datenvergrößerung für unvollständige Datensätze entwickelt und auf ein Projekt zur Untersuchung von Sozialleistungen angewendet.

Schlüsselwörter

Statistik, kategoriale Daten, fehlende Werte, multinomiales Modell, Dirichlet-Verteilung, EM-Algorithmus, Datenvergrößerung, multiple Imputation, Bayes-Statistik, Koningenztabelle, Parametersimulation, Zufallsnullen, Wahrscheinlichkeitstheorie.

Häufig gestellte Fragen

Worum geht es in der Arbeit grundsätzlich?

Die Arbeit behandelt statistische Methoden zur Analyse kategorialer Daten, in denen Werte aufgrund von Unvollständigkeit fehlen.

Was sind die zentralen Themenfelder?

Im Zentrum stehen das saturierte multinomiale Modell, die Anwendung der Dirichlet-Verteilung als a-priori-Verteilung sowie Algorithmen zur Parameteroptimierung.

Was ist das primäre Ziel der Untersuchung?

Ziel ist die methodische Entwicklung von Techniken zur Parametersimulation und multiplen Imputation, um valide Aussagen trotz fehlender Beobachtungen zu ermöglichen.

Welche wissenschaftliche Methode wird verwendet?

Es werden insbesondere der EM-Algorithmus (Expectation-Maximization) und die Datenvergrößerung (Data Augmentation) eingesetzt und mathematisch hergeleitet.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die theoretische Herleitung der Verteilungsmodelle und die konkrete Ausarbeitung der Basisalgorithmen zur Behandlung unvollständiger Klassendatensätze.

Welche Schlüsselwörter charakterisieren die Arbeit?

Wichtige Begriffe sind unter anderem kategoriale Daten, EM-Algorithmus, Dirichlet-Verteilung, multiple Imputation und Koningenztabelle.

Wie geht die Arbeit mit dem Problem von "Zufallsnullen" um?

Zufallsnullen werden durch die Wahl einer geeigneten a-priori-Verteilung (Dirichlet-Verteilung) behandelt, um numerische Stabilität zu gewährleisten und ein Konvergieren zu einem eindeutigen Modus zu ermöglichen.

Welches Praxisbeispiel wird für die Validierung herangezogen?

Die Methoden werden auf das "Schutzleistungen-Projekt für ältere Personen" angewendet, um den Einfluss von Sozialarbeitsleistungen auf das Wohlbefinden zu untersuchen.

Fin de l'extrait de 23 pages  - haut de page

Résumé des informations

Titre
Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten
Université
University of Frankfurt (Main)  (Fachbereich Wirtschaftswissenschaften)
Cours
Seminar "Angewandte Statistik"
Note
1,3
Auteur
Andreas Wolf (Auteur)
Année de publication
2003
Pages
23
N° de catalogue
V28730
ISBN (ebook)
9783638304313
ISBN (Livre)
9783640203116
Langue
allemand
mots-clé
Methoden Umgang Werten Analyse Daten Seminar Angewandte Statistik
Sécurité des produits
GRIN Publishing GmbH
Citation du texte
Andreas Wolf (Auteur), 2003, Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten, Munich, GRIN Verlag, https://www.grin.com/document/28730
Lire l'ebook
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
Extrait de  23  pages
Grin logo
  • Grin.com
  • Expédition
  • Contact
  • Prot. des données
  • CGV
  • Imprint