Die Urliste eines Merkmals ist eine ungeordnete statistische Reihe, bei der die Merkmalsausprägungen [Abbildung in dieser Leseprobe nicht enthalten] bei n Beobachtungseinheiten notiert werden. Die Beobachtungseinheiten n werden von 1 bis n durchnummeriert. Die Werte der Merkmalsausprägungen müssen nicht alle von einander verschieden sein.
Eine Urliste ist durch die meist sehr große Zahl an Beobachtungseinheiten sehr umfangreich und unübersichtlich und läßt daher über das beobachtete Merkmal kaum Aussagen zu.
Aus diesem Grund versucht man die Urliste zusammenzufassen und zu ordnen. Die Ordnung richtet sich nach der zugrundeliegenden Skala:
Frage nach der Religionszugehörigkeit 1987:
evangelisch: 1 römisch katholisch: 2 islamisch: 3 sonstige: 4
Dieser Beginn der Urliste für das qualitative Merkmal Religionszugehörigkeit mit den 4 Merkmalsausprägungen evangelisch, römisch katholisch, islamisch und sonstige soll im folgenden dazu dienen, die Häufigkeitsverteilung zu erläutern.
In dieser Urliste interessiert vor allem, welche Merkmalsausprägung wie oft vorkommt - es wird also nach der Häufigkeit für das Auftreten einer Merkmalsausprägung gefragt. Hierbei ist gleichgültig, bei welcher Beobachtungseinheit welche Ausprägung beobachtet wurde.
Um die Liste zusammenfassen zu können, bietet es sich an, die Skalenwert und die vorkommenden Merkmalsausprägungen zu bestimmt. Danach wird die Häufigkeit für das Auftreten der einzelnen Ausprägungen ermittelt (manuell - mit Hilfe einer Strichliste - oder mit EDV). Die Ergebnisse lassen sich in einer Tabelle, der Häufigkeitstabelle zusammenfassen.
Die Skalenwerte nehmen die Werte 1 bis r (hier: r = 4) an.
Die zugeordneten Häufigkeiten jeder Merkmalsausprägung nennt man absolute Häufigkeit der Ausprägung. Die Summe aller absoluten Häufigkeiten ergibt die Anzahl der Beobachtungseinheiten.
Die Häufigkeitstabelle kann auch vertikal sein. Sie enthält aber immer nur die tatsächlichen, nicht die möglichen Ausprägungen.
DIFF Mathematik, Stochastik MS1, Beschreibende Statistik: Häufigkeitsverteilungen und Graphische Darstellungen - FAQ
Was ist eine Urliste?
Eine Urliste ist eine ungeordnete statistische Reihe, die die Merkmalsausprägungen von n Beobachtungseinheiten auflistet. Sie ist oft unübersichtlich und wird daher zur weiteren Analyse zusammengefasst und geordnet.
Wie erstellt man eine Häufigkeitsverteilung?
Eine Häufigkeitsverteilung fasst eine Urliste zusammen, indem sie zeigt, wie oft jede Merkmalsausprägung vorkommt. Dies geschieht durch die Bestimmung der absoluten Häufigkeit (Anzahl des Auftretens) und der relativen Häufigkeit (Anteil am Gesamt). Die Ergebnisse werden in einer Häufigkeitstabelle dargestellt. Die relative Häufigkeit ermöglicht Vergleiche zwischen Datensätzen unterschiedlicher Größe.
Was ist die Klassenbildung und warum wird sie verwendet?
Die Klassenbildung wird bei vielen verschiedenen Merkmalsausprägungen angewendet, um die Daten übersichtlicher darzustellen. Hierbei werden ähnliche Merkmalsausprägungen zu Klassen zusammengefasst. Die Klassen können gleich groß oder unterschiedlich groß sein, je nach Datenverteilung. Die Wahl der Klassengröße beeinflusst die Detailgenauigkeit der Analyse.
Wie berechnet man die Summenhäufigkeit?
Die Summenhäufigkeit gibt an, wie viele Merkmalswerte unterhalb oder oberhalb einer bestimmten Merkmalsausprägung liegen. Sie wird berechnet, indem man für jede Merkmalsausprägung die Anzahl aller Beobachtungswerte addiert, die diesen Wert oder einen kleineren Wert annehmen (absolute Summenhäufigkeit). Die relative Summenhäufigkeit wird analog mit relativen Häufigkeiten berechnet. Die Summenhäufigkeitsverteilung wird graphisch als Treppenfunktion (diskretes Merkmal) oder stückweise lineare Kurve (klassiertes Merkmal) dargestellt.
Was ist die Resthäufigkeit?
Die Resthäufigkeit ist das Gegenstück zur Summenhäufigkeit. Sie zeigt an, wie viele Merkmalswerte oberhalb einer bestimmten Merkmalsausprägung liegen. Sie wird aus der Summenhäufigkeit berechnet und graphisch als Spiegelbild der Summenhäufigkeitsverteilung dargestellt.
Welche Arten von Diagrammen werden zur graphischen Darstellung von Daten verwendet?
Der Text beschreibt verschiedene Diagramme: Balken-/Säulendiagramme, Kreisdiagramme, Blockdiagramme, Histogramme mit Polygonzug und Stengel-Blatt-Diagramme. Jedes Diagramm eignet sich für verschiedene Datentypen und bietet unterschiedliche Möglichkeiten der Datenvisualisierung. Die Wahl des Diagramms hängt von den Daten und der gewünschten Aussage ab.
Was ist ein Histogramm und wie unterscheidet es sich von anderen Diagrammen?
Ein Histogramm wird zur Darstellung von Klassenhäufigkeiten verwendet. Im Gegensatz zu Säulendiagrammen, die einzelne Werte darstellen, zeigt ein Histogramm die Häufigkeitsverteilung über Klassenintervalle. Die Fläche der Rechtecke repräsentiert die Klassenhäufigkeit. Ein Polygonzug kann hinzugefügt werden, um die Verteilung besser zu veranschaulichen.
Was ist ein Stengel-Blatt-Diagramm und wofür wird es verwendet?
Ein Stengel-Blatt-Diagramm ist eine einfache Methode, um quantitative Daten übersichtlich darzustellen. Es gruppiert Daten nach Zehner- oder Hunderter-Stellen (Stengel) und zeigt die Einer-Stellen (Blätter) für jede Gruppe. Es hilft, die Datenverteilung und die Häufigkeit von Werten in verschiedenen Klassen zu erkennen.
INHALTSVERZEICHNIS
DIE URLISTE
DIE HÄUFIGKEITSVERTEILUNG
DIE URLISTE
DIE HÄUFIGKEITSTABELLE
DIE HÄUFIGKEITSVERTEILUNG
DIE KLASSENBILDUNG
DIE URLISTE
DIE KLASSENEINTEILUNG
DIE TABELLARISCHE DARSTELLUNG
DIE SUMMENHÄUFIGKEIT
DIE ABSOLUTE SUMMENHÄUFIGKEIT N
DIE RELATIVE SUMMENHÄUFIGKEIT HJ
DIE SUMMENHÄUFIGKEITSVERTEILUNG
DIE RESTHÄUFIGKEIT
DIE GRAPHISCHE DARSTELLUNG
DAS BALKEN -/SÄULENDIAGRAMM
DAS KREISDIAGRAMM
DAS BLOCKDIAGRAMM
DAS HISTOGRAMM UND DER POLYGONZUG
DAS STENGEL-BLATT-DIAGRAMM
LITERATUR
Die Urliste
Die Urliste eines Merkmals ist eine ungeordnete statistische Reihe, bei der die Merkmalsausprägungen [Abbildung in dieser Leseprobe nicht enthalten] bei n Beobachtungseinheiten notiert werden. Die Beobachtungseinheiten n werden von 1 bis n durchnummeriert. Die Werte der Merkmalsausprägungen müssen nicht alle von einander verschieden sein.
Eine Urliste ist durch die meist sehr große Zahl an Beobachtungseinheiten sehr umfangreich und unübersichtlich und läßt daher über das beobachtete Merkmal kaum Aussagen zu.
Aus diesem Grund versucht man die Urliste zusammenzufassen und zu ordnen. Die Ordnung richtet sich nach der zugrundeliegenden Skala:
Abbildung in dieser Leseprobe nicht enthalten
Die Häufigkeitsverteilung
Die Urliste
Frage nach der Religionszugehörigkeit 1987:
evangelisch: 1 römisch katholisch: 2 islamisch: 3 sonstige: 4
Abbildung in dieser Leseprobe nicht enthalten
Dieser Beginn der Urliste für das qualitative Merkmal Religionszugehörigkeit mit den 4 Merkmalsausprägungen evangelisch, römisch katholisch, islamisch und sonstige soll im folgenden dazu dienen, die Häufigkeitsverteilung zu erläutern.
In dieser Urliste interessiert vor allem, welche Merkmalsausprägung wie oft vorkommt - es wird also nach der Häufigkeit für das Auftreten einer Merkmalsausprägung gefragt. Hierbei ist gleichgültig, bei welcher Beobachtungseinheit welche Ausprägung beobachtet wurde.
Um die Liste zusammenfassen zu können, bietet es sich an, die Skalenwert und die vorkommenden Merkmalsausprägungen zu bestimmt. Danach wird die Häufigkeit für das Auftreten der einzelnen Ausprägungen ermittelt (manuell - mit Hilfe einer Strichliste - oder mit EDV). Die Ergebnisse lassen sich in einer Tabelle, der Häufigkeitstabelle zusammenfassen.
Die Häufigkeitstabelle
Abbildung in dieser Leseprobe nicht enthalten
Die Skalenwerte nehmen die Werte 1 bis r (hier: r = 4) an.
Die zugeordneten Häufigkeiten jeder Merkmalsausprägung nennt man absolute Häufigkeit der Ausprägung. Die Summe aller absoluten Häufigkeiten ergibt die Anzahl der Beobachtungseinheiten.
Abbildung in dieser Leseprobe nicht enthalten
Die Häufigkeitstabelle kann auch vertikal sein. Sie enthält aber immer nur die tatsächlichen, nicht die möglichen Ausprägungen.
Durch diese Tabelle werden nun Aussagen über das Merkmal möglich. Sie ist übersichtlich und enthält alle wichtigen Informationen (Gesamtzahl der Beobachtungseinheiten, absolute Häufigkeit einer jeden Ausprägung, die Merkmalsausprägungen und die zugehörigen Skalenwerte) Es lassen sich jedoch bei 2 Tabellen zum gleichen Merkmal mit einer unterschiedlichen Anzahl von Beobachtungseinheiten n keine Vergleiche anstellen, da das n, auf das sich die absoluten Häufigkeiten beziehen nicht gleich groß ist.
Daher muß eine neue Größe zum Vergleichen geschaffen werden.
Abbildung in dieser Leseprobe nicht enthalten
Die „Vergleichsgröße“ ist die relative Häufigkeit. Sie hat folgende Eigenschaften:
Abbildung in dieser Leseprobe nicht enthalten
Werte der relativen Häufigkeiten gerundet sind)
Die relative Häufigkeit wird oft in Prozent angegeben : h j· 100 , die Summe der relativen Häufigkeiten ist dann natürlich 100%.
Wenn nur die relative Häufigkeit in einer Häufigkeitstabelle angegeben werden, entsteht ein Informationsverlust, da die Anzahl der Beobachtungseinheiten fehlt.
Die Häufigkeitsverteilung
Wenn einer Merkmalsausprägung eine relative oder absolute Häufigkeit zugeordnet wird, so spricht man von einer Verteilung.
Bei der Zuordnung der Ausprägungen auf die jeweiligen relativen bzw. absoluten Häufigkeiten in einer Häufigkeitstabelle spricht man von einer Häufigkeitsverteilung.
Die Klassenbildung
Die Urliste
Für die Klassenbildung werden quantitative Merkmale und Rangmerkmale verwendet.
1. Wieviel Zeit benötigen sie für den Hinweg zur Arbeit? (Angaben in Minuten)
Abbildung in dieser Leseprobe nicht enthalten
2. Haushaltsnettoeinkommen 1973 je Haushalt und Monat (Angaben in DM)
Abbildung in dieser Leseprobe nicht enthalten
Bei dieser Art der Umfrage erhält man sehr viele unterschiedliche Ausprägungen. Diese müssen nun geordnet werden. Eine Häufigkeitstabelle, in der nach den Ausprägungen geordnet wird ist daher hier nicht mehr sinnvoll.
Deshalb faßt man die Merkmalsausprägungen in Klassen zusammen, wobei man auf eine genaue Unterscheidung zwischen den einzelnen Ausprägungen verzichtet.
Die Klasseneinteilung
Die Merkmalsausprägungen werden auf einem Zahlenstrahl abgetragen, der dann in rechtsoffene (von...bis unter...) beliebig große Intervalle - die Klassen - eingeteilt wird.
Je größer die Klasse gewählt wird, desto mehr Informationen der Urliste gehen jedoch verloren, da über einzelne Ausprägungen kaum noch eine Aussage gemacht werden kann.
Die Klasseneinteilung für die obigen Beispiele:
Abbildung in dieser Leseprobe nicht enthalten
Bei 2. ist sehr gut zu sehen, dass die Klassen auf einem Zahlenstrahl nicht gleich groß sein müssen. Dies liegt daran, dass häufig an Stellen, an denen wenig Ausprägungen aufgetreten sind (hier z.B. von 0 bis unter 600) die Klassen weiter gefasst werden.
Nun wird man sich sicher die Frage stellen, wie viele Beobachtungseinheiten in den verschiedenen Klassen liegen - also wieder die Frage nach der Häufigkeit - und gelangt so zur tabellarischen Darstellung.
Die tabellarische Darstellung
1. Hier sind die Klassen alle (bis auf die erste und die letzte) gleich groß gewählt:
Abbildung in dieser Leseprobe nicht enthalten
Die absolute Häufigkeit der jeweiligen Klasse ist die Summe aller Beobachtungseinheiten, die im jeweiligen Intervall liegen. Für die absolute Häufigkeit gilt das oben genannte. Die relative Häufigkeit errechnet sich wie gehabt aus der absoluten Häufigkeit und der Gesamtzahl der Beobachtungseinheiten. Auch sonst gilt das schon genannte.
2. Hier sind die Klassen unterschiedlich groß gewählt:
Abbildung in dieser Leseprobe nicht enthalten
Auch hier gelten für die absolute bzw. relative Häufigkeit die selben Regeln.
Am Beispiel dieser Tabelle kann man eine mögliche Manipulationsmöglichkeit aufzeigen:
Abbildung in dieser Leseprobe nicht enthalten
Hier ist sind die gleichen Umfrageergebnisse dargestellt. Im Unterschied zur ersten Tabelle wurden hier die Klassen aber so gewählt, dass in jeder ungefähr 25% der Beobachtungseinheiten liegen. Das hat für die Auswertung Folgen, da es auf den ersten Blick so scheint, als ob es gleich viele „Besserverdiener“, wie schlechter bezahlte Personen gibt.
Die Summenhäufigkeit
Bei der Summenhäufigkeit kommt es nicht auf die einzelnen Beobachtungseinheiten der Merkmalsausprägungen an, sondern die zugrunde liegende Frage lautet: Wie viele Merkmalswerte liegen insgesamt unterhalb bzw. oberhalb einer bestimmten Merkmalsausprägung. Das heißt, man bestimmt die kumulierte Häufigkeit, in dem man für jede Merkmalsausprägung die Anzahl aller Beobachtungswerte, die diesen Wert der Ausprägung oder einen kleineren Wert annehmen bestimmt. Die Summenhäufigkeit läßt sich nur bei quantitativen Merkmalen und bei Rangmerkmalen bilden, da sie der Größe nach geordnet sein müssen.
Die absolute Summenhäufigkeit N k
Die absolute Summenhäufigkeit berechnet sich wie folgt:
Abbildung in dieser Leseprobe nicht enthalten
Beispiel: An einer Prüfung, bei der max. 10 Punkte erreicht werden konnten, nahmen 50 Studenten teil.
Abbildung in dieser Leseprobe nicht enthalten
Die relative Summenhäufigkeit Hj
Die relative Summenhäufigkeit berechnet man gleich wie die absolute Summenhäufigkeit, nur verwendet man die relative Häufigkeit hj, anstatt der absoluten Häufigkeit nj:
Abbildung in dieser Leseprobe nicht enthalten
Schreibt man die relative Summenhäufigkeit als Funktion, so erhält man
Abbildung in dieser Leseprobe nicht enthalten
Diese Funktion nennt man die empirische Verteilungsfunktion des Merkmals.
Beispiel: An einer Prüfung, bei der max. 10 Punkte erreicht werden konnten, nahmen 50 Studenten teil.
Abbildung in dieser Leseprobe nicht enthalten
Die Summenhäufigkeitsverteilung
Die Summenhäufigkeitsverteilung ist das Schaubild der empirischen Verteilungsfunktion. Es gibt zwei verschiedene Typen:
diskretes Merkmal: Bei einem diskreten Merkmal (quantitatives, abzählbares Merkmal) ist H(x) eine Treppenfunktion und ist monoton steigend. H(x) hat höchstens r Sprungstellen (r ist die Zahl der Merkmalsausprägungen).
Abbildung in dieser Leseprobe nicht enthalten
klassiertes Merkmal: Bei einem Merkmal, das in Klassen eingeteilt ist, unterstellt man eine Gleichverteilung der Werte innerhalb der einzelnen Klasse. Man zeichnet die Werte für die oberen Klassengrenzen ein. Dadurch erhält man einzelne Punkte, die gradlinig miteinander verbunden werden. So erhält man stückweise lineare Kurven.
Abbildung in dieser Leseprobe nicht enthalten
Die Resthäufigkeit
Die Resthäufigkeit ist das Gegenteil der Summenhäufigkeit. Wird bei der Summenhäufigkeit gefragt, wie viele Werte haben eine bestimmte Merkmalsausprägung oder eine kleinere, so lautet die Frage bei der Resthäufigkit: Wie viele Werte liegen oberhalb dieser Merkmalsausprägung (und umgekehrt). Die resthäufigkeit kann, wie auch die Summenhäufigkeit, nur bei quantitativen Merkmalen und Rangmerkmalen gebildet werden. Die absolute und relative Resthäufigkeiten berechnen sich über die absolute und relative Summenhäufigkeiten:
Abbildung in dieser Leseprobe nicht enthalten
Das Schaubild der Resthäufigkeit und das der Summenhäufigkeit sind spiegelbildlich:
Abbildung in dieser Leseprobe nicht enthalten
Die graphische Darstellung
Die graphischen Darstellungen sind Veranschaulichungsmöglichkeiten von statistischem Datenmaterial. Sie sind eine gute Ergänzung zur Tabelle, sollten diese jedoch nie ganz ersetzen, da es sonst zu Fehlschlüssen kommen kann. Im Folgenden werden wir fünf verschiedene Diagramme für eindimensionale Merkmale erklären.
Das Balken -/Säulendiagramm
Abbildung in dieser Leseprobe nicht enthalten
Das Säulendiagramm wird sowohl bei qualitativen und quantitativen Merkmalen, als auch bei Rangmerkmalen verwendet. In einem rechtwinkligen Koordinatensystem ist die senkrechten Achse die Skala für die Häufigkeit. Auf der waagerechten Achse werden die Merkmalsausprägungen abgetragen. Bei einer Rangskala folgt die Einteilung der Anordnung der Merkmalsausprägungen, bei einer Nominalskala hingegen ist die Einteilung willkürlich. Die absolute oder auch relative Häufigkeit wird als Stäbe eingezeichnet. Zur optischen Aufbereitung zeichnet man meist Rechtecke anstatt Stäbe ein. Die Breite der Rechtecke ist beliebig wählbar, da sie keine Rolle spielt. Es kommt bei dem Säulendiagramm nur auf die Höhe der Rechtecke an. Die Breite der Rechtecke sollte bei allen Merkmalsausprägungen gleich sein, um Fehlinterpretationen zu vermeiden. Das Balkendiagramm hat die gleichen Eigenschaften wie das Säulendiagramm und ist genau so aufgebaut, nur sind die Achsen vertauscht.
Das Kreisdiagramm
Abbildung in dieser Leseprobe nicht enthalten
Das Kreisdiagramm kann man zur Veranschaulichung von qualitativen, quantitativen und Rangmerkmalen verwenden. Die Häufigkeitsverteilung wird mit Hilfe von Flächen dargestellt. Ein Kreis wird in Kreissektoren aufgeteilt, von denen jeder eine Merkmalsausprägung darstellt. Es kann sowohl die absolute, als auch die relative Häufigkeit angegeben werden. Häufig findet man auch Kreisdiagramme ohne Häufigkeitsangaben. Dann kann man die relative Häufigkeit über den Mittelpunktswinkel berechnen:
Mittelpunktswinkel = relative Häufigkeit · 360°
Das Blockdiagramm
Abbildung in dieser Leseprobe nicht enthalten
Das Blockdiagramm wird bei qualitativen, quantitativen und Rangmerkmalen verwendet. Genau wie bei dem Kreisdiagramm, wird die Häufigkeitsverteilung mit Hilfe von Flächen dargestellt. Man geht von einem Gesamtrechteck mit der Länge a und der Breite b aus. Dieses Rechteck teilt man in Teilrechtecke der Breite b und der Länge l = relative Häufigkeit · a. Möchte man zwei Blockdiagramme miteinander vergleichen, so müssen beide die gleiche Breite b haben, oder man muß von jedem Teilrechteck den Flächeninhalt berechnen.
Das Histogramm und der Polygonzug
Abbildung in dieser Leseprobe nicht enthalten
Das Histogramm verwendet man zur graphischen Darstellung von Klassenhäufigkeiten mit beschränkten Randklassen. Die Fläche dient zur Darstellung der Klassenhäufigkeitsver-teilung. Auf der waagerechten Achse wird die Klassenbreite abgetragen und auf der senkrechten die Häufigkeitsdichte = relative Häufigkeit/Klassenbreite. Der Flächeninhalt der Rechtecke stellt die Klassenhäufigkeit dar.
Zur besseren Lesbarkeit zeichnet man häufig (vor allem wenn die Klassenbreiten gleich sind) einen Polygonzug ein. Hierzu verbindet man die Klassenmitten miteinander.
Das Stengel-Blatt-Diagramm
Abbildung in dieser Leseprobe nicht enthalten
Das Stengel-Blatt-Diagramm wird bei quantitativen und Rangmerkmalen verwendet. Man zeichnet einen senkrechten Strich. Links daneben schreibt man der Größe nach alle ersten Ziffern untereinander. Rechts neben den Trennstrich schreibt man in die gleichen Zeilen die nächste Ziffer. Die nachfolgenden Ziffern fallen weg. Das Stengel-Blatt-Diagramm verwendet man um auf elementarer Ebene Daten übersichtlich anzuordnen und um die Klassenhäufigkeit deutlich zu machen. Die Ziffern links vom Trennstrich stellen den Stengel dar und bilden die verschiedenen Klassen. Die Ziffern rechts vom Trennstrich sind die Blätter und stellen die Beobachtungswerte innerhalb einer Klasse dar.
Literatur
DIFF Mathematik, Stochastik MS1, Beschreibende Statistik
J. Schwarze: Grundlagen der Statistik I, Beschreibende Verfahren, Berlin 1992
- Arbeit zitieren
- Mona Göser (Autor:in), Eva Schwinghammer (Autor:in), 2000, Häufigkeiten und ihre Darstellung bei eindimensionalen Merkmalen, München, GRIN Verlag, https://www.grin.com/document/97395