Häufigkeiten und ihre Darstellung bei eindimensionalen Merkmalen close

Bitte warten

Bitte installieren Sie den Flash Player, wenn kein E-Book erscheint.

Häufigkeiten und ihre Darstellung bei eindimensionalen Merkmalen

Autoren: Mona Göser, Eva Schwinghammer
Fach: Statistik

Lesen Sie im E-Book



Details

Kategorie: Anderes
Jahr: 2000
Seiten: 14
Sprache: Deutsch
Dateigröße: 189 KB
Archivnummer: V97395
ISBN (E-Book): 978-3-638-95847-9

Volltext (computergeneriert)

Statistik

Häufigkeiten und ihre Darstellungen bei eindimensionalen
Merkmalen


Referentinnen: Monika-Maria Göser IV

Eva Schwinghammer IV

Datum: 2. Juni 2000


INHALTSVERZEICHNIS

DIE URLISTE 3

DIE HÄUFIGKEITSVERTEILUNG 3

DIE URLISTE 3
DIE HÄUFIGKEITSTABELLE 4
DIE HÄUFIGKEITSVERTEILUNG 5

DIE KLASSENBILDUNG 5

DIE URLISTE 5
DIE KLASSENEINTEILUNG 6
DIE TABELLARISCHE DARSTELLUNG 6

DIE SUMMENHÄUFIGKEIT 8

DIE ABSOLUTE SUMMENHÄUFIGKEIT N 8
DIE RELATIVE SUMMENHÄUFIGKEIT HJ 8
DIE SUMMENHÄUFIGKEITSVERTEILUNG 9

DIE RESTHÄUFIGKEIT 10

DIE GRAPHISCHE DARSTELLUNG 11
DAS BALKEN -/SÄULENDIAGRAMM 11
DAS KREISDIAGRAMM 11
DAS BLOCKDIAGRAMM 12
DAS HISTOGRAMM UND DER POLYGONZUG 12
DAS STENGEL-BLATT-DIAGRAMM 13

LITERATUR 13

2


Die Urliste

Die Urliste eines Merkmals ist eine ungeordnete statistische Reihe, bei der die

Merkmalsausprägungen x (1 i n) bei n Beobachtungseinheiten notiert werden. Die

i

Beobachtungseinheiten n werden von 1 bis n durchnummeriert. Die Werte der

Merkmalsausprägungen müssen nicht alle von einander verschieden sein.

Eine Urliste ist durch die meist sehr große Zahl an Beobachtungseinheiten sehr umfangreich und

unübersichtlich und läßt daher über das beobachtete Merkmal kaum Aussagen zu.

Aus diesem Grund versucht man die Urliste zusammenzufassen und zu ordnen. Die Ordnung richtet

sich nach der zugrundeliegenden Skala:

Nominalskala: es gibt keine vorgegebene oder natürliche Ordnung

Ordinalskala: die Ordnung ist durch die Rangfolge der Merkmalsausprägungen

festgelegt.

Kardinalskala: die Ordnung ist durch die verwendete Größe (m, cm, °C,...) festgelegt


Die Häufigkeitsverteilung

Die Urliste

Frage nach der Religionszugehörigkeit 1987:

evangelisch: 1 römisch katholisch: 2 islamisch: 3 sonstige: 4

i

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

...

n

x i

2

4

1

1

2

3

2

2

1

4

3

1

2

4

1

2

1

...

2

· n: Anzahl der Beobachtungseinheiten

· 1 i n

· x : Merkmalsausprägungen

i

Dieser Beginn der Urliste für das qualitative Merkmal Religionszugehörigkeit mit den 4

Merkmalsausprägungen evangelisch, römisch katholisch, islamisch und sonstige soll im folgenden

dazu dienen, die Häufigkeitsverteilung zu erläutern.

In dieser Urliste interessiert vor allem, welche Merkmalsausprägung wie oft vorkommt ­ es wird also

nach der Häufigkeit für das Auftreten einer Merkmalsausprägung gefragt. Hierbei ist gleichgültig, bei

welcher Beobachtungseinheit welche Ausprägung beobachtet wurde.

Um die Liste zusammenfassen zu können, bietet es sich an, die Skalenwert und die vorkommenden

Merkmalsausprägungen zu bestimmt. Danach wird die Häufigkeit für das Auftreten der einzelnen

Ausprägungen ermittelt (manuell ­ mit Hilfe einer Strichliste ­ oder mit EDV). Die Ergebnisse lassen

sich in einer Tabelle, der Häufigkeitstabelle zusammenfassen.

3


Die Häufigkeitstabelle

Skalenwert

Ausprägung

absolute Häufigkeit nj

1

evangelisch

107 683

2

röm. kath.

107 567

3

islamisch

6 643

4

sonstige

38 698

n = 260 591

Die Skalenwerte nehmen die Werte 1 bis r (hier: r = 4) an.

Die zugeordneten Häufigkeiten jeder Merkmalsausprägung nennt man

absolute Häufigkeit

der

Ausprägung. Die Summe aller absoluten Häufigkeiten ergibt die Anzahl der Beobachtungseinheiten.

1. 0 n n

j

r

2.

n

=

n

; j = 1,2,...,r

j

j

=1

Die Häufigkeitstabelle kann auch vertikal sein. Sie enthält aber immer nur die tatsächlichen, nicht die

möglichen Ausprägungen.

Durch diese Tabelle werden nun Aussagen über das Merkmal möglich. Sie ist übersichtlich und

enthält alle wichtigen Informationen (Gesamtzahl der Beobachtungseinheiten, absolute Häufigkeit

einer jeden Ausprägung, die Merkmalsausprägungen und die zugehörigen Skalenwerte)

Es lassen sich jedoch bei 2 Tabellen zum gleichen Merkmal mit einer unterschiedlichen Anzahl von

Beobachtungseinheiten n keine Vergleiche anstellen, da das n, auf das sich die absoluten

Häufigkeiten beziehen nicht gleich groß ist.

Daher muß eine neue Größe zum Vergleichen geschaffen werden.

absolut Häufigkeit nj

relative Häufigkeit hj

Skalenwert

Ausprägung

1987 1970

1987 1970

1

evangelisch

107 683 142 896

0,4132 0,4971

2

röm. kath.

107 567 123 384

0,4123 0,4232

3

islamisch

6 643

0,0255

4

sonstige

38 698 21 172

0,1485 0,0787

n = 260 591 n = 287 452

Die ,,Vergleichsgröße" ist die relative Häufigkeit.

Sie hat folgende Eigenschaften:

n

·

j

=

h

; j = 1,2,...,r

j

n

r

·

h

= 1 ; j = 1,2,...,r (meist ist die Summe nicht genau 1, da die

j

j

1

=

Werte der relativen Häufigkeiten gerundet sind)

Die relative Häufigkeit wird oft in Prozent angegeben : h · 100 , die Summe der relativen

j

Häufigkeiten ist dann natürlich 100%.

4


Wenn nur die relative Häufigkeit in einer Häufigkeitstabelle angegeben werden, entsteht ein

Informationsverlust, da die Anzahl der Beobachtungseinheiten fehlt.



Die Häufigkeitsverteilung

Wenn einer Merkmalsausprägung eine relative oder absolute Häufigkeit zugeordnet wird, so spricht

man von einer Verteilung.

Bei der Zuordnung der Ausprägungen auf die jeweiligen relativen bzw. absoluten Häufigkeiten in einer

Häufigkeitstabelle spricht man von einer

Häufigkeitsverteilung

.

Die Klassenbildung

Die Urliste

Für die Klassenbildung werden quantitative Merkmale und Rangmerkmale verwendet.

1. Wieviel Zeit benötigen sie für den Hinweg zur Arbeit? (Angaben in Minuten)

i

1

2

3

4

5

6

7

8

9 10 n

x 18 20 90 10 13 45 34 80 65 5 22

i

2. Haushaltsnettoeinkommen 1973 je Haushalt und Monat (Angaben in DM)

i

1

2

3

4

5

6

7

8

n

x

i

4300

13900

870

5643

1200

3500

6750

10900

630

· i: Beobachtungseinheit

· 1 i n

· x : Ausprägung

i

Bei dieser Art der Umfrage erhält man sehr viele unterschiedliche Ausprägungen. Diese müssen nun

geordnet werden. Eine Häufigkeitstabelle, in der nach den Ausprägungen geordnet wird ist daher hier

nicht mehr sinnvoll.

Deshalb faßt man die Merkmalsausprägungen in Klassen zusammen, wobei man auf eine genaue

Unterscheidung zwischen den einzelnen Ausprägungen verzichtet.

5


Die Klasseneinteilung

Die Merkmalsausprägungen werden auf einem Zahlenstrahl abgetragen, der dann in rechtsoffene

(von...bis unter...) beliebig große Intervalle ­ die Klassen ­ eingeteilt wird.

Je größer die Klasse gewählt wird, desto mehr Informationen der Urliste gehen jedoch verloren, da

über einzelne Ausprägungen kaum noch eine Aussage gemacht werden kann.

Die Klasseneinteilung für die obigen Beispiele:

1.

0

15

30

45

60

15

15

2.

0

500

1000

1500

2000

2500

600

200 200

Bei 2. ist sehr gut zu sehen, dass die Klassen auf einem Zahlenstrahl nicht gleich groß sein müssen.

Dies liegt daran, dass häufig an Stellen, an denen wenig Ausprägungen aufgetreten sind (hier z.B.

von 0 bis unter 600) die Klassen weiter gefasst werden.

Nun wird man sich sicher die Frage stellen, wie viele Beobachtungseinheiten in den verschiedenen

Klassen liegen ­ also wieder die Frage nach der Häufigkeit - und gelangt so zur tabellarischen

Darstellung.



Die tabellarische Darstellung

1. Hier sind die Klassen alle (bis auf die erste und die letzte) gleich groß gewählt:

benötigte Zeit in min

absolute Häufigkeit n j relative Häufigkeit h j

entfällt, da auf gleichem Grundstück

610

0,0033

unter 15

35 980

0,1993

15 bis unter 30

63 179

0,3499

30 bis unter 45

45 128

0,2499

45 bis unter 60

18 051

0,0999

über 60

17 565

0,0973

n = 180 513

h = 1

Die absolute Häufigkeit der jeweiligen Klasse ist die Summe aller Beobachtungseinheiten, die im

jeweiligen Intervall liegen. Für die absolute Häufigkeit gilt das oben genannte.

Die relative Häufigkeit errechnet sich wie gehabt aus der absoluten Häufigkeit und der Gesamtzahl

der Beobachtungseinheiten. Auch sonst gilt das schon genannte.

6


2. Hier sind die Klassen unterschiedlich groß gewählt:

Einkommen von ... bis unter... in DM

absolute Häufigkeit nj relative Häufigkeit h in %

j

0 - 600

1 159 000

5,48

600 - 800

1 342 000

6,43

800 - 1 000

1 395 000

6,59

1 000 - 1 200

1 370 000

6,48

1 200 - 1 500

2 314 000

10,94

1 500 - 1 800

2 564 000

12,12

1 800 - 2 500

5 276 000

24,94

2 500 - 5 000

5 233 000

24,74

n = 21 155 000

h = 100 %

Auch hier gelten für die absolute bzw. relative Häufigkeit die selben Regeln.

Am Beispiel dieser Tabelle kann man eine mögliche Manipulationsmöglichkeit aufzeigen:

Einkommen von ... bis unter... in DM

absolute Häufigkeit n j relative Häufigkeit h in %

j

0 - 1 200

5 266

24,89

1 200 - 1 800

4 878

23,09

1 800 - 2 500

5 276

24,94

2 500 - 15 000

5 735

27,11

n = 21 155

h = 100 %

Hier ist sind die gleichen Umfrageergebnisse dargestellt. Im Unterschied zur ersten Tabelle wurden

hier die Klassen aber so gewählt, dass in jeder ungefähr 25% der Beobachtungseinheiten liegen. Das

hat für die Auswertung Folgen, da es auf den ersten Blick so scheint, als ob es gleich viele

,,Besserverdiener", wie schlechter bezahlte Personen gibt.

7


Die Summenhäufigkeit

Bei der Summenhäufigkeit kommt es nicht auf die einzelnen Beobachtungseinheiten der

Merkmalsausprägungen an, sondern die zugrunde liegende Frage lautet: Wie viele Merkmalswerte

liegen insgesamt unterhalb bzw. oberhalb einer bestimmten Merkmalsausprägung. Das heißt, man

bestimmt die kumulierte Häufigkeit, in dem man für jede Merkmalsausprägung die Anzahl aller

Beobachtungswerte, die diesen Wert der Ausprägung oder einen kleineren Wert annehmen bestimmt.

Die Summenhäufigkeit läßt sich nur bei quantitativen Merkmalen und bei Rangmerkmalen bilden, da

sie der Größe nach geordnet sein müssen.



Die absolute Summenhäufigkeit N

k

Die absolute Summenhäufigkeit berechnet sich wie folgt:

k

Nk =

nj

;

Grenze k = 1,2, ,r

j=1

j = 1,2,...,r

Beispiel: An einer Prüfung, bei der max. 10 Punkte erreicht werden konnten, nahmen 50 Studenten

teil.

Ausprägung 1,2, ,r

Absolute Häufigkeit n

j

Absolute Summenhäufigkeit N

j

0

1

1

1

3

4

2

4

8

3

2

10

4

5

15

5

6

21

6

8

29

7

10

39

8

4

43

9

5

48

10

2

50

n = 50

Nr = n



Die relative Summenhäufigkeit Hj

Die relative Summenhäufigkeit berechnet man gleich wie die absolute Summenhäufigkeit, nur

verwendet man die relative Häufigkeit hj, anstatt der absoluten Häufigkeit nj:

k

Hk =

hj

; Grenze k = 1,2, ,r ; j = 1,2,...,r


j=1

Hk = Nk / n

8


Schreibt man die relative Summenhäufigkeit als Funktion, so erhält man

x

H: R

I [0;1] mit H(x) := hj

j=1

Diese Funktion nennt man die empirische Verteilungsfunktion des Merkmals.

Beispiel: An einer Prüfung, bei der max. 10 Punkte erreicht werden konnten, nahmen 50 Studenten

teil.

Ausprägung 1,2, ,r

Relative Häufigkeit h in %

Relative Summenhäufigkeit H in %

j

j

0

2

2

1

6

8

2

8

16

3

4

20

4

10

30

5

12

42

6

16

58

7

20

78

8

8

86

9

10

96

10

4

100

Die Summenhäufigkeitsverteilung

Die Summenhäufigkeitsverteilung ist das Schaubild der empirischen Verteilungsfunktion. Es gibt zwei

verschiedene Typen:


diskretes Merkmal:

Bei einem diskreten Merkmal (quantitatives, abzählbares Merkmal) ist H(x) eine

Treppenfunktion und ist monoton steigend. H(x) hat höchstens r Sprungstellen (r ist die Zahl der

Merkmalsausprägungen).

9


klassiertes Merkmal:

Bei einem Merkmal, das in Klassen eingeteilt ist, unterstellt man eine

Gleichverteilung der Werte innerhalb der einzelnen Klasse. Man zeichnet die Werte für die oberen

Klassengrenzen ein. Dadurch erhält man einzelne Punkte, die gradlinig miteinander verbunden

werden. So erhält man stückweise lineare Kurven.




















Die Resthäufigkeit

Die Resthäufigkeit ist das Gegenteil der Summenhäufigkeit. Wird bei der Summenhäufigkeit gefragt,

wie viele Werte haben eine bestimmte Merkmalsausprägung oder eine kleinere, so lautet die Frage

bei der Resthäufigkit: Wie viele Werte liegen oberhalb dieser Merkmalsausprägung (und umgekehrt).

Die resthäufigkeit kann, wie auch die Summenhäufigkeit, nur bei quantitativen Merkmalen und

Rangmerkmalen gebildet werden. Die absolute und relative Resthäufigkeiten berechnen sich über die

absolute und relative Summenhäufigkeiten:

Absolute Resthäufigkeit NR(x): = n ­ N(x)

Relative Resthäufigkeit HR(x): = 1 ­ H(x)

Das Schaubild der Resthäufigkeit und das der Summenhäufigkeit sind spiegelbildlich:


10


Die graphische Darstellung

Die graphischen Darstellungen sind Veranschaulichungsmöglichkeiten von statistischem

Datenmaterial. Sie sind eine gute Ergänzung zur Tabelle, sollten diese jedoch nie ganz ersetzen, da

es sonst zu Fehlschlüssen kommen kann. Im Folgenden werden wir fünf verschiedene Diagramme für

eindimensionale Merkmale erklären.



Das Balken -/Säulendiagramm

Säulendiagramm

Balkendiagramm

107683

120000

107567

sonstige

38698

100000

80000

islamisch

6643

60000

38698

röm. kath.

107567

n= 260 591

40000

20000

6643

evangelisch

107683

absolute Häufigkeit

0

Merkmalsausprägung

evangelisch

röm. kath.

islamisch

sonstige

0

20000

40000

60000

80000

100000

120000

Merkmalsausprägung

absolute Häufigkeit n= 260 591

Das Säulendiagramm wird sowohl bei qualitativen und quantitativen Merkmalen, als auch bei

Rangmerkmalen verwendet. In einem rechtwinkligen Koordinatensystem ist die senkrechten Achse

die Skala für die Häufigkeit. Auf der waagerechten Achse werden die Merkmalsausprägungen

abgetragen. Bei einer Rangskala folgt die Einteilung der Anordnung der Merkmalsausprägungen, bei

einer Nominalskala hingegen ist die Einteilung willkürlich. Die absolute oder auch relative Häufigkeit

wird als Stäbe eingezeichnet. Zur optischen Aufbereitung zeichnet man meist Rechtecke anstatt

Stäbe ein. Die Breite der Rechtecke ist beliebig wählbar, da sie keine Rolle spielt. Es kommt bei dem

Säulendiagramm nur auf die Höhe der Rechtecke an. Die Breite der Rechtecke sollte bei allen

Merkmalsausprägungen gleich sein, um Fehlinterpretationen zu vermeiden. Das Balkendiagramm hat

die gleichen Eigenschaften wie das Säulendiagramm und ist genau so aufgebaut, nur sind die Achsen

vertauscht.


Das Kreisdiagramm

Kreisdiagramm

1 5 %

3 %

4 1 %

4 1 %

e vangelisch

röm . kath.

i s l a m i s c h

sonstige

1

2

3

4

Das Kreisdiagramm kann man zur Veranschaulichung von qualitativen, quantitativen und

Rangmerkmalen verwenden. Die Häufigkeitsverteilung wird mit Hilfe von Flächen dargestellt. Ein Kreis

wird in Kreissektoren aufgeteilt, von denen jeder eine Merkmalsausprägung darstellt. Es kann sowohl

die absolute, als auch die relative Häufigkeit angegeben werden. Häufig findet man auch

Kreisdiagramme ohne Häufigkeitsangaben. Dann kann man die relative Häufigkeit über den

Mittelpunktswinkel berechnen:

Mittelpunktswinkel = relative Häufigkeit · 360°

11


Das Blockdiagramm

Das Blockdiagramm wird bei qualitativen,

quantitativen und Rangmerkmalen verwendet. Genau

wie bei dem Kreisdiagramm, wird die

Häufigkeitsverteilung mit Hilfe von Flächen

dargestellt. Man geht von einem Gesamtrechteck mit

der Länge a und der Breite b aus. Dieses Rechteck

teilt man in Teilrechtecke der Breite b und der Länge l

= relative Häufigkeit · a. Möchte man zwei

Blockdiagramme miteinander vergleichen, so müssen

beide die gleiche Breite b haben, oder man muß von

jedem Teilrechteck den Flächeninhalt berechnen.











Das Histogramm und der Polygonzug

Das Histogramm verwendet man zur graphischen Darstellung von Klassenhäufigkeiten mit

beschränkten Randklassen. Die Fläche dient zur Darstellung der Klassenhäufigkeitsver-teilung. Auf

der waagerechten Achse wird die Klassenbreite abgetragen und auf der senkrechten die

Häufigkeitsdichte = relative Häufigkeit/Klassenbreite. Der Flächeninhalt der Rechtecke stellt die

Klassenhäufigkeit dar.

Zur besseren Lesbarkeit zeichnet man häufig (vor allem wenn die Klassenbreiten gleich sind) einen

Polygonzug ein. Hierzu verbindet man die Klassenmitten miteinander.

12


Das Stengel-Blatt-Diagramm

2 7 9

3 0 1 2 4 4

3 5 5 5 6 6 7 8 8

8

4 0 0 2 2 2 3 4

4 5 5 5 6 8

5 0 1

Das Stengel-Blatt-Diagramm wird bei quantitativen und Rangmerkmalen verwendet. Man zeichnet

einen senkrechten Strich. Links daneben schreibt man der Größe nach alle ersten Ziffern

untereinander. Rechts neben den Trennstrich schreibt man in die gleichen Zeilen die nächste Ziffer.

Die nachfolgenden Ziffern fallen weg. Das Stengel-Blatt-Diagramm verwendet man um auf

elementarer Ebene Daten übersichtlich anzuordnen und um die Klassenhäufigkeit deutlich zu

machen. Die Ziffern links vom Trennstrich stellen den Stengel dar und bilden die verschiedenen

Klassen. Die Ziffern rechts vom Trennstrich sind die Blätter und stellen die Beobachtungswerte

innerhalb einer Klasse dar.

Literatur

DIFF Mathematik, Stochastik MS1, Beschreibende Statistik

J. Schwarze: Grundlagen der Statistik I, Beschreibende Verfahren, Berlin 1992

13


Kommentare

Dieser Text kann über folgende URL aufgerufen und zitiert werden:

http://www.grin.com/e-book/97395/