1
Inhaltsverzeichnis
Eidesstattliche Versicherung 2
Gliederung 3
Tabellenverzeichnis Seite 5
Abbildungsverzeichnis 6
Verzeichnis der Anhänge 7
Text der Arbeit 8
Anh änge 45
Literaturverzeichnis 51
2
Hiermit versichern wir an Eides statt, dass wir die vorliegende Arbeit selbstständig und ohne Benutzung anderer als der im Literaturverzeichnis angegebenen Quellen angefertigt haben.
Kiel, den 19. Juni 2001
Sina Hagel Christine Schult
3
Gliederung
1 Einleitung
1.1 Ansatz der Hausarbeit
1.2 Voraussetzungen / Bedingungen
2 Prüfung der Voraussetzungen / Bedingungen
2.1 Zufallsstichprobe
2.2 Normalverteilung der Grundgesamtheit
2.3 Zentraler Grenzwertsatz
3 Schätzen von Parametern
3.1 Punktschätzung
3.2 Intervallschätzung
3.2.1 Der Vertrauensbereich für den Mittelwert (Erwartungswert einer
normalverteilten Grundgesamtheit)
3.2.1.1 Der Vertrauensbereich für den Mittelwert bei gegebener Varianz s der
Grundgesamtheit
3.2.1.2 Länge des Konfidenzintervalls bei bekannter Varianz
3.2.1.3 Notwendiger Stichprobenumfang bei bekannter Varianz
3.2.1.4 Der Vertrauensbereich für den Mittelwert bei unbekannter Varianz
der Grundgesamtheit
3.2.1.5 Vergleich der Länge von Konfidenzintervallen bezüglich des
unbekannten Parameters µ
4
3.2.1.6 Notwendiger Stichprobenumfang bei unbekannter Varianz
3.2.2 Interpretation / Bewertung von Vertrauensbereichen
4 Testen von Parametern
4.1 Einführung
4.2 Konzeption von Parametertests
4.3 Testen des arithmetischen Mittels bei unbekannter Varianz s der
Grundgesamtheit
4.4 Testen des arithmetischen Mittels bei bekannter Varianz s der
Grundgesamtheit
5
Tabellenverzeichnis
Tabelle 1: Standardnormalverteilung N(0,1) Tabelle 2: Prozentpunkte der N(0,1) Verteilung Tabelle 3: t-Verteilung (einseitige Fragestellung) Tabelle 4: t-Verteilung (zweiseitige Fragestellung) Tabelle 5: Chi-Quadrat-Verteilung Tabelle 6: Punktschätzung unbekannter Parameter Tabelle 7: Übersicht von Grundgesamtheit und Stichprobe der Mathematik-Klausur
Tabelle 8: Fehler beim Testen von Hypothesen und deren Wahrscheinlichkeiten
6
Abbildungsverzeichnis
Abbildung 1: Fragebogen zum Lernverhalten
Abbildung 2: BWL - Notenspiegel nach Fragebögen
Abbildung 3: BWL - Notenspiegel der gesamten Klausuren
Abbildung 4: EDV - Notenspiegel nach Fragebögen
Abbildung 5: EDV - Notenspiegel der gesamten Klausuren
Abbildung 6: Business Administration - Notenspiegel nach Fragebögen
Abbildung 7: Business Administration - Notenspiegel der gesamten Klausuren
Abbildung 8: Notenspiegel Mathematik-Klausur
Abbildung 9: Ausschnitt einer Zufallszahlentafel
Abbildung 10: Notenspiegel Stichprobe der Mathematik-Klausur
Abbildung 11: Verteilungstest bis zur empirischen Verteilungsfunktion
Abbildung 12: Verteilungstest bis zu erwarteten absoluten Häufigkeiten
7
Verzeichnis der Anhänge Anhang 1: Tabelle 1 Anhang 2: Tabelle 2 Anhang 3: Tabelle 3 Anhang 4: Tabelle 4 Anhang 5: Tabelle 5
8
1 Einleitung
1.1 Ansatz der Hausarbeit
Für unsere Hausarbeit im Rahmen der Schließenden Statistik haben wir im Vorfeld Mitstudenten, die im Wintersemesters 2000/2001 ihr Studium begonnen haben, zu ihrem Lernverhalten und den daraus resultierenden Klausur- bzw. Leistungsnachweisergebnissen befragt. Wir beschränkten uns bei der Auswahl der Fächer auf „Einführung in die BWL“, „Einführung in die Wirtschaftsinformatik“ und „Business Administration“. Von 42 ausgegebenen Fragebögen (Abbildung 1) haben wir 37 zurückerhalten. Von diesen waren wiederum 34 verwertbar. Zum Vergleich wurden die tatsächlich erreichten Klausur- bzw. Leistungsnachweisnoten herangezogen. Herr Jürgen Gottschalk vom Prüfungsamt des Fachbereichs Wirtschaft händigte uns folgende Ergebnisse aus: 2. Prüfungstermin im Wintersemester 2000/2001 bzw. 1. Prüfungstermin im Sommersemester 2001 für „Einführung in die BWL“; 2. Prüfungstermin im Wintersemester 2000/2001 für „Einführung in die Wirtschaftsinformatik“ und 2. Prüfungstermin im Wintersemester 2000/2001 für „Business Administration“. Die Abbildungen 2 bis 7 spiegeln die aufgetretenen Häufigkeiten der jeweiligen Noten wider. Anhand dieser Daten sollte eine Prüfung stattfinden, ob unsere Stichprobe mit der Gesamtheit der jeweiligen Klausurnoten im Einklang steht. Weiterhin wollten wir Parameter der gesamten Benotungen aufgrund der erfragten Daten schätzen.
Optisch lassen sich jedoch keine Zusammenhänge zwischen den erfragten und der Gesamtheit der Benotungen vermuten.
10
Abbildung 2
BWL - Notenspiegel nach Fragebögen
Mittelwert : 2,4
12
10
8
6
4
6
5
4 4
2
3 3 3
2
1
0
0
1,0 1,3 1,7 2,0 2,3 2,7 3,0 3,3 3,7 4,0 5,0
Abbildung 3
BWL - Notenspiegel der gesamten Klausuren
Mittelwert : 2,9
12
10
8
12
6
11
8
4
6 6
5 5
4
2
3
0
1,0 1,3 1,7 2,0 2,3 2,7 3,0 3,3 3,7 4,0 5,0
Abbildung 4
EDV - Notenspiegel nach Fragebögen
Mittelwert : 3,4
45
35
25
15
5 7 6 6 5 4
1 2 2 1 0
-5
1,0 1,3 1,7 2,0 2,3 2,7 3,0 3,3 3,7 4,0 5,0
11
Abbildung 5
EDV - Notenspiegel der gesamten Klausuren
Mittelwert : 3,7
50
40
30
43
20
21 21
10
16
9 9
4 6
3
1
0
1,0 1,3 1,7 2,0 2,3 2,7 3,0 3,3 3,7 4,0 5,0
Abbildung 6
Business Administration - Notenspiegel nach
Frageb ögen
Mittelwert : 2,5
20
15
10
10
5
6
5
3 3
2 2
1 1
0
0
1,0 1,3 1,7 2,0 2,3 2,7 3,0 3,3 3,7 4,0 5,0
Abbildung 7
Business Administration - Notenspiegel der
gesamten Klausuren
Mittelwert : 3,1
20
15
20
10
16
15
14 12
5
8 8
7
5 5
3
0
1,0 1,3 1,7 2,0 2,3 2,7 3,0 3,3 3,7 4,0 5,0
12
1.2 Voraussetzungen / Bedingungen
Um diese Vorhaben des Schätzens und Testens von Parametern realisieren zu können, müssen jedoch folgende Voraussetzungen erfüllt sein: 1. Die der Grundgesamtheit entnommene Stichprobe muss explizit eine Zufallsstichprobe sein.
2. Die zugrundeliegende Gesamtheit muss angenähert normalverteilt sein.
3. Kann man über die Verteilung der Grundgesamtheit keine Aussagen
Die Erfüllung dieser Bedingungen soll im Folgenden geprüft werden.
2 Prüfung der Voraussetzungen / Bedingungen
2.1 Zufallsstichprobe
Bedingung 1: Die der Grundgesamtheit entnommene Stichprobe muss explizit eine Zufallsstichprobe sein.
13
Unter Zuhilfenahme von Zufallsstichproben lassen sich Schlüsse, sogenannte Wahrscheinlichkeitsaussagen, auf eine zugehörige Grundgesamtheit ziehen. Die relative Häufigkeit f i der in der Grundgesamtheit auftretenden Merkmale entspricht der Wahrscheinlichkeit dieser Merkmale in einer Stichprobe gezogen zu werden. Voraussetzung für das Vorliegen einer Zufallsstichprobe ist die gleiche Chance, d. h. Wahrscheinlichkeit P > 0, eines Elements der Grundgesamtheit ausgewählt zu werden. Weiterhin muss die Unabhängigkeit der Beobachtungen gegeben sein. Das entspräche dem Urnenmodell der Stichprobenentnahme mit Zurücklegen: Das gezogene Element wird der Grundgesamtheit wieder zugeführt. Somit ändert sich deren Zusammensetzung nicht und jedes Element besitzt wieder die gleiche Chance, d. h. Wahrscheinlichkeit, gezogen zu werden.
Unter Beachtung dieser Voraussetzungen gewinnt man einen repräsentativen Teil einer Grundgesamtheit, deren vollständige Erhebung zeitlich zu aufwendig wäre oder praktisch nicht sinnvoll ist. So wäre es z. B. äußerst unsinnig, die gesamte Tagesproduktion einer Hühner-Legebatterie zu öffnen, um einen Anteil an faulen Eiern zu ermitteln.
Mit Hilfe aus Stichproben berechneter Schätzwerte (z. B. arithmetisches Mittel x q , Stichprobenvarianz s²) schließt man auf Parameter einer Grundgesamtheit (z. B. arithmetisches Mittel µ, Varianz s²). Sind diese Stichproben jedoch keine Zufallsstichproben, lassen sich aus diesen lediglich zur Beschreibung der Daten sogenannte statistische Maßzahlen ermitteln (Sachs 1999: 98) - keine Schätzwerte zur Durchführung statistischer Schätz- bzw. Testverfahren. Diese Problematik erkannten wir jedoch erst, nachdem die Befragungen bereits durchgeführt waren. Im Nachhinein haben wir festgestellt, dass wir uns bei der Teilerhebung des Verfahrens der bewussten Auswahl bedient haben. Dabei wird versucht, die in die Stichprobe aufzunehmenden Elemente so auszuwählen, dass diese einen modellgerechten Querschnitt der Grundgesamtheit wiedergeben. Die vollständigen Klausurergebnisse der
14
Fächer „Einführung in die BWL“, „Einführung in die Wirtschaftsinformatik“ und „Business Administration“ bildeten unsere eingegrenzte Grundgesamtheit. Um eine „repräsentative“ Stichprobe zu erhalten, befragten wir in einem Interview (wenn dieser Begriff als Synonym für das Verteilen der Fragebögen benutzt wird) einen Teil unserer Mitstudenten. Innerhalb eines bestimmten Rahmens - die Klausuren / Leistungsnachweise sollten von den Befragten zum Ende des Wintersemesters 2000/2001 bzw. zum Beginn des Sommersemesters 2001 geschrieben worden sein - hatten wir jedoch freie Auswahl bei den zu befragenden Personen. Aufgrund dabei wirkender subjektiver Auswahlmomente (z. B. die bevorzugte Ansprache von Freunden) lassen sich keine fundierten Aussagen über die Zuverlässigkeit der Ergebnisse treffen. Die Quintessenz dieser Ausführungen: Da sich die erste Voraussetzung für statistische Schätz- und Testverfahren von Parametern als nicht erfüllt erwiesen hat, können unsere Daten nicht verwendet werden.
Die geforderte Stichprobe kann durch verschiedene Verfahren erzeugt werden. Die einfachste - allerdings auch eher unzweckmäßige - Methode ist das Losverfahren: Die durchnummerierten Elemente einer Grundgesamtheit werden durch „Ziehen aus einem Lostopf“ bestimmt. Eleganter löst man die Auswahl der durchnummerierten Elemente über eine Zufallszahlentafel. Solch eine Zufallszahlentafel besteht lediglich aus der Folge der zufällig aneinandergereihten Ziffern 0-9. Sie lässt sich durch einen Zufallsgenerator erzeugen oder mit Hilfe einer mathematischen Formel errechnen. Mit der rechnerischen Variante werden sogenannte Pseudozufallsziffern erzeugt. Diese werden so bezeichnet, weil sich periodische Folgen ergeben und sich somit die Zufallsziffern wiederholen. Das wiederum ist jedoch nicht so problematisch, da im Allgemeinen sehr lange Perioden erzeugt werden.
Beispielhaft sei hier eine Zufallszahlentabelle angeführt (Sachs 1999: 101). In dieser wurden jeweils fünfstellige Zahlengruppen notiert. Man liest die Zahlen von links nach rechts, beginnend mit irgendeiner zufällig gewählten Zahl in der
15
Tabelle. Gelesen werden Zahlen mit z-stelligen Ziffern. Die Variable z richtet sich nach der Menge der Ziffern der Anzahl N der Elemente der Grundgesamtheit.
Zur Veranschaulichung wird das Lesen dieser Tabelle am Beispiel erläutert: In einem verwertbaren Beispiel einer annähernd normalverteilten Grundgesamtheit wurden N = 1000 Schüler nach Klausurnoten im Fach Mathematik befragt. Mögliche Ausprägungen dieses Merkmals sind die Noten 1, 2, 3, 4, 5.
Abbildung 8
Jeder angegebenen Klausurnote wurde eine Ordnungsziffer zwischen 0001 und 1000 zugeteilt. Man beginnt an einer beliebigen Stelle der Tabelle zu lesen.
Abbildung 9: Ausschnitt einer Zufallszahlentafel
Quelle: Sachs 1999: 101
Die erste Ziffern-Kombination 8977 ist bereits größer als N und somit außer acht zulassen. Die folgende Ziffern-Kombination 6040 ist ebenfalls größer als
16
N und folglich auch nicht verwertbar. Die nächste Ziffern-Folge ist 0606 befindet sich als Ordnungsziffer innerhalb der Grundgesamtheit. Das erste Element mit der Ordnungsnummer 0606 wird also für die Stichprobe ausgewählt. Wenn eine Zufallszahl bereits ein Element der Stichprobe ist, wird sie nicht berücksichtigt. So verfährt man, bis sich der gewünschte Stichprobenumfang n ergibt. Für unser Beispiel der Mathematik-Klausuren wählten wir n = 100, damit der Zentrale Grenzwertsatz angewendet und eine approximative Normalverteilung des arithmetischen Mittels X q unterstellt werden kann. Eine Stichprobe nach diesem Schema ergab folgende aufgetretene Häufigkeiten:
Abbildung 10
2.2 Normalverteilung der Grundgesamtheit
Bedingung 2: Die zugrundeliegende Gesamtheit muss angenähert normalverteilt sein.
Auch unter der Prämisse, dass unsere sogenannte Stichprobe der mit Hilfe der Fragebögen erhaltenen Klausurnoten zufälliger Art sei, bliebe noch festzustellen, ob die Zufallsvariable der dazugehörigen Grundgesamtheit, sprich die Ergebnisse aller Studenten, normalverteilt ist. Diese zumindest
17
approximative Normalverteilung der Zufallsvariablen bildet eine notwendige Voraussetzung für die Durchführung parametrischer Tests. Über die unbekannte Verteilung einer Grundgesamtheit werden Hypothesen aufgestellt und anhand eines Verteilungstests mit den Daten der Stichprobe bestätigt oder verworfen. Anders ausgedrückt unterstellt man der Zufallsvariablen einer Gesamtheit eine bestimmte Verteilung. Daraufhin wird untersucht, ob die in der Stichprobe beobachtete Verteilung mit der für die Grundgesamtheit unbekannte, angenommene Verteilung übereinstimmt (verträglich ist) oder nicht. Spricht man davon, dass die Güte der Anpassung einer theoretischen Verteilung (die der Grundgesamtheit) an eine empirische (die der Stichprobe) überprüft wird, nennt man solch einen Verteilungstest auch Anpassungstest.
Unterschieden wird zwischen vollständig und unvollständig spezifizierten Verteilungstests. Das hängt von den Kenntnissen über die tatsächlichen Verteilungsparameter der entsprechenden Grundgesamtheit ab. Die Anzahl der zu schätzenden Parameter der Gesamtheit beeinflusst die Anzahl der Freiheitsgrade und somit auch die Testentscheidung. Die Prüfung, ob unsere Stichprobe der erfragten Klausurnoten aus der normalverteilten Grundgesamtheit aller Klausurnoten eines Semesters stammt, soll anhand eines Chi-Quadrat-Anpassungstests erfolgen. Unter der Annahme eines unvollständig spezifizierten Verteilungstests würde man die unbekannten Verteilungsparameter der Gesamtheit aus den Beobachtungen der Stichprobe schätzen. Das kann beispielhaft nach dem Kleinst-Quadrate-Prinzip erfolgen. Es muss dabei eine Schätzfunktion gefunden werden, die die Summe der quadrierten Abweichungen der beobachteten Stichprobenwerte vom Schätzwert minimiert. Diese Methode wird in der Praxis sehr häufig angewendet, da bei ihrer Anwendung keine genauen Kenntnisse über die Verteilung der Zufallsvariablen in der Grundgesamtheit nötig sind. Auf die Herleitung der Schätzwerte für den Mittelwert µ und die Varianz s² der
18
Grundgesamtheit mit Hilfe der Differentialrechnung soll an dieser Stelle verzichtet werden. Es ergeben sich folgende Schätzfunktionen:
Quelle: Anderson et al. 1976: 82/83
Da wir jedoch die gesamten Noten eines Semesters zur Verfügung hatten, können wir einen vollständig spezifizierten Verteilungstest voraussetzen und die tatsächlichen Parameter µ und s zur Berechnung heranziehen. Zur Veranschaulichung werden im Folgenden die Stichprobendaten und tatsächlichen Leistungsnachweisergebnissen des Faches Business Administration verglichen. Bei der Testentwicklung orientieren wir uns an einem von Bleymüller, Gehlert und Gülicher vorgeschlagenem Standardschema:
Quelle: Bleymüller et al. 1999 : 102
19
(1) Null- und Alternativhypothese sowie Signifikanzniveau
Signifikanzniveau steht auch für Irrtumswahrscheinlichkeit oder Fehler erster Art. Es drückt die Wahrscheinlichkeit aus, eine wahre Nullhypothese abzulehnen.
Nullhypothese H 0 : Die Klausurnoten sind normalverteilt. Alternativhypothese H A : Die Klausurnoten sind nicht normalverteilt. a: 0,05
(2) Prüfgröße und Testverteilung
Chi-Quadrat-Verteilung mit v = k - m - 1 Freiheitsgraden, wobei k für die Anzahl der Merkmalsausprägungen bzw. die Anzahl der Klassen des Merkmals und m für die Anzahl der zu schätzenden Parameter der Grundgesamtheit steht. (Die Summe quadrierter unabhängiger standardnormalverteilter Zufallsvariablen einer Stichprobe mit dem Umfang n folgt einer Chi-Quadrat-Verteilung mit v = n - 1 Freiheitsgraden. Diese Verteilung liegt in tabellierter
e ist die erwartete absolute Häufigkeit Form vor (Tabelle 5, siehe Anhang 5)). n i der Merkmalsausprägung x i bzw. der i-ten Klasse der Merkmals X.
e < 5 und k ≤ 8, fasst man die absoluten Häufigkeiten n i benachbarter Wenn n i
≥ 5. Dabei e Merkmalsausprägungen bzw. Klassen solange zusammen, bis n i sind die Auswirkungen auf die Höhe von k zu beachten.
Das arithmetische Mittel x q und die Varianz s² der Stichprobe müssen nicht als erwartungstreue Schätzwerte für die eventuell unbekannten Parameter µ und s² der Normalverteilung verwendet werden. Die Werte ergeben sich aus der Gesamtheit der Benotungen wie folgt: µ = 3,08 s² = 1,29608612 s = 1,13845778.
20
Zu Beginn teilt man die auftretenden Merkmalausprägungen x i wegen der besseren Übersichtlichkeit in k = 5 Klassen ein und ordnet die absoluten
o den entsprechenden Klassenobergrenzen Häufigkeiten der Ausprägungen n i o und die zu. Anhand dieser Werte lassen sich dann die relativen Häufigkeiten f i
o ermitteln. zugehörige empirische Verteilungsfunktion F i
Abbildung 11: Verteilungstest bis zur empirischen Verteilungsfunktion
In einem zweiten Schritt werden die Klassenobergrenzen nach der Formel
o = (x i o - µ) / s standardisiert. Dann lässt sich die theoretische z i
o berechnen, wobei Verteilungsfunktion für die oberen Klassengrenzen x i o ) = 1 gesetzt wird und die Werte F SN (z 1,0 o ) bis F SN (z 4,0 o ) der Tabelle der F SN (z 5,0
Standardnormalverteilung zu entnehmen sind (Tabelle 1, siehe Anhang 1). Die
e ermittelt man durch Werte der erwarteten relativen Häufigkeiten f i
o ) - F SN (z i-1 o ). Die erwarteten absoluten Häufigkeiten Differenzenbildung F SN (z i
e ergeben sich durch Multiplikation mit dem Stichprobenumfang n. Zwei n i
absolute Häufigkeiten benachbarter Klassen mussten zusammengefasst
≥ 5 erfüllt ist. e werden, damit n i
21
Abbildung 12: Verteilungstest bis zu erwarteten absoluten Häufigkeiten
(3) Kritischer Bereich
≥ 5 e Nach der Zusammenfassung der erwarteten absoluten Häufigkeiten zu n i beschränkt sich die Zahl der Klassen auf k = 4. Da keine Parameter zu schätzen waren, ergibt sich die Anzahl der Freiheitsgrade v = k- m-1 als v = 4- 0-1 = 3. Bei einem Signifikanzniveau von a = 0,05 ergibt sich aus der Tabelle der Chi-Quadrat-Verteilung (Tabelle 5, siehe Anhang 5) ein kritischer Wert ?² c = 7,81.
Für ?² ≤ 7,81 wird die Nullhypothese nicht abgelehnt; für ?² > 7,81 wird die
Nullhypothese abgelehnt. (4) Berechnung der Prüfgröße
?² = 20,8824396
(5) Entscheidung und Interpretation
Da ?² > ?² c wird die Nullhypothese abgelehnt. Selbst wenn also unsere Stichprobe zufälliger Art gewesen wäre, müsste an dieser Stelle die Normalverteilung der Gesamtnoten angezweifelt werden.
22
2.3 Zentraler Grenzwertsatz
Bedingung 3: Der Stichprobenumfang muss n ≥ 100 betragen. Da der Umfang unserer Stichprobe nur n = 34 beträgt, lässt sich der Zentrale Grenzwertsatz nicht anwenden. Somit kann der Gesamtheit der Klausurnoten nicht die Normalverteilung unterstellt werden. Aufgrund dieser Ergebnisse beziehen wir uns im Folgenden auf das in Abbildung 8 graphisch dargestellte Notenbeispiel einer Mathematikklausur.
3 Schätzen von Parametern
In diesem Kapitel wird das Schätzen eines unbekannten Parameters ? einer Grundgesamtheit (z. B. µ, s², p) anhand einer Stichprobe behandelt. Dieses kann sowohl mit Hilfe einer Punktschätzung als auch durch eine Intervallschätzung realisiert werden.
3.1 Punktschätzung
„Allgemein könnte man sagen, dass Punktschätzungen für Parameter Funktionen sind, die konkret beobachteten Daten einen Schätzwert ? D des Parameters zuordnen.“ (Viertel 1997: 103)
Eine wichtige Voraussetzung der Punktschätzung ist, dass es sich bei der Stichprobe, mit Hilfe deren Daten wir auf die Grundgesamtheit schließen, um eine einfache Zufallsstichprobe handelt - wie bereits eingangs erwähnt. Gerade im Falle einer Punktschätzung ist das so wichtig, weil man anhand des aus der Stichprobe errechneten Wertes (z. B. x q , s²) direkt auf den unbekannten Parameter der Grundgesamtheit (z. B. µ, s²) schließt. Diese Werte sind nur unter Verwendung einer Zufallsstichprobe repräsentativ.
23
Tabelle 6: Punktschätzung unbekannter Parameter
Quelle: Kuhnigk 2001 : 24
Es muss jedoch kritisch angemerkt werden, dass der Schluss von einer Zufallsstichprobe auf die Grundgesamtheit anhand von Punktschätzungen unbefriedigend ist, da über die Abweichung des Stichproben-Schätzwertes vom Parameter nichts ausgesagt wird.
Von Bedeutung ist nun die Suche nach einem Bereich, in dem der unbekannte Parameter erwartet werden kann. Dieser Bereich wird Vertrauensbereich oder Konfidenzintervall genannt und wird bei Anwendung einer Intervallschätzung ermittelt.
3.2 Intervallschätzung
„Allgemein könnte man sagen, dass Intervallschätzungen (Bereichsschätzungen) für Parameter Funktionen sind, die konkreten Daten einen Teilraum des Parameterraumes zuordnen, so dass der wahre Parameter mit hoher Wahrscheinlichkeit in diesem Teilraum liegt.“ (Viertel 1997: 103) Dieser Teilraum wird als Vertrauensbereich (VB) oder Konfidenzintervall zum Konfidenzniveau 1-a bezeichnet.
24
Ziel ist die Eingrenzung des unbekannten Parameters der Grundgesamtheit mit der Sicherheit 1-a. Das bedeutet, dass der unbekannte Parameter ? bei häufiger Anwendung auf viele Stichproben desselben Typs mit der Wahrscheinlichkeit 1-a im theoretischen Konfidenzintervall enthalten ist.
Quelle: Kuhnigk 2001: 24
Als Vertrauenswahrscheinlichkeit wählt man in den meisten Fällen einen Wert von 95%, so dass sich a = 0,05 ergibt. Zur Interpretation: Wendet man dieses Konfidenzniveau auf verschiedene Stichproben und verschiedene Grundgesamtheiten desselben Typs (z. B. Normalverteilung) häufig genug an, werden die berechneten Vertrauensbereiche den Parameter in etwa 95% der Fälle überdecken. Nur in 5% der Fälle werden sie diesen nicht erfassen. Neben der Vertrauenswahrscheinlichkeit von 95% sind ebenfalls der 90%-Vertrauensbereich sowie der 99%-Vertrauensbereich üblich. Den 90%-Vertrauensbereich wendet man zum Beispiel an, wenn nur sehr wenige Beobachtungen vorliegen. Der 99%-VB hingegen wird beim Vorhandensein zahlreicher Beobachtungen benutzt.
Das gesuchte empirische Konfidenzintervall als Realisation des theoretischen erhält man, indem man mit Hilfe der vorliegenden - aus der Stichprobe gewonnenen - Werte sowohl die Obergrenze (? o ) als auch die Untergrenze (? u ) des gesuchten Intervalls berechnet. Das empirische Intervall entsteht immer in der Form Konf (... , ...).
25
3.2.1 Der Vertrauensbereich für den Mittelwert (Erwartungswert einer
normalverteilten Grundgesamtheit)
Um diese Intervallschätzungen durchführen zu können, muss sowohl mit Daten einer einfachen Zufallsstichprobe als auch mit einer normalverteilten Grundgesamtheit gearbeitet werden.
3.2.1.1 Der Vertrauensbereich für den Mittelwert bei gegebener Varianz s² der Grundgesamtheit
Der Vertrauensbereich bzw. das theoretische Konfidenzintervall für den unbekannten Parameter µ einer zumindest angenähert normalverteilten Grundgesamtheit ist gegeben durch:
Quelle: Kuhnigk 2001: 25
Das „zugehörige“ empirische Konfidenzintervall für µ ist gegeben durch:
Quelle: Kuhnigk 2001: 25
n ∑
x q = stellt den Mittelwert der erhobenen Stichprobe dar, n ist der x i n
= 1 i
Stichprobenumfang, s die Standardabweichung der Grundgesamtheit und z 1- 2 der Prozentpunkt der N(0,1) Verteilung, wobei der letztgenannte Wert a
Tabelle 2 (siehe Anhang 2) zu entnehmen ist. Die Unter- bzw. Obergrenze des gesuchten Intervalls wird auch c 1 bzw. c 2 genannt. (Kockläuner 2001: 9) Diese Bezeichnung soll bei den folgenden Berechnungen beibehalten werden. Zur Übersichtlichkeit seien an dieser Stelle noch einmal die Daten der Benotungen einer Mathematik-Klausur und der daraus gewonnenen Zufallsstichprobe dargestellt.
26
Tabelle 7: Übersicht von Grundgesamtheit und Stichprobe der Mathematik-Klausur
Als Konfidenzniveau 1-a wählen wir 0,95, da dieses das geläufigste ist. Unter der Annahme, dass µ unbekannt und s² der Grundgesamtheit bekannt seien, ergibt sich bezüglich des Vertrauensbereiches von µ folgende Unter- (c 1 ) bzw. Obergrenze (c 2 ):
Realisierung: c 1 = x q - 1,96 *
Realisierung: c 2 = x q + 1,96 * n
Für den unbekannten Parameter µ ergibt sich auf dem Konfidenzniveau 1-a = 0,95 das Konfidenzintervall Konf (2,8047 , 3,1553). Zur Erläuterung des Ergebnisses: Wir haben das Konfidenzintervall für den Parameter µ unter der Annahme errechnet, dass dieser unbekannt sei. Da wir jedoch den wahren Wert µ = 3,0 kennen, können wir sagen, dass µ in dem von uns ermittelten 95%- Vertrauensbereich liegt.
27
3.2.1.2 Länge des Konfidenzintervalls
Die Länge des Vertrauensbereiches (z. B. für den Mittelwert einer normalverteilten Grundgesamtheit bei bekannter Varianz)
ist sowohl von s als auch von n und der Vertrauenswahrscheinlichkeit 1-a abhängig. Da sich die Länge des Konfidenzintervalls umgekehrt proportional zur Wurzel aus n verhält, besteht die erste Möglichkeit zur Verkürzung der Länge des Vertrauensbereiches bei konstantem Konfidenzniveau 1-a in der Erhöhung des Stichprobenumfanges. Zum Beispiel benötigt man den neunfachen Stichprobenumfang für eine Verkürzung des Vertrauensbereiches auf ein Drittel seiner Länge.
Eine zweite Möglichkeit die Länge des Konfidenzintervalls zu verkürzen, besteht in der Verkleinerung der Vertrauenswahrscheinlichkeit 1-a bei konstantem Stichprobenumfang. Zum Beispiel könnte statt des 95%-Vertrauensbereiches der 50%-Vertrauensbereich gewählt werden. Anzumerken sei jedoch, dass man durch eine Verkürzung des Vertrauensbereiches zwar engere Teilräume - also schärfere Aussagen - erhält, jedoch weniger sichere Aussagen über den unbekannten Parameter ? machen kann. Schlussfolgernd lässt sich über die Länge des Konfidenzintervalls sagen, dass ein enger Vertrauensbereich zwar scharfe Aussagen liefert, die jedoch unsicher sind. Ein weiter Vertrauensbereich hingegen liefert sichere Aussagen, die jedoch unscharf sind. Diese Tatsache soll anhand des Beispiels der Mathematik-Klausuren und der daraus gezogenen Zufallsstichprobe veranschaulicht werden.
28
Realisierung c 1 : c 1 = 2,98 - 0,674 *
Realisierung c 2 : c 2 = 2,98 + 0,674 *
Für den unbekannten Parameter µ der Grundgesamtheit ergibt sich das empirische Konfidenzintervall zum Konfidenzniveau 1-a = 0,5 Konf (2,9197 , 3,0403). Zur Interpretation: Dieser sehr enge Vertrauensbereich liefert eine scharfe Aussage bezüglich des unbekannten Parameters µ, ist jedoch sehr unsicher, da als Vertrauenswahrscheinlichkeit 1-a = 0,5 gewählt wurde. Der uns jedoch in Wahrheit bekannte Parameter liegt wieder innerhalb des errechneten Konfidenzintervalls.
Realisierung c 1 : c 1 = 2,98 - 3,318 *
Realisierung c 2 : c 2 = 2,98 + 3,318 *
Für den unbekannten Parameter ergibt sich das empirische Konfidenzintervall zum Konfidenzniveau 1-a = 0,999 Konf (2,6832 , 3,2768). Zur Interpretation: Dieser relativ breite Vertrauensbereich liefert zwar aufgrund des hohen Konfidenzniveaus 1-a = 0,999 eine sichere Aussage - diese ist jedoch aufgrund der Länge des Konfidenzintervalls unscharf. Der uns in Wahrheit bekannte Parameter befindet sich innerhalb des errechneten 99,9%-Vertrauensbereiches.
29
3.2.1.3 Notwendiger Stichprobenumfang bei bekannter Varianz s² Neben der eigentlichen Berechnung eines empirischen Konfidenzintervalls interessiert ebenfalls die Frage, welchen Umfang n die Stichprobe haben muss, um den unbekannten Parameter µ mit einem gegebenen maximalen Schätzfehler ± e schätzen zu können. Also ist ± e die geforderte Genauigkeit, wobei e die halbe Länge des Konfidenzintervalls darstellt. Bei dieser Fragestellung seien außer ± e auch die Varianz s² sowie das Konfidenzniveau 1-a gegeben. Der Wert für z 1- 2 a ist wieder der Tabelle 2
(siehe Anhang 2) zu entnehmen. Der notwendige Stichprobenumfang n ergibt
Anhand der Berechnung des notwendigen Stichprobenumfanges für drei verschiedene maximale Schätzfehler ± e soll gezeigt werden, wie sich eine Verringerung des maximalen Schätzfehlers ± e auf den notwendigen Stichprobenumfang auswirkt. Als Konfidenzniveau wird 1-a = 0,95 gewählt. (1) Maximaler Schätzfehler e = ± 0,1 n ≥ z² 1- 2 s²
a * e²
n ≥ 3,8416 * 80 n ≥ 307,328
Um mit einem maximalen Schätzfehler von e = ± 0,1 bei einem Konfidenzniveau von 0,95 zu schätzen, müsste der Stichprobenumfang mindestens n = 308 betragen.
30
(2) Maximaler Schätzfehler e = ± 0,01 (= 10 1 des vorigen Wertes für e)
n ≥ 30.732,8
Um mit einem maximalen Schätzfehler von e = ± 0,01 bei einem Konfidenzniveau von 0,95 zu schätzen, müsste der Stichprobenumfang mindestens n = 30.733 betragen.
Daraus kann ersehen werden, dass man bei einer Reduzierung des maximalen 1 Schätzfehlers auf 10 seines Wertes den Stichprobenumfang n auf ein
10²-faches erhöhen muss. Um zu prüfen, ob generell gilt, dass eine 1 seines Wertes eine Verringerung des maximalen Schätzfehlers auf m
Erhöhung des notwendigen Stichprobenumfanges auf ein m²-faches bedeutet, betrachten wir die Berechnung bezüglich eines dritten maximalen Schätzfehlers e = ± 0,05 (d. h. eine Reduzierung des Ausgangswertes e = ± 0,1 um die Hälfte).
(3) Maximaler Schätzfehler e = ± 0,05 (= 2 1 des vorigen Wertes für e)
n ≥ (1,96)² *
n ≥ 1.229,312
Tatsächlich erhöht sich der notwendige Stichprobenumfang auf 2²-faches, wenn der maximale Schätzfehler auf die Hälfte reduziert wird. Somit kann die generelle Gültigkeit der obigen Aussage angenommen werden.
31
3.2.1.4 Der Vertrauensbereich für den Mittelwert bei unbekannter Varianz s² der Grundgesamtheit
Der Vertrauensbereich für den unbekannten Mittelwert µ einer zumindest angenähert normalverteilten Grundgesamtheit ist gegeben durch:
Quelle: Kuhnigk 2001: 26
Das „zugehörige“ empirische Konfidenzintervall für µ ergibt sich als:
Quelle: Kuhnigk 2001: 26
Da die Varianz s² der Grundgesamtheit in diesem Falle unbekannt ist, errechnen wir neben x q ebenfalls den Schätzwert s² aus der Zufallsstichprobe. Der Vertrauensbereich wird mit Hilfe der sogenannten Student- oder t-Verteilung ermittelt. Dabei ist t 1- 2 a , (n-1) als Prozentpunkt der t-Verteilung mit n-1 Freiheitsgraden der Tabelle 4 (siehe Anhang 4) zu entnehmen.
Bei der Berechnung des Konfidenzintervalls gehen wir wieder vom 95%-Vertrauensbereich aus. Da unser Stichprobenumfang der Mathematik-Benotungen n = 100 beträgt, sollten wir überprüfen, ob das Konfidenzintervall tatsächlich entweder mit Hilfe des Wertes t 1- 2 a , (n-1) aus der Tabelle 4 (siehe Anhang 4) oder des Wertes z 1- 2 a aus der Tabelle 2 (siehe Anhang 2) errechnet werden kann. Das Ablesen in den entsprechenden Tabellen ergibt z 1- 2 a = 1,96 und t 1- 2 a , (n-1) = 1,984. Aus der Differenz der beiden Werte lässt sich ableiten,
dass die Berechnung des Konfidenzintervalls besser mit dem Wert
32
t 1- 2 a , (n-1) = 1,984 durchgeführt werden sollte. Das hängt mit der geforderten
Genauigkeit der Nachkommastellen zusammen.
Realisierung c 1 : c 1 = 2,98 - 1,984 *
Realisierung c 2 : c 2 = 2,98 + 1,984 *
Für den unbekannten Parameter µ ergibt sich das empirische Konfidenzintervall auf dem Konfidenzniveau 1-a = 0,95 Konf (2,8085 , 3,1515).
Vergleichend soll auch die Berechnung mit Hilfe des aus Tabelle 2 (siehe Anhang 2) entnommenen Wertes z 1- 2 a dargestellt werden.
Realisierung c 1 : c 1 = 2,98 - 1,96 *
Realisierung c 2 : c 2 = 2,98 + 1,96 *
Auf dem Konfidenzniveau 1-a = 0,95 ergibt sich für µ folgendes empirisches Konfidenzintervall Konf (2,8106 , 3,1494).
33
3.2.1.5 Vergleich der Länge von Konfidenzintervallen bezüglich des
unbekannten Parameters µ Gegenüberstellung von
Die Länge eines Konfidenzintervalls lässt sich entweder aus der Differenz zwischen Ober- und Untergrenze bilden oder Einsetzen in die Formel
(1) für Konf 1 (2,8047 , 3,1553)
Differenz der Grenzen: c 1 - c 2 = 0,3506
L = 2 * 1,96 *
(2) für Konf 2 (2,8106 , 3,1494)
Differenz der Grenzen: c 1 - c 2 = 0,3388
34
(3) für Konf 3 (2,8085 , 3,1515)
Differenz der Grenzen: c 1 - c 2 = 0,3430
Vergleicht man die Längen der drei Vertrauensbereiche miteinander, so ergibt sich: Konf 2 < Konf 3 < Konf 1 .
Anlass zu dieser Betrachtung eines Längenvergleichs der drei Vertrauensbereiche desselben Konfidenzniveaus und desselben Stichprobenumfangs gab uns folgendes Zitat: „Für den 95%-Vertrauensbereich ist t = t 0,05 > z 1- 2 = 1,96, d. h. bei unbekanntem s² ist das Konfidenzintervall a
breiter als bei bekanntem s².“ (Sachs 1993: 57) Anhand unseres Beispiels ließ sich diese Behauptung Lothar Sachs’ leider nicht bestätigen. In unserem Fall ist das bei bekannter Varianz s² errechnete Konfidenzintervall größer als die beiden bei unbekannter Varianz s² ermittelten Vertrauensbereiche. Diese Tatsache beruht darauf, dass wir zur Berechnung die Stichprobenvarianz s² als Schätzwert für die Varianz der Grundgesamtheit s² bzw. die Standardabweichung der Stichprobe s als Schätzwert für die Standardabweichung s herangezogen haben. Die Werte der Stichprobe sind kleiner als die entsprechenden der Grundgesamtheit. Da die Standardabweichung bei der Ermittlung des Vertrauensbereiches im Nenner steht, ergibt sich in diesem Fall rechnerisch einfach das kürzeste Intervall. Der Unterschied zwischen den beiden bei unbekannter Varianz s² errechneten Konfidenzintervallen (Konf 2 < Konf 3 ) wird durch z 1- 2 = 1,96 < t 1- 2 a , (n-1) = a 1,984 verursacht.
3.2.1.6 Notwendiger Stichprobenumfang bei unbekannter Varianz s² Wie bei bekannter Varianz, lässt sich auch bei unbekannter Varianz der Grundgesamtheit der notwendige Stichprobenumfang n bei einem gegebenen maximalen Schätzfehler ± e ermitteln. Man verwendet bei der Berechnung den
35
aus der Stichprobe gewonnenen Schätzwert s². Um jedoch folgende Formel approximativ anwenden zu können, muss sich n ≥ 100 ergeben.
Quelle: Kuhnigk 2001: 26
Auch hier ist e wieder die halbe Länge des Konfidenzintervalls. Der Wert für a ist Tabelle 2 (siehe Anhang 2) zu entnehmen. Für e = ± 1, 1-a = 0,95, z 1- 2
z = 1,96 und s = 0,864332521 ergibt sich n ≥ 286,9946827 also n ≥ 287. Dieser geringere notwendige Stichprobenumfang (statt n ≥ 308 unter Punkt 3.2.1.3) resultiert aus der niedrigeren Standardabweichung der Stichprobe im Gegensatz zur Standardabweichung der Grundgesamtheit.
3.2.2 Interpretation / Bewertung von Vertrauensbereichen
Neben den betrachteten Vertrauensbereichen für den unbekannten Parameter µ der Grundgesamtheit (bei bekannter bzw. unbekannter Varianz s²) lassen sich auch Konfidenzintervalle für andere unbekannte Parameter (z. B. Varianz s², Anteilswert p) berechnen. Wir hielten es jedoch für interessanter, lediglich den Parameter µ zu betrachten und dieses etwas ausführlicher zu tun. Bewertend kann man bezüglich der Berechnung von Vertrauensintervallen sagen, dass diese verglichen mit statistischen Tests zwei Vorzüge bieten. Sie werden in Werten der benutzten Skala ausgedrückt und liefern durch die Lage zum Nullpunkt eine Vorstellung von der relativen Genauigkeit der Befunde. (Sachs 1993: 66) An dieser Stelle soll jedoch noch einmal darauf hingewiesen werden, dass man einen bezüglich einer speziellen Stichprobe berechneten Vertrauensbereich (z. B. 95%-VB) nicht so interpretieren kann, dass der unbekannte Parameter ? zu 95% in dem speziell errechneten Bereich (z. B. 2,9 ≤ µ ≤ 3,1) liegt. Diese Einzelfallsaussage kann mit der Wahrscheinlichkeit 1 den unbekannten Parameter µ enthalten oder nicht. Bei einer einzigen
36
konkreten Stichprobe kann es nämlich vorkommen, dass der daraus errechnete Vertrauensbereich den unbekannten Parameter zufällig gar nicht enthält. Bezüglich der allgemeinen Vorschrift
kann man jedoch sagen, dass bei häufiger berechtigter Anwendung dieser Vorschrift auf verschiedene Stichproben desselben Typs der 95%-Vertrauensbereich im Mittel in 95% der Fälle den wahren Mittelwert µ enthalten wird.
4 Testen von Parametern
4.1 Einführung
Ebenso wie die Schätzverfahren basieren die nun zu betrachtenden Testverfahren auf der Stichprobentheorie. Im Gegensatz zum Schätzen besteht der Sinn statistischer Test in der Prüfung, ob bestimmte Behauptungen (Hypothesen) über unbekannte Grundgesamtheiten richtig oder falsch sind. Es gibt eine Reihe unterschiedlicher Testverfahren, u. a. die Parametertests, mit denen Hypothesen über unbekannte Parameter ? einer oder mehrerer Grundgesamtheiten überprüft werden können. An dieser Stelle seien auch noch einmal die Verteilungs- bzw. Anpassungstests genannt, die bereits unter Punkt 2.2 näher betrachtet wurden. Mit diesen lassen sich Hypothesen über die unbekannte Verteilungsform einer Grundgesamtheit prüfen. Unabhängigkeitstests, mit denen man Hypothesen über die Unabhängigkeit oder Abhängigkeit von Zufallsvariablen prüfen kann und die sogenannten verteilungsfreien Tests, die zur Überprüfung von Hypothesen ohne
37
Voraussetzung einer Normalverteilung oder bei großen Stichprobenumfängen angewandt werden, stellen weitere Testverfahren dar. Im Folgenden beschäftigen wir uns jedoch intensiver mit den Parametertests. Diese lassen sich wiederum in verschiedene Arten unterteilen. Anzuführen seien beispielsweise der F-Test, mit dessen Hilfe man Hypothesen bezüglich unbekannter Varianzen von Grundgesamtheiten überprüfen kann oder der Mittelwertdifferenzentest, der zur Überprüfung von Behauptungen in Bezug auf die Differenzen der Mittelwerte normalverteilter Grundgesamtheiten herangezogen wird. Diese Beispiele stellen lediglich einen kleinen Ausschnitt aus der Anzahl der möglichen Parametertests dar. Wir haben uns dafür entschieden, die Betrachtung der Konzeption von Parametertests sowie die Erläuterung der Vorgehensweise beim Testen und die praktische Anwendung auf das in Abbildung 8 dargestellte verwertbare Beispiel bezüglich des Mittelwertes bei normalverteilter Grundgesamtheit durchzuführen.
4.2 Konzeption von Parametertests
Zunächst betrachten wir die verschiedenen Möglichkeiten bei der Formulierung von Parameterhypothesen.
Als erstes stellt man eine Behauptung, die sogenannte Nullhypothese H 0 (Ausgangshypothese) auf (z. B. H 0 : µ = 3,0). Eine Hypothese dieser Art bezeichnet man als einfache Hypothese, da diese sich lediglich auf einen einzelnen Wert bezieht. Um eine zusammengesetzte Hypothese würde es sich bei der Behauptung handeln, dass das arithmetische Mittel der Notenverteilung höchstens 3,0 beträgt (H 0 : µ ≤ 3,0). In diesem Fall bezieht man sich nicht auf einen einzelnen Wert sondern auf einen Wertebereich.
38
Dann erfolgt die Formulierung einer Gegenhypothese, die meistens als Alternativhypothese H A (oder auch H 1 ) bezeichnet wird. Bezüglich der Nullhypothese H 0 : µ = 3,0 lassen sich verschiedene Alternativhypothesen aufstellen, die ebenfalls sowohl einfach als auch zusammengesetzt sein können. Die Gegenannahme µ = 2,5 ist ein Beispiel für eine einfache Alternativhypothese. Entscheidet man sich für eine zusammengesetzte Alternativhypothese, unterteilen sich die Möglichkeiten der Formulierung wiederum in eine einseitige bzw. zweiseitige Fragestellung. Wenn die Gegenannahme in Bezug auf das arithmetische Mittel unserer Notenverteilung H A : µ < 3,0 oder H A : µ > 3,0 lautet handelt es sich um eine einseitige Fragestellung. Entscheidet man sich für diese Kombination der Hypothesen, erfolgt die Überprüfung der Nullhypothese anhand eines einseitigen Tests, der unter Punkt 4.4 durchgeführt wird.
Wählt man hingegen als zusammengesetzte Alternativhypothese, dass das arithmetische Mittel µ ≠ 3,0 sei (entweder µ < 3,0 oder µ > 3,0), so liegt eine zweiseitige Fragestellung vor. In diesem Fall wird mit einem zweiseitigen Test geprüft, ob die Nullhypothese angenommen oder abgelehnt wird. Dieser Test wird unter Punkt 4.3 durchgeführt.
Die Wahl des Signifikanzniveaus ist für die Testentscheidung von Bedeutung. Vom Ergebnis einer gezogenen Zufallsstichprobe ausgehend soll eine Wahrscheinlichkeitsaussage über die Nullhypothese ermöglicht werden. Anhand dieser fällt man die Testentscheidung, ob eine Nullhypothese anzunehmen ist oder nicht. Zu beachten ist jedoch, dass bei dieser zu fällenden Entscheidung - etwa aufgrund extrem ungünstiger Stichprobenergebnisse -Fehler passieren können. Denkbar wäre, dass eine richtige Nullhypothese fälschlicherweise abgelehnt wird. Eine solche Fehlentscheidung bezeichnet man als a-Fehler (oder auch Fehler erster Art, Irrtumswahrscheinlichkeit), dem die Wahrscheinlichkeit a zugeordnet ist. Diese auch Signifikanzniveau genannte Wahrscheinlichkeit wird vor dem Testen festgelegt. Geläufige Werte
39
sind a = 0,05 oder a = 0,01. Wählt man a
≤
0,05, so heißt der Test signifikant. Bei a
≤
0,01 spricht man von einem hochsignifikanten Test.
Eine weitere Fehlentscheidung wird getroffen, wenn die Nullhypothese angenommen wird, obwohl sie in Wahrheit nicht zutrifft. Das bezeichnet man als ß-Fehler (oder auch als Fehler zweiter Art). ß bleibt im Gegensatz zu a bei praktischer Anwendung der Testverfahren meist unbestimmt, wird also vor der Durchführung des Tests nicht festgelegt.
Ziel ist es jedoch immer, das Testverfahren so zu konzipieren, dass beide Wahrscheinlichkeiten in vertretbaren Grenzen gehalten werden. Die vollständige Vermeidung von a- und ß-Fehlern ist jedoch nie möglich, da eine restlose Ausschaltung von Zufallswirkungen nicht realisiert werden kann. Dieses würde nämlich den logisch zwingenden Schluss vom Teil (Zufallsstichprobe) auf das Ganze (Grundgesamtheit) bedeuten, was in den meisten Fällen unmöglich ist. Man sollte sich daher beim Aufstellen der Hypothesen sowie des Signifikanzniveaus entscheiden, welcher Annahme die größere Bedeutung zukommt (diese wird oft als Nullhypothese formuliert) und welche Fehlentscheidung folgenschwerer wäre (für diese soll dann eine sehr kleine Wahrscheinlichkeit gewählt werden).
40
Tabelle 8: Fehler beim Testen von Hypothesen und deren
Wahrscheinlichkeiten
Quelle: Kuhnigk 2001: 29
Abschließend sei darauf hinzuweisen, dass formale statistische Signifikanz und wirkliche (praktische) Bedeutung nicht miteinander verwechselt werden dürfen.
Die beiden folgenden ausgewählten Tests sollen lediglich beispielhaft die Vorgehensweise bei der Durchführung statistischer Tests widerspiegeln. Selbstverständlich wäre es uns auch möglich gewesen, Tests bezüglich aller in diesem Abschnitt genannten Kombinationen von Null- und Alternativhypothesen durchzuführen, so dass sich verschiedene kritische Bereiche sowie Entscheidungen und Interpretationen ergeben hätten. Das führt jedoch zu Wiederholungen und weckt nicht gerade das Interesse des Lesers.
41
4.3 Testen des arithmetischen Mittels µ bei unbekannter Varianz s² der Grundgesamtheit
Aus der Vielfalt der parametrischen Tests soll die Prüfung einer Hypothese über das arithmetische Mittel µ einer normalverteilten Grundgesamtheit bei unbekannter Varianz s² ausführlicher beschrieben werden. Die Durchführung dieses Tests soll ebenfalls anhand des unter Punkt 2.2 erläuterten Schemas erfolgen.
(1) Null- und Alternativhypothese sowie Signifikanzniveau Statistische Tests können nur Unterschiede zwischen Stichprobenwerten und solchen der Grundgesamtheit feststellen - keine Übereinstimmungen. Deshalb wird die Annahme über die Richtigkeit eines Parameters in der Regel als Nullhypothese formuliert, um verworfen zu werden. Selbst wenn diese aufgrund des Wertes der Prüfgröße nicht abgelehnt werden kann, ist das kein Beweis für Richtigkeit der Nullhypothese. Sie darf lediglich nicht verworfen werden.
Wir zweifeln nun das arithmetische Mittel µ = 3,0 an. Deshalb lauten die Null-und die zugehörige Alternativhypothese: H 0 : µ = 3,0 H A : µ ≠ 3,0
Mit dieser Formulierung der Hypothesen wird ein zweiseitiger Test begründet. Der Fehler a-Fehler ist die Wahrscheinlichkeit dafür, eine in Wahrheit richtige Nullhypothese abzulehnen. Als ein geläufiges Signifikanzniveau wird 0,05 gewählt. a = 0,05
42
(2) Prüfgröße und Testverteilung
Prüfgrößen oder Testvariablen bilden Vorschriften, nach denen der Testwert der jeweiligen Stichprobe errechnet wird. Je nach Testvariablenwert wird über Ablehnung oder Nichtablehnung der Nullhypothese entschieden. Eine Stichprobenfunktion, der eine Testvariable bei gültiger Nullhypothese gehorcht, heißt Prüfverteilung oder Testverteilung.
Mit Hilfe der Zufallsvariable T =
unbekannten Parameter µ einer annähernd normalverteilten Grundgesamtheit bei unbekannter Varianz s² bestimmt werden. Nach rechnerischer Isolation des µ ergab sich der unter Punkt 3.2.1.4 vorgestellte Vertrauensbereich. Diese Zufallsvariable folgt einer Student- oder t-Verteilung mit v = n - 1 Freiheitsgraden, wobei n den Stichprobenumfang bezeichnet. Somit kann diese Zufallsvariable in dem Fall als Prüfgröße verwendet werden.
(3) Kritischer Bereich
Bei zweiseitiger Fragestellung, einem Signifikanzniveau von a = 0,05 und 99 Freiheitsgraden liefert die Tabelle der Student-Verteilung (Tabelle 4, siehe Anhang 4) einen kritischen Wert von t c = 1,984. Damit ergibt sich t c1 = -t c = -1,984 als untere Grenze und t c2 = t c = 1,984 als obere Grenze. Für t < -1,984 bzw. t > 1,984 (|t| > t c ) wird der Ablehnungsbereich T 1 definiertdie Nullhypothese muss verworfen werden; für -1,984 ≤ t ≤ 1,984 (|t| ≤ t c ) ergibt sich der Nichtablehnungsbereich T 0 - die Nullhypothese darf nicht abgelehnt werden.
43
(4) Berechnung der Prüfgröße
t =
Dass der Testvariablenwert t negativ ist, ergibt sich zwar aus der Berechnungsvorschrift. Das lässt aber auch die Interpretation zu, dass die erhaltenen Werte im Durchschnitt unterhalb des arithmetischen Mittels µ liegen.
(5) Entscheidung und Interpretation
Der errechnete t-Wert befindet sich innerhalb des Intervalls -1,984 und 1,984. Somit darf die Nullhypothese nicht abgelehnt werden. Es kann also angenommen werden, dass der Mittelwert µ nicht von 3,0 abweicht.
4.4 Testen des arithmetischen Mittels bei bekannter Varianz s² der Grundgesamtheit
(1) Null- und Alternativhypothese sowie Signifikanzniveau An dieser Stelle wird behauptet, das arithmetische Mittel sei größer als 3,0. Die daraus resultierenden Hypothesen lauten: H 0 : µ = 3,0 H A : µ > 3,0
Diese Formulierung begründet einen einseitigen Test. Als Signifikanzniveau wählen wir a = 0,05.
44
(2) Prüfgröße und Testverteilung
Da die Varianz s² der Grundgesamtheit bekannt ist, bietet sich die
Zufallsvariable Z =
gehorcht.
(3) Kritischer Bereich
Bei einseitiger Fragestellung und einem Signifikanzniveau von a = 0,05 sich aus der Tabelle der Prozentpunkte der N(0,1)-Verteilung ein kritischer Wert von z c = 1,6448 ablesen. Für z ≤ 1,6448 kann die Nullhypothese nicht abgelehnt werden - für z > 1,6448 darf sie nicht angenommen werden. (4) Berechnung der Prüfgröße
z =
(5) Entscheidung und Interpretation
Der errechnete z-Wert ist kleiner als z c = 1,6448. Somit darf die Nullhypothese nicht abgelehnt werden. Es darf also nicht behauptet werden, dass das arithmetische Mittel µ größer als 3,0 sei.
51
Literaturverzeichnis
Anderson, Prof. Dr. O., Prof. Dr. W. Popp, Dr. M. Schaffranek, D. Steinmetz, Prof. Dr. H. Stenger (1976). Schätzen und Testen - Eine Einführung in die Wahrscheinlichkeitstheorie und schließende Statistik. Springer-Verlag Bleymüller, J., G. Gehlert, H. Gülicher (1999). Statistik für Wirtschaftswissenschaftler. Verlag Vahlen
Eckstein, P. P. (1999). Repetitorium Statistik - Deskriptive Statistik, Stochastik, Induktive Statistik. Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH
Kockläuner, Prof. Dr. G. (2001). Skript: Fachhochschule Kiel - Fachbereich Wirtschaft
Kuhnigk, Prof. Dr. B. (2001). Skript: Wahrscheinlichkeitsrechnung und Schließende Statistik. Fachhochschule Kiel - Fachbereich Wirtschaft Sachs, L. (1999). Angewandte Statistik - Anwendung statistischer Methoden. Springer-Verlag
Sachs, L. (1993). Statistische Methoden - Planung und Auswertung. Springer-Verlag
Viertel, R. (1997). Einführung in die Stochastik - Mit Elementen der Bayes- Statistik und Ansätzen für die Analyse unscharfer Daten. Springer-Verlag
Arbeit zitieren:
Sina Hagel, Christine Schult, 2001, Zufallsstichproben, Schätzen und Testen anhand von Notenverteilungen, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Sina Hagel hat den Text Zufallsstichproben, Schätzen und Testen anhand von Notenverteilungen veröffentlicht
Sina Hagel hat einen neuen Text hochgeladen
Eine Einführung in Wahrscheinl...
Oskar Anderson, Werner Popp, Horst Stenger, Dieter Steinmetz, Manfred Schaffranek
Übungen zur Wahrscheinlichkeitsrechnung und Schliessenden Statistik
Aufgaben und Lösungen
Peter M. Schulze, Verena Dexheimer
Wahrscheinlichkeitsrechnung und schließende Statistik
Praxisorientierte Einführung. ...
Günther Bourier
0 Kommentare