Prozess-Sicherheit III. Angewandte Statistik mit Excel


Fachbuch, 2018
495 Seiten

Leseprobe

Inhaltsverzeichnis

1 GRUNDLAGEN VON OQM-STAT
1.1 BERECHNUNG GLEICHVERTEILTER PSEUDO-ZUFALLSZAHLEN
1.2 BFGS-VERFAHREN
1.2.1 Anwendungen des BFGS-Solvers
1.3 NUMERISCHES DIFFERENZIEREN
1.4 BESONDERE NÜTZLICHE VBA-FUNKTIONEN

2 DIE PRÜFVERTEILUNGEN
2.1 DIE ZENTRALE T-VERTEILUNG
2.2 DIE NICHTZENTRALE T-VERTEILUNG
2.3 DIE ZENTRALE F-VERTEILUNG
2.4 DIE NICHTZENTRALE F-VERTEILUNG
2.5 DIE ZENTRALE CHI 2-VERTEILUNG
2.6 DIE NICHTZENTRALE CHI 2-VERTEILUNG

3 DIE DISKRETEN WAHRSCHEINLICHKEITSVERTEILUNGEN
3.1 VERTEILUNGEN IM URNENMODELL
3.2 DIE BERNOULLI-VERTEILUNG
3.3 DIE BINOMIAL-VERTEILUNG
3.4 DIE HYPERGEOMETRISCHE VERTEILUNG
3.5 DIE POISSON-VERTEILUNG
3.6 DIE GEOMETRISCHE VERTEILUNG
3.7 DIE NEGATIVE BINOMIAL-VERTEILUNG
3.8 DIE NEGATIVE HYPERGEOMETRISCHE VERTEILUNG

4 FAMILIE DER NORMAL-VERTEILUNGEN
4.1 DIE STANDARDNORMAL-VERTEILUNG(0,1)
4.2 DIE NORMAL-VERTEILUNG
4.3 DIE LOGARITHMISCHE NORMAL-VERTEILUNG
4.4 DIE JOHNSON-VERTEILUNGEN
4.4.1 Die Johnson SB-Transformation
4.4.2 Die Johnson SU-Transformation
4.5 DIE BETRAGSVERTEILUNG 1. ART (FOLDED NORMAL DISTRIBUTION)
4.6 MISCHUNG VON NORMAL-VERTEILUNG
4.7 DIE INVERSE NORMAL-VERTEILUNG
4.8 DIE GESTUTZTE NORMAL-VERTEILUNG (TRUNCATED NORMAL DISTRIBUTION)
4.9 TEST AUF NORMALVERTEILUNG
4.9.1 Der Ryan-Joiner-Test
4.9.2 Der Epps-Pulley Test
4.9.3 Der Jacque-Bera Test
4.9.4 Der Doornik-Hansen-Test
4.9.5 Der Anderson-Darling Test
4.10 TEST AUF AUSREISSER
4.10.1 Ausreißertest nach Grubbs
4.10.2 Der Ausreißertest nach Müller-Neumann-Storm
4.11 TEST AUF AUTOKORRELATION
4.11.1 Neumann Trendtest
4.11.2 Iterationstest (Runs-Test)
4.11.3 Der Phasenhäufigkeitstest
4.11.4 Der Ljung-Box-Test

5 DIE KUMARASWAMY-VERTEILUNG
5.1 DIE ZWEIPARAMETRISCHE KUMARASWAMY-VERTEILUNG
5.2 DIE VIERPARAMETRISCHE KUMARASWAMY-VERTEILUNG

6 DIE BETA- UND GAMMA-VERTEILUNG
6.1 DIE ZENTRALE BETA-VERTEILUNG
6.2 DIE VIERPARAMETRISCHE BETA-VERTEILUNG
6.3 DIE NICHTZENTRALE BETA-VERTEILUNG
6.4 DIE ZENTRALE GAMMA-VERTEILUNG
6.5 DIE ZENTRALE DREIPARAMETRISCHEN GAMMA-VERTEILUNG
6.6 DIE NICHTZENTRALE GAMMA-VERTEILUNG

7 DIE CAUCHY-VERTEILUNG

8 DIE LAPLACE-VERTEILUNG

9 DIE FAMILIE DER LOGISTIC-VERTEILUNGEN
9.1 DIE LOGISTIC-VERTEILUNGEN
9.2 DIE VERALLGEMEINERTE LOGISTIC-VERTEILUNGEN

10 DIE FAMILIE DER LOGLOGISTIC-VERTEILUNGEN
10.1 DIE LOGLOGISTIC-VERTEILUNG
10.2 DIE VERALLGEMEINERTE LOGLOGISTIC-VERTEILUNGEN

11 DIE EXTREMWERT-VERTEILUNGEN
11.1 DIE EXTREMWERT-VERTEILUNGEN DES TYP I
11.1.1 Die max. Gumbel-Verteilung I
11.1.2 Die min. Gumbel-Verteilung I
11.2 DIE EXTREMWERT-VERTEILUNGEN DES TYP II
11.2.1 Die Gumbel-Verteilung Typ II
11.2.2 Die exp. Gumbel-Verteilung II
11.3 EXTREMWERT-VERTEILUNGEN DES TYPS II. FRECHÉT-VERTEILUNGEN
11.3.1 Die einparametrische Fréchet-Verteilung
11.3.2 Die dreiparametrische Fréchet-Verteilung
11.3.3 Die verallgemeinerte Fréchet-Verteilung
11.4 DIE EXTREMWERT-VERTEILUNGEN DES TYPS III
11.4.1 Die einparametrische Exponential-Verteilung
11.4.2 Die zweiparametrische Exponential-Verteilung
11.4.3 Die einparametrische Rayleigh-Verteilung
11.4.4 Die zweiparametrische Rayleigh-Verteilung
11.4.5 Die zweiparametrische Weibull-Verteilung
11.4.6 Die dreiparametrische Weibull-Verteilung
11.4.7 Die Exponentiated Exponential-Verteilung (kurz EE-Verteilung)

12 DIE FAMILIE DER PARETO-VERTEILUNGEN
12.1 DIE PARETO-VERTEILUNG
12.2 DIE VERALLGEMEINERTE PARETO-VERTEILUNG

13 DIE FAMILIE DER GLEICH-VERTEILUNG
13.1 DIE STANDARDISIERTE GLEICH-VERTEILUNG
13.2 DIE ALLGEMEINE GLEICH-VERTEILUNG

14 DIE ALLGEMEINE DREIECK-VERTEILUNG

15 DIE U-QUADRATIC-VERTEILUNG

16 DIE ERLANG-VERTEILUNG

17 ALLGEMEINE FUNKTIONEN

18 GRUNDLEGENDES ZUM ADD-ON OQM-STAT
18.1 INSTALLATION DES ADD-ON OQM-STAT
18.2 DIE MENÜSTRUKTUR VON OQM-STAT
18.3 DIE FORMBLÄTTER

19 ANALYSE STETIGER VARIABLER
19.1 ANALYSE EINES NORMALVERTEILTEN MERKMALS
19.1.1 Die Prüfung auf Normal-Verteilung
19.1.2 Tests auf Autokorrelation der Adhäsion
19.1.3 Ausreißertest der Adhäsion
19.1.4 Die Prozessfähigkeit der Adhäsion
19.2 ANALYSE EINES WEIBULLVERTEILTEN MERKMALS
19.3 BEISPIEL EINER MISCHVERTEILUNG
19.3.1 Expectation-Maximization-Algorithmus
19.4 ALLGEMEINE BEMERKUNGEN ZUR ERMITTLUNG VON PFI

20 ANALYSE DISKRETER VARIABLER
20.1 DIE BERNOULLI-VERTEILUNG
20.2 DIE BINOMIAL-VERTEILUNG
20.3 DIE HYPERGEOMETRISCHE VERTEILUNG
20.4 DIE POISSON-VERTEILUNG
20.5 DIE GEOMETRISCHE VERTEILUNG
20.6 DIE NEGATIVE BINOMIAL-VERTEILUNG
20.7 DIE NEGATIVE HYPERGEOMETRISCHE VERTEILUNG

21 STICHPROBENPLÄNE
21.1 STICHPROBENPLAN FÜR NICHT QUANTITATIVE MERKMALE
21.2 REIHENSTICHPROBENPLAN (CHAIN-SAMPLING INSPECTION PLAN)
21.2.1 Die Operationscharakteristik des Reihenstichprobenplans
21.2.2 Der Durchschlupf des Reihenstichprobenplans
21.2.3 Beispiel eines Reihenstichprobenplans
21.3 SEQUENTIELLER STICHPROBENPLAN FÜR NICHT QUANTITATIVE MERKMALE
21.3.1 Die Operationscharakteristik des Folgeplans
21.3.2 Die ASN des Folgeplans
21.3.3 Das AOQ des Folgeplans
21.3.4 Die ATI des Folgeplans
21.3.5 Ein Beispiel zum Folgeplan
21.4 STICHPROBENPLAN FÜR QUANTITATIVE MERKMALE
21.4.1 Grundlagen der Variablenprüfung
21.4.2 Vor- und Nachteile der Variablenprüfung
21.4.3 Durchführung der Prüfung
21.4.4 Berechnung der Kenngrößen
21.4.5 Ein Beispiel für die Berechun

22 ANOVA STREUUNGSZERLEGUNG (ANALYSIS OF VARIANCE)
22.1 EINFACHE STREUUNGSZERLEGUNG
22.1.1 Die statistische Verfahren
22.1.2 Beispiel: Einfache Streuungszerlegung
22.2 ÄQUIVALENZTESTS
22.2.1 Beispiel: Vergleich zweier Messmethoden
22.3 ZWEIFACHE GEKREUZTE VARIANZANALYSE
22.3.1 Gekreuzte Versuche:
22.3.2 Beispiel: Gewicht von Mäusen
22.4 ZWEIFACHE HIERARCHISCHE VARIANZANALYSE
22.4.1 Hierarchische Versuche:
22.4.2 Beispiel: Adhäsion zur Rückseitenbeschichtung (Release) eines Klebeband
22.5 KLASSISCHE MSA
22.5.1 MSA Verfahren
22.5.2 MSA Verfahren 2 (gekreuzt oder hierarchisch)

23 DIE EINFACHE REGRESSIONSANALYSE
23.1 EINFACHE LINEARE UND QUASILINEARE REGRESSION
23.1.1 Beispiel: Thymusgewicht von Mäusen
23.2 DIE ORTHOGONALE REGRESSION
23.2.1 Beispiel: Nierenfunktionsfiltrat

24 DIE MULTIPLE REGRESSIONSANALYSE
24.1 REGRESSION DURCH DEN URSPRUNG
24.2 REGRESSION FÜR MISCHUNGEN
24.3 POLYNOMIALES REGRESSIONSMODELL
24.4 FAKTORIELLES REGRESSIONSMODELL
24.5 RESPONSE SURFACE REGRESSIONSMODELL
24.6 DISKRIMINANZANALYSE IM ZWEIGRUPPENFALL
24.7 REGRESSIONSANALYSEN MIT INDIKATORVARIABLEN
24.7.1 Beispiel: IR-aktiviertes Klebband
24.7.2 Beispiel: Blutwerte von Männern und Frauen

25 PAARWEISER VERGLEICH
25.1 URTEILSKONSISTENZ
25.2 URTEILSKONKORDANZ

26 BFGS-SOLVER
26.1 BEISPIEL: IR-AKTIVIERTES KLEBBAND VON KAP. 22.7

27 ANWENDER DEFINIERTE FUNKTIONEN (UDF)

28 ABBILDUNGEN UND TABELLEN

29 LITERATURVERZEICHNIS

Einleitung

Im Laufe von Jahren wurden zur Berechnung statistischer Analysen einige VBA-Funktionen entwickelt und programmiert. Diese Funktionen wurden gezielt mit freien VBA-Funktionen1 ergänzt, diese VBA-Funktionen wurden teilweise modifiziert, damit sie universeller anzuwenden waren. Nun entstand die Idee diese VBA-Funktionen in einem MS-Excel® Add-on sinnvoll zusammen zustellen, sodass auch komplexe Analysen durchgeführt werden können. Dieses Add-on mit dem Namen OQM-STAT gibt es nun in der Version 1.7.6 und ist mit Excel 2010 bis Excel 2016 sowohl mit 32 als auch mit 64 Bit anwendbar.

Es gibt verschiedene kommerzielle und freie Statistik-Programme die mit Excel verbunden sind, sowie auch die in Excel verfügbaren Add-ins Analyse-Funktion und Analyse-Funktion-VBA mit denen viele Anwendungsfälle abgedeckt erscheinen. Dies ist aber nur bedingt richtig, weil fast nie eine komplette Analyse in einem Schritt durchgeführt werden kann. Außerdem sind viele Analysen nur mit speziellen Programmen wie z.B. der freien Software R2 durchzuführen. Der Nachteil ist, man muss entweder eine neue komplexe Sprache (z.B. R) lernen oder die Menüstrukturen von Statistik-Programmen studieren. Die Anwendung von Excel ist dagegen bekannt und immer verfügbar, wenn eine kurzfristige Analyse gewünscht wird.

Die Methoden des operativen Qualitätsmanagement (Qualitätssicherung) werden in den meisten Statistik-Programmen nur unzureichend dargeboten. Deshalb füllt OQM-STAT diese Lücke. Im Einzelnen werden folgende Verfahren angeboten.

- Analysen stetiger Verteilungen, weiter unterteilt in die Familie der Normal-Verteilungen, der auf einer normalverteilten Misch-Verteilung, die Betrags-Verteilung I. Art, die Rayleigh- Verteilung auch Betrags-Verteilung II. Art genannt, die Weibull-Verteilung, die Familie beidseitig begrenzter Verteilungen und die Familie der Extremwert-Verteilungen.

-Analysen diskreter Verteilungen, behandelt werden neben der hypergeometrischen Vertei- lung auch die Binomial-Verteilung, die Poisson-Verteilung, die Bernoulli-Verteilung, die geometrische Verteilung, die negative Binomial-Verteilung und die negative hypergeometri- sche Verteilung.
- Stichprobenpläne für diskrete und stetige Merkmale in der Qualitätsprüfung von Fertigung, Wareneingang oder Endprüfung.
- Varianzanalysen (analysis of variance, ANOVA) mit der einfachen Streuungszerlegung inklusive verschiedener Qualitätsregelkarten (QRK), der zweifachen Varianzanalysen mit allen Modellen, der klassischen Mess-System-Analyse (measurement system analysis, MSA) und verschiedener Äquivalenztests.
- Regressionsanalysen mit einfacher linearer und nichtlinearer Regression und nahezu univer- sell einsetzbarer multipler Regression.
- Paarweiser Vergleich ein sensitives Testverfahren für die Planung und Analyse. Es erlaubt die Konsistenz und die Übereinstimmung aller Beurteilungsergebnisse zu analysieren.
- BFGS-Solver der beste Solver für die Lösung nichtlinearer Gleichungssysteme, dabei ist der Solver robust und von hoher numerischer Präzision.

OQM-STAT zeigt eine sehr einfache Menüstruktur, dies war möglich, weil die Analysen komplett durchgeführt werden. Komplett heißt im Falle normalverteilter Messwerte z.B.

- Ausgabe aller deskriptiver Kennwerte mit Konfidenzintervallen
- Prüfung der Werte auf Normalverteilung (fünf verschiedene Tests)
- Prüfung der Werte auf Ausreißer (drei verschiedene Tests)
- Prüfung der Werte auf Unabhängigkeit (vier verschiedene Tests)
- Berechnung von Prozessfähigkeitsindizes (PFI) (drei verschiedene Verfahren)
- Berechnung von Toleranzintervallen und Zufallsstreubereichen
- Berechnung und Ausgabe von Werten der Verteilungsfunktion. Die Liste umfasst:  Zufällige Werte (wie eingegeben)
- Transformierte Werte (falls Werte transformiert wurden)  Sortierte Werte (aufsteigend)
- Standardisierte Werte (Standardnormalverteilung)  Normalrang
- Standardisierter Normalrang
- Dichtefunktionswerte (pdf, probability density function)
- Wahrscheinlichkeitswerte (cdf, cumulative density function)
- Ausgabe von Grafiken (sechs verschiedene wie Histogramm, Q-Q-Plot, P-P-Plot usw.)

Alle Ausgaben können mit den Ediermöglichkeiten von Excel verändert werden, somit können Text und Grafik individuell angepasst werden.

Da große Teile von OQM-STAT mit Funktionen (UDF, user defined function) erstellt wurden, stehen nun dem Anwender weitere Funktionen zur Verfügung. Diese mehr als 680 UDF erweitern Excel um viele statistische Berechnungen und ermöglichen es, diese in eigenen Anwendungen zu nutzen. Das Add-on OQM-STAT wird kontinuierlich weiter entwickelt, ist aber schon jetzt ein mächtiges Werkzeug zur Datenanalyse. Für denjenigen, der statistische Analysen häufig durchführt, wird die- ses Werkzeug nicht ausreichen. Er muss auf ein kommerzielles Statistik-Programm oder R zu grei- fen. Wenn aber nur selten statistische Analysen durchgeführt werden, kann OQM-STAT durchaus die erste Wahl sein. OQM-STAT kann kostenlos auf meiner Web-Seite www.espenhoff.de herunter gela- den werden oder sie senden eine E-Mail an oqm@espenhoff.de.

Mein besonderer Dank gilt H. J. Kusemann, der mich bei der Programmierung mit Rat und Tat unterstützt hat. Ihm verdankt OQM-STAT den BFGS-Solver.

Für Fehler im Handbuch und dem Add-on OQM-STAT, bin ich alleine verantwortlich. Ich freue mich über Kritik, Anregungen und Berichtigungen.

Der Autor des Programms OQM-STAT haftet nicht für Schäden an Soft- oder Hardware oder Vermögensschäden, die durch das Benutzen des Programms und Handbuches entstehen, es sei denn diese beruhen auf einem grobfahrlässigen oder vorsätzlichen Handeln des Autors.

Eckehardt Spenhoff

Holzwickede, den 26 November 2018

Teil I.

Zufallszahlen generieren, Verteilungen, Parameter, Momente, ML-Schätzer, Anpassungstest, BFGS-Solver.

1 Grundlagen von OQM-STAT

Beschrieben werden Funktionen, welche in den verschiedenen Modulen häufig genutzt werden. Sie bilden die Grundlage der Programmierung von OQM-STAT. Zu den Basismodulen gehören einige mathematische häufig verwendete Funktionen (UDF)

1.1 Berechnung gleichverteilter Pseudo-Zufallszahlen

Zur Simulation der Wahrscheinlichkeitsverteilungen werden Pseudo-Zufallszahlen genutzt. Dabei wird nicht der Ecxel-Zufallszahlengenerator verwendet, weil dieser als unzureichend galt. Stattdessen wird der Mersenne Twister, wohl der beste Pseudo-Zufallszahlengenerator, genutzt. Der Mersenne-Twister ist ein Pseudo-Zufallszahlengenerator, der 1997 von Makoto Matsumoto und Takuji Nishimura entwickelt wurde. Er generiert Sequenzen von Pseudo-Zufallszahlen und wurde darauf zugeschnitten, die Probleme älterer Algorithmen zu überwinden (wie z. B. linearer Kongruenzgeneratoren). Die Version, welche verwendet wird, ist die neuere und weit verbreitete Version des Mersenne-Twister MT 19937. Die Eigenschaften sind:

- Die extrem lange Periode von 219937-1. Diese Periodenlänge erklärt auch den Namen des Algorithmus: Sie ist eine Mersenne-Primzahl, und einige Eigenschaften des Algorithmus resultieren daraus.
- Alle Bits der Ausgabesequenz sind gleichverteilt. Somit sind die zurückgelieferten Werte ebenfalls hochgradig gleichverteilt. Daraus folgt eine extrem geringe Korrelation zwischen aufeinander folgenden Wertefolgen der Ausgabesequenz.

Der Algorithmus ist schnell. Er generiert immer 624 neue Zustandswörter auf einmal, was sich auf heutigen SIMD-Architekturen ebenfalls positiv auf die Geschwindigkeit auswirken kann.

Diese Maßnahmen dienen einer gegenüber Excel höheren Präzision der Berechnungen und Simulationen, ohne auf den Komfort von Excel verzichten zu müssen.

1.2 BFGS-Verfahren

Das Broyden-Fletcher-Goldfarb-Shanno (BFGS) Verfahren ist ein numerisches Verfahren zur Lösung von nichtlinearen Optimierungsproblemen. Das Verfahren wurde von den Mathematikern Broyden3, Fletcher4, Goldfarb5 und Shanno6 im Jahre 1970 unabhängig voneinander entwickelt und in vier wissenschaftlichen Artikeln publiziert.

Das BFGS-Verfahren gehört zu der Gruppe der Quasi-Newton-Verfahren. Als solches vermeidet es die direkte Berechnung der Hesse-Matrix, indem es die Hesse-Matrix iterativ approximiert. Das beliebteste und erfolgreichste Quasi-Newton-Verfahren ist die BFGS-Methode. Der Algorithmus ist sehr stabil und er besitzt eine hohe Konvergenzgeschwindigkeit (superlineare), er bietet jedoch keine quadratische Konvergenz wie das Newton-Verfahren. Ein weiterer Vorteil des BFGS-Verfah- rens ist es, dass es keine zweiten Ableitungen berechnet.

Die Quasi-Newton-Verfahren versuchen, die Nachteile (Berechnung zweiter Ableitungen, kostspie- liges Lösen linearer Gleichungssysteme) des Newton-Verfahrens zu vermeiden, ohne die Vorteile (globale Konvergenz durch Einführung von Schrittweiten und automatischer Übergang zum unge- dämpften Verfahren bei gleichmäßig konvexer Zielfunktion, lokal superlineare Konvergenz des ungedämpften Verfahrens) aufzugeben. Insbesondere das zu dieser Klasse gehörende BFGS-Verfah- ren gilt für glatte, nicht zu hochdimensionale unrestringierte Optimierungsaufgaben, bei denen neben den Zielfunktionswerten auch der Gradient zur Verfügung steht, als das anerkanntermaßen beste Minimierungsverfahren. Die Präzision des BFGS-Solver kann gewählt werden, es wird emp- fohlen den Wert auf 0.000001 oder höher zusetzen. Es können maximal 9 Digits Genauigkeit erreicht werden.

Abbildung in dieer Leseprobe nicht enthalten

Die Rosenbrock-Funktion (f(x, y)  (1  x)2 100(y x2)2) ist eine typische Testanwendung für Optimierungsverfahren jedweder Art.

1.2.1 Anwendungen des BFGS-Solvers

Der BFGS-Solver ist ein vielfältig nutzbares Werkzeug zur Lösung von Aufgaben, die in der einen oder anderen Weise zu einem System von mathematischen Gleichungen zusammengefasst werden können. Die Arbeitsweise des Solvers soll hier an einem einfachen Beispiel vorgeführt werden.

Angenommen, es soll eine Fahrt mit einem Auto unternommen werden, die eine Strecke von 600 km umfasst. Als Fahrer wird ein Student über eine studentische Arbeitsvermittlung gewonnen, der pro Stunde 13.20 € erhält (weitere Arbeitskosten entstehen nicht). Nun ist der Benzinverbrauch von Kraftfahrzeugen in hohem Maß abhängig von der Geschwindigkeit. Er lässt sich in einem bestimmten Bereich beschreiben durch die Gleichung

Abbildung in dieer Leseprobe nicht enthalten

Wobei b0 und b1 Konstanten sind, die vom Typ des Kraftfahrzeugs abhängig sind, v steht für die Geschwindigkeit. Von b1 hängt die Steilheit der Verbrauchskurve ab, b0 bestimmt ihren tatsächlichen Betrag. Im vorliegenden Fall wird b0 mit 1.7 und b1 mit 0.015 angesetzt. Die Kosten der Fahrt sind dann so zu veranschlagen:

Abbildung in dieer Leseprobe nicht enthalten

Die benötigte Zeit ist hierbei Strecke / Geschwindigkeit.

Abbildung in dieer Leseprobe nicht enthalten

Die Kosten für die Fahrt hängen offensichtlich von zwei gegensätzlichen Faktoren ab. Je schneller der Fahrer fährt, um so weniger Zeit braucht er, um so geringer sind auch die Arbeitskosten. Gleichzeitig steigt mit zunehmender Geschwindigkeit der Benzinverbrauch, die Treibstoffkosten werden also höher. Dem Solver wird also die Aufgabe gestellt, zu ermitteln, bei welcher Durchschnittsgeschwindigkeit die Kosten für die Fahrt am geringsten sind. Zur Lösung der Aufgabe wird zunächst eine Tabelle erstellt, die so aussieht:

Abbildung in dieer Leseprobe nicht enthalten

Abb. 2 Lösung der optimalen Geschwindigkeit mit dem BFGS-Solver

Nach dem Aufruf des BFGS-Solvers gelangen Sie in ein Dialogfeld, in dem die nötigen Angaben für den Solver gemacht werden müssen. Als veränderlichen Parameter wird die Geschwindigkeit und als zu minimierende Zelle werden die Gesamtkosten definiert.

1.3 Numerisches Differenzieren

Benötigt man die erste Ableitung einer Funktion, verwendet man die ursprüngliche Funktion f(x). Die erste Ableitung fI(x) wird mit folgender Näherung berechnet (Taylorreihe fünften Grades zentral):

Abbildung in dieer Leseprobe nicht enthalten

Für die Präzision der Formel ist ein kritischer Punkt die Wahl der Schrittweite h, diese ist unter anderem abhängig von der numerischen Präzision des Programmes (Excel = 2-52). Deshalb soll das optimale h bestimmt werden. Dazu wird ein Startwert definiert:

Abbildung in dieer Leseprobe nicht enthalten

Aus diesen Ableitungen7 können wir nun hopt gemäß folgender Formel bestimmen.

Abbildung in dieer Leseprobe nicht enthalten

Mit hopt können nun die ersten Ableitungen fI(x) mit großer Präzision (9 bis 12 Stellen) berechnet werden. Ein einfaches Beispiel soll die Anwendung des numerischen Differenzieren demonstrieren. Dabei ist zu beachten, dass die Ausgangsgleichung als Funktion in VBA programmiert werden müssen. Für unser Beispiel lautet die VBA-Funktion (UDF):

Abbildung in dieer Leseprobe nicht enthalten

Abb. 3 UDF für numerisches Differenzieren

Es darf nur der fett dargestellte Ausdruck verändert werden. Das Ergebnis kann nun in einem ExcelTabellenblatt berechnet und dargestellt werden.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 4 Erste Ableitung

Die verfügbaren UDF sind:

UDF - 1 Erste Ableitung: VT_D_1(x, h)

berechnet die erste Ableitung einer Funktion

UDF - 2 Zweite Ableitung: VT_D_2(x, h)

berechnet die zweite Ableitung einer Funktion

UDF - 3 Dritte Ableitung: VT_D_3(x, h)

berechnet die dritte Ableitung einer Funktion

UDF - 4 Vierte Ableitung: VT_D_4(x, h)

berechnet die vierte Ableitung einer Funktion

UDF - 5 Fünfte Ableitung: VT_D_5(x, h)

berechnet die fünfte Ableitung einer Funktion

UDF - 6 Optimale Schrittweite: VT_hopt(x)

berechnet die optimale Schrittweite der Ableitung einer Funktion

UDF - 7 Startschrittweite: VT_hStart(x)

berechnet die Startschrittweite der Ableitung einer Funktion

Dabei ist x der vorgegebene Wert und h die Schrittweite der numerischen Differenzierung.

1.4 Besondere nützliche VBA-Funktionen

Zu den nützlichen VBA-Funktionen gehören die Gamma- und die Beta-Funktionen in den verschiedenen Ausprägungen.

UDF - 8 VT_gamma(x)

berechnet die Gammafunktion, diese Approximation ist für negative (außer für 0, -1, -2, -3, -4, usw.) und positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 5 Darstellung der Gammafunktion

Die Gammafunktion Anwendung findet in vielen Gebieten, u.a. in der Wahrscheinlichkeitsrechnung (Gamma-Verteilung, Beta-Verteilung, Weibull-Verteilung uvm.), in der Integralrechnung und in der Analysis (Lösung von Reihen und Produkten).

UDF - 9 VT_GammaLN(x)

berechnet den Logarithmus der Gammafunktion, diese Approximation ist für negative (außer für 0,

-1, -2, -3, -4, usw.) und positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 6 Darstellung der log. Gammafunktion

UDF - 10 VT_diGamma(x)

berechnet die erste Ableitung der logarithmischen Gammafunktion, diese Approximation ist für negative (außer für 0, -1, -2, -3, -4, usw.) und positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 7 Erste Ableitung der log. Gammafunktion

UDF - 11 VT_triGamma(x)

berechnet die zweite Ableitung der logarithmischen Gammafunktion, diese Approximation ist nur für positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 8 Zweite Ableitung der log. Gammafunktion

UDF - 12 VT_PHI2(x)

berechnet die dritte Ableitung der logarithmischen Gammafunktion, diese Approximation ist nur für positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 9 Dritte Ableitung der log. Gammafunktion

UDF - 13 VT_PHI3(x)

berechnet die vierte Ableitung der logarithmischen Gammafunktion, diese Approximation ist nur für positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 10 Vierte Ableitung der log. Gammafunktion

UDF - 14 VT_PHI4(x)

berechnet die fünfte Ableitung der logarithmischen Gammafunktion, diese Approximation ist nur für positive Werte anwendbar.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 11 Fünfte Ableitung der log. Gammafunktion

UDF - 15 VT_Beta(alpha, beta)

berechnet die Betafunktion für positive Werte > Null.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 12 Darstellung der Betafunktion

UDF - 16 VT_BetaLN(alpha, beta)

berechnet den Logarithmus der Betafunktion für positive Werte > Null.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 13 Darstellung der log. Betafunktion

UDF - 17 VT_incGammaP(alpha, x)

berechnet die unvollständige Gamma-Funktion (incomplete gamma function) für positive Werte > Null.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 14 Darstellung der incomplete Gammafunktion

UDF - 18 VT_incBetaP(alpha, beta, x)

berechnet die incomplete Betafunktion für positive Werte > Null.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 15 Darstellung der incomplete Betafunktion

UDF - 19 VT_erf(x)

berechnet die Fehlerfunktion (error function)

Abbildung in dieer Leseprobe nicht enthalten

Abb. 16 Darstellung der Fehlerfunktion

UDF - 20 VT_inverf(x)

berechnet die inverse Fehlerfunktion (inverse error function)

Abbildung in dieer Leseprobe nicht enthalten

Abb. 17 Darstellung der inv. Fehlerfunktion

2 Die Prüfverteilungen

Zu den Prüfverteilungen gehören die zentralen und nichtzentralen t-Verteilungen, F-Verteilungen und Chi2-Verteilungen. Mit den Prüfverteilungen ist es möglich Vertrauensbereiche (Konfidenzintervalle) von Verteilungsparametern zu berechnen. Die meisten verteilungsgebundenen Test zur Prüfung von statistischen Hypothesen sind nur durch die Verwendung dieser Prüfverteilungen möglich. Einige sind als Tabellen in Fachbüchern zu finden, andere können aufgrund ihrer komplexen Struktur nicht tabelliert werden. Heute können diese Prüfverteilungen mit guten Approximationen und numerischen Methoden auf jeden PC mit mehr als 12 Stellen Genauigkeit berechnet werden. Das Add-on OQM-STAT liefert dazu entsprechende Ergebnisse.

2.1 Die zentrale t-Verteilung

Die t-Verteilung wird dort eingesetzt, wo ein unbekannter Parameter (wie beispielsweise der Mittel- wert) geschätzt werden soll, in einer Situation, in der die Beobachtungen durch additive Fehler ver- zerrt sind. Die Summe aus tatsächlichem Wert und Fehlerwert ergibt den Messwert. Das Modell der additiven Fehler ist das beliebteste in der Statistik. In fast allen statistischen Untersuchungen ist die Standardabweichung der Grundgesamtheit dieser Fehler unbekannt und muss aus den Daten geschätzt werden. Die t-Verteilung wird dabei häufig verwendet, um diese Fehler zu kompensieren. Wäre allerdings die Standardabweichung der Fehler bekannt, so würde in der Regel die Normalver- teilung statt der t-Verteilung verwendet werden. Beispiel der Vertrauensbereich des Mittelwertes:

Abbildung in dieer Leseprobe nicht enthalten

Abb. 18 Histogramm einer t-Verteilung

Funktionen der zentralen t-Verteilung

UDF - 21 pdf_tdist(x, df)

berechnet die Dichte der t-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

UDF - 22 cdf_tdist(x, df)

berechnet die Summenfunktion der t-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

UDF - 23 inv_tdist(prob, df)

berechnet den inversen Wert der Summenfunktion der t-Verteilung.

Abbildung in dieer Leseprobe nicht enthalten

mit I-1 als Inverse der regularisierten unvollstandigen Betafunktion

UDF - 24 VT_rand_t(df)

berechnet Zufallswerte der t-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

Die Werte U[NV(0,1)] stehen für Zufallswerte einer Standardnormal-Verteilung und U ✪ (N) stehen für Zufallswerte einer Chi2-Verteilung. Diese Pseudo-Zufallszahlen werden mit dem MersenneTwister erzeugt.

2.2 Die nichtzentrale t-Verteilung

Ist der Zähler der t-verteilten Zufallsvariablen normalverteilt mit einem Erwartungswert ✙ ! 0, handelt es sich um eine so genannte nichtzentrale t-Verteilung mit dem Nichtzentralitätsparameter ✙✁ ✑$ n. Diese Verteilung wird vor allem zur Bestimmung des Beta-Fehlers bei Hypothesentests mit t-verteilter Prüfgröße verwendet.

Funktionen der nichtzentralen t-Verteilung

UDF - 25 pdf_t_nc(x, df, nc)

berechnet die Dichte der nichtzentralen t-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 26 cdf_t_nc(x, df, nc)

berechnet die Summenfunktion der nichtzentralen t-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 27 comp_cdf_t_nc(x, df, nc)

berechnet das Komplement der Summenfunktion der nichtzentralen t-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 28 inv_t_nc(prob, df, nc)

berechnet den inversen Wert der Summenfunktion der nichtzentralen t-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 29 comp_inv_t_nc(prob, df, nc)

berechnet den inversen Wert vom Komplement der Summenfunktion der nichtzentralen t-Vertei- lung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 30 ncp_t_nc(prob, x, df)

berechnet den Nichtzentralitätsparameter aus der Summenfunktion der nichtzentralen t-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 31 comp_ncp_t_nc(prob, x, df)

berechnet den Nichtzentralitätsparameter aus dem Komplement der Summenfunktion der nichtzentralen t-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

2.3 Die zentrale F-Verteilung

Die F-Verteilung (nach R.A. Fisher benannt) ist relevant für die Berechnung der Verhältnisse von Varianzen für normalverteilte Werte. Nehmen wir an, wir haben zwei Stichproben mit n1 und n2 Beobachtungen. Das Verhältnis der Varianzen dieser Stichproben

Abbildung in dieer Leseprobe nicht enthalten

ist nach einer F-Verteilung verteilt, mit fg1 = n1-1 Freiheitsgraden für den Zähler des Quotienten und mit fg2 = n2-1 Freiheitsgraden für den Nenner. Die F-Verteilung ist nach rechts verschoben und die F-Werte können nur positiv sein.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 19 Histogramm einer F-Verteilung

Funktionen der zentralen F-Verteilung

UDF - 32 pdf_fdist(x, df1, df2)

berechnet die Dichte der F-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

UDF - 33 cdf_fdist(x, df1, df2)

berechnet die Summenfunktion der F-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

UDF - 34 comp_cdf_fdist(x, df1, df2)

berechnet das Komplement der Summenfunktion der F-Verteilung

UDF - 35 inv_fdist(prob, df1, df2)

berechnet den inversen Wert der Summenfunktion der F-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

mit I-1als Inverse der regularisierten unvollständigen Betafunktion

UDF - 36 comp_inv_fdist(prob, df1, df2)

berechnet den inversen Wert vom Komplement der Summenfunktion der F-Verteilung.

UDF - 37 VT_rand_F(df1, df2)

berechnet Zufallswerte der F-Verteilung

Abbildung in dieer Leseprobe nicht enthalten

Die Werte U ✪(N) -Verteilung. Diese Pseudo-Zufallszahlen wer-stehen für Zufallswerte einer Chi2 den mit dem Mersenne-Twister erzeugt.

2.4 Die nichtzentrale F-Verteilung

Der nichtzentrale Parameter ändert die Form der F-Verteilung in der Analyse der Varianz, falls die Behandlung im Versuch sofortige Effekte auf die Grundgesamtheit hat. Eine typische Anwendung ist der Zweistichprobentest auf Äquivalenz dabei ist nc:

Abbildung in dieer Leseprobe nicht enthalten

Funktionen der nichtzentralen F-Verteilung

UDF - 38 pdf_fdist_nc(x, df1, df2, nc)

berechnet die Dichte der nichtzentralen F-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 39 cdf_fdist_nc(x, df1, df2, nc)

berechnet die Summenfunktion der nichtzentralen F-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 40 comp_cdf_fdist_nc(x, df1, df2, nc)

berechnet das Komplement der Summenfunktion der nichtzentralen F-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 41 inv_fdist_nc(prob, df1, df2, nc)

berechnet den inversen Wert der Summenfunktion der nichtzentralen F-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 42 comp_inv_fdist_nc(prob, df1, df2, nc)

berechnet den inversen Wert vom Komplement der Summenfunktion der nichtzentralen F-Vertei- lung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 43 ncp_fdist_nc(prob, x, df1, df2)

berechnet den Nichtzentralitätsparameter aus der Summenfunktion der nichtzentralen F-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 44 comp_ncp_fdist_nc(prob, x, df1, df2)

berechnet den Nichtzentralitätsparameter aus dem Komplement der Summenfunktion der nichtzentralen F-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

2.5 Die zentrale Chi2-Verteilung

Die Chi2-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der positiven reellen Zahlen. Im Allgemeinen ist die zentrale Chi2-Verteilung gemeint. Ihr einziger Parameter n kann, muss aber nicht, eine natürliche Zahl sein und heißt Freiheitsgrad. Die Chi2-Verteilung ist eine so genannte Stichprobenverteilung, die bei der Schätzung von Verteilungsparametern, beispielsweise der Varianz, Anwendung findet. Man benutzt sie zur Beschreibung der Summe unabhängiger quadrierter standardnormalverteilter Zufallsvariablen.

Abbildung in dieer Leseprobe nicht enthalten

Abb. 20 Histogramm einer Chi2-Verteilung

Funktionen der zentralen Chi2-Verteilung

UDF - 45 pdf_chi_sq(x, df)

berechnet die Dichte der Chi2-Verteilung.

Abbildung in dieer Leseprobe nicht enthalten

UDF - 46 cdf_chi_sq(x, df)

berechnet die Summenfunktion der Chi2-Verteilung.

Abbildung in dieer Leseprobe nicht enthalten

UDF - 47 comp_cdf_chi_sq(x, df)

berechnet das Komplement der Summenfunktion der Chi2-Verteilung.

UDF - 48 inv_chi_sq(prob, df)

berechnet den inversen Wert der Summenfunktion der Chi2-Verteilung.

Abbildung in dieer Leseprobe nicht enthalten

UDF - 49 comp_inv_chi_sq(prob, df)

berechnet den inversen Wert vom Komplement der Summenfunktion der Chi2-Verteilung.

UDF - 50 VT_rand_Chiq(df)

berechnet Zufallswerte der Chi2-Verteilung.

x  2✄1 Die Werte U( ,1)

Abbildung in dieer Leseprobe nicht enthalten

Die Werte stehen für Zufallswerte einer Gleich-Verteilung zwischen 0 und 1. Diese PseU(0,1) udo- Zufallszahlen werden mit dem Mersenne-Twister erzeugt.

2.6 Die nichtzentrale Chi2-Verteilung

In der Wahrscheinlichkeitstheorie und der Statistik ist die nichtzentrale Chi2-Verteilung eine Verall- gemeinerung der Chi2-Verteilung. Diese Verteilung entstand in der Power Analysis von statistischen Tests; ein Beispiel dafür sind die Likelihood Ratio Tests. Die nichtzentrale Chi2-Verteilung hat zwei Parameter fg (Freiheitsgrad) und ✘ (Nichtzentralität).

Abbildung in dieer Leseprobe nicht enthalten

Funktionen der nichtzentralen Chi2-Verteilung

UDF - 51 pdf_Chi2_nc(x, df, nc)

berechnet die Dichte der nichtzentralen Chi2-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 52 cdf_Chi2_nc(x, df, nc)

berechnet die Summenfunktion der nichtzentralen Chi2-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 53 comp_cdf_Chi2_nc(x, df, nc)

berechnet das Komplement der Summenfunktion der nichtzentralen Chi2-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 54 inv_Chi2_nc(prob, df, nc)

berechnet den inversen Wert der Summenfunktion der nichtzentralen Chi2-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 55 comp_inv_Chi2_nc(prob, df, nc)

berechnet den inversen Wert vom Komplement der Summenfunktion der nichtzentralen Chi2-Ver- teilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 56 ncp_Chi2_nc(prob, x, df)

berechnet den Nichtzentralitätsparameter aus der Summenfunktion der nichtzentralen Chi2-Vertei- lung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

UDF - 57 comp_ncp_Chi2_nc(prob, x, df)

berechnet den Nichtzentralitätsparameter aus dem Komplement der Summenfunktion der nichtzentralen Chi2-Verteilung. Diese Funktion lässt sich nicht in geschlossener Form darstellen.

3 Die diskreten Wahrscheinlichkeitsverteilungen

Die Wahrscheinlichkeitsverteilungen werden in der Wahrscheinlichkeitstheorie und Statistik ver- wendet, um anzugeben, wie sich die Wahrscheinlichkeiten auf die möglichen Zufallsergebnisse, ins- besondere die möglichen Werte einer Zufallsvariablen, verteilen. Sie erfassen bzw. quantifizieren den Zufall in einem stochastischen Vorgang. Die Wahrscheinlichkeitsverteilung ist in der Wahr- scheinlichkeitsrechnung das theoretische Modell zur Häufigkeitsverteilung, die in der deskriptiven Statistik aus empirischen Daten, also Messwerten erstellt wird. Man unterscheidet zwischen diskre- ten Verteilungen, die sich auf eine endliche oder abzählbare Menge konzentrieren und stetigen (kontinuierlichen) Verteilungen, die beliebige Werte annehmen. Beispiele für diskrete Wahrschein- lichkeitsverteilungen sind:

- die Bernoulli-Verteilung,  die Binomial-Verteilung,
- die Hypergeometrische Verteilung,  die Poisson-Verteilung,
- die Geometrische Verteilung,
- die Negative Binomial-Verteilung,
- die Negative Hypergeometrische Verteilung.

Allen diskreten Wahrscheinlichkeitsverteilungen gemein sind die Verteilungsfunktionen. Da sind zu nennen:

- Die Einzelwahrscheinlichkeit (probability mass function, pmf), sie gibt die Wahrscheinlich- keit für das Eintreffen eines bestimmten Ereignisses an.
- Die Summenwahrscheinlichkeit (cumulative density function, cdf), sie gibt die kumulierte Wahrscheinlichkeit bis einschließlich eines bestimmten Ereignisses an.
- Die Komplementwahrscheinlichkeit (1- cumulative density function, comp_cdf), sie ist defi- niert als Komplement zur Summenwahrscheinlichkeit.
- Die Zufallsstreubereiche (critical values, crit and comp_crit) geben die kritischen Werte der Wahrscheinlichkeitsverteilung an, sie können als Eingriffsgrenzen in der Regelkartentechnik verwendet werden.
- Die Vertrauensbereiche (confidence interval, lcb and ucb) geben die Bereiche an, in denen Ereignisse oder Parameter mit großer Wahrscheinlichkeit liegen.
- Die Momente der Wahrscheinlichkeitsverteilung (mean, variance, skewness, kurtosis) geben charakteristische Kenngrößen an.

Alle diese Werte werden präziser berechnet, als es üblicher Weise in Excel geschieht. Deshalb können die Ergebnisse der Berechnungen als exakt gelten.

Zur Simulation der Wahrscheinlichkeitsverteilungen werden Pseudo-Zufallszahlen genutzt. Dabei wird nicht der Ecxel-Zufallszahlengenerator verwendet, weil dieser mehr als unzureichend ist. Stattdessen wird der Mersenne Twister, wohl der beste Zufallszahlengenerator, genutzt. Der MersenneTwister ist ein Pseudo-Zufallszahlengenerator, der 1997 von Makoto Matsumoto und Takuji Nishimura entwickelt wurde. Er generiert Sequenzen von Pseudo-Zufallszahlen und wurde darauf zugeschnitten, die Probleme älterer Algorithmen zu überwinden (wie z. B. linearer Kongruenzgeneratoren). Die Version, welche verwendet wird, ist die neuere und weit verbreitete Version des Mersenne-Twister MT 19937. Die Eigenschaften sind:

- die extrem lange Periode von 219937-1. Diese Periodenlänge erklärt auch den Namen des Algorithmus: Sie ist eine Mersenne-Primzahl, und einige Eigenschaften des Algorithmus resultieren daraus.
- Alle Bits der Ausgabesequenz sind gleichverteilt. Somit sind die zurückgelieferten Werte ebenfalls hochgradig gleichverteilt. Daraus folgt eine extrem geringe Korrelation zwischen aufeinander folgenden Wertefolgen der Ausgabesequenz.
- Der Algorithmus ist schnell. Er generiert immer 624 neue Zustandswörter auf einmal, was sich auf heutigen SIMD-Architekturen ebenfalls positiv auf die Geschwindigkeit auswirken kann.

Diese Maßnahmen dienen einer gegenüber Excel höheren Präzision der Berechnungen und Simulationen, ohne auf den Komfort von Excel verzichten zu müssen.

3.1 Verteilungen im Urnenmodell

Das Urnenmodell ist ein geeignetes Hilfsmittel zur Erklärung einer Vielzahl diskreter Verteilungen. Eine Urne enthält N gleich große und schwere Kugeln, die sich nur durch ihre Farbe unterscheiden. Die Kugeln müssen mindestens zwei Ausprägungen des Merkmals Farbe aufweisen. Der gut gemischten Urne werden zufällig Kugeln entnommen. Je nach Art der Urnenzusammensetzung (zwei oder mehr Farben), in Verbindung mit der Art der Kugelentnahme und dem Abbruchkriterium für die Kugelentnahme gelangt man zu verschiedenen Zufallsvariablen und zugehöriger Verteilung. Die Urnenzusammensetzung bestimmt die Dimension der Zufallsvariablen:

Abbildung in dieer Leseprobe nicht enthalten

Die Art der Kugelentnahme bestimmt, ob die Stichprobenzüge voneinander abhängig oder unabhän- gig sind:

Abbildung in dieer Leseprobe nicht enthalten

Das Abbruchkriterium besagt, ob man

- nach einer festen Zahl n (n > 0) gezogener Kugeln aufhört (Dann ist die Zufallsvariable die auf jede Kategorie entfallende Anzahl Kugeln in der Stichprobe. Man interessiert sich für die Zusammensetzung der Stichprobe.) oder
- nach Erreichung einer festgelegten Anzahl c von Kugeln einer bestimmten Kategorie die Zie- hung beendet. (Dann ist der Stichprobenumfang die interessierende Zufallsvariable.)

3.2 Die Bernoulli-Verteilung

Gemäß dem Urnenschema ziehen wir eine Stichprobe von n = 1 Kugeln aus einer dichotomen Urne (m = 2 Kategorien). Im Normalfall müssen wir den Begriff der Urne durch Grundgesamtheit (Population) ersetzen. Die Kugeln stehen ganz allgemein für Merkmalsträger oder Einheiten.

Abbildung in dieer Leseprobe nicht enthalten

Aus einem einzigen Versuch lassen sich keine Rückschlüsse auf den Anteil roter Kugeln ziehen. Dazu bedarf es mehrerer Versuche k, dabei gilt je größer die Anzahl der Versuche k um so präziser kann der Anteil P berechnet werden. Man nennt die mehreren unabhängigen Versuche auch Bernoulli-Prozess. Die beste Schätzung des Parameters p ergibt sich durch:

Abbildung in dieer Leseprobe nicht enthalten

Die Momente und Kennwerte ergeben sich aus dem Parameter p gemäß folgender Formeln:

Abbildung in dieer Leseprobe nicht enthalten

Zufallszahlen können einfach erzeugt werden, es sei Z π R(0;1) dann ist:

Abbildung in dieer Leseprobe nicht enthalten

Genutzte VBA-Funktionen

UDF - 58 VT_rand_Bernoulli(p)

berechnet Zufallswerte einer Bernoulli-Verteilung, wobei P die Erfolgswahrscheinlichkeit ist.

UDF - 59 VT_MLE_Bernoulli_P(x)

berechnet aus den Ereigniszahlen x eines Bernoulli-Prozesses die Erfolgswahrscheinlichkeit P. Die x sollten in einer Spalte hintereinander stehen.

UDF - 60 VT_Mom_Bernoulli_EW(p)

berechnet den Erwartungswert (✙) einer Bernoulli-Verteilung, wobei P die Erfolgswahrscheinlich- keit ist.

UDF - 61 VT_Mom_Bernoulli_Var(p)

berechnet die Varianz (✤2) einer Bernoulli-Verteilung, wobei P die Erfolgswahrscheinlichkeit ist.

UDF - 62 VT_Mom_Bernoulli_Skew(p)

berechnet die Schiefe (✏1 ) einer Bernoulli-Verteilung, wobei P die Erfolgswahrscheinlichkeit ist.

UDF - 63 VT_Mom_Bernoulli_Kurt(p)

berechnet die Wölbung (✏2 ) einer Bernoulli-Verteilung, wobei P die Erfolgswahrscheinlichkeit ist.

3.3 Die Binomial-Verteilung

Die Binomial-Verteilung ist ein Bernoulli-Prozess der nach n Ziehungen beendet wird. Das Urnenmo- dell lautet: Ziehen mit Zurücklegen bestimmt die binomialverteilte Zufallsvariable. Dadurch bleiben die Erfolgswahrscheinlichkeit p konstant und die Ziehungen unabhängig. Bei großen Grundgesamthei- ten G und kleinen Stichproben kann auf das Zurücklegen verzichtet werden, wenn n [ 0.1N ist. Die Parameter sind n und p. Der Parameter n m 1 gibt den Stichprobenumfang des Zufallsexperiments an, p die Wahrscheinlichkeit für das Auftreten eines Ereignisses bei einem einzelnen Versuch. Bei einem Zufallsexperiment wird n als bekannt und p als unbekannter Parameter vorausgesetzt.

Abbildung in dieer Leseprobe nicht enthalten

Die Momente und Kennwerte ergeben sich aus dem Parameter n und p gemäß folgender Formeln:

Abbildung in dieer Leseprobe nicht enthalten

Zufallszahlen können einfach erzeugt werden, es sei Z π R(0;1) dann ist:

- Generiere n Bernoulli-Versuche mit

Abbildung in dieer Leseprobe nicht enthalten

- Bilde die Summe

Abbildung in dieer Leseprobe nicht enthalten

Die Einzelwahrscheinlichkeit (pmf) und Summenwahrscheinlichkeit (cdf) errechnen sich aus:

Abbildung in dieer Leseprobe nicht enthalten

Abb. 21 Stabdiagramm einer Binomial-Verteilung

Genutzte VBA-Funktionen

UDF - 64 VT_rand_Binomial(p, n)

berechnet Zufallswerte einer Binomial-Verteilung, wobei P die Erfolgswahrscheinlichkeit ist.

UDF - 65 VT_Mom_Binomial_EW(p, n)

berechnet den Erwartungswert (✙) einer Binomial-Verteilung, wobei P die Erfolgswahrscheinlichkeit und n der Stichprobenumfang ist.

UDF - 66 VT_Mom_Binomial_Var(p, n)

berechnet die Varianz (✤2) einer Binomial-Verteilung, wobei P die Erfolgswahrscheinlichkeit und n der Stichprobenumfang ist.

UDF - 67 VT_Mom_Binomial_Skew(p, n)

berechnet die Schiefe (✏1 ) einer Binomial-Verteilung, wobei P die Erfolgswahrscheinlichkeit und n der Stichprobenumfang ist.

UDF - 68 VT_Mom_Binomial_Kurt(p, n)

berechnet die Wölbung (✏2 ) einer Binomial-Verteilung, wobei P die Erfolgswahrscheinlichkeit und n der Stichprobenumfang ist.

UDF - 69 pmf_binomial(n, x, p)

berechnet die Wahrscheinlichkeit für das Eintreffen des Ereignisses x, bei einen Stichprobenumfang n und einer Erfolgswahrscheinlichkeit P.

UDF - 70 cdf_binomial(n, x, p)

berechnet die Wahrscheinlichkeit für das Eintreffen aller Ereignisse bis einschließlich x, bei einen Stichprobenumfang n und einer Erfolgswahrscheinlichkeit P.

UDF - 71 comp_cdf_binomial(n, x, p)

berechnet die Wahrscheinlichkeit für das Eintreffen aller Ereignisse größer x, bei einen Stichprobenumfang n und einer Erfolgswahrscheinlichkeit P.

UDF - 72 crit_binomial(n, p, alpha)

berechnet den unteren Grenzwert des Zufallsstreubereiches, mit Stichprobenumfang n, Erfolgswahrscheinlichkeit P und Überschreitungswahrscheinlichkeit alpha.

UDF - 73 comp_crit_binomial(n, p, alpha)

berechnet den oberen Grenzwert des Zufallsstreubereiches, mit Stichprobenumfang n, Erfolgswahrscheinlichkeit P und Überschreitungswahrscheinlichkeit alpha.

UDF - 74 lcb_binomial(n, x, alpha)

berechnet den unteren Grenzwert des Vertrauensbereiches, mit Stichprobenumfang n, Erfolgen x und Irrtumswahrscheinlichkeit alpha.

UDF - 75 ucb_binomial(n, x, alpha)

berechnet den oberen Grenzwert des Vertrauensbereiches, mit Stichprobenumfang n, Erfolgen x und Irrtumswahrscheinlichkeit alpha.

3.4 Die Hypergeometrische Verteilung

Die Hypergeometrische Verteilung ist ein Bernoulli-Prozess der nach n Ziehungen beendet wird. Das Urnenmodell lautet: Ziehen ohne Zurücklegen bestimmt die hypergeometrischverteilte Zufallsvariable. Die Erfolgswahrscheinlichkeit p ändert sich nach jeder Ziehung und jedem Erfolg. Bei großen Grundgesamtheiten G und kleinen Stichproben n, wenn n [ 0.1N kann die Hypergeometrische Verteilung durch die Binomial-Verteilung approximiert werden. Die Parameter sind n und N und M. Der Parameter n m 1 gibt den Stichprobenumfang des Zufallsexperiments an, N die Grundgesamtheit und M die Anzahl roter Kugeln. p die Wahrscheinlichkeit für das Auftreten eines Ereignisses bei einem einzelnen Versuch ergibt sich aus: p = M/N. Bei einem Zufallsexperiment wird n und N als bekannt und M als unbekannter Parameter vorausgesetzt.

Abbildung in dieer Leseprobe nicht enthalten

Die Momente und Kennwerte ergeben sich aus dem Parameter p  M/N gemäß folgender Formeln:

Abbildung in dieer Leseprobe nicht enthalten

Zufallszahlen können einfach erzeugt werden, es sei Z π R(0;1) dann ist:

Abbildung in dieer Leseprobe nicht enthalten

Die Einzelwahrscheinlichkeit (pmf) und Summenwahrscheinlichkeit (cdf) errechnen sich aus:

Abbildung in dieer Leseprobe nicht enthalten

Abb. 22 Stabdiagramm einer Hypergeometrischen Verteilung

Genutzte VBA-Funktionen

UDF - 76 VT_rand_Hypergeometric(N, G, M)

berechnet Zufallswerte einer Hypergeometrischen Verteilung, wobei N der Stichprobenumfang, G die Anzahl der Grundgesamtheit und M die Anzahl der Merkmalsträger ist.

UDF - 77 VT_Mom_HypGeo_EW(p, n)

berechnet den Erwartungswert (✙) einer Hypergeometrischen Verteilung, wobei P = M/N die Erfolgswahrscheinlichkeit und n der Stichprobenumfang ist.

UDF - 78 VT_Mom_HypGeo_Var(p, n, G)

berechnet die Varianz (✤2) einer Hypergeometrischen Verteilung, wobei P = M/N die Erfolgswahrscheinlichkeit, n der Stichprobenumfang und G die Grundgesamtheit ist.

UDF - 79 VT_Mom_HypGeo_Skew(p, n, G)

berechnet die Schiefe (✏1 ) einer Hypergeometrischen Verteilung, wobei P = M/N die Erfolgswahrscheinlichkeit, n der Stichprobenumfang und G die Grundgesamtheit ist.

UDF - 80 VT_Mom_HypGeo_Kurt(p, n, G)

berechnet die Wölbung (✏2 ) einer Hypergeometrischen Verteilung, wobei P = M/N die Erfolgswahrscheinlichkeit, n der Stichprobenumfang und G die Grundgesamtheit ist.

UDF - 81 pmf_hypergeometric(x, n, M, G)

berechnet die Wahrscheinlichkeit für das Eintreffen des Ereignisses x, bei einen Stichprobenumfang n, Anzahl Merkmalsträger M und einer Grundgesamtheit G.

UDF - 82 cdf_hypergeometric(x, n, M, G)

berechnet die Wahrscheinlichkeit für das Eintreffen aller Ereignisse bis einschließlich x, bei einen Stichprobenumfang n, Anzahl Merkmalsträger M und einer Grundgesamtheit G.

UDF - 83 comp_cdf_hypergeometric(x, n, M, G)

berechnet die Wahrscheinlichkeit für das Eintreffen aller Ereignisse größer x, bei einen Stichprobenumfang n, Anzahl Merkmalsträger M und einer Grundgesamtheit G.

UDF - 84 crit_hypergeometric(n, M, G, alpha)

berechnet den unteren Grenzwert des Zufallsstreubereiches, mit Stichprobenumfang n, Anzahl Merkmalsträger M, einer Grundgesamtheit G und Überschreitungswahrscheinlichkeit alpha.

UDF - 85 comp_crit_hypergeometric(n, M, G, alpha)

berechnet den oberen Grenzwert des Zufallsstreubereiches, mit Stichprobenumfang n, Anzahl Merkmalsträger M, einer Grundgesamtheit G und Überschreitungswahrscheinlichkeit alpha.

UDF - 86 lcb_hypergeometric(x, n, G, alpha)

berechnet den unteren Grenzwert des Vertrauensbereiches, mit Ereignis x, Stichprobenumfang n, Grundgesamtheit G und Irrtumswahrscheinlichkeit alpha.

UDF - 87 ucb_hypergeometric(x, n, G, alpha)

berechnet den oberen Grenzwert des Vertrauensbereiches, mit Ereignis x, Stichprobenumfang n, Grundgesamtheit G und Irrtumswahrscheinlichkeit alpha.

3.5 Die Poisson-Verteilung

Die Poisson-Verteilung bezieht sich auf die Auszählung von Merkmalen auf eine Flächen-, Raumoder Zeiteinheit. Es gilt, ist der Gegenstand der Auszählung in Fläche, Raum und/oder Zeit ein ungefähr gleich verteiltes Merkmal, so heißt die Zufallsvariable X poissonverteilt, die Dichtefunktion zum Experiment heißt Dichtefunktion zur Poisson-Verteilung. Poisson-Verteilung gehört zum Experiment Zählung der Vorkommnisse eines Ereignisses x pro Flächen- Raum- oder Zeiteinheit, wobei der Erwartungswert für die Anzahl gleich µ ist.

Abbildung in dieer Leseprobe nicht enthalten

Für P < 0.1 und n > 29 und N < 0.1 ist die hypergeometrische Verteilung durch die Poisson-Vertei- lung mit

Abbildung in dieer Leseprobe nicht enthalten

zu approximieren. Die Momente und Kennwerte ergeben sich aus dem Parameter ✙ gemäß folgender Formeln:

Abbildung in dieer Leseprobe nicht enthalten

Zufallszahlen können einfach erzeugt werden, es sei Z π R(0;1) und wir initialisieren:

Abbildung in dieer Leseprobe nicht enthalten

Die Einzelwahrscheinlichkeit (pmf) und Summenwahrscheinlichkeit (cdf) errechnen sich aus:

Abbildung in dieer Leseprobe nicht enthalten

Abb. 23 Stabdiagramm einer Poisson-Verteilung

Genutzte VBA-Funktionen

UDF - 88 VT_rand_Poisson(µ)

berechnet Zufallswerte einer Poisson-Verteilung, µ die mittlere Anzahl der Merkmalsträger pro Ein- heit ist.

UDF - 89 VT_Mom_Poisson_EW(µ)

berechnet den Erwartungswert (✙) einer Poisson-Verteilung, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 90 VT_Mom_Poisson_Var(µ)

berechnet die Varianz (✤2) einer Poisson-Verteilung, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 91 VT_Mom_Poisson_Skew(µ)

berechnet die Schiefe (✏1 ) einer Poisson-Verteilung, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 92 VT_Mom_Poisson_Kurt(µ)

berechnet die Wölbung (✏2 ) einer Poisson-Verteilung, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 93 pmf_poisson(µ, x)

berechnet die Wahrscheinlichkeit für das Eintreffen des Ereignisses x, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 94 cdf_poisson (µ, x)

berechnet die Wahrscheinlichkeit für das Eintreffen aller Ereignisse bis einschließlich x, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 95 comp_cdf_poisson (µ, x)

berechnet die Wahrscheinlichkeit für das Eintreffen aller Ereignisse größer x, wobei µ die mittlere Anzahl der Merkmale pro Einheit ist.

UDF - 96 crit_poisson(µ, alpha)

berechnet den unteren Grenzwert des Zufallsstreubereiches, wobei µ die mittlere Anzahl der Merkmale pro Einheit und alpha die Überschreitungswahrscheinlichkeit ist.

UDF - 97 comp_crit_poisson(µ, alpha)

berechnet den oberen Grenzwert des Zufallsstreubereiches, wobei µ die mittlere Anzahl der Merkmale pro Einheit und alpha die Überschreitungswahrscheinlichkeit ist.

UDF - 98 lcb_poisson(x, alpha)

berechnet den unteren Grenzwert des Vertrauensbereiches, mit Ereignis x und Irrtumswahrscheinlichkeit alpha.

UDF - 99 ucb_poisson(x, alpha)

berechnet den oberen Grenzwert des Vertrauensbereiches, mit Ereignis x und Irrtumswahrscheinlichkeit alpha.

3.6 Die Geometrische Verteilung

Die Geometrische Verteilung ist eine einparametrische, diskrete Verteilung. Der Parameter p der Geometrischen Verteilung ist eine Wahrscheinlichkeit und darf dementsprechend nur Werte zwischen 0 und 1 annehmen. Geometrische Verteilungen werden auch unter Bezeichnungen wie Verteilung des Wartens auf den ersten Erfolg vorgestellt. Sie sind das diskrete Pendant zu den Exponential-Verteilungen.

Abbildung in dieer Leseprobe nicht enthalten

Die Momente und Kennwerte ergeben sich aus dem Parameter p gemäß folgender Formeln:

Abbildung in dieer Leseprobe nicht enthalten

Die Binomial-Verteilung und die Hypergeometrische Verteilung sind, in Falle n = 1 gleich der Bernoulli-Verteilung, es gibt also keinen Unterschied.

Beispiele für Anwendungen

Neugeborene in einer Klinik stellen einen Bernoulli-Prozess dar, wobei das Geschlecht 0 und 1 kodiert wird. Bei einer Endprüfung bei einem Autohersteller ergibt sich ein weiterer Bernoulli-Pro- zess, wobei die Kodierung lautet Auto fehlerhaft = 1 und Auto fehlerfrei = 0. Ein anderer Bernoulli- Prozess ergibt sich, wenn Kunden anrufen und eine Bestellung aufgeben (1) oder ein sonstiges Anliegen haben (0). Bernoulli-Verteilungen können beobachtet werden, wenn ein zufälliger Prozess exakt zwei Ergebnisse hat, wie z.B. in der Qualitätssicherung, wo ein Produkt als gut oder schlecht klassifiziert werden kann.

[...]


1 Smith, Ian http://members.aol.com/iandjmsmith/examples.xls, Version 3.2.6 2002-2006 (ist im Internet nicht mehr verfügbar) und Annen, Kurt WEB_REG_MT19937, 2011 http://www.web-reg.de

2 R ist eine freie Programmiersprache für statistische Berechnungen und Grafiken. Sie wurde von Statistikern für Anwender mit sta- tistischen Aufgaben entwickelt. Als Standarddistribution kommt R mit einem Interpreter als Kommandozeilenumgebung mit rudi- mentären grafischen Schaltflächen. So ist R auf vielen Plattformen verfügbar. R ist Teil des GNU General Public License Projekts.

3 Charles G. Broyden: The convergence of a class of double-rank minimization algorithms. In: Journal of the Institute of Mathematics and Its Applications. 6, 1970, S. 76-90.

4 Roger Fletcher: A New Approach to Variable Metric Algorithms. In: Computer Journal. 13, Nr. 3, 1970, S. 317-322.

5 Donald Goldfarb: A Family of Variable Metric Updates Derived by Variational Means. In: Mathematics of Computation. 24, Nr. 109, 1970, S. 23-26.

6 David F. Shanno: Conditioning of quasi-Newton methods for function minimization. In: Mathematics of Computation. 24, Nr. 111, 1970, S. 647-656.

7 ROBERT DE LEVIE: An improved numerical approximation for the first derivative, J. Chem. Sci., Vol. 121, No. 5, September 2009, pp. 935-950.

Ende der Leseprobe aus 495 Seiten

Details

Titel
Prozess-Sicherheit III. Angewandte Statistik mit Excel
Autor
Jahr
2018
Seiten
495
Katalognummer
V450920
ISBN (eBook)
9783668843417
ISBN (Buch)
9783668843424
Sprache
Deutsch
Anmerkungen
Teil I.: Zufallszahlen, Verteilungen, Parameter, Momente, ML-Schätzer, Anpassungstest, BFGS-Solver Teil II.: Varianz- und Regressionsanalysen, Prozessfähigkeitsanalysen, Mess-System-Analysen, Stichprobenpläne, uvm.
Schlagworte
prozess-sicherheit, angewandte, statistik, excel, Zufallszahlen, Verteilungen, Parameter, Momente, ML-Schätzer, Anpassungstest, BFGS-Solver, Varianzanalyse, Regressionsanalyse, Prozessfähigkeitsanalysen, Mess-System-Analysen, Stichprobenpläne
Arbeit zitieren
Eckehardt Spenhoff (Autor), 2018, Prozess-Sicherheit III. Angewandte Statistik mit Excel, München, GRIN Verlag, https://www.grin.com/document/450920

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Prozess-Sicherheit III. Angewandte Statistik mit Excel


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden