Register or log in at GRIN

Your e-mail-address or password is wrong
Register now
For new authors: free, easy and fast
This will be used as your user name, please specify a valid e-mail address

Lost password

Your e-mail-address or password is wrong

Request a new password
Lineare Schätzer II close

Please wait

Please install the Adobe Flash Player if no e-book is displayed.

Lineare Schätzer II

Termpaper, 1997, 7 Pages
Author: Arno Schödl
Subject: Computer Science - Theory

Details

Category: Termpaper
Year: 1997
Pages: 7
Language: German
Archive No.: V96309
ISBN (E-book): 978-3-638-08985-2

File size: 135 KB


Fulltext (computer-generated)

Lineare Schätzer I

Referat von Arno Schödl

im Seminar Klassifikation und Regression mit neuronalen Netzen im SoSe 97

Betreuer Dr. Klaus-Robert Müller

1 Der Bayessche Satz

Der Ansatz der Bayessche Entscheidungstheorie ist, daß wir Annahmen über den Zustand der

Wirklichkeit basierend auf Wahrscheinlichkeitsannahmen und unseren Beobachtungen von

Merkmalen der Wirklichkeit machen.

Nehmen wir also ein praktisches Beispiel: Wir stehen an einem Holzsägewerk, in dem

manchmal eine Esche und manchmal eine Birke zu Brettern zersägt wird. Wir beobachten

nun die Bretter, die aus dem Sägewerk kommen. Nachdem uns der Werksleiter eine Zeitlang

erklärt hat, welches Brett Esche und welches Birke ist, ist es nun an uns, das Holz des

Die Likelihood für das Merkmal Helligkeit für Esche und Birke

nächsten Bretts zu bestimmen.

Nehmen wir an, wir können überhaupt keinen Unterschied zwischen Eschen- und

p

(

x

)

p

(

i

x

)

p

(

x

| )

P

( )

P

( |

x

)

i

=

=

i

=

i

i

N =

Birk

und

für Esche

2

e

Birkenbrettern erkennen, ebensowenig gibt es eine Regelmäßigkeit in der Reihenfolge. Das

p

(

x

)

N

N

einzige, worauf wir unsere Entscheidung stützen können, ist die Anzahl an Birken- und

p

(

x

)

p

(

x

| )

P

( )

j

j

j

Eschenbrettern, die bisher aus dem Werk gekommen sind. Kamen bisher mehr Birkenbretter

j

1

=

j

1

=

als Eschenbretter aus dem Werk, so werden wir als vernünftige Menschen schätzen, daß das

nächste Brett auch ein Birkenbrett ist.

Wir rechnen für jede Holzart den Posterior aus und entscheiden uns für den größten Posterior.

Der Nenner des Bayesschen Satzes hängt allerdings nur von der Beobachtung

x

ab und ist für

Formaler gesprochen, haben wir für die beiden Ereignisse, nennen wir das Ereignis

jede Holzart

i

gleich, daher ist bei gegebener Beobachtung unsere Entscheidung nur vom

Eschenholz 1 und das Ereignis Birkenholz 2, je eine Wahrscheinlichkeit

P

(1) und

P

(2).

Zähler abhängig.

Ist

P

(1)>

P

(2), entscheiden wir uns für 1, sonst für 2. Die Wahrscheinlichkeiten

P

(1),

P

(

Die gesamte Argumentation ist natürlich ohne weiteres auf mehr Zustände als zwei

2) bezeichnet man als

Prior

, weil sie die Wahrscheinlichkeiten für das eine oder andere

Ereignis

vor

irgendeiner Beobachtung sind.

übertragbar, im Bayesschen Satz oben ist bereits die Summe nicht über zwei, sondern

allgemein über

N

mögliche Zustände geschrieben. Beobachtet man mehrere Variablen statt

Was ist nun, wenn wir als Entscheidungsgrundlage die Helligkeit des Holzes gemessen

nur einer, kann man sie zu einem Vektor zusammenfassen und dann ebenso behandeln wie

haben? Wir haben außerdem durch lange Meßreihen mit dem Werksleiter herausgefunden,

eine einzige Variable. Aus der Kurve der Wahrscheinlichkeitsdichte wird dabei natürlich bei

welche Helligkeit Birken- bzw. Eschenholz haben. Da Helligkeit ja eine stetige Größe ist,

einem zweidimensionalen Vektor eine Fläche oder eine Hyperfläche bei noch mehr

haben wir keine diskreten Wahrscheinlichkeiten ermittelt, sondern eine

beobachteten Merkmalen.

Wahrscheinlichkeitsdichte, im folgenden immer mit einem kleinen

p

bezeichnet. Die

Wahrscheinlichkeitsvariable

x

soll die Helligkeit bezeichnen.

p

(

x

) bezeichnet dann die

Wahrscheinlichkeitsdichte für eine bestimmte Helligkeit

x

unabhängig vom Holz,

p

(

x|

1) ist

die bedingte Wahrscheinlichkeitsdichte, daß ein Brett aus Birkenholz die Helligkeit

x

hat. Die

Größen

p

(

x|

i

) bezeichnet man als

Likelihood

.

Wie groß ist nun die Wahrscheinlichkeit, daß ein Brett Birke oder Esche ist, wenn wir seine

Helligkeit beobachtet haben und die Wahrscheinlichkeitsverteilungen

p

(

x|

i

) kennen? Da wir

jetzt mehr Informationen über das individuelle Brett haben, sollte sich die Wahrscheinlichkeit

für die eine oder andere Holzart verändern. Gesucht ist offensichtlich die Wahrscheinlichkeit

für eine Holzart, gegeben eine Beobachtung, oder formal

P

(

i|x

). Das ist die neue

Wahrscheinlichkeit für eine Holzart nach der Beobachtung, daher bezeichnet man sie als

Posterior

. Der Bayessche Satz rechnet mit Hilfe der gegebenen Größen genau diesen

Posterior aus:

Der Posterior für P(

1)=2/3

und P(

2)=1/3

1


2 Entscheidung mit Kosten

)

1

(

(2)

g

(

x

) =

P

( |

x

bzw.

)

g

(

x

) = -

R

( |

x

)

i

i

i

i

Bisher haben wir versucht, möglichst wenig Fehler beim Erraten der Holzarten zu machen.

Die Diskriminanten zerteilen den Merkmalsraum in Bereiche, die jeweils gleich klassifiziert

Welche Fehler wir machen, war uns dabei egal, ebenso, ob wir eher Birken- oder eher

werden. An den Grenzen sind die Werte mindestens zweier Diskriminanten gleich, dann ist es

Eschenbretter richtig einordnen. Was ist nun, wenn wir für unterschiedliche Fehler

egal, für welche der beiden Klassen wir uns entscheiden.

unterschiedlich bestraft werden, oder für richtige Klassifikationen unterschiedlich belohnt,

Da es nur auf die Relationen zwischen Funktionswerten der Diskriminanten ankommt, kann

abhängig von der Art des Holzes?

man jede streng monoton wachsende Funktion auf die Diskriminante anwenden, ohne die

Wir wollen den Ansatz allgemeiner fassen. Wir haben mehrere Zustände

Klassifikation zu verändern. Diese Funktion kann sogar von unserem Merkmalsvektor

x

i

. Einer davon ist

abhängen. Folgende Diskriminanten ergeben die gleiche Klassifikation:

der wahre Zustand. Die Wahrscheinlichkeit, daß ein

i

wahr ist, basiert auf unserem

Merkmalsvektor

x

P

(

i|x

). In unserem Beispiel war es unsere Aufgabe, diesen wirklichen

Zustand zu erraten. Man kann sich aber beliebige Aktionen i vorstellen, für die wir uns

basierend auf unserer Analyse der Wirklichkeit per Bayesschem Satz entscheiden können.

Wir kennen eine Kosten- oder Bestrafungsfunktion

ij

, die die Kosten angibt, wenn im

Zustand der Wirklichkeit

j

die Aktion

i

ausgeführt wird.

ij

könnte natürlich ebenso gut

eine Belohnungsfunktion sein, aber Informatiker minimieren eben gern. In unserem Beispiel

haben wir zwei verschiedene Wirklichkeiten, Eschenholz oder Birkenholz, und zwei

verschiedene Aktionen, nämlich die, zu behaupten, es sei Eschenholz (1), oder die, zu

behaupten, es sei Birkenholz (2). Die Kosten für die richtige Wahl könnte man z. B. mit 0

annehmen, also 11=0 und 22=0, die Kosten für die falsche Wahl jeweils mit 1, also 12=1

und 21=1. Interessant ist nun der Fall, wenn diese Kosten nicht paarweise gleich sind.

Um auch in diesem Fall die optimale Entscheidung zu treffen, müssen wir für jede Aktion

i

anhand der Beobachtung

x

das Risiko der Aktion

i

R

(

i

|

x

) ausrechnen, das ist die nach den

Wahrscheinlichkeiten des Auftretens einer Wirklichkeit

P

(

j|x

) gewichtete Summe über die

bei dieser Wirklichkeit eintretenden Kosten

ij

bei Auswahl der Aktion

i

:

N

R

(

i

|

x

) =

P

(

i

|

x

)

ij

Eine Entscheidungsgrenze bei zweidimensionalem Merkmalsvektor

j

=1

Die Aktion mit minimalem Risiko ist die Aktion unserer Wahl. Das Risiko dieser Aktion wird

p

(

x

| )

P

( )

Bayes-Risiko genannt.

g

(

x

) =

P

( |

x

)

i

i

=

i

i

N

p

(

x

|

)

P

( )

j

j

j

1

=

3 Diskriminanten und Entscheidungsgrenzen

g

(

x

) =

p

(

x

| )

P

( )

i

i

i

g

(

x

) = ln

p

(

x

| ) + ln

P

( )

i

i

i

Egal, ob wir unsere Entscheidung von dem Posterior

P

(

i|x

) oder von dem Risiko

R

(

i

|

x

)

abhängig machen, in beiden Fällen haben wir eine Funktionenschar, die von unserem

Die letzte Schreibweise für die Diskriminante werden wir im folgenden verwenden, weil sie

Merkmalsvektor

x

auf eine reelle Zahl abbildet. Für ein gegebenes

x

entscheiden wir uns dann

es erlaubt, Likelihood und Prior getrennt zu betrachten.

für die Klasse, in unserem Fall Zustandsvorhersage oder Aktion, für die die entsprechende

Funktion im Falle der Kosten minimal bzw. im Falle der Wahrscheinlichkeit maximal ist.

Eine allgemeine Form, solche Klassifikationsprobleme darzustellen, sind Diskriminanten.

Für jede mögliche Wahl

j

ist eine Diskriminante

gj

(

x

) gegeben, wir entscheiden uns für die

Klasse

i

, für die gilt

jg

(

x

)

g

(

x

)

i

j

Unsere beiden Entscheidungsgrundlagen Posterior und Risiko sind trivial als Diskriminanten

darstellbar:

2


4 Die Normalverteilung

Eine zweidimensionale
Normalverteilung, die aus
Trainingsdaten geschätzt
wurde. Man sieht die

4.1 Einführung

Trainingsdaten als Punkte
und die zwei senkrecht

Die Wahrscheinlichkeitsdichte

p

(

x

) einer Normalverteilung für ein skalares

x

ist

aufeinander stehenden
Hauptachsen der Verteilung.

2

x

µ

p

(

x

=

1

)

exp 1

-

-

,

2

2

wobei µ der Mittelwert, die Standardabweichung und 2 die Varianz ist.

Der Funktionsgraph einer eindimensionalen Normalverteilung ist die bekannte Glockenkurve.

Die Spitze der Kurve wird bestimmt durch den Mittelwert der Daten µ, die Breite der Kurve

durch die Standardabweichung .

Ist

x

ein Vektor, ist die Wahrscheinlichkeitsdichte

1

p

(

x

) =

-

x

- µ

T

-

x

- µ

d

1

[

exp

1 (

)

1 (

)

2

]

(2 ) 2 | | 2

µ ist der Schwerpunkt der Datenwolke:

µ =

p

(

x

)

d

x x

Für jedes angenommene Set von Parametern des Modells läßt sich eine

Wahrscheinlichkeitsdichte

p

(

x

|) angeben, die die Verteilung des vom Modell mit den

ist die Kovarianzmatrix der Daten:

Parametern erzeugten Daten

x

angibt. Nehmen wir nun an, das Modell mit Parametern

hätte als unabhängige Sequenz hintereinander unsere Trainingsmenge erzeugt, erst den ersten

() =

p

(

x

)(

x

- µ )(

x

T

µ

d x

ij

)

-

Wert

x

i

j

1, dann

x

2 und so fort bis zum letzten Datum

xN

. Die Wahrscheinlichkeitsdichte dafür,

i

j

die sogenannte

Likelihood

der Daten, ist

oder in Matrizenschreibweise

N

p

({

x

...

x

} | ) =

p

(

x

| )

1

N

T

=

n

p

(

x

)(

x

- µ)(

x

µ)

d x

-

n

=1

Wiederum ist der Punkt, wo die Daten am dichtesten liegen, gleichzeitig der Schwerpunkt der

Nun erscheint es vernünftig, den Parametersatz als Modell für die Daten anzunehmen, für den

Daten µ. Die Form und Orientierung der Datenwolke gibt die Kovarianzmatrix an. Die

die Wahrscheinlichkeit, daß er die Daten als eine Sequenz erzeugt, am höchsten ist. Dieses

Hauptachsen der Verteilung sind die Eigenvektoren der Kovarianzmatrix. Die Varianz

Verfahren wird

Maximum Likelihood

genannt. Für die meisten Datenmodelle muß der

entlang der Hauptachsen sind die dazugehörigen Eigenwerte.

Parametersatz mit maximaler Likelihood durch Ableiten der Likelihood und dann iterativ per

Gradientenaufstieg in der Parameterlandschaft gefunden werden. Im Falle der

Normalverteilung ist eine analytische Lösung möglich. Die Herleitung ist hier nicht

4.2 Herleitung der Parameter

µ

und

aus Trainingsdaten

angegeben. Die Parameter µ^ und ^ werden mit diesem Verfahren geschätzt als

Wenn wir eine Menge

X

={

x

N

1...

xN

} von Trainingsvektoren gegeben haben, für die wir eine

= 1

^

µ

Normalverteilung annehmen, ist die Herleitung der beiden Parameter Mittelwert und

xn

N

Kovarianzmatrix wünschenswert.

n

=1

Hat man sich für ein Modell der Datenverteilung entschieden, in unserem Fall für die

N

= 1

^

(

x

^µ)(

^

n

-

xn

-

T

µ)

Normalverteilung, kann man die Parameter des Modells, hier als Vektor geschrieben, mit

N n

=1

dem Verfahren der Maximum Likelihood bestimmen.

3


Der Mittelwert der Normalverteilung wird einfach angenommen als der Mittelwert der

Trainingsdaten, ebenso wird die Kovarianzmatrix der Normalverteilung angenommen als die

Im Fall 5.1

i=

2 sind die Cluster

Kovarianzmatrix der Daten.

hyperkugelförmig und die
Entscheidungsgrenze ist eine Ebene

Diese Schätzungen scheinen intuitiv einwandfrei zu sein. Sie sind auch die anhand der Daten

senkrecht zu der Verbindungslinie

bestmöglichen Schätzungen. Jedoch ist der Mittelwert natürlich fehlerbehaftet, weil nur eine

zwischen den beiden Clusterzentren

.

endliche Zahl von Trainingsbeispielen vorgegeben wird. Ebenso ist die Varianz der Daten

nicht korrekt, weil sie zum einen wieder von der endlichen Zahl von Trainingsdaten, zum

anderen aber auch von dem bereits fehlerbehafteten Mittelwert abhängt. Dieser Fehler wird

sehr augenfällig bei nur einelementiger Trainingsmenge. Der Mittelwert liegt dann irgendwo

in der Datenwolke, und die Varianz wird zu Null.

5 Die Diskriminante der Normalverteilung

Im folgenden werden wir die Entscheidungsbereiche für den Spezialfall betrachten, daß die

beobachteten Merkmale für eine Klasse normalverteilt sind. Wenn wir eine Klassifizierung

anhand des Posteriors durchführen, können wir die oben aufgeführte Diskriminante

g

(

x

) = ln

p

(

x

| ) + ln

P

( )

i

i

i

5.1 Fall

verwenden. Setzen wir nun als Likelihood

p

(

x

|

i=

2

1

i

) eine mehrdimensionale Normalverteilung

ein, wird unsere Diskriminante zu

Sind alle Kovarianzmatrizen das gleiche Vielfache der Einheitsmatrix, so haben alle

Merkmale aller Klassen die gleiche Varianz. Die Datencluster bilden also Hyperkugeln. Die

1

-

Parameter der Verteilung beschränken sich dann auf die Mittelpunkte der Cluster µ

g

(

x

) = ln

exp

T

i

und die

i

-

x

- µ

x

- µ

+

P

d

1

[ 1( ) 1( )

2

i

i

] ln ( )

i

i

allen Clustern gemeinsame Varianz 2.

(2 ) 2 | | 2

i

d

1

1

= - ln 2 - ln | | 1

- (

x

- µ )

T

1

- (

x

- µ ) + ln

P

( .

)

- ln | | ist nun auch eine additive Konstante, denn

i

ist gleich für alle

i

, kann also

i

i

i

i

2

2

2

i

i

2

vernachlässigt werden. Außerdem ist

1

1

- =

und damit

1

-

xT

-1

x

1

= -

x T x

, also

d

i

2

i

2

2

-

2

ln

2

ist nur eine additive Konstante und kann deshalb entfallen, d. h. es bleibt

2

unabhängig von

i

. Dieser Term kann daher auch entfallen. Daraus ergeben sich die

Vereinfachungen:

1

g

(

x

) = -

ln | | 1

- (

x

- µ )

T

-1

(

x

- µ ) + ln

P

( )

i

i

i

i

2

2

i

i

T

T

T

µ µ

g

(

x

)

i

= (-1µ

x

µ

µ

P

µ

x

P

i

)

1

T

-1

1

i

i

1

T

-

+ ln ( )

i

i

=

+ -

+ ln ( )

= -

2

2

i

i

ln | | 1

T

1

-

-

T

-

2

i

-

x

x

+ µ

x

- µ µ +

P

2

2

i

( 1

i

) 1

1

ln (

.

)

i

i

2

2

Im folgenden werden zwei Spezialfälle angegeben, die vereinfachende Annahmen über die

gi

(

x

) ist nun in

x

linear, d. h. g(x) läßt sich darstellen als

Kovarianzmatrix machen und damit eine im Merkmalsvektor

x

lineare Diskriminante

ermöglichen. Als drittes folgt der allgemeine Fall, der zu einer quadratischen Diskriminante

g

(

x

)

T

i

=

w x

+

i

w

0

i

führt.

Die Grenze zwischen zwei Clustern

i

und

j

ist bei linearer Form der Diskriminante immer

eine Hyperebene. Um die Punkt-Normalenform dieser Ebene herzuleiten, setzen wir zur

Bestimmung der Grenze

gi

(

x

)=

gj

(

x

):

w

w

T

T

T

-

i

j

g

(

x

)

i

=

g

(

x

)

j

w x

+

w

w x

w

w

w

x

w

w

i

i

0 =

+

j

j

0 0 = (

-

)

+

(

i

j

i

0 +

)

j

0

(

w

-

w

)2

i

j

4


Schreibt man für den betrachteten Spezialfall die Grenze als

5.3 Fall

i beliebig

wT

(

x

-

x

) 0

0 =

,

In diesem allgemeinen Fall ist weder

1

- ln | | noch

xT

-1

x

unabhängig von

i

. Wir

2

i

i

so ist

ordnen nach den Potenzen von

x

:

2

P

( )

1

T

1

-

1

T

-

1

T

1

1

w

= µ - µ

;

1

x

= (µ + µ ) -

ln

i

(µ - µ )

g

(

x

)

-

i

= -

x

x

+ µ

x

- µ µ -

+

P

2

i

(

i

)

i

j

0

.

ln |

| ln (

)

2

i

j

2

i

j

P

(

µ - µ

)

i

i

i

(

)

2

j

i

j

2

Die Diskriminante ist in diesem Fall inhärent quadratisch. Als Entscheidungsgrenzen

Die Normale der Ebene ist die Verbindungsachse zwischen den beiden Clusterzentren. Sind

kommen alle möglichen quadratische Formen vor. Das folgende Bild zeigt einige mögliche

beide Clusterzentren gleich wahrscheinlich, so liegt die Trennung genau auf halbem Weg

Grenzen:

zwischen den Zentren, ist ein Cluster wahrscheinlicher, so verschiebt sich die Trennung von

ihm weg.

5.2 Fall

i=

Sind die Kovarianzmatrizen alle gleich, so haben alle Cluster die gleiche Ausrichtung und

Verteilung.

1

- ln | | und 1

-

xT

-1

x

1

= -

xT

-1

x

sind wieder unabhängig von

i

.

2

i

2

i

2

Lediglich -1

-1

= ist hier weniger trivial. Es bleibt also:

i

T

g

(

x

)

-

-

i

= ( 1

µ

x

+ - µ µ +

P

.

i

)

( 1

T

1 ln ( )

2

i

)

Es ergibt sich wieder eine lineare Funktion. Schreibt man die Grenze genauso wie oben als

Ebene, so ergibt sich

1

1

P

(

-

)

w

= (µ - µ

),

1

x

=

(µ + µ ) -

ln

i

(µ - µ )

i

j

0

.

2

i

j

T

1

i

j

-

P

(

- µ

- µ

)

(

x

)

(

x

)

j

i

i

Die Entscheidungsgrenze liegt ebenfalls zwischen den beiden Clusterzentren, steht aber nicht

mehr notwendigerweise senkrecht zu der Verbindungslinie zwischen den Zentren. Für die

Entfernung der Grenze zu den Clusterzentren gilt das gleiche wie im vorhergehenden Fall.

5


6 Diskrete Merkmale

d

-

g

(

x

) = ln

x

P

k

1

( -

P

)1

xk

+ ln

P

(

)

l

kl

kl

l

k

1

=

d

= [

d

ln

P

-

1

ln( -

P

)

kl

kl

]

x

+

1

ln(

-

P

)+ln

P

( . )

6.1 Einführung

k

kl

l

k

1

=

k

1

=

Bisher waren unsere Merkmale stetig, wie im Falle der Helligkeit des Holzes. Wir gehen nun

Wieder ergibt sich eine lineare Diskriminante. Man kann sich die Menge der möglichen

über auf diskrete Merkmale und betrachten im Anschluß binäre Merkmale. Im Fall von

Merkmalsvektoren

x

, deren Elemente die diskreten Werte

xi

= {0,1} annehmen können, als

diskreten Merkmalen ist keine Wahrscheinlichkeitsdichte

p

(

x

|

i

) gegeben, sondern eine

die Ecken eines Hyperwürfels vorstellen. Durch diesen Hyperwürfel läuft eine Ebene, die die

bestimmte Wahrscheinlichkeit

P

(

x

|

Ecken des Würfels zwischen den beiden Clustern aufteilt.

i

) für jeden einzelnen Wert des Merkmals. Der

Bayessche Satz sieht jetzt so aus:

P

(

x

| )

P

( )

P

(

i

|

x

) =

i

i

7 Perzeptrone und lineare Separabilität

N

P

(

x

|

j

)

P

(

j

)

j

=1

Um die Aktivierungsgrenze zwischen zwei Clustern zu finden, haben wir bisher immer

Die Definition des Risikos

R

(

i

|

x

) bleibt unverändert, ebenso die Entscheidungskriterien, die

g

(

x

)

i

=

g

(

x

)

j

g

(

x

)

i

-

g

(

x

)

j

= 0

wir bisher entwickelt haben.

gesetzt. Sind

gi

(

x

) und

gj

(

x

) jeweils lineare Funktionen wie im Fall der Normalverteilung mit

vereinfachenden Annahmen oder bei unabhängigen binären Merkmalsvektoren mit

6.2 Unabhängige binäre Merkmale

g

(

x

)

T

=

+

T

=

+

i

w x

w

und

g

(

x

)

w x

,

i

i

0

j

w

j

j

0

Für den Fall binärer statistisch unabhängiger Merkmalsvektoren folgt nun eine Betrachtung

der Diskriminante.

so beschreibt

Nehmen wir an, die Elemente des Merkmalsvektors

x

können nur die Werte

x

T

i

=1 oder

xi

=0

0 = (

w

-

w

)

x

+

w

-

w

i

j

i

0

j

0

annehmen. Die Likelihood im binären Fall ist vollständig beschrieben durch einen einzige

Wahrscheinlichkeit pro Merkmal

k

und Klasse

l

, z. B.

P

(

xk

=1|

l

), im folgenden geschrieben

die Clustergrenze. Ein McCulloch-Pitts-Perzeptron mit der logistischen Ausgabefunktion

als

Pkl

. Es gilt dann natürlich

P

(

xk

=0|

l

)=1-

Pkl

. Die Wahrscheinlichkeit

P

(

xk

|

l

) kann man

dann schreiben als

y

(

x

) = sgn(

wT x

- ) ,

xk

-

1

xk

P

(

x

| ) =

1

( -

k

l

kl

P

kl

P

)

.

mit dem Gewichtsvektor

w

=

wi

-

wj

und der Schwelle =

wj

0 -

wi

0 der Eingabe

x

leistet genau

die Trennung zwischen Cluster

i

und Cluster

j

. Es feuert genau dann, wenn

x

zu Cluster

i

Dieser Ausdruck mutet zunächst etwas merkwürdig an, nimmt aber für

xk

=1 den Wert

Pkl

und

gehört. McCulloch-Pitts-Perzeptrone können genau solche Klassifizierungsprobleme lösen,

für

xk

=0 den Wert 1-

Pkl

an.

die linear separabel sind, wo also eine Trennebene im Merkmalsraum existiert.

Bei statistisch unkorrelierten Einzelmerkmalen ist die Wahrscheinlichkeit für den gesamten d-

Literatur

dimensionalen Merkmalsvektor

x

dann

Bishop, C.M. (1995), Neural networks for pattern recognition, Oxford University Press

d

(Kapitel 1, 2.1-2.8, 3.1-3.4)

k

1

k

P

(

x

|

l

) =

x

-

kl

P

1

( -

x

kl

P

)

.

l

=1

Duda, R.O, Hart, P.E. (1973), Pattern classification and scene analysis, Wiley (Kapitel 1, 2)

Einsetzen in die Diskriminante

g

(

x

) = ln

p

(

x

| ) + ln

P

( )

l

l

l

ergibt

6



Comments

No comments yet

Add Comment
Your comment is reviewed before being published

Other users also were interested in the following titles:

Erstellen einer schriftlichen Hausarbeit

Author: Claudia Nickel
Presentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR

Grundtechniken wissenschaftlichen Arbeitens

Author: Maik Philipp
Presentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR

This text can be quoted and accessed from this url:

http://www.grin.com/e-book/96309/lineare-schaetzer-ii
please wait Please wait