Termpaper, 1997, 7 Pages
Author: Arno Schödl
Subject: Computer Science - Theory
Details
Tags: Lineare, Schätzer, Berlin
Year: 1997
Pages: 7
Language: German
ISBN (E-book): 978-3-638-08985-2
File size: 135 KB
Other users also were interested in the following titles:
Fulltext (computer-generated)
Lineare Schätzer I
Referat von Arno Schödl
im Seminar Klassifikation und Regression mit neuronalen Netzen im SoSe 97
Betreuer Dr. Klaus-Robert Müller
1 Der Bayessche Satz
Der Ansatz der Bayessche Entscheidungstheorie ist, daß wir Annahmen über den Zustand der
Wirklichkeit basierend auf Wahrscheinlichkeitsannahmen und unseren Beobachtungen von
Merkmalen der Wirklichkeit machen.
Nehmen wir also ein praktisches Beispiel: Wir stehen an einem Holzsägewerk, in dem
manchmal eine Esche und manchmal eine Birke zu Brettern zersägt wird. Wir beobachten
nun die Bretter, die aus dem Sägewerk kommen. Nachdem uns der Werksleiter eine Zeitlang
erklärt hat, welches Brett Esche und welches Birke ist, ist es nun an uns, das Holz des
Die Likelihood für das Merkmal Helligkeit für Esche und Birke
nächsten Bretts zu bestimmen.
Nehmen wir an, wir können überhaupt keinen Unterschied zwischen Eschen- und
p
(
x
)
p
(
i
x
)
p
(
x
| )
P
( )
P
( |
x
)
i
=
=
i
=
i
i
N =
Birk
und
für Esche
2
e
Birkenbrettern erkennen, ebensowenig gibt es eine Regelmäßigkeit in der Reihenfolge. Das
p
(
x
)
N
N
einzige, worauf wir unsere Entscheidung stützen können, ist die Anzahl an Birken- und
p
(
x
)
p
(
x
| )
P
( )
j
j
j
Eschenbrettern, die bisher aus dem Werk gekommen sind. Kamen bisher mehr Birkenbretter
j
1
=
j
1
=
als Eschenbretter aus dem Werk, so werden wir als vernünftige Menschen schätzen, daß das
nächste Brett auch ein Birkenbrett ist.
Wir rechnen für jede Holzart den Posterior aus und entscheiden uns für den größten Posterior.
Der Nenner des Bayesschen Satzes hängt allerdings nur von der Beobachtung
x
ab und ist für
Formaler gesprochen, haben wir für die beiden Ereignisse, nennen wir das Ereignis
jede Holzart
i
gleich, daher ist bei gegebener Beobachtung unsere Entscheidung nur vom
Eschenholz 1 und das Ereignis Birkenholz 2, je eine Wahrscheinlichkeit
P
(1) und
P
(2).
Zähler abhängig.
Ist
P
(1)>
P
(2), entscheiden wir uns für 1, sonst für 2. Die Wahrscheinlichkeiten
P
(1),
P
(
Die gesamte Argumentation ist natürlich ohne weiteres auf mehr Zustände als zwei
2) bezeichnet man als
Prior
, weil sie die Wahrscheinlichkeiten für das eine oder andere
Ereignis
vor
irgendeiner Beobachtung sind.
übertragbar, im Bayesschen Satz oben ist bereits die Summe nicht über zwei, sondern
allgemein über
N
mögliche Zustände geschrieben. Beobachtet man mehrere Variablen statt
Was ist nun, wenn wir als Entscheidungsgrundlage die Helligkeit des Holzes gemessen
nur einer, kann man sie zu einem Vektor zusammenfassen und dann ebenso behandeln wie
haben? Wir haben außerdem durch lange Meßreihen mit dem Werksleiter herausgefunden,
eine einzige Variable. Aus der Kurve der Wahrscheinlichkeitsdichte wird dabei natürlich bei
welche Helligkeit Birken- bzw. Eschenholz haben. Da Helligkeit ja eine stetige Größe ist,
einem zweidimensionalen Vektor eine Fläche oder eine Hyperfläche bei noch mehr
haben wir keine diskreten Wahrscheinlichkeiten ermittelt, sondern eine
beobachteten Merkmalen.
Wahrscheinlichkeitsdichte, im folgenden immer mit einem kleinen
p
bezeichnet. Die
Wahrscheinlichkeitsvariable
x
soll die Helligkeit bezeichnen.
p
(
x
) bezeichnet dann die
Wahrscheinlichkeitsdichte für eine bestimmte Helligkeit
x
unabhängig vom Holz,
p
(
x|
1) ist
die bedingte Wahrscheinlichkeitsdichte, daß ein Brett aus Birkenholz die Helligkeit
x
hat. Die
Größen
p
(
x|
i
) bezeichnet man als
Likelihood
.
Wie groß ist nun die Wahrscheinlichkeit, daß ein Brett Birke oder Esche ist, wenn wir seine
Helligkeit beobachtet haben und die Wahrscheinlichkeitsverteilungen
p
(
x|
i
) kennen? Da wir
jetzt mehr Informationen über das individuelle Brett haben, sollte sich die Wahrscheinlichkeit
für die eine oder andere Holzart verändern. Gesucht ist offensichtlich die Wahrscheinlichkeit
für eine Holzart, gegeben eine Beobachtung, oder formal
P
(
i|x
). Das ist die neue
Wahrscheinlichkeit für eine Holzart nach der Beobachtung, daher bezeichnet man sie als
Posterior
. Der Bayessche Satz rechnet mit Hilfe der gegebenen Größen genau diesen
Posterior aus:
Der Posterior für P(
1)=2/3
und P(
2)=1/3
1
2 Entscheidung mit Kosten
)
1
(
(2)
g
(
x
) =
P
( |
x
bzw.
)
g
(
x
) = -
R
( |
x
)
i
i
i
i
Bisher haben wir versucht, möglichst wenig Fehler beim Erraten der Holzarten zu machen.
Die Diskriminanten zerteilen den Merkmalsraum in Bereiche, die jeweils gleich klassifiziert
Welche Fehler wir machen, war uns dabei egal, ebenso, ob wir eher Birken- oder eher
werden. An den Grenzen sind die Werte mindestens zweier Diskriminanten gleich, dann ist es
Eschenbretter richtig einordnen. Was ist nun, wenn wir für unterschiedliche Fehler
egal, für welche der beiden Klassen wir uns entscheiden.
unterschiedlich bestraft werden, oder für richtige Klassifikationen unterschiedlich belohnt,
Da es nur auf die Relationen zwischen Funktionswerten der Diskriminanten ankommt, kann
abhängig von der Art des Holzes?
man jede streng monoton wachsende Funktion auf die Diskriminante anwenden, ohne die
Wir wollen den Ansatz allgemeiner fassen. Wir haben mehrere Zustände
Klassifikation zu verändern. Diese Funktion kann sogar von unserem Merkmalsvektor
x
i
. Einer davon ist
abhängen. Folgende Diskriminanten ergeben die gleiche Klassifikation:
der wahre Zustand. Die Wahrscheinlichkeit, daß ein
i
wahr ist, basiert auf unserem
Merkmalsvektor
x
P
(
i|x
). In unserem Beispiel war es unsere Aufgabe, diesen wirklichen
Zustand zu erraten. Man kann sich aber beliebige Aktionen i vorstellen, für die wir uns
basierend auf unserer Analyse der Wirklichkeit per Bayesschem Satz entscheiden können.
Wir kennen eine Kosten- oder Bestrafungsfunktion
ij
, die die Kosten angibt, wenn im
Zustand der Wirklichkeit
j
die Aktion
i
ausgeführt wird.
ij
könnte natürlich ebenso gut
eine Belohnungsfunktion sein, aber Informatiker minimieren eben gern. In unserem Beispiel
haben wir zwei verschiedene Wirklichkeiten, Eschenholz oder Birkenholz, und zwei
verschiedene Aktionen, nämlich die, zu behaupten, es sei Eschenholz (1), oder die, zu
behaupten, es sei Birkenholz (2). Die Kosten für die richtige Wahl könnte man z. B. mit 0
annehmen, also 11=0 und 22=0, die Kosten für die falsche Wahl jeweils mit 1, also 12=1
und 21=1. Interessant ist nun der Fall, wenn diese Kosten nicht paarweise gleich sind.
Um auch in diesem Fall die optimale Entscheidung zu treffen, müssen wir für jede Aktion
i
anhand der Beobachtung
x
das Risiko der Aktion
i
R
(
i
|
x
) ausrechnen, das ist die nach den
Wahrscheinlichkeiten des Auftretens einer Wirklichkeit
P
(
j|x
) gewichtete Summe über die
bei dieser Wirklichkeit eintretenden Kosten
ij
bei Auswahl der Aktion
i
:
N
R
(
i
|
x
) =
P
(
i
|
x
)
ij
Eine Entscheidungsgrenze bei zweidimensionalem Merkmalsvektor
j
=1
Die Aktion mit minimalem Risiko ist die Aktion unserer Wahl. Das Risiko dieser Aktion wird
p
(
x
| )
P
( )
Bayes-Risiko genannt.
g
(
x
) =
P
( |
x
)
i
i
=
i
i
N
p
(
x
|
)
P
( )
j
j
j
1
=
3 Diskriminanten und Entscheidungsgrenzen
g
(
x
) =
p
(
x
| )
P
( )
i
i
i
g
(
x
) = ln
p
(
x
| ) + ln
P
( )
i
i
i
Egal, ob wir unsere Entscheidung von dem Posterior
P
(
i|x
) oder von dem Risiko
R
(
i
|
x
)
abhängig machen, in beiden Fällen haben wir eine Funktionenschar, die von unserem
Die letzte Schreibweise für die Diskriminante werden wir im folgenden verwenden, weil sie
Merkmalsvektor
x
auf eine reelle Zahl abbildet. Für ein gegebenes
x
entscheiden wir uns dann
es erlaubt, Likelihood und Prior getrennt zu betrachten.
für die Klasse, in unserem Fall Zustandsvorhersage oder Aktion, für die die entsprechende
Funktion im Falle der Kosten minimal bzw. im Falle der Wahrscheinlichkeit maximal ist.
Eine allgemeine Form, solche Klassifikationsprobleme darzustellen, sind Diskriminanten.
Für jede mögliche Wahl
j
ist eine Diskriminante
gj
(
x
) gegeben, wir entscheiden uns für die
Klasse
i
, für die gilt
jg
(
x
)
g
(
x
)
i
j
Unsere beiden Entscheidungsgrundlagen Posterior und Risiko sind trivial als Diskriminanten
darstellbar:
2
4 Die Normalverteilung
Eine zweidimensionale
Normalverteilung, die aus
Trainingsdaten geschätzt
wurde. Man sieht die
4.1 Einführung
Trainingsdaten als Punkte
und die zwei senkrecht
Die Wahrscheinlichkeitsdichte
p
(
x
) einer Normalverteilung für ein skalares
x
ist
aufeinander stehenden
Hauptachsen der Verteilung.
2
x
µ
p
(
x
=
1
)
exp 1
-
-
,
2
2
wobei µ der Mittelwert, die Standardabweichung und 2 die Varianz ist.
Der Funktionsgraph einer eindimensionalen Normalverteilung ist die bekannte Glockenkurve.
Die Spitze der Kurve wird bestimmt durch den Mittelwert der Daten µ, die Breite der Kurve
durch die Standardabweichung .
Ist
x
ein Vektor, ist die Wahrscheinlichkeitsdichte
1
p
(
x
) =
-
x
- µ
T
-
x
- µ
d
1
[
exp
1 (
)
1 (
)
2
]
(2 ) 2 | | 2
µ ist der Schwerpunkt der Datenwolke:
µ =
p
(
x
)
d
x x
Für jedes angenommene Set von Parametern des Modells läßt sich eine
Wahrscheinlichkeitsdichte
p
(
x
|) angeben, die die Verteilung des vom Modell mit den
ist die Kovarianzmatrix der Daten:
Parametern erzeugten Daten
x
angibt. Nehmen wir nun an, das Modell mit Parametern
hätte als unabhängige Sequenz hintereinander unsere Trainingsmenge erzeugt, erst den ersten
() =
p
(
x
)(
x
- µ )(
x
T
µ
d x
ij
)
-
Wert
x
i
j
1, dann
x
2 und so fort bis zum letzten Datum
xN
. Die Wahrscheinlichkeitsdichte dafür,
i
j
die sogenannte
Likelihood
der Daten, ist
oder in Matrizenschreibweise
N
p
({
x
...
x
} | ) =
p
(
x
| )
1
N
T
=
n
p
(
x
)(
x
- µ)(
x
µ)
d x
-
n
=1
Wiederum ist der Punkt, wo die Daten am dichtesten liegen, gleichzeitig der Schwerpunkt der
Nun erscheint es vernünftig, den Parametersatz als Modell für die Daten anzunehmen, für den
Daten µ. Die Form und Orientierung der Datenwolke gibt die Kovarianzmatrix an. Die
die Wahrscheinlichkeit, daß er die Daten als eine Sequenz erzeugt, am höchsten ist. Dieses
Hauptachsen der Verteilung sind die Eigenvektoren der Kovarianzmatrix. Die Varianz
Verfahren wird
Maximum Likelihood
genannt. Für die meisten Datenmodelle muß der
entlang der Hauptachsen sind die dazugehörigen Eigenwerte.
Parametersatz mit maximaler Likelihood durch Ableiten der Likelihood und dann iterativ per
Gradientenaufstieg in der Parameterlandschaft gefunden werden. Im Falle der
Normalverteilung ist eine analytische Lösung möglich. Die Herleitung ist hier nicht
4.2 Herleitung der Parameter
µ
und
aus Trainingsdaten
angegeben. Die Parameter µ^ und ^ werden mit diesem Verfahren geschätzt als
Wenn wir eine Menge
X
={
x
N
1...
xN
} von Trainingsvektoren gegeben haben, für die wir eine
= 1
^
µ
Normalverteilung annehmen, ist die Herleitung der beiden Parameter Mittelwert und
xn
N
Kovarianzmatrix wünschenswert.
n
=1
Hat man sich für ein Modell der Datenverteilung entschieden, in unserem Fall für die
N
= 1
^
(
x
^µ)(
^
n
-
xn
-
T
µ)
Normalverteilung, kann man die Parameter des Modells, hier als Vektor geschrieben, mit
N n
=1
dem Verfahren der Maximum Likelihood bestimmen.
3
Der Mittelwert der Normalverteilung wird einfach angenommen als der Mittelwert der
Trainingsdaten, ebenso wird die Kovarianzmatrix der Normalverteilung angenommen als die
Im Fall 5.1
i=
2 sind die Cluster
Kovarianzmatrix der Daten.
hyperkugelförmig und die
Entscheidungsgrenze ist eine Ebene
Diese Schätzungen scheinen intuitiv einwandfrei zu sein. Sie sind auch die anhand der Daten
senkrecht zu der Verbindungslinie
bestmöglichen Schätzungen. Jedoch ist der Mittelwert natürlich fehlerbehaftet, weil nur eine
zwischen den beiden Clusterzentren
.
endliche Zahl von Trainingsbeispielen vorgegeben wird. Ebenso ist die Varianz der Daten
nicht korrekt, weil sie zum einen wieder von der endlichen Zahl von Trainingsdaten, zum
anderen aber auch von dem bereits fehlerbehafteten Mittelwert abhängt. Dieser Fehler wird
sehr augenfällig bei nur einelementiger Trainingsmenge. Der Mittelwert liegt dann irgendwo
in der Datenwolke, und die Varianz wird zu Null.
5 Die Diskriminante der Normalverteilung
Im folgenden werden wir die Entscheidungsbereiche für den Spezialfall betrachten, daß die
beobachteten Merkmale für eine Klasse normalverteilt sind. Wenn wir eine Klassifizierung
anhand des Posteriors durchführen, können wir die oben aufgeführte Diskriminante
g
(
x
) = ln
p
(
x
| ) + ln
P
( )
i
i
i
5.1 Fall
verwenden. Setzen wir nun als Likelihood
p
(
x
|
i=
2
1
i
) eine mehrdimensionale Normalverteilung
ein, wird unsere Diskriminante zu
Sind alle Kovarianzmatrizen das gleiche Vielfache der Einheitsmatrix, so haben alle
Merkmale aller Klassen die gleiche Varianz. Die Datencluster bilden also Hyperkugeln. Die
1
-
Parameter der Verteilung beschränken sich dann auf die Mittelpunkte der Cluster µ
g
(
x
) = ln
exp
T
i
und die
i
-
x
- µ
x
- µ
+
P
d
1
[ 1( ) 1( )
2
i
i
] ln ( )
i
i
allen Clustern gemeinsame Varianz 2.
(2 ) 2 | | 2
i
d
1
1
= - ln 2 - ln | | 1
- (
x
- µ )
T
1
- (
x
- µ ) + ln
P
( .
)
- ln | | ist nun auch eine additive Konstante, denn
i
ist gleich für alle
i
, kann also
i
i
i
i
2
2
2
i
i
2
vernachlässigt werden. Außerdem ist
1
1
- =
und damit
1
-
xT
-1
x
1
= -
x T x
, also
d
i
2
i
2
2
-
2
ln
2
ist nur eine additive Konstante und kann deshalb entfallen, d. h. es bleibt
2
unabhängig von
i
. Dieser Term kann daher auch entfallen. Daraus ergeben sich die
Vereinfachungen:
1
g
(
x
) = -
ln | | 1
- (
x
- µ )
T
-1
(
x
- µ ) + ln
P
( )
i
i
i
i
2
2
i
i
T
T
T
µ µ
g
(
x
)
i
= (-1µ
x
µ
µ
P
µ
x
P
i
)
1
T
-1
1
i
i
1
T
-
+ ln ( )
i
i
=
+ -
+ ln ( )
= -
2
2
i
i
ln | | 1
T
1
-
-
T
-
2
i
-
x
x
+ µ
x
- µ µ +
P
2
2
i
( 1
i
) 1
1
ln (
.
)
i
i
2
2
Im folgenden werden zwei Spezialfälle angegeben, die vereinfachende Annahmen über die
gi
(
x
) ist nun in
x
linear, d. h. g(x) läßt sich darstellen als
Kovarianzmatrix machen und damit eine im Merkmalsvektor
x
lineare Diskriminante
ermöglichen. Als drittes folgt der allgemeine Fall, der zu einer quadratischen Diskriminante
g
(
x
)
T
i
=
w x
+
i
w
0
i
führt.
Die Grenze zwischen zwei Clustern
i
und
j
ist bei linearer Form der Diskriminante immer
eine Hyperebene. Um die Punkt-Normalenform dieser Ebene herzuleiten, setzen wir zur
Bestimmung der Grenze
gi
(
x
)=
gj
(
x
):
w
w
T
T
T
-
i
j
g
(
x
)
i
=
g
(
x
)
j
w x
+
w
w x
w
w
w
x
w
w
i
i
0 =
+
j
j
0 0 = (
-
)
+
(
i
j
i
0 +
)
j
0
(
w
-
w
)2
i
j
4
Schreibt man für den betrachteten Spezialfall die Grenze als
5.3 Fall
i beliebig
wT
(
x
-
x
) 0
0 =
,
In diesem allgemeinen Fall ist weder
1
- ln | | noch
xT
-1
x
unabhängig von
i
. Wir
2
i
i
so ist
ordnen nach den Potenzen von
x
:
2
P
( )
1
T
1
-
1
T
-
1
T
1
1
w
= µ - µ
;
1
x
= (µ + µ ) -
ln
i
(µ - µ )
g
(
x
)
-
i
= -
x
x
+ µ
x
- µ µ -
+
P
2
i
(
i
)
i
j
0
.
ln |
| ln (
)
2
i
j
2
i
j
P
(
µ - µ
)
i
i
i
(
)
2
j
i
j
2
Die Diskriminante ist in diesem Fall inhärent quadratisch. Als Entscheidungsgrenzen
Die Normale der Ebene ist die Verbindungsachse zwischen den beiden Clusterzentren. Sind
kommen alle möglichen quadratische Formen vor. Das folgende Bild zeigt einige mögliche
beide Clusterzentren gleich wahrscheinlich, so liegt die Trennung genau auf halbem Weg
Grenzen:
zwischen den Zentren, ist ein Cluster wahrscheinlicher, so verschiebt sich die Trennung von
ihm weg.
5.2 Fall
i=
Sind die Kovarianzmatrizen alle gleich, so haben alle Cluster die gleiche Ausrichtung und
Verteilung.
1
- ln | | und 1
-
xT
-1
x
1
= -
xT
-1
x
sind wieder unabhängig von
i
.
2
i
2
i
2
Lediglich -1
-1
= ist hier weniger trivial. Es bleibt also:
i
T
g
(
x
)
-
-
i
= ( 1
µ
x
+ - µ µ +
P
.
i
)
( 1
T
1 ln ( )
2
i
)
Es ergibt sich wieder eine lineare Funktion. Schreibt man die Grenze genauso wie oben als
Ebene, so ergibt sich
1
1
P
(
-
)
w
= (µ - µ
),
1
x
=
(µ + µ ) -
ln
i
(µ - µ )
i
j
0
.
2
i
j
T
1
i
j
-
P
(
- µ
- µ
)
(
x
)
(
x
)
j
i
i
Die Entscheidungsgrenze liegt ebenfalls zwischen den beiden Clusterzentren, steht aber nicht
mehr notwendigerweise senkrecht zu der Verbindungslinie zwischen den Zentren. Für die
Entfernung der Grenze zu den Clusterzentren gilt das gleiche wie im vorhergehenden Fall.
5
6 Diskrete Merkmale
d
-
g
(
x
) = ln
x
P
k
1
( -
P
)1
xk
+ ln
P
(
)
l
kl
kl
l
k
1
=
d
= [
d
ln
P
-
1
ln( -
P
)
kl
kl
]
x
+
1
ln(
-
P
)+ln
P
( . )
6.1 Einführung
k
kl
l
k
1
=
k
1
=
Bisher waren unsere Merkmale stetig, wie im Falle der Helligkeit des Holzes. Wir gehen nun
Wieder ergibt sich eine lineare Diskriminante. Man kann sich die Menge der möglichen
über auf diskrete Merkmale und betrachten im Anschluß binäre Merkmale. Im Fall von
Merkmalsvektoren
x
, deren Elemente die diskreten Werte
xi
= {0,1} annehmen können, als
diskreten Merkmalen ist keine Wahrscheinlichkeitsdichte
p
(
x
|
i
) gegeben, sondern eine
die Ecken eines Hyperwürfels vorstellen. Durch diesen Hyperwürfel läuft eine Ebene, die die
bestimmte Wahrscheinlichkeit
P
(
x
|
Ecken des Würfels zwischen den beiden Clustern aufteilt.
i
) für jeden einzelnen Wert des Merkmals. Der
Bayessche Satz sieht jetzt so aus:
P
(
x
| )
P
( )
P
(
i
|
x
) =
i
i
7 Perzeptrone und lineare Separabilität
N
P
(
x
|
j
)
P
(
j
)
j
=1
Um die Aktivierungsgrenze zwischen zwei Clustern zu finden, haben wir bisher immer
Die Definition des Risikos
R
(
i
|
x
) bleibt unverändert, ebenso die Entscheidungskriterien, die
g
(
x
)
i
=
g
(
x
)
j
g
(
x
)
i
-
g
(
x
)
j
= 0
wir bisher entwickelt haben.
gesetzt. Sind
gi
(
x
) und
gj
(
x
) jeweils lineare Funktionen wie im Fall der Normalverteilung mit
vereinfachenden Annahmen oder bei unabhängigen binären Merkmalsvektoren mit
6.2 Unabhängige binäre Merkmale
g
(
x
)
T
=
+
T
=
+
i
w x
w
und
g
(
x
)
w x
,
i
i
0
j
w
j
j
0
Für den Fall binärer statistisch unabhängiger Merkmalsvektoren folgt nun eine Betrachtung
der Diskriminante.
so beschreibt
Nehmen wir an, die Elemente des Merkmalsvektors
x
können nur die Werte
x
T
i
=1 oder
xi
=0
0 = (
w
-
w
)
x
+
w
-
w
i
j
i
0
j
0
annehmen. Die Likelihood im binären Fall ist vollständig beschrieben durch einen einzige
Wahrscheinlichkeit pro Merkmal
k
und Klasse
l
, z. B.
P
(
xk
=1|
l
), im folgenden geschrieben
die Clustergrenze. Ein McCulloch-Pitts-Perzeptron mit der logistischen Ausgabefunktion
als
Pkl
. Es gilt dann natürlich
P
(
xk
=0|
l
)=1-
Pkl
. Die Wahrscheinlichkeit
P
(
xk
|
l
) kann man
dann schreiben als
y
(
x
) = sgn(
wT x
- ) ,
xk
-
1
xk
P
(
x
| ) =
1
( -
k
l
kl
P
kl
P
)
.
mit dem Gewichtsvektor
w
=
wi
-
wj
und der Schwelle =
wj
0 -
wi
0 der Eingabe
x
leistet genau
die Trennung zwischen Cluster
i
und Cluster
j
. Es feuert genau dann, wenn
x
zu Cluster
i
Dieser Ausdruck mutet zunächst etwas merkwürdig an, nimmt aber für
xk
=1 den Wert
Pkl
und
gehört. McCulloch-Pitts-Perzeptrone können genau solche Klassifizierungsprobleme lösen,
für
xk
=0 den Wert 1-
Pkl
an.
die linear separabel sind, wo also eine Trennebene im Merkmalsraum existiert.
Bei statistisch unkorrelierten Einzelmerkmalen ist die Wahrscheinlichkeit für den gesamten d-
Literatur
dimensionalen Merkmalsvektor
x
dann
Bishop, C.M. (1995), Neural networks for pattern recognition, Oxford University Press
d
(Kapitel 1, 2.1-2.8, 3.1-3.4)
k
1
k
P
(
x
|
l
) =
x
-
kl
P
1
( -
x
kl
P
)
.
l
=1
Duda, R.O, Hart, P.E. (1973), Pattern classification and scene analysis, Wiley (Kapitel 1, 2)
Einsetzen in die Diskriminante
g
(
x
) = ln
p
(
x
| ) + ln
P
( )
l
l
l
ergibt
6
Comments
No comments yet
Other users also were interested in the following titles:
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für Microsoft Word
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für OpenOffice.org
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 9,99 EUR
Formatvorlage zur Erstellung einer Diplomarbeit / Vorlage zur Erstellung einer Hausarbeit
Author: Marco FeindlerPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2008 Download as PDF-file for 6,99 EUR
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wissenschaftlichen Arbeit
Author: Zoran ZivkovicPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Erstellen einer schriftlichen Hausarbeit
Author: Claudia NickelPresentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR
Grundtechniken wissenschaftlichen Arbeitens
Author: Maik PhilippPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - Hausarbeiten - Seminararbeiten
Author: Mark RichterPresentations, Models, Tutorials, Instructions, 2008
This text can be quoted and accessed from this url: