- 92 -Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen 
  Erste Seite (i) Vorherige Seite (91)Nächste Seite (93) Letzte Seite (247)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 

Man setzt voraus, daß e normalverteilt mit Mittel 0 ist. Für unabhängige Datenpunkte wird die Wahrscheinlichkeit der Datenpunkte, die Likelihood L, bestimmt durch:
 prod prod 
 L = p(xi,ti) = p(ti| xi)p(xi).
 i i
(5.16)

Wenn man für die Netzausgabe y(x) die Wahrscheinlichkeit der Daten (x,t) unter der Verteilung y(x) + e betrachtet, kann man zeigen, daß die Minimierung des Quadratsummenfehlers  sum (y - t)2 gerade die Maximierung der Wahrscheinlichkeit der Daten bezüglich y(x) + e bedeutet, weswegen dieser Ansatz auch Maximum-Likelihood genannt wird. Weiterhin kann man zeigen, daß sich für große Datenmengen die Netzausgabe dem Durchschnitt von t unter der Bedingung x annähert:
 integral 
 y(x) = tp(t| x)dt.
(5.17)

Für Klassifikationsprobleme ist eine andere Fehlerfunktion günstig. Sei t eine Ausgabe, die 1 wird, wenn x einer Klasse C1 angehört, und 0, wenn x einer Klasse C2 angehört. Dann läßt sich die bedingte Dichte von t folgendermaßen schreiben:
p(t| x) = yt(1- y)1- t,
(5.18)

und die Likelihood L
L = ytii (1- yi)1-tip(xi)
(5.19)

läßt sich durch die Verwendung der folgenden Fehlerfunktion maximieren:
 sum 
 CE = - (tilnyi + (1- ti)ln(1- yi)).
 i
(5.20)

Diese Fehlerfunktion heißt Cross-Entropie, und ihre Minimierung liefert wieder einen Maximum-Likelihood-Schätzwert für p und damit die bedingte Wahrscheinlichkeit p(C1|x).

Der Bayessche Ansatz betrachtet statt der Wahrscheinlichkeit der Daten für ein Modell die Wahrscheinlichkeitsverteilung der Gewichte unter der Bedingung der Daten nach dem Satz von Bayes:
 p(x| w)p(w)
 p(w |x) = ----------.
 p(x)
(5.21)

Der Lernvorgang stellt dann den Übergang von einer a priori Wahrscheinlichkeit zu einer a posteriori Wahrscheinlichkeit der Gewichte dar. Ziel des Lernvorgangs ist nicht nur, die wahrscheinlichsten Gewichtswerte unter Verwendung einer a priori Wahrscheinlichkeit und der Trainingsbeispiele zu bestimmen, sondern man erhält durch die Verteilung auch Aussagen über die Zuverlässigkeit der ermittelten Werte. Lernen mit Weight-Decay entspricht dabei einer Maximum-Likelihood-Schätzung der Gewichte mit der Normalverteilung um den Mittelwert 0 als a priori Wahrscheinlichkeit.


Erste Seite (i) Vorherige Seite (91)Nächste Seite (93) Letzte Seite (247)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 
- 92 -Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen