Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

Man setzt voraus, daß

normalverteilt mit Mittel 0 ist. Für unabhängige Datenpunkte wird die Wahrscheinlichkeit der Datenpunkte, die Likelihood L, bestimmt durch:

prod prod L = p(xi,ti) = p(ti| xi)p(xi). i i

(5.16)

Wenn man für die Netzausgabe y(x) die Wahrscheinlichkeit der Daten (x,t) unter der Verteilung y(x) + betrachtet, kann man zeigen, daß die Minimierung des Quadratsummenfehlers sum (y - t)² gerade die Maximierung der Wahrscheinlichkeit der Daten bezüglich y(x) + bedeutet, weswegen dieser Ansatz auch Maximum-Likelihood genannt wird. Weiterhin kann man zeigen, daß sich für große Datenmengen die Netzausgabe dem Durchschnitt von t unter der Bedingung x annähert:
$integral y(x) = tp(t| x)dt.$ (5.17)

Für Klassifikationsprobleme ist eine andere Fehlerfunktion günstig. Sei t eine Ausgabe, die 1 wird, wenn x einer Klasse C₁ angehört, und 0, wenn x einer Klasse C₂ angehört. Dann läßt sich die bedingte Dichte von t folgendermaßen schreiben:
$p(t| x) = yt(1- y)1- t,$ (5.18)

und die Likelihood L
$L = ytii (1- yi)1-tip(xi)$ (5.19)

läßt sich durch die Verwendung der folgenden Fehlerfunktion maximieren:
$sum CE = - (tilnyi + (1- ti)ln(1- yi)). i$ (5.20)

Diese Fehlerfunktion heißt Cross-Entropie, und ihre Minimierung liefert wieder einen Maximum-Likelihood-Schätzwert für p und damit die bedingte Wahrscheinlichkeit p(C₁|x).

Der Bayessche Ansatz betrachtet statt der Wahrscheinlichkeit der Daten für ein Modell die Wahrscheinlichkeitsverteilung der Gewichte unter der Bedingung der Daten nach dem Satz von Bayes:
$p(x| w)p(w) p(w |x) = ----------. p(x)$ (5.21)

Der Lernvorgang stellt dann den Übergang von einer a priori Wahrscheinlichkeit zu einer a posteriori Wahrscheinlichkeit der Gewichte dar. Ziel des Lernvorgangs ist nicht nur, die wahrscheinlichsten Gewichtswerte unter Verwendung einer a priori Wahrscheinlichkeit und der Trainingsbeispiele zu bestimmen, sondern man erhält durch die Verteilung auch Aussagen über die Zuverlässigkeit der ermittelten Werte. Lernen mit Weight-Decay entspricht dabei einer Maximum-Likelihood-Schätzung der Gewichte mit der Normalverteilung um den Mittelwert 0 als a priori Wahrscheinlichkeit.