Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

verwendete Fehlerfunktion ist die quadratische Summe über die Trainingsmuster aus P:

m m l E(w) = 1 sum E(p)(w) = 1 sum sum (t(p) -o(p))2. 2 p=1 2 p=1i=1 i i

(5.6)

Dabei ist o_i der tatsächliche Ausgabewert des Neurons x_i, Der Faktor 1
2 erleichtert das Rechnen mit den Ableitungen und hat sonst keine Auswirkungen.

Das Ziel des Verfahrens ist, die Gewichte so zu verändern, daß die Abweichung der tatsächlichen Aktivierung der Ausgabeneuronen o_i vom gewünschten Zielwert t_i möglichst klein wird, indem man versucht, die Fehlerfunktion zu minimieren. Dazu wird vorausgesetzt, daß alle verwendeten Funktionen der Netzeingabe, Aktivierung und Fehlerberechnung differenzierbar sind, um ein Gradientenabstiegsverfahren zu verwenden. Der Gradient $\~/$ f einer mehrdimensionalen Funktion f bezeichnet den Steigungsvektor in einem Punkt. Der Gradientenabstieg besteht darin, die Argumente in dem Gradienten entgegengesetzter Richtung zu verändern, um den Funktionswert zu minimieren. Bei Backpropagation betrachtet man den Fehlerwert als Funktion der Gewichte und verändert die Gewichte, um den Fehler zu verringern:
$/_\ w = -j \~/ E(w).$ (5.7)

Für ein einzelnes Gewicht ergibt sich daraus
$sum (p) /_\ wij = -j@E(w)- = - j@E--(w)-. @wij p (- P @wij$ (5.8)

Die Konstante bezeichnet wieder die Lernrate und bestimmt den Betrag der Gewichtsänderung. Man setzt dabei 0 < < 1 voraus. Für ein Netz mit gewichteter Summe als net und f_log als Aktivierungsfunktion lassen sich die Werte rekursiv berechnen:
$/_\ w = -j sum o(p)d(p) ij p (- P i j$ (5.9)

mit
${ f'(net(p))(t(p)- o(p)) falls j Ausgabeneuron, d(p)= j(p) sum j (p) j j f'(netj ) dk wjk sonst. k$ (5.10)

Die Fehlerfunktion bildet den Raum der Parameter auf den Fehler ab. Hat man nur zwei Parameter, so erhält man eine Fläche im ³. Der Gradientenabstieg bedeutet anschaulich, daß man von einem Anfangspunkt ausgehend der Neigung der Fehlerfläche abwärts folgt, bis die Neigung 0 ist. Dann geht man davon aus, daß man an einem Tiefpunkt angelangt ist. Ein solcher Tiefpunkt stellt dann eine Parameterwahl dar, für die der Fehler lokal minimal wird.

Die Anwendung von Backpropagation wirft einige Probleme auf, die hier kurz dargestellt werden sollen:

Man hat im allgemeinen keine Gewißheit, daß das gefundene Minimum auch