- 84 -Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen 
  Erste Seite (i) Vorherige Seite (83)Nächste Seite (85) Letzte Seite (247)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 

verwendete Fehlerfunktion ist die quadratische Summe über die Trainingsmuster aus P:
 m m l
 E(w) = 1 sum E(p)(w) = 1 sum sum (t(p) -o(p))2.
 2 p=1 2 p=1i=1 i i
(5.6)

Dabei ist oi der tatsächliche Ausgabewert des Neurons xi, Der Faktor 1
 2 erleichtert das Rechnen mit den Ableitungen und hat sonst keine Auswirkungen.

Das Ziel des Verfahrens ist, die Gewichte so zu verändern, daß die Abweichung der tatsächlichen Aktivierung der Ausgabeneuronen oi vom gewünschten Zielwert ti möglichst klein wird, indem man versucht, die Fehlerfunktion zu minimieren. Dazu wird vorausgesetzt, daß alle verwendeten Funktionen der Netzeingabe, Aktivierung und Fehlerberechnung differenzierbar sind, um ein Gradientenabstiegsverfahren zu verwenden. Der Gradient  \~/ f einer mehrdimensionalen Funktion f bezeichnet den Steigungsvektor in einem Punkt. Der Gradientenabstieg besteht darin, die Argumente in dem Gradienten entgegengesetzter Richtung zu verändern, um den Funktionswert zu minimieren. Bei Backpropagation betrachtet man den Fehlerwert als Funktion der Gewichte und verändert die Gewichte, um den Fehler zu verringern:
 /_\ w = -j \~/ E(w).
(5.7)

Für ein einzelnes Gewicht ergibt sich daraus
 sum (p)
 /_\ wij = -j@E(w)- = - j@E--(w)-.
 @wij p (- P @wij
(5.8)

Die Konstante j bezeichnet wieder die Lernrate und bestimmt den Betrag der Gewichtsänderung. Man setzt dabei 0 < j < 1 voraus. Für ein Netz mit gewichteter Summe als net und flog als Aktivierungsfunktion lassen sich die Werte rekursiv berechnen:
 /_\ w = -j sum o(p)d(p)
 ij p (- P i j
(5.9)

mit
 { f'(net(p))(t(p)- o(p)) falls j Ausgabeneuron,
 d(p)= j(p) sum j (p) j
 j f'(netj ) dk wjk sonst.
 k
(5.10)

Die Fehlerfunktion bildet den Raum der Parameter auf den Fehler ab. Hat man nur zwei Parameter, so erhält man eine Fläche im R3. Der Gradientenabstieg bedeutet anschaulich, daß man von einem Anfangspunkt ausgehend der Neigung der Fehlerfläche abwärts folgt, bis die Neigung 0 ist. Dann geht man davon aus, daß man an einem Tiefpunkt angelangt ist. Ein solcher Tiefpunkt stellt dann eine Parameterwahl dar, für die der Fehler lokal minimal wird.

Die Anwendung von Backpropagation wirft einige Probleme auf, die hier kurz dargestellt werden sollen:

  • Man hat im allgemeinen keine Gewißheit, daß das gefundene Minimum auch

Erste Seite (i) Vorherige Seite (83)Nächste Seite (85) Letzte Seite (247)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 
- 84 -Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen