Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

12.4.1. Weight Decay

Eine der am häufigsten verwendeten Techniken, um die Generalisierungsleistung neuronaler Netze zu verbessern, ist Weight Decay (vgl. Abschnitt 5.1). Weight Decay wurde in RhythmScan implementiert und in verschiedenen Konstellationen erprobt. Das Training der FLN ist empfindlich gegenüber Weight Decay; nur sehr kleine Werte (ca. 10^-8) lassen noch ein erfolgreiches Training zu. Die Generalisierung der FLN ließ sich durch Weight Decay nicht verbessern, sie zeigten aber bereits ohne Weight Decay gute Werte. Die Netze MLP4 und MLP3/3 wurden mit der Trainingsmenge aus dem letzten Abschnitt trainiert und zeigten eine verbesserte Generalisierung, wie man Tabelle 12.3 entnehmen kann. Beim Training mit Weight-Decay, sigmoider Aktivierung des Komparatorneurons und Cross-Entropie erreichten die beiden Netze tatsächlich eine wesentlich bessere Generalisierung, die damit auf dem gleichen Niveau wie bei den FLN liegt.


	FLN2	FLN3	MLP4	MLP3/3

Interpretationsfehler auf der Trainingsmenge	9	8	5	4
	(18%)	(16%)	(10%)	(8%)

Fehlerbetrag (Quadratsumme)	9.07e-7	3.67e-7	2.40e-7	5.06e-8

Relative Beispiele	170	139	250	95

Fehler auf den relativen Beispielen	88	61	26	25
	(51%)	(43%)	(10%)	(26%)

Relative Beispiele nach 50 Iterationen	170	427	248	243

Erreichte lokale Minima	0	1	3	3

Interpretationsfehler Testmenge	11	12	10	10
	(22%)	(24%)	(20%)	(20%)

Tabelle 12.3:

Ergebnisse des Trainings mit Cross-Entropie-Fehler und Weight Decay für verschiedene Netztypen.

Es stellt sich die Frage, warum Weight Decay bei den FLN im Gegensatz zu den MLP keine Verbesserung bewirkt. Weight Decay wird verwendet, um die Modellkomplexität den Daten anzupassen, d.h. um Überlernen bei einem zu flexiblen Modell bzw. zu wenig Daten zu vermeiden. Wenn die Modellkomplexität bereits angemessen ist, kann man dagegen keine wesentliche Verbesserung durch Weight Decay erwarten. Ein Grund könnte also sein, daß das FLN für die Daten bereits eine geeignete Flexibilität hat, oder daß die durch die Fuzzy-Regeln begrenzte Struktur bestimmte falsche Lösungen verhindert. Weight Decay ist heuristisch dadurch motiviert, daß die Neuronen sich bei kleinen Gewichten näherungsweise linear verhalten, was bei MLP zu einem einfacheren Modell führt, das bevorzugt werden sollte.⁵

⁵ Vgl. Bishop (1997).

Diese Überlegung greift bei den hier verwendeten FLN nicht, da der q-Operator