12.4.1. Weight DecayEine der am häufigsten verwendeten Techniken, um die Generalisierungsleistung neuronaler Netze zu verbessern, ist Weight Decay (vgl. Abschnitt 5.1). Weight Decay wurde in RhythmScan implementiert und in verschiedenen Konstellationen erprobt. Das Training der FLN ist empfindlich gegenüber Weight Decay; nur sehr kleine Werte (ca. 10-8) lassen noch ein erfolgreiches Training zu. Die Generalisierung der FLN ließ sich durch Weight Decay nicht verbessern, sie zeigten aber bereits ohne Weight Decay gute Werte. Die Netze MLP4 und MLP3/3 wurden mit der Trainingsmenge aus dem letzten Abschnitt trainiert und zeigten eine verbesserte Generalisierung, wie man Tabelle 12.3 entnehmen kann. Beim Training mit Weight-Decay, sigmoider Aktivierung des Komparatorneurons und Cross-Entropie erreichten die beiden Netze tatsächlich eine wesentlich bessere Generalisierung, die damit auf dem gleichen Niveau wie bei den FLN liegt.
Es stellt sich die Frage, warum Weight Decay bei den FLN im Gegensatz zu den MLP keine Verbesserung bewirkt. Weight Decay wird verwendet, um die Modellkomplexität den Daten anzupassen, d.h. um Überlernen bei einem zu flexiblen Modell bzw. zu wenig Daten zu vermeiden. Wenn die Modellkomplexität bereits angemessen ist, kann man dagegen keine wesentliche Verbesserung durch Weight Decay erwarten. Ein Grund könnte also sein, daß das FLN für die Daten bereits eine geeignete Flexibilität hat, oder daß die durch die Fuzzy-Regeln begrenzte Struktur bestimmte falsche Lösungen verhindert. Weight Decay ist heuristisch dadurch motiviert, daß die Neuronen sich bei kleinen Gewichten näherungsweise linear verhalten, was bei MLP zu einem einfacheren Modell führt, das bevorzugt werden sollte.5 Diese Überlegung greift bei den hier verwendeten FLN nicht, da der q-Operator |