Weyde, Tillman: Lern- und wissensbasierte Analyse von Rhythmen

das Netz sich zu genau an die spezifischen Daten der Trainingsmenge anpaßt. Ziel des Trainings ist, daß das Netz den Prozeß abbildet, der den Daten zugrunde liegt, damit sich das Netz für unbekannte Beispiele möglichst ähnlich dem Vorbild verhält. Dabei können neuronale Netze abhängig von der Anzahl der Neuronen und Verbindungen beliebige Funktionsverläufe approximieren.¹⁸

¹⁸ Hornik et al. (1989).

Wenn das Netz sich den Daten zu flexibel anpaßt, lernt es die Eigenschaften der Daten quasi ›auswendig‹, nicht aber den zugrundeliegenden Prozeß, aus dem die Daten stammen. Dieses Verhalten wird Überlernen (engl. over-fitting) genannt.

Es sind verschiedene Methoden entwickelt worden, um das Überlernen zu reduzieren:

Early Stopping: Man bricht das Training ab, sobald der Fehler auf der Testmenge ansteigt, und hat auf diese Weise die bestmögliche Performance auf der Testmenge sichergestellt. Damit ist allerdings nicht gewährleistet, daß das Ergebnis bei anderen Beispielen vergleichbar gut ist.
Cross Validation: Die Daten werden aufgeteilt und bei mehrfachem Training verschiedene Teile jeweils als Trainings- bzw. Testmenge benutzt. Dann kann man das Ergebnis wählen, das den geringsten Testfehler produziert, oder die Ergebnisse mitteln.
Komiteebildung Die Koppelung mehrerer Netzwerke zu sog. Komitees verringert den Generalisierungsfehler.
Training mit Rauschen Wenn man den Daten während des Trainings wechselnde zufällige Abweichungen hinzufügt, wird die spezifische Ausprägung der Trainingsdaten ›verwischt‹.

Diese Verfahren waren zunächst empirisch motiviert, sind aber inzwischen auch analytisch untersucht worden. Eine ausführliche Darstellung und Analyse findet sich bei Bishop.¹⁹

¹⁹ Bishop (1997, Kap. 9).

Ein wesentlicher Zusammenhang besteht zwischen der Komplexität des verwendeten Modells, d.h. der Größe des Netzes, und der Größe der Trainingsmenge. Die Anzahl der benötigten Trainingsbeispiele wächst exponentiell mit der Anzahl der Parameter im Modell, d.h. mit der Anzahl der Gewichte im Netz. Für diesen Zusammenhang prägte Bishop den Begriff Fluch der Dimensionalität (engl. curse of dimensionality).²⁰

²⁰ Bishop (1997, S. 7–9).

Die Flexibilität eines komplexen Modells, die sich sinnvoll nutzen läßt, ist daher durch die Anzahl an verfügbaren Beispielen begrenzt. Ein Modell, das seht komplex ist, kann sich durch die zusätzlichen Parameter den Daten besonders gut anpassen. Im allgemeinen enthalten die Daten aber Abweichungen vom Normalfall, sogenanntes Rauschen. Dieses Rauschen soll den Lernvorgang so wenig wie möglich beeinflussen, denn das Modell soll den zugrundeliegenden Prozeß abbilden. Wenn das Netz statt dessen das Rauschen abbildet, werden die Tests auf anderen Daten, die aus dem gleichen Prozeß wie die Trainingsdaten stammen, schlechter.