das Netz sich zu genau an die spezifischen Daten der
Trainingsmenge anpaßt. Ziel des Trainings ist, daß das Netz den Prozeß abbildet,
der den Daten zugrunde liegt, damit sich das Netz für unbekannte Beispiele
möglichst ähnlich dem Vorbild verhält. Dabei können neuronale Netze abhängig
von der Anzahl der Neuronen und Verbindungen beliebige Funktionsverläufe
approximieren.
18
Wenn das Netz sich den Daten zu flexibel anpaßt, lernt es die Eigenschaften
der Daten quasi ›auswendig‹, nicht aber den zugrundeliegenden Prozeß, aus
dem die Daten stammen. Dieses Verhalten wird
Überlernen (engl.
over-fitting)
genannt.
Es sind verschiedene Methoden entwickelt worden, um das Überlernen zu
reduzieren:
- Early Stopping: Man bricht das Training ab, sobald der Fehler auf der
Testmenge ansteigt, und hat auf diese Weise die bestmögliche Performance
auf der Testmenge sichergestellt. Damit ist allerdings nicht gewährleistet, daß
das Ergebnis bei anderen Beispielen vergleichbar gut ist.
- Cross Validation: Die Daten werden aufgeteilt und bei mehrfachem
Training verschiedene Teile jeweils als Trainings- bzw. Testmenge benutzt.
Dann kann man das Ergebnis wählen, das den geringsten Testfehler
produziert, oder die Ergebnisse mitteln.
- Komiteebildung Die Koppelung mehrerer Netzwerke zu sog. Komitees
verringert den Generalisierungsfehler.
- Training mit Rauschen Wenn man den Daten während des
Trainings wechselnde zufällige Abweichungen hinzufügt, wird die spezifische
Ausprägung der Trainingsdaten ›verwischt‹.
Diese Verfahren waren zunächst empirisch motiviert, sind aber inzwischen auch analytisch
untersucht worden. Eine ausführliche Darstellung und Analyse findet sich bei
Bishop.19
Ein wesentlicher Zusammenhang besteht zwischen der Komplexität des verwendeten
Modells, d.h. der Größe des Netzes, und der Größe der Trainingsmenge. Die
Anzahl der benötigten Trainingsbeispiele wächst exponentiell mit der Anzahl der
Parameter im Modell, d.h. mit der Anzahl der Gewichte im Netz. Für diesen
Zusammenhang prägte Bishop den Begriff Fluch der Dimensionalität (engl. curse of
dimensionality).20
Die Flexibilität eines komplexen Modells, die sich sinnvoll nutzen läßt, ist daher
durch die Anzahl an verfügbaren Beispielen begrenzt. Ein Modell, das seht
komplex ist, kann sich durch die zusätzlichen Parameter den Daten besonders
gut anpassen. Im allgemeinen enthalten die Daten aber Abweichungen vom
Normalfall, sogenanntes
Rauschen. Dieses Rauschen soll den Lernvorgang so wenig
wie möglich beeinflussen, denn das Modell soll den zugrundeliegenden Prozeß
abbilden. Wenn das Netz statt dessen das Rauschen abbildet, werden die Tests auf
anderen Daten, die aus dem gleichen Prozeß wie die Trainingsdaten stammen,
schlechter.