Malcolm Slaney hat in seiner Auditory
Toolbox4
Ein linearer Filter modelliert zunächst den Frequenzgang des Außen- und Mittelohrs, bevor eine Kaskade von sich überlappenden Tiefpaßfiltern die Ausbreitung des Schallsignals als Wanderwelle in der Cochlea nachbildet. Jeder Tiefpaßfilter entspricht dabei einem kleinen Abschnitt der Cochlea. Dann folgt ein Halbwellen-Gleichrichter (half wave rectifier), der die Erregung der Haarzellen simuliert, und schließlich eine automatische Lautstärkeregelung (automatic gain control) zur Kompression der Dynamik. Das Ausgangssignal entspricht der Feuerhäufigkeit der Nervenfasern des jeweiligen Cochlea-Abschnitts und wird in einem Vektor zusammengefaßt. Dieser repräsentiert einen kurzen zeitlichen Ausschnitt aus einem Klangereignis. Ein komplettes Klangereignis wird – wie in einem Film – durch eine Sequenz von Einzelbildern (frames) dargestellt. Die graphische Darstellung des Cochlea-Ausgangssignals gegenüber der Zeit – einem Spektrogramm vergleichbar – wird als Cochleagramm bezeichnet. Es bietet gegenüber dem durch FFTs gewonnenen Spektrogramm den Vorteil, das es bei gleicher Frequenzauflösung die zeitliche Struktur des Signals besser bewahrt.
2. Stufe: topologie-erhaltende AbbildungDa sich musikalische Klangereignisse nicht generell in vorher definierte Klassen einteilen lassen, wie es bei den Sprachlauten der Fall ist (Phoneme), bietet sich zur Klassifizierung der vorverarbeiteten Signale in der zweiten Stufe meines Systems ein selbstorganisierendes künstliches neuronales Netzwerk an, dessen Funktion an die der biologischen neuronalen Netze in der Großhirnrinde angelehnt ist. Ein solches Netzwerk stellt die von Teuvo Kohonen6
Die Ausgangssignale lassen sich durch Punkte auf einer gewöhnlich zwei- oder dreidimensionalen topologischen Karte beschreiben, deren Abstände von der vektoriellen Differenz der Eingangssignale abhängen. Die topologische Karte stellt also ein Ähnlichkeitsdiagramm dar. Die abzubildenden Eingangssignale sind in diesem Fall die vorverarbeiteten Vektoren aus der 1. Stufe, daher bildet jedes Klangereignis eine Sequenz von Punkten auf der topologischen Karte, die sich graphisch als Bahnkurve darstellen läßt, etwa wie in Abb. 1. Wie alle neuronalen Netze benötigt auch die selbstorganisierende Karte eine Lernphase, in der sich die Gewichtsvektoren der einzelnen Units in geordneter Wei-
|