- 216 -Enders, Bernd / Stange-Elbe, Joachim (Hrsg.): Global Village - Global Brain - Global Music 
  Erste Seite (1) Vorherige Seite (215)Nächste Seite (217) Letzte Seite (507)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 

Malcolm Slaney hat in seiner Auditory Toolbox4
4
Malcolm Slaney, Auditory Toolbox, Version 2, Technical Report 1998–010, Interval Research Corporation, < http://web.interval.com/~malcolm/pubs.htm>.
für MATLAB verschiedene Gehörmodelle implementiert, die sich als Vorverarbeitung eignen, darunter das im Folgenden kurz beschriebene Modell von Richard Lyon5
5
Malcolm Slaney, Richard F. Lyon, On the importance of time, A temporal representation of sound, in: Visual Representations of Speech Signals, hg. von M. Cooke u. a., Sussex 1993, S. 95–116, < http://web.interval.com/~malcolm/pubs.html{\#}ImportanceOfTime>.
.

Ein linearer Filter modelliert zunächst den Frequenzgang des Außen- und Mittelohrs, bevor eine Kaskade von sich überlappenden Tiefpaßfiltern die Ausbreitung des Schallsignals als Wanderwelle in der Cochlea nachbildet. Jeder Tiefpaßfilter entspricht dabei einem kleinen Abschnitt der Cochlea. Dann folgt ein Halbwellen-Gleichrichter (half wave rectifier), der die Erregung der Haarzellen simuliert, und schließlich eine automatische Lautstärkeregelung (automatic gain control) zur Kompression der Dynamik. Das Ausgangssignal entspricht der Feuerhäufigkeit der Nervenfasern des jeweiligen Cochlea-Abschnitts und wird in einem Vektor zusammengefaßt. Dieser repräsentiert einen kurzen zeitlichen Ausschnitt aus einem Klangereignis. Ein komplettes Klangereignis wird – wie in einem Film – durch eine Sequenz von Einzelbildern (frames) dargestellt.

Die graphische Darstellung des Cochlea-Ausgangssignals gegenüber der Zeit – einem Spektrogramm vergleichbar – wird als Cochleagramm bezeichnet. Es bietet gegenüber dem durch FFTs gewonnenen Spektrogramm den Vorteil, das es bei gleicher Frequenzauflösung die zeitliche Struktur des Signals besser bewahrt.

2. Stufe: topologie-erhaltende Abbildung

Da sich musikalische Klangereignisse nicht generell in vorher definierte Klassen einteilen lassen, wie es bei den Sprachlauten der Fall ist (Phoneme), bietet sich zur Klassifizierung der vorverarbeiteten Signale in der zweiten Stufe meines Systems ein selbstorganisierendes künstliches neuronales Netzwerk an, dessen Funktion an die der biologischen neuronalen Netze in der Großhirnrinde angelehnt ist.

Ein solches Netzwerk stellt die von Teuvo Kohonen6

6
Teuvo Kohonen, Self-Organisation and Associative Memory, 3. Auflage, Berlin 1989.
entwickelte selbstorganisierende Karte (self-organizing map) dar. Sie ist in der Lage, höherdimensionale Eingangssignale unter Berücksichtigung vorhandener Ordnungsrelationen auf niederdimensionale Ausgangssignale abzubilden. Diese topologie-erhaltende Abbildung erfolgt jeweils entlang der Dimensionen mit der größten Varianz.

Die Ausgangssignale lassen sich durch Punkte auf einer gewöhnlich zwei- oder dreidimensionalen topologischen Karte beschreiben, deren Abstände von der vektoriellen Differenz der Eingangssignale abhängen. Die topologische Karte stellt also ein Ähnlichkeitsdiagramm dar. Die abzubildenden Eingangssignale sind in diesem Fall die vorverarbeiteten Vektoren aus der 1. Stufe, daher bildet jedes Klangereignis eine Sequenz von Punkten auf der topologischen Karte, die sich graphisch als Bahnkurve darstellen läßt, etwa wie in Abb. 1.

Wie alle neuronalen Netze benötigt auch die selbstorganisierende Karte eine Lernphase, in der sich die Gewichtsvektoren der einzelnen Units in geordneter Wei-


Erste Seite (1) Vorherige Seite (215)Nächste Seite (217) Letzte Seite (507)      Suchen  Nur aktuelle Seite durchsuchen Gesamtes Dokument durchsuchen     Aktuelle Seite drucken Hilfe 
- 216 -Enders, Bernd / Stange-Elbe, Joachim (Hrsg.): Global Village - Global Brain - Global Music