Wollermann, Tobias: Musik und Medium

es liegt auch nur einmal vor. Nur die einzelnen Frequenzbänder unterscheiden sich in der Lautstärke und erzeugen den Stereoeffekt.

Zur weiteren Datenreduktion gibt es drei grundlegende Basistechniken:⁴⁷

⁴⁷[von Leitner(2000)].

Predictive Coding: Das Wissen über das vergangene Signal wird für eine Vorhersage des nächsten Samples benutzt. Die Kompression ergibt sich dadurch, dass man nur die Differenz zwischen dem Signal und der Vorhersage abspeichert.
Sub-Band Coding: In diesem Fall teilt man das Audio-Spektrum in Frequenzbänder auf. Dann kann man die Tatsache ausnutzen, dass fast alle Bänder ein viel geringeres (oder weniger wichtiges) Signal beinhalten als das lauteste Band. Die Kompression beruht darauf, dass man für die unwichtigen Bänder weniger Platz bereitstellt als für die wichtigen; in manchen Fällen kann man sich die Übertragung unwichtiger Bänder auch ganz sparen. Die Bits werden dynamisch auf die Bänder verteilt; dem Encoder fällt die aufwendige Selektionsarbeit zu, für die er ein so genanntes psychoakustisches Modell benutzt, anhand dessen er die wichtigen und unwichtigen Teile eines Signals unterscheidet. Der Encoder muss neben den Audio-Daten auch Daten über die Bitverteilung übertragen. Der Decoder muss das Signal aus den abgespeicherten Informationen nur synthetisieren.
Spectral oder Transform Coding: Mit dieser Technik berechnet man über die Wellenform periodisch eine Fourier-Transformation. Weil sich die transformierte Darstellung eines Signals nur langsam ändert, muss man sie viel seltener übertragen. Sub-Band Coding wird oft als Spezialfall von Transform Coding verstanden. Transform-Encoder benutzen gewöhnlich eine hohe Zahl an Subbändern und betrachten von der Frequenz her benachbarte Samples gemeinsam.

Nachdem nun die psychoakustischen Prinzipien der Komprimierung beschrieben wurden, sollen kurz einige Formate vorgestellt werden. Das wohl wichtigste bzw. am weitesten verbreitetste verlustbehaftete Format, bei dem nicht nur Redundanzen beseitigt werden, ist MPEG-Audio. Es wurde vom Fraunhofer Institut für integrierte Schaltungen in Erlangen entwickelt und stellt eine Spezifikation als Sonderform des MPEG-Videoformats dar.⁴⁸

⁴⁸Der Name MPEG, der für ›Motion Picture Expert Group‹ steht, verdeutlicht den Sachverhalt, dass sich das MPEG-Gremium ursprünglich mit der Videokomprimierung beschäftigt hat. Weitere Informationen finden sich unter http://www.mpeg.org (Link vom 19.08.2004).

MPEG-Audio wurde vom MPEG-Gremium in so genannten Layern definiert. Der MPEG-1 Standard⁴⁹

⁴⁹Der Vollständigkeit halber sei an dieser Stelle noch kurz auf weitere MPEG-Standards eingegangen. Auch an dieser Stelle wird ein weiteres Mal deutlich, dass die ehemals starren Grenzen zwischen den einzelnen Medien verschwimmen. Bei den Weiterentwicklungen des MPEG-Standards handelt es sich nicht mehr um reine Video- oder Audioformate sondern vielmehr um multimediale Repräsentationsformate.
Neben MPEG-1 existiert MPEG-2, das sich vor allem durch zusätzlich definierte Bitraten, Multichannel-Erweiterungen sowie der alternativen, zu MP3 allerdings inkompatiblen Kodierung AAC (›Advanced Audio Coding‹, vgl. Seite 217) auszeichnet.
MPEG-4 ist heute der Standard für plattformunabhängige Multimedia-Repräsentation. Neben Video und Audio können mit diesem Format auch weitere multimediale Inhalte, Texte etc. gespeichert und übermittelt werden. Die erste Version dieses Standards wurde bereits 1998 verabschiedet. Inzwischen wurden eine Reihe von Neuerungen vorgenommen, wie z. B. die Integration verbesserter Video-Codecs (H.264 und VC-9) sowie die Integration des Audioformates MPEG-4 AAC. In MPEG-4 haben schließlich auch andere Audiocoder Einzug gehalten. So z. B. spezielle Sprachcoder wie HVXC (harmonic vector excitation) oder CELP (code excited linear predicition), die auf die Übertragung von Sprache bei extrem niedrigen Bitraten optimiert sind. Ebenso sind TwinVQ (›Time-domain weighted interleave vector quantization‹, vgl. Seite 217) sowie ein erweiterter AAC-Encoder integriert. Über eine Art Szenenbeschreibung der multimdialen Inhalte ist in gewisser Weise auch eine Interaktion möglich. Zurzeit versucht eine Arbeitsgruppe (vgl. http://www.interactivemusicnetwork.org/mpeg-ahg, Link vom 02.08.2004), an der auch die Osnabrücker Forschungsstelle für Musik- und Medientechnologie (FMT) maßgeblich beteiligt ist, die Notation in den MPEG-4 Standard zu integrieren. Des Weiteren sollen SASL (›structered audio score language‹, ähnlich MIDI) und SAOL (›structured audio orchestra language‹, ähnlich C-Sound) integriert werden.
Im Moment wird an MPEG-7 und MPEG-21 gearbeitet. MPEG-7 ist dahingehend ausgelegt, MPEG-4 Daten zu ›verschlagworten‹ und zu durchsuchen. Ein Bericht über die Ziele und angestrebten Ergebnisse von MPEG-21 findet sich bei [Burnett et al.(2003)Burnett, de Walle, Hill, Bormans und Pereira]. Letzteres wird wahrscheinlich erst im Jahr 2009 fertiggestellt sein. Beide Formate sind multimedial ausgerichtet.

, der Anfang der Neunziger