Das MP3-Kompressionsverfahren. Theoretische Grundlagen und praktische Anwendung


Diplomarbeit, 2000
113 Seiten, Note: 1

Leseprobe

Inhalt

Vorwort

1 Einleitung

2 Grundlagen
2.1 Was ist MP3?
2.1.1 Historie
2.1.2 Verlustfreie und verlustbehaftete Codierung
2.1.3 Audiodateien in MP3
2.1.4 Audio-Streaming in MP3
2.2 Wie funktioniert die Komprimierung?
2.2.2 Digitaltechnische Grundlagen
2.2.3 Funktion der MP3-Codierung
2.2.4 Funktion der Decodierung
2.2.5 Komprimierung in Stereo

3 Praxis
3.1 Encoder
3.1.1 MP3-Software-Encoder
3.1.2 MP3-Hardware-Encoder
3.2 Decoder
3.2.1 MP3-Software-Decoder
3.2.1 MP3-Hardware-Decoder

4 Hörtest
4.1 Beschreibung des Hörtests
4.2 Der Fragebogen
4.3 Durchführung des Hörtests
4.3.1 Bedingungen, unter denen der Hörtest vorbereitet wurde
4.3.2 Bedingungen, unter denen der Hörtest stattfand
4.4 Auswertung des Hörtests
4.4.1 Allgemeines
4.4.2 Statistische Grundlagen
4.4.3 Entscheidungsgrundlagen
4.5 Ergebnisse
4.5.1 Allgemeines
4.5.2 Teilnehmer
4.5.3 Reliabilität
4.5.4 Validität
4.5.5 Die Ergebnisse im Einzelnen
4.6 Schlüsse aus dem Hörtest

5 Anwendungen
5.1 MP3 beim Rundfunk
5.1.1 Audiodateien auf den File-Servern
5.1.2 Audio-Streaming via ISDN
5.1.3 Digitales Satelliten-Radio
5.2 MP3 im Internet
5.2.1 Audiodateien zum Download
5.2.2 Audio-Streaming

6 Anhang
6.1 Quellenverzeichnis
6.1.1 Literatur
6.1.2 Internet
6.2 Urliste des Hörtests
6.3 Kommentare der Versuchsteilnehmer

Vorwort

Danken möchte ich all jenen, die mir bei der Fertigstellung dieser Diplomarbeit geholfen haben.

Prof. Dr. Dieter Braun für hervorragende Betreuung während der gesamten Arbeit.

Dipl.-Ing. Maria-Theresia Herbrand für die Übernahme des Ko-Referates und ihr Interesse.

Allen Teilnehmern an meinem Hörversuch für deren Unterstützung und Interesse.

Karl-Heinz Schaak von der Firma Audio Export für seine freundliche Hilfe und die unkomplizierte Bereitstellung der Monitore für den Hörversuch.

Dipl-Ing. Frank Meuter für Unterstützung im Rahmen des Hörversuchs.

Gerald Steuler für die Boxenstative und den Vorverstärker für den Hörversuch.

Und schließlich meinen Eltern, die mich während des gesamten Studiums unterstützt haben.

Düsseldorf, im Oktober 2000

Patrick Grögler

1 Einleitung

MP3 “ ist das meisteingegebene Wort bei den großen Suchmaschinen im Internet. Damit löste es 1999 das bis dahin meisteingebene Wort „ SEX “ ab. MP3 ist vor allem bei jungen Leuten das Thema Nr.1 im Netz. Auf unzähligen Seiten werden legal, häufig jedoch auch illegal Songs im MP3-Format angeboten. Jüngstes Beispiel für die Popularität aber auch die Umstrittenheit von MP3-Angeboten im Internet ist die Musiktauschbörse „Napster“, gegen die einige große Schallplattenfirmen gerichtlich vorgehen, was von der ganzen Welt mit Spannung verfolgt wird.

Die vorliegende Arbeit soll zunächst einige Grundlagen klären: Was ist MP3 überhaupt? Und wie funktioniert dieses Verfahren? Dann sollen konkret Programme und Geräte aus der Praxis vorgestellt werden, mit denen MP3-Signale erzeugt und auch wieder zurückgewandelt werden können. Das Kernstück dieser Arbeit bildet der Hörtest, der untersucht, wann und unter welchen Bedingungen eine MP3-Komprimierung hörbar wird bzw. wann und unter welchen Bedingungen eine MP3-Komprimierung unhörbar bleibt. Schließlich sollen noch die populärsten Anwendungen von MP3, nämlich beim Rundfunk und im Internet aufgezeigt und aufgrund der Ergebnisse des Hörtests kritisch beurteilt werden.

Beim Verfassen dieser Arbeit kamen einige weitergehende Fragestellungen und Themen auf, die den Rahmen der vorliegenden Arbeit gesprengt hätten, die aber Inhalt zukünftiger Diplomarbeiten sein könnten. Dies wäre zum Beispiel eine messtechnische Untersuchung von MP3-Signalen. Auch ein Vergleich von MP3 mit anderen Audio-Komprimierungsverfahren in Theorie und Praxis wäre interessant. Außerdem wäre ein Vergleich verschiedener MP3-Encoder denkbar. Schließlich wäre ein Hörversuch mit ausgewählten, besonders qualifizierten Teilnehmern, die zuvor geschult werden, sich intensiv in das Audio-Material einhören können und beliebig oft zwischen dem originalen und dem komprimierten Signal hin- und herschalten dürfen denkbar, um die Frage zu klären: „Wann, wenn man es darauf anlegt, kann eine MP3-Komprimierung wahrgenommen werden?“

An dieser Stelle sollen nun noch in Kürze und als Überblick andere Audio-Komprimierungsverfahren vorgestellt werden. Der Autor hält dies für sinnvoll, um eine Einordnung von MP3 in die Vielzahl von Audio-Komprimierungsverfahren zu ermöglichen.

MPEG 2 ist ebenfalls aus 3 Layern aufgebaut und ist zu MP3 vorwärts- (d.h. ein MPEG 2 – Decoder spielt auch MPEG 1) und rückwärtskompatibel (d.h. ein MPEG 1 – Decoder spielt auch MPEG 2). MPEG 2 unterstützt LSF (= L ow S ampling F requencies), nämlich 24 , 22,05 und 16 kHz. Bei kleinen Bitraten bringt dies Vorteile, da bei kleinerer Zeitauflösung die Frequenzauflösung verbessert werden kann. Außerdem sind mehr als nur 2 Kanäle und damit mehrkanalige Soundformate möglich.

MPEG 2.5 unterstützt zusätzlich Samplingraten von 12 , 11,025 und 8 kHz und ermöglicht Bitraten bis hinunter zu 8 kBit/s.

MPEG 2 AAC (A dvanced A udio C oding) hat einige Detailverbesserungen in der Codierung gegenüber MPEG 2. Es ist nicht kompatibel zu MPEG 2.

MPEG 4 existiert seit Ende 1998 und enthält zusätzlich Daten für multimediale Anwen-dungen, wie z.B. Daten für Synthesitzer, Daten für Diaprojektoren oder Daten über Positionen von Klangquellen im Raum.

MPEG 7 erscheint Mitte 2001 und erweitert die multimedialen Möglichkeiten von MPEG 4.

MPEG 21 ist in Arbeit, ein Erscheinungstermin ist noch nicht abzusehen. Wiederum sollen die multimedialen Fähigkeiten erweitert werden.

ATRAC ist das Komprimierungsverfahren, das bei der MiniDisc zum Einsatz kommt. Die Bitrate beträgt ca. 280 kBit/s, was einem Kompressionsverhältnis von ungefähr 5 : 1 ent-spricht. Damit konkurriert ATRAC am ehesten mit dem 256 kBit/s-MP3-Signal.

MWM (= M icrosoft W indows M edia) ist das relativ neue Soundformat der Firma Microsoft. Ob es sich durchsetzen wird ist fraglich, da messtechnische Untersuchungen bereits Nachteile gegenüber MP3 zeigten. Die Endung der Dateien lautet .ASF, .ASX oder auch nur .AS (= A udio S oft).

Real Audio von Real Networks ist führend im Internet für Audio-Streaming. Dateien im Real Audio - Soundformat sind nicht vorgesehen. Die maximale Datenrate beträgt 96 kBit/s.

VQF oder auch TwinVQ von Yamaha ist angetreten, um im Internet MP3 den Rang abzulaufen. Ursprünglich vor allem fürs Audio-Streaming gedacht, wurden bald auch Dateien im VQF-Format ermöglicht. Der Anteil an Audio-Dateien im Internet im VQF-Format ist allerdings verschwindend gering.

AC-3 von Dolby wird bei der DVD und beim HDTV eingesetzt. Es ist als mehrkanaliges Soundformat angelegt. Die maximale Bitrate beträgt 640 kBit/s.

MP4 hat prinzipiell nichts mit MPEG oder MP3 zu tun und ist ein eigenständiges Audio-Komprimierungsverfahren, das von Global Music Outlet (GMO) Anfang 1999 herausgebracht wurde in Zusammenarbeit mit der Firma AT&T. MP4-Dateien sind keine Dateien im eigentlichen Sinne, es sind kleine eigenständig ausführbare Programme, die keinen Decoder, wie dies bei MP3-Dateien der Fall ist zum Abspielen benötigen. Sie sind also „selbst-decodierend“.

2 Grundlagen

2.1 Was ist MP3?

MP3 ist ein Verfahren zur Komprimierung von digitalen Audiodaten, das unterschiedliche Ausgangsdatenraten und damit unterschiedliche Kompressionsverhältnisse zulässt.

Die vorgesehenen Datenraten und die zugehörigen (ungefähren) Kompressionsverhältnisse bei einem 44,1 kHz Eingangssignal sind:

Abbildung in dieser Leseprobe nicht enthalten

Als Eingangssignale sind PCM = P ulse C ode M odulation – Signale mit einer Wortbreite von 16 Bit und einer Samplingfrequenz von 32 kHz, 44,1 kHz oder 48 kHz zulässig.

MP3 ist ein reiner Bitstrom- und Decoder-Standard, was bedeutet, dass die Algorithmen für die Codierung nicht festgelegt sind und ständig weiterentwickelt und verbessert werden können.

2.1.1 Historie

1988 rief die ISO/IEC (I nternational S tandards O rganization / I nternational E ngineering C onsortium) die MPEG (M otion P icture E xperts G roup) ins Leben mit dem Ziel, einen neuen Standard für die Komprimierung von digitalen Videosignalen und den zugehörigen digitalen Audiosignalen zu schaffen.

1989 lagen der MPEG 14 verschiedene Vorschläge vor, die aufgrund der Ähnlichkeiten in 4 verschiedene Gruppen eingeteilt werden konnten. Diese Gruppen waren ASPEC, ATAC, MUSICAM und SB/ADPCM.

1990 fanden in Schweden bei der Swedish Broadcasting Corporation ausführliche Hörtests statt, und es stellte sich heraus, dass die beiden Verfahren ASPEC und MUSICAM die beste Qualität besitzen.

Hinter ASPEC standen die Firmen AT&T, Bell Labs, Thomson, CNET (alle U.S.A.) und das deutsche Fraunhofer Institut, hinter MUSICAM standen die französische Rundfunkanstalt CCETT, die Firma Philips (NL) und das deutsche Institut für Rundfunktechnik (IRT).

Die MPEG beschloss dann, ein Modell aus 3 Ebenen („Layern“) mit steigender Komplexität zu schaffen, basierend auf den beiden Verfahren ASPEC und MUSICAM.

Layer 1 ist eine vereinfachte Version des MUSICAM – Verfahrens, Layer 2 fast identisch mit dem MUSICAM – Verfahren und Layer 3 schließlich, ausführlich MPEG 1 Layer 3, genannt MP3, eine Kombination aus den besten Teilen von ASPEC und MUSICAM.

Dieses Modell aus 3 Layern wurde dann 1991 erneut bei der Swedish Broadcasting Corporation getestet und Ende 1991 von der ISO/IEC offiziell als International Standard IS 11172 – 3 „Coding of moving Pictures and associated Audio for digital Storage Media at up to about 1.5 Mbit / s, Part 3: Audio“ aufgenommen.

2.1.2 Verlustfreie und verlustbehaftete Codierung

Unter verlustfreier Codierung versteht man die Verfahren, bei denen bei der Decodierung die ursprünglichen Daten komplett wieder hergestellt werden können. Der Informationsgehalt ist also vor und nach der Codierung gleich groß. Ein Beispiel hierfür ist die Entropiecodierung, bei der häufiger auftretende Werte kürzere Codewörter und seltener auftretende Werte längere Codewörter zugewiesen bekommen. Sie findet beispielsweise bei dem im Internet recht populären „ZIP“–Format Anwendung. Allerdings lassen sich hiermit nur sehr geringe Kompressionsverhältnisse erzielen.

Höhere Kompressionsverhältnisse, wie sie für Digital Audio häufig benötigt werden, lassen sich nur mit verlustbehafteter Codierung erzielen, zu der auch MP3 zählt.

Der Informationsgehalt ist hier nach der Codierung kleiner als vorher, ein Teil der Daten fällt weg. Man nennt diese Art der Audiocodierung „ Perceptual Audio Coding “ (perceptible: wahrnehmbar, merklich).

Interessant ist in diesem Zusammenhang der Begriff der „ Perceptual Entropy “, also des wahrnehmbaren Informationsgehalts.

Die „Perceptual Entropy“ ist eine Teilmenge der Entropie vor der Codierung. Sie steht also für die kleinstmögliche Informationsmenge nach einer Codierung, welche gerade noch unhörbar bleibt.

Ist nach der Codierung die Entropie gerade gleich der „Perceptual Entropy“, hat man ein im Sinne der maximal möglichen unhörbaren Komprimierung optimal codiertes Signal.

Ist die Entropie nach der Codierung noch grösser als die „Perceptual Entropy“, hat man eine zwar unhörbare, aber nicht maximale Komprimierung.

Ist hingegen die Entropie nach der Codierung kleiner als die „Perceptual Entropy“ vor der Codierung, hat man eine zwar starke, aber auch hörbare Komprimierung.

2.1.3 Audiodateien in MP3

Betrachtet werden soll ein PCM-Signal mit einer Wortbreite von 16 Bit und einer Samplingfrequenz von 44,1 kHz (das Datenformat einer Audio-CD also).

Ein vierminütiger Song in diesem Format in Stereo belegt

2 x 16 Bit x 44100 1/s x 4 x 60 s = 42,3 MB.

Man benötigt also ungefähr 10 MB / min. an Speicherplatz.

Derselbe Song MP3-codiert mit 128 kBit/s (Kompressionsverhältnis ungefähr 1:11) belegt

128000 Bit/s x 4 x 60 s = 3,84 MB.

Man benötigt also nur noch ungefähr 1 MB / min. an Speicherplatz.

Will man diesen Song nun über eine ISDN-Verbindung (64 kBit/s) herunterladen, benötigt man im originalen PCM-Format

42,3 MB / 8 kB/s = 88 min.

Im MP3-Format hingegen benötigt man nur noch

3,84 MB / 8kB/s = 8 min.

Und schließlich: Auf eine (zur Zeit handelsübliche) 10 GB Festplatte passen mit Hilfe von MP3 (wieder 128 kBit/s) anstatt 15 kompletten Audio-CDs immerhin 165 komplette Audio CDs.

2.1.4 Audio-Streaming in MP3

Unter Audio-Streaming versteht man die „live“-Übertragung von Digital Audio über einen digitalen oder analogen Kanal.

Betrachtet sei wieder ein 16-Bit-PCM-Signal (stereo) mit 44,1 kHz Samplingfrequenz.

Um dieses Signal zu „streamen“, bräuchte man einen Kanal mit einer Übertragungsrate von

2 x 16 Bit x 44100 1/s = 1412 kBit/s.

Bei MP3 hingegen kann man die Datenrate an die zur Verfügung stehende Übertragungsrate anpassen.

So kann man das oben bereits betrachtete MP3-Signal mit 128 kBit/s beispielsweise verwenden, wenn 2 synchronisierte B-Kanäle einer ISDN-Leitung zur Verfügung stehen, steht nur ein B-Kanal für eine Übertragung zur Verfügung, verwendet man einfach ein MP3-Signal mit 64 kBit/s.

Aber auch bei wesentlich schlechteren Verbindungen mit beispielsweise nur 32 kBit/s ist ein Audio-Streaming noch möglich, allerdings dann in stark eingeschränkter Qualität, mit dem 32 kBit/s-MP3-Signal mit Kompressionsverhältnis 44:1.

2.2 Wie funktioniert die Komprimierung?

Die Komprimierung bei MP3 basiert auf der Tatsache, dass in komplexen Klängen, wie Musik sie (meist) darstellt, ein Großteil der akustischen Information für das menschliche Gehör unhörbar bleibt. Dieser Teil der Information wird weggelassen, technisch realisiert als Datenreduzierung.

2.2.1 Psychoakustische Grundlagen

Die Psychoakustik beschreibt die Zusammenhänge zwischen akustischen Ereignissen (Reiz) und deren subjektiver Sinneswahrnehmung beim Menschen (Empfindung).

Da MP3 genau auf der Hörbarkeit bzw. Nicht-Hörbarkeit von bestimmten Schallanteilen basiert, bildet die Psychoakustik die wichtigste Grundlage für dieses Datenreduktions-verfahren.

2.2.1.1 Kurven gleicher Lautstärke

Die Kurven gleicher Lautstärke zeigen die unterschiedliche Empfindlichkeit des menschlichen Gehörs bei den verschiedenen Frequenzen des Hörbereichs bei verschiedenen Schallpegeln.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-1: Hörschwelle und Kurven gleicher Lautstärkepegel für Sinustöne im freien Schallfeld bei zweiohrigem Hören (nach DIN 45 630). [DIC87]

Entlang einer Kurve herrscht jeweils der gleiche Lautstärkepegel [phon], aber unterschiedliche Schalldruckpegel [dB]. Bei der Frequenz 1 kHz sind Lautstärkepegel und Schalldruckpegel jeweils identisch.

Die unterste Kurve stellt die Hörschwelle dar, die oberste Kurve die Schmerzgrenze. Den dazwischenliegenden Bereich bezeichnet man als Hörfläche.

2.2.1.2 Verdeckung

Als Verdeckung bezeichnet man den Effekt, wenn ein Ton aufgrund des Vorhandenseins eines anderen Tons (Maskierer) nicht mehr wahrnehmbar ist.

2.2.1.2.1 Spektrale Verdeckung

Von spektraler Verdeckung spricht man, wenn bei gleichzeitig erklingenden Tönen ein Ton andere verdeckt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-2: Mithörschwellen für Schmalbandrauschen von 160 Hz Bandbreite bei

unterschiedlichen Pegeln des verdeckenden Rauschens. [DIC90]

In Abbildung 2-2 verdeckt ein schmalbandiges Rauschen jeweils einen ganzen Bereich der Hörfläche. Die eingezeichneten Kurven stellen jeweils die Mithörschwelle dar. Jede Information unterhalb dieser Mithörschwelle bleibt für das menschliche Ohr unhörbar.

2.2.1.2.2 Vor-/ Nachverdeckung

Von Vor- bzw. Nachverdeckung spricht man, wenn ein Ton, der nach bzw. vor einem anderen Ton erklingt, diesen verdeckt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-3: Vor-, Simultan-, und Nachverdeckung eines Testschalls durch einen Maskierer. [ZWI82]

In Abbildung 2-3 ist dargestellt, welcher Bereich vor und nach einem Maskierer verdeckt wird, also der Bereich, in dem andere Schallereignisse nicht wahrgenommen werden können.

2.2.1.3 Frequenzgruppen

Das menschliche Gehör teilt Schallereignisse in einzelne Frequenzgruppen ein, innerhalb derer die Intensitäten der auftretenden Schwingungen integriert werden. Unterhalb einer Frequenz von 500 Hz besitzen die Frequenzgruppen eine konstante Breite von jeweils 100 Hz. Oberhalb 500 Hz nimmt die Breite der Frequenzgruppen zu, sie beträgt jeweils 20% der Mittenfrequenz.

Die Frequenzgruppen werden zur Berechnung der Mithörschwellen bei der MP3-Codierung benötigt.

2.2.1.4 Tonalität

Unter der Tonalität eines Audiosignals versteht man seine klanglichen Eigenschaften. Es wird unterschieden, ob ein Audiosignal eher einem Rauschen, einem einzelnen Ton, einem zusammengesetzten Klang, etc. entspricht.

Die Tonalität wird bei der MP3-Codierung ebenfalls zur Berechnung der Mithörschwellen benötigt, da es bei der Verdeckung von Bedeutung ist, welche Tonalität Maskierer und verdeckter Schall haben.

2.2.2 Digitaltechnische Grundlagen

Zwei Größen sind für die Qualität digitaler Audiosignale maßgeblich: Die Abtastrate (auch Samplingfrequenz genannt) und die Wortlänge.

Die Abtastrate stellt die Auflösung im Zeitbereich dar und bestimmt laut Abtasttheorem (Shannon) die höchste übertragbare Grenzfrequenz. Diese Grenzfrequenz beträgt exakt die Hälfte der Abtastrate.

Für die bei MP3 zugelassenen Samplingfrequenzen von 32 kHz, 44,1 kHz und 48 kHz bedeutet dies Grenzfrequenzen von 16 kHz, 22,05 kHz und 24 kHz.

Die Wortlänge hingegen stellt die Auflösung im Pegelbereich dar und bestimmt die maximal mögliche Dynamik eines Systems. Die Dynamik ist der maximal mögliche Signal-Rausch-Abstand (engl.: Signal-to-Noise-Ratio, SNR) bei Vollaussteuerung eines Systems.

Die maximal mögliche Dynamik D(S) eines Systems mit n Bit Wortlänge beträgt:

D(S) = n x 6 dB + 1,76 dB

Für die bei MP3 einzig erlaubte Eingangswortlänge von 16 Bit bedeutet dies eine Dynamik von ca. 98 dB (des Eingangssignals).

MP3 selbst arbeitet mit ständig variierender Wortlänge je nach Dynamikbedarf und erzielt hiermit den Hauptteil der Datenkompression.

2.2.3 Funktion der MP3-Codierung

Das folgende Prinzipschaltbild eines MP3-Encoders (Abbildung 2-4) zeigt die einzelnen Funktionseinheiten, die bei der Codierung von Bedeutung sind und deren Zusammenarbeit.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-4: Prinzipschaltbild eines MP3-Encoders

2.2.3.1 Die FFT

Zunächst wird das PCM-Eingangssignal einer FFT (= F ast F ourier T ransformation) mit 1024 Koeffizienten unterzogen. Eine Fourier-Transformation transformiert ein Signal vom Zeitbereich in den Frequenzbereich. 1024 Koeffizienten bedeutet, dass das Signal quasi in 1024 einzelne Frequenzbänder zerlegt wird.

Bei diesen 1024 Frequenzbändern gibt es Maskierer, also Frequenzbänder, die umliegende Frequenzbänder verdecken, und verdeckte Frequenzbänder.

Das Psychoakustische Modell ermittelt Maskierer und verdeckte Frequenzbänder, eleminiert die verdeckten Bänder und legt damit fest, welche Frequenzbänder bei der Re-Quantisierung überhaupt herangezogen werden (siehe Abbildung 2-5).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-5: Maskierer und verdeckte Frequenzbänder

2.2.3.2 Die Filterbank

Parallel zur FFT durchläuft das PCM-Eingangssignal die Filterbank. Es handelt sich hierbei um eine sogenannte Polyphasen-Filterbank. Hier wird jedes einzelne Sample in 32 Frequenzbänder aufgeteilt, jedes davon 750 Hz konstant breit.

Die Datenmenge ver-32-facht sich dadurch, aus jedem Sample entstehen 32 neue (Teil-) Samples. Da die Datenrate konstant bleibt, kann nur noch jedes 32. Sample verarbeitet werden. Die Zeitauflösung verschlechtert sich also um den Faktor 32. Sie beträgt statt 22,7 µs (bei einem 44,1 kHz-Signal) nur noch 726 µs.

Die Aufteilung in einzelne Frequenzbänder ist aber nötig, da sie die Basis bildet für eine effektive Bestimmung der NMR (2.2.3.6), eine effektive Re-Quantisierung (2.2.3.7) und damit auch für eine effektive Datenkompression.

2.2.3.3 Die MDCT

Um die Datenkompression weiter zu optimieren, werden die einzelnen Frequenzbänder aus der Filterbank zusätzlich einer MDCT (= M odifizierte D iskrete C osinus T ransformation) mit 18 Koeffizienten unterzogen. Das bedeutet, dass jedes Band erneut aufgeteilt wird in 18 Teilbänder, jedes davon dann noch ca. 42 Hz breit.

Der Nachteil hierbei ist, dass sich die Zeitauflösung wiederum, diesmal um den Faktor 18, verschlechtert. Damit ist eine Zeitauflösung von ca. 13 ms erreicht, was für einige kritische Signale bereits zum Problem werden kann. Percussive Signale nämlich, bei denen zunächst Stille und dann plötzlich ein sehr hoher Pegel herrscht, können Vor-Echos oder Vor-Geräusche produzieren.

Sehr kleine Veränderungen im Frequenzbereich, hervorgerufen z.B. durch minimale Quantisierungsfehler, führen zu relativ großen Veränderungen im Zeitbereich.

Wie Abbildung 2-6 zeigt, führt ein minimales Anheben einer Spektrallinie eines impulshaltigen Signals bereits zu einem leichten Vor-Schwingen im Zeitbereich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-6: Auswirkung der Änderung im Frequenzbereich

auf ein impulshaltiges Zeitsignal [THA00]

Um diesen Effekt zu minimieren, kommen bei MP3 vier verschiedene sog. Fenstergrößen zum Einsatz. Unter Fenstergrößen versteht man die Auflösung im Zeitbereich.

Es besteht also die Möglichkeit, neben der standardmäßigen MDCT mit 18 Koeffizienten die MDCT auch mit 12, 27 oder 36 Koeffizienten durchzuführen, und zwar je nach Programmmaterial.

Hat dieses mehr Dynamik bzw. uneinheitliche Stellen, kommen die kleineren Fenstergrößen und somit die kleineren Koeffizienten zum Einsatz, was bessere Auflösung im Zeitbereich, dafür etwas schlechtere Auflösung (z.B. nur 12 Koeffizienten) im Frequenzbereich bedeutet.

Hat das Programmmaterial hingegen weniger Dynamik bzw. homogenere Stellen, kommen die größeren Fenstergrößen und somit die größeren Koeffizienten zum Einsatz, woraus eine schlechtere Auflösung im Zeitbereich, dafür eine bessere Auflösung (z.B. 36 Koeffizienten) im Frequenzbereich resultiert.

Das Psychoakustische Modell orientiert sich hierbei an der Entropie des Audiosignals:

Ist die momentane Entropie größer die mittlere Entropie des Programmmaterials, spricht dies für die kleineren Fenstergrößen.

Ist die momentane Entropie kleiner als die mittlere Entropie, kommen die größeren Fenstergrößen zum Einsatz.

Die Entropie ist also ein direktes Maß für die Koeffizientenzahl der MDCT.

Es sei auf Kapitel 4: Hörtest verwiesen, wo unter anderem untersucht werden soll, inwieweit dieses Problem der Vor-Echos bei percussiven Signalen in der Praxis hörbar ist.

2.2.3.4 Bestimmung des Wertes für das Kompandersystem

Ein Kompandersystem wird dann eingesetzt, wenn es darum geht, das Rauschen eines Audiosystems, z.B. einer analogen Bandmaschine, eines digitalen Effektgerätes oder eben eines Codiersystems möglichst gering zu halten.

Das Prinzip eines Kompandersystems ist folgendes: Das Audiosignal wird am Systemeingang komprimiert, wobei die Werte für die Kompression festgehalten werden. Am Systemausgang wird das Signal mit Hilfe dieser Werte wieder expandiert und zwar so, dass das Signal wieder exakt dem ursprünglichen Signal entspricht.

Rauschen, das zuvor schon im Signal vorhanden war, lässt sich so nicht eleminieren. Rauschen jedoch, dass innerhalb dieses Audiosystems hinzukommt, wird durch die Expansion am Systemausgang wirkungsvoll abgesenkt und so deutlich minimiert.

Dies ist der Grund, warum in das MP3-Codiersystem ein Kompandersystem integriert ist. Durch das psychoakustische Modell und die Re-Quantisierung kommt auf jeden Fall relevantes Rauschen zum Nutzsignal hinzu, und dieses Rauschen wird so gering wie möglich gehalten.

In einem „Nebenzweig“ des Encoders wird das Signal analysiert, die Werte für das Kompan-dersystem werden ermittelt und fließen später beim Multiplexer (siehe Unterkapitel 2.2.3.8) in den MP3-Datenstrom ein, um bei der Decodierung für die Expansion wieder zur Verfügung zu stehen.

2.2.3.5 Die Kompression

Die Werte für das Kompandersystem werden vom Analysemodell zum Kompressor geschickt. Anhand dieser Werte findet im Kompressor dann die Kompression des digitalen Audiosignals statt.

Außerdem wird am Ausgang des Kompressors der Pegel des Signals normalisiert. Dies bedeutet, der Pegel des Signals wird bis auf 0 dB angehoben.

Eine Pegelanhebung ist nach der Kompression immer möglich. Der Grund hierfür ist, dass bei der Kompression die Dynamik des Signal eingeschränkt wird, indem die höchsten Pegel abgesenkt werden. Diese Pegelabsenkung nennt sich Gain Reduction. Die Gain Reduction bei dem höchsten auftretenden Pegel ist der Betrag, um den der Gesamtpegel nach der Kompression angehoben werden kann.

2.2.3.6 Bestimmung der NMR

NMR ist die Bezeichnung für Noise-to-Mask-Ratio, also der „Geräusch-Maskierer-Abstand“, genauer die Pegeldifferenz zwischen Mithörschwelle des Maskierers und dem Rauschpegel.

Die NMR wird pro Teilband (siehe 2.2.3.3. Die MDCT) bestimmt.

Wie dies geschieht, verdeutlicht Abbildung 2-7.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-7: Bestimmung der NMR pro Teilband

Wie in Kapitel 2.2.2 Digitaltechnische Grundlagen beschrieben, wird die Dynamik D eines Systems S bestimmt durch die verwendete Wortlänge n.

Ist die NMR pro Teilband ermittelt und weiß man, dass jede Information unterhalb der Mithörschwelle des Maskierers für das menschliche Ohr unhörbar bleibt, zeigt sich, dass die volle vorhandene Dynamik nicht benötigt wird, die Dynamik also eingeschränkt werden kann, die SNR also eingeschränkt werden kann und somit der Rauschpegel angehoben werden kann und zwar genau um den Betrag der NMR.

2.2.3.7 Die Re-Quantisierung

Die Tatsache, dass die Dynamik eingeschränkt werden kann, bedeutet, dass die Wortlänge n verkürzt werden kann und damit erhebliche Datenmengen eingespart werden können.

Man führt eine Re-Quantisierung durch was bedeutet, man überprüft pro Teilband, wieviel Dynamik tatsächlich benötigt wird und quantisiert dann neu, und zwar mit der kleinstmöglichen Wortlänge für die benötigte Dynamik.

Dies führt von einer „Fixed Wordlength“, wie sie das PCM-Eingangssignal aufwies zu einer „Variable Length“-Codierung, die Wortlängen je nach Bedarf zuweist.

Betrachtet werden soll noch einmal die Formel für die Dynamik D(S) eines Systems:

Abbildung in dieser Leseprobe nicht enthalten

Diese Formel umgestellt und nach der Wortlänge n aufgelöst lautet:

Abbildung in dieser Leseprobe nicht enthalten

Die neue benötigte Dynamik D´(S) beträgt:

Abbildung in dieser Leseprobe nicht enthalten

Somit beträgt die neue benötigte Wortlänge n´, mit der die Re-Quantisierung durchgeführt wird:

Abbildung in dieser Leseprobe nicht enthalten

Da D(S) für die alte, eingehende Dynamik steht, lässt sich diese bei MP3 angeben mit:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung in dieser Leseprobe nicht enthalten

Die Probe mit einer NMR von 0 dB, also eines Signals, dessen Dynamik nicht weiter eingeschränkt werden kann, ergibt wieder die ursprünglich Wortlänge des Signals von 16 [Bit]. Mit größer werdender NMR, also mit größerer möglich werdender Dynamikein-schränkung sinkt die neue Wortlänge.

Um einen weiteren Codierungsgewinn zu erzielen, wird noch das Codierprinzip verändert.

Es kommt eine Huffman-Codierung zum Einsatz, bei der häufiger auftretende Werte (mittlere Pegel) kürzere Codeworte zugewiesen bekommen, seltener auftretende Werte (sehr kleine und sehr große Pegel) hingegen längere Codeworte.

2.2.3.8 Der Multiplexer

Im Multiplexer wird das endgültige MP3-Signal zusammengesetzt.

Die komprimierten und re-quantisierten Samples der einzelnen Teilbänder werden mit den Werten für das Kompandersystem und den Werten des psychoakustischen Modells versehen, und es erfolgt die Blockbildung und die Framebildung.

Bei der Blockbildung werden jeweils 12, 18, 27 oder 36 Samples zu einem Block zusammen-gefasst, abhängig von der Zahl der Koeffizienten bei der MDCT.

Bei der Framebildung werden jeweils 32 Blöcke, also die Samples aller 32 Frequenzbänder zu einem Frame zusammengefasst. Das bedeutet, dass zwischen 12 x 32 = 384 und 36 x 32 = 1152 Samples insgesamt einen Frame bilden. Dies entspricht Framelängen von 8,7 ms bis 26,1 ms bei 44,1 kHz.

Die Framelänge ist gleichzeitig die kleinste editierbare Einheit des MP3-Signals.

Das bedeutet, dass im Schnittbetrieb im ungünstigsten Fall in nicht kleineren Einheiten als 26,1 ms geschnitten werden kann.

Dies ist (laut den öffentlich-rechtlichen Rundfunkanstalten in Deutschland) für Wortbeiträge noch akzeptabel, für Musikschnitt hingegen zu ungenau. Beim Musikschnitt liegt das Audio-material meist auch nicht im MP3-Format vor, da ein Datenkomprimierungsverfahren nicht innerhalb einer Produktion, sondern erst am Schluss der Produktion eingesetzt werden sollte, entsprechend den dann bestehenden Anforderungen.

2.2.4 Funktion der Decodierung

Das folgende Prinzipschaltbild eines MP3-Decoders (Abbildung 2-8) zeigt die einzelnen Funktionseinheiten, die bei der Decodierung von Bedeutung sind und deren Zusammenarbeit.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-8: Prinzipschaltbild eines MP3-Decoders

Im De-Multiplexer werden die Werte des psychoakustischen Modells und die Werte für das Kompandersystem aus dem MP3-Bitstrom entfernt und in zwei getrennten Zweigen an den invertierten Re-Quantisierer und den Expander zur Steuerung geschickt. Das eigentliche Audiosignal wird zum invertierten Re-Quantisierer und dem Expander geleitet.

Die Frames und Blöcke werden in die einzelnen Samples der Frequenzbänder aufgetrennt.

Bei der Invertierten Re-Quantisierung wird jedes Teilsample mit Hilfe der Werte des psychoakustischen Modells wieder expandiert auf 16 Bit, das heißt jedes Teilsample wird neu quantisiert mit einer Wortbreite von 16 Bit.

Aus der „Variable-Length“-Codierung wird hierbei wieder eine „Fixed-Wordlength“.

Die Huffman-Codierung wird wieder durch die Standard-PCM-Codierung ersetzt.

Die fehlenden Samples, die bei der FFT gestrichen wurden, werden durch Interpolation generiert. Bei der Interpolation geht man davon aus, dass die höchste Wahrscheinlichkeit für den Wert eines Samples der Mittelwert aus dem vorherigen und dem nachfolgenden Sample ist.

Im Expander wird das Signal mit Hilfe der Werte für das Kompandersystem wieder so expandiert, wie es zuvor im Kompressor komprimiert wurde (gleiche Ratio, gleicher Threshhold, etc.). Hierbei wird das Rauschen, das während der Codierung zum Signal hinzukam abgesenkt.

In der Inversen Filterbank werden die Samples der 32 einzelnen Frequenzbänder wieder zum Gesamt-Sample zusammengesetzt. Zuvor wird die MDCT rückgängig gemacht, die je 18 Teilbänder werden hierbei wieder zu jeweils einem Frequenzband zusammengefügt. Am Ausgang der inversen Filterbank liegen also keine einzelnen Frequenzbänder mehr an, sondern komplette Samples. Das Ausgangssignal ist wieder ein 16-Bit PCM-Audio-Signal.

2.2.5 Komprimierung in Stereo

Der häufigste Anwendungsfall bei Audio-Signalen sind Stereo-Audio-Signale. Hierbei gibt es 3 verschiedene Möglichkeiten, die Stereo-Codierung vorzunehmen. Außerdem gibt es die Möglichkeit, beide Kanäle getrennt in Mono zu übertragen.

2.2.5.1 Stereo-Standardkomprimierung

Die Datenrate bei MP3 gilt bei Stereo-Signalen für beide Kanäle zusammen.

Bei der Stereo-Standardkomprimierung wird die Datenrate so auf beide Kanäle verteilt, wie die Komplexität des Signals es nahelegt. Liegt also an einem Kanal ein komplexeres Signal als auf dem anderen an, bekommt der Kanal mit dem komplexeren Audio-Signal eine höhere Datenrate zugewiesen als der andere. Liegt an einem der beiden Kanäle kein Signal oder Stille an, entfällt fast die gesamte Datenrate auf den anderen Kanal. Diese Methode führt zu einer optimalen Ausnutzung der zur Verfügung stehenden Bit-Rate.

2.2.5.2 MS-Stereo

Ähnlich wie beim MS-Stereo-Aufnahmeverfahren wird auch beim MS-Stereo-Codierver-fahren ein M itten- (M -) und ein S eiten- (S -) Signal gebildet.

Dies geschieht nach der Regel:

Abbildung in dieser Leseprobe nicht enthalten

Die Rückgewinnung der ursprünglichen Signale L und R geschieht nach den Formeln, die man erhält, wenn man die obigen Gleichungen addiert bzw. subtrahiert:

Abbildung in dieser Leseprobe nicht enthalten

Diese Form der Codierung ist sinnvoll, wenn sich die beiden Signale L und R sehr ähnlich sind. Dann nämlich trägt das Signal S = L – R nur noch sehr wenig Information und kann mit geringerer Bit-Rate codiert werden. Für das Signal M = L + R hingegen steht dann eine höhere Bit-Rate zur Verfügung, was sich in einer besseren Qualität der Codierung niederschlägt.

[...]

Ende der Leseprobe aus 113 Seiten

Details

Titel
Das MP3-Kompressionsverfahren. Theoretische Grundlagen und praktische Anwendung
Hochschule
Fachhochschule Düsseldorf
Note
1
Autor
Jahr
2000
Seiten
113
Katalognummer
V185549
ISBN (eBook)
9783668593954
Dateigröße
1302 KB
Sprache
Deutsch
Schlagworte
mp3-kompressionsverfahren, theoretische, grundlagen, anwendung
Arbeit zitieren
Patrick Grögler (Autor), 2000, Das MP3-Kompressionsverfahren. Theoretische Grundlagen und praktische Anwendung, München, GRIN Verlag, https://www.grin.com/document/185549

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Das MP3-Kompressionsverfahren. Theoretische Grundlagen und praktische Anwendung


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden