1 Einleitung 3
1.1 Gegenstand der Arbeit. 3
1.2 Zielsetzung 3
1.3 Anforderungen an MPEG-4 3
1.4 MPEG-4 Definitionen 4
2 MPEG-4-Grundlagen 5
2.1 Aufbau einer MPEG-Szene. 5
2.2 VRML als Grundlage der Szenenbeschreibung 6
2.3 MPEG-4-Schichtenmodell und Streaming. 7
2.4 Part: Systems 8
2.4.1 Binary Format for Scenes. 8
2.4.2 Object Descriptors. 9
2.4.3 MPEG-4 File Format. 10
2.5 Part: Visual. 11
2.5.1 Natürliche Video-Objekte 11
2.5.2 Synthetische Video-Objekte. 12
2.6 Part: Audio 12
2.6.1 Komprimierung natürlicher Audio-Objekte. 12
2.6.2 Komprimierung synthetischer Audio-Objekte 13
2.7 Part: Delivery Multimedia Integration Framework (DMIF) 13
2.8 Profiles 14
3 Interaktion im Standard. 15
3.1 Arten der Interaktion 15
3.2 Möglichkeiten der Szenenänderung 16
3.2.1 Eventmodell von VRML/BIFS 16
3.2.2 BIFS-Updates 17
3.2.2.1 BIFS-Commands. 17
3.2.2.2 BIFS-Animation 18
3.2.3 Java in MPEG-4 19
3.2.3.1 Script-Knoten 19
3.2.3.2 MPEG-J. 19
3.3 AFX und Multi-User-Worlds 23
3.4 Ausmaß der Interaktivität. 23
4 Anwendung des Standards 24
5 Zusammenfassung und Tendenzen 25
Abkürzungsverzeichnis 27
Abbildungsverzeichnis 28
Tabellenverzeichnis. 28
Literaturverzeichnis. 29
Christoph Schlütter 2
1 Einleitung
1.1 Gegenstand der Arbeit
In den letzten Jahren konnte eine rasante technologische Entwicklung von Endnutzergeräten, wie z.B. PCs, Personal Desktop Assistants (PDAs) oder auch Handys, beobachtet werden. Zudem ergaben sich neue Möglichkeiten in der Übermittlung multimedialer Inhalte durch immer schnellere Breitband-Internetverbindungen und neue Funknetztechnologien wie UMTS. Diese Entwicklungen bringen die Bereiche Computer, Telekommunikation und Fernsehen näher zusammen und bedingen den Einsatz eines allgemeingültigen Standards um die Datenübertragung bei unterschiedlichen Bandbreiten und Formaten zu vereinheitlichen. Aus dieser Motivation heraus wurde der Standard ISO/IEC 14496, umgangssprachlich MPEG-4 genannt, von der Moving Pictures Expert Group (kurz: MPEG) entwickelt - ein Standard zur Kodierung audio-visueller Daten. Dieser baut in seinen Grundzügen auf den vorhergehenden Standard MPEG-2 auf, welcher aber in dieser Arbeit nicht näher betrachtet werden soll.
1.2 Zielsetzung
Im Rahmen dieser Hauptseminararbeit soll ein grundlegender Überblick über den MPEG-4-Standard und seine Möglichkeiten, die Benutzer-Interaktion zu realisieren, gegeben werden. Dazu wird die Spezifikation des Standards betrachtet, es werden verwendete Konzepte und einbezogene Standards aufgezeigt. Nachdem die Anforderungen und Ihre Beachtung im Standard herausgestellt wurden, wird zum grundlegenden Verständnis der Aufbau einer MPEG-4-Szene dargestellt. Neben der Beschreibung der Konzepte des Standards, sollen vor allem die Möglichkeiten und die Umsetzung der Interaktivität genauer betrachtet werden.
1.3 Anforderungen an MPEG-4
Die Arbeit am MPEG-4-Standard begann 1993, doch erst 1998 wurde der Standard offiziell veröffentlicht. Gleichzeitig wurden die bisherigen Definitionen als MPEG-4: Version 1 „eingefroren“, womit die Definition und Entwicklungen einer verbesserten Version 2 startete. Dabei blieben die existierenden Tools und Profile der Version 1 bestehen, es wurde lediglich Funktionalität hinzugefügt, sog. „Extensions“.
Die Entwicklung des MPEG-4-Standards wurde und wird noch heute vorrangig von drei Entwicklungsrichtungen gelenkt [vgl. Pereira2003]: 1. zunehmende Bedeutung von audio-visuellen Medien in sämtlichen Netzen 2. wachsende Mobilität der Endgeräte und somit der Teilnehmer und 3. gestiegene Interaktivität der Medien
Daraus ergeben sich Anforderungen, die durch den Standard beachtet und erfüllt werden sollten, z.B.:
• effiziente Beschreibung einer Vielzahl unterschiedlicher Datentypen
• unabhängige Abbildung von verschiedenen Objekten in einer Szene um getrennt auf
sie zuzugreifen, sie verändern und wieder verwenden zu können
• Verbindung von Audio- und Bildsignalen, synthetischer oder natürlicher Natur, in
einer Szene
• Beschreibung der Objekte und der Ereignisse einer Szene sowie
• Fähigkeiten zu Interaktion und Hyperlinking
1.4 MPEG-4 Definitionen
Die herausgestellten MPEG-4-Anforderungen werden von den folgenden Bestandteilen des Standards, welcher in der ursprünglichen ersten Version in 6 Teile (parts) gegliedert war, angesprochen [vgl. Pereira2003]:
• Part 1: Systems - Szenenbeschreibung, Multiplexing, Synchronisation, Buffer
Management, und Digitales Rechtemanagement;
• Part 2: Visual - Repräsentation von natürlichen and synthetischen Grafikobjekten
• Part 3: Audio - Repräsentation von natürlichen and synthetischen Audioobjekten
• Part 4: Conformance Testing - definiert Anpassungsvoraussetzungen für Bit-Streams und Geräte; dieser Teil wird genutzt, um MPEG-4-Implemetierungen zu testen
• Part 5: Reference Software - enthält Software entsprechend den meisten Teilen von
MPEG-4 (normative und nicht-normative Tools)
• Part 6: Delivery Multimedia Integration Framework (DMIF) - definiert ein
Session-Protokoll für das Management von Multimedia-Streaming über generische Übertragungstechnologien
Die Parts 1 bis 3 und 6 spezifizieren den Kern der MPEG-4-Technologie, während Parts 4 und 5 "supporting parts" sind und nur der Erleichterung der Implementierung dienen. Parts 1, 2 und 3 sind unabhängig von der Übertragung und überlassen dem Part 6 die Kommunikation mit der „Delivery Layer“, der eigentlichen Übertragungsschicht.
Die hier genannten Parts werden, bis auf die „supporting parts“, im nachfolgenden Kapitel 2 näher beschrieben.
Zusätzlich wurden aufgrund diverser Unzulänglichkeiten und ständiger Verbesserungen bzw. Erweiterungen (extensions) in Version 2 des Standards die Parts 7 bis 18 eingeführt, deren Entwicklung jedoch größtenteils noch nicht abgeschlossen ist. Somit sind diese Teile auch noch nicht publiziert und nicht offizieller Bestandteil des Standards. Tabelle 1-1 gibt einen kurzen Überblick über die in Entwicklung befindlichen Teile [vgl. MPEG 2003 a]. Von besonderer Bedeutung in Bezug auf die Interaktion sind hierbei vor allem die MPEG-J-Extensions (Part 11) und die Animation-Framework-Extensions (Part 16).
Tab. 1-1 MPEG-4-Erweiterungen (Part 7-18) [MPEG2003 a]
2 MPEG-4-Grundlagen
2.1 Aufbau einer MPEG-Szene
Das MPEG-4-Verfahren folgt einem komplett anderen Ansatz als das vorhergehende MPEG2. Es steht nicht mehr die pixelbasierte Komprimierung von Videosignalen und zugehörigen Audioströmen im Vordergrund, sondern die inhaltsorientierte Komprimierung der Medien-Objekte (media objects) der Szene. Dies hat zur Folge, dass in MPEG-4 die Übertragung audio-visueller Daten nun objektorientiert erfolgt, d.h. die Szene wird in ihre Einzelbestandteile, so genannte primitive Objekte oder auch Elementarobjekte, zerlegt. Dabei unterscheidet man zwischen Audio (AO)- und Videoobjekten (VO), welche wiederum natürlich oder synthetisch erzeugt sein können. Ein natürliches Objekt bezeichnet ein per Kamera oder Mikrofon aufgenommenes Signal, während synthetische Objekte durch Computer erzeugt werden.
Um die Objekte nun zeitlich sowie räumlich korrekt in der Szene zu positionieren, kommt der „Szenegraph“, ein gerichteter zyklenfreier Graph, zum Einsatz. Er ähnelt einer Baumstruktur, in welcher die einzelnen Objekte (Objekt-Knoten) als Blätter wiederzufinden sind. Er verfügt über ein globales Koordinatensystem, in welchem die einzelnen Szenenobjekte, die wiederum ein eigenes Koordinatensystem besitzen, positioniert sind. Zudem ist es über den Szenengraphen möglich, ähnlich einer virtuellen Kamera, den betrachteten Bildausschnitt beliebig zu variieren.
Der Vorteil des Einsatzes der Objektorientierung in MPEG-4 liegt vor allem darin, dass auf jedes Objekt gesondert zugegriffen werden kann. Somit sind Änderungen am einzelnen Objekt möglich und die Wiederverwendbarkeit der Objekte wird erhöht. Hinzukommt, dass eine kontext-abhängige Skalierbarkeit erreicht wird. Diese macht es möglich, bei niedrigen Datenraten einzelne Objekte schlechter zu kodieren, um die Ladezeiten zu verringern. Abbildung 2.1-1 soll eine mögliche MPEG-4-Szene und die zugehörige Hierarchisierung durch den Szenengraphen darstellen [vgl. Bartels2003].
Abb. 2.1-1 MPEG-4-Szene und Hierarchisierung [Bartels2003]
2.2 VRML als Grundlage der Szenenbeschreibung
Die Virtual Reality Modeling Language (VRML, sprich: Wörml) ist eine Beschreibungssprache für 3D-Szenen, also die Darstellung von Objekten im Raum. Sie stellt die Grundlage für die Beschreibung einer MPEG-4-Szene dar, da aus ihr die Beschreibungssprache des MPEG-4-Standards, BIFS (Binary Format For Scenes), welche in Kapitel 2.4.1 näher erläutert werden soll, abgeleitet wurde.
Zum besseren Verständnis sollen an dieser Stelle die Grundzüge vom VRML kurz erläutert werden, für eine detaillierte Betrachtung wird an [Braitmaier2000] verwiesen. Bei VRML handelt es sich um eine deklarative Sprache, d.h. es steht die Beschreibung der gewünschten 3D-Welt im Vordergrund. Es werden Funktionen wie z.B. Texture Mapping, verschiedene Perspektiven, Lichtquellen und Einbindung von Sounds unterstützt. In VRML werden Objekte durch sogenannte Knoten (Nodes) beschrieben, die den Knoten in einem Szenengraphen entsprechen und hierarchisch angeordnet sind. Es existiert ein vordefinierter Satz von 54 Knoten, mit dem der Autor einer Szene bestimmte geometrische Grundkörper und zweidimensionale, primitive Objekte erzeugen kann. Zusätzlich sind in diesem vordefinierten Satz Knoten enthalten, die es erlauben, die Eigenschaften eines Objekts zu beschreiben. Eine Objektbeschreibung in VRML besteht oft aus mehreren Knoten, die mittels eines Gruppen-Knotens (Grouping-Node) zusammengefasst und verwaltet werden. Andere Knoten werden als sogenannte Blatt-Knoten (Leaf-Nodes) bezeichnet. Ein Knoten besteht aus einem oder mehreren Feldern (Fields), welche die Eigenschaften oder das
Verhalten des zugehörigen Knotens beschreiben. Felder können Werte oder Verweise auf andere Knoten enthalten. So besitzt ein Objekt, das eine Kugel beschreibt, ein Feld das den Radius angibt. Neben diesen Standard-Knoten lassen sich beliebige weitere Knoten mit Hilfe von sogenannten Prototypen definieren. Diese können beliebig oft wieder verwendet werden. Der Inhalt einer VRML-Datei besteht aus ASCII-Text, welcher von einem VRML-Browser interpretiert wird. Der Vorteil dabei ist die Plattformunabhängigkeit. Den ausschlaggebenden Grund für die Wahl von VRML als Grundlage für BIFS bildet jedoch das Event-Modell von VRML, welches in Kapital 3.2.1 ausführlicher betrachtet werden soll.
2.3 MPEG-4-Schichtenmodell und Streaming
Um die Funktionsweise von MPEG-4 genau zu verstehen, ist es notwendig, sich mit dem Schichtenmodell und dem Streamingverfahren auseinanderzusetzen. Die Struktur von MPEG-4 bzw. eines MPEG-4-Terminals kann als ein Schichtmodell angesehen werden, welches im Wesentlichen aus drei Schichten besteht [vgl. Repplinger 2000]: der Delivery Layer, gefolgt von der Synchronisation Layer und der Decompression Layer. Diesen Schichtenaufbau soll Abbildung 2.3-1 verdeutlichen.
Abb. 2.3-1 MPEG-4 Terminal Architektur [Repplinger 2000]
Auf der Server-Seite wird jedes einzelne Media Object als ein Elementarstream (Elementary Stream) kodiert. Auch der Szenengraph wird als einzelner Stream verpackt. Dies hat den Vorteil, dass die Darstellung der Szene auf einem Terminal schon beginnen kann, wenn noch nicht alle Daten übertragen wurden. Bevor die Daten im Netz übertragen werden können, werden sie durch ein Multiplexing-Verfahren zu einem einzelnen „großen“ Stream zusammengefasst. Bei der Übertragung der Daten, kommt das Schichtenmodell zum Einsatz.
Die Delivery Layer, gliedert sich im Wesentlichen in zwei Teile. Der erste Teil der Delivery Layer sorgt dafür, dass der eingehende Datenstrom unabhängig von dem Übertragungsmedium ist. Dabei ist die Transportschicht selbst nicht von MPEG-4 definiert, lediglich die Schnittstelle zu ihr wurde spezifiziert. Hierfür wurde das Delivery Multimedia Integration Framework (DMIF) eingeführt, welches später ausführlicher beschrieben werden soll.
Der zweite Teil besteht hauptsächlich aus einem Demultiplexer, der den ankommenden Datenstrom in elementare Datenströme (Elementary Streams) zerlegt. Der Szenengraph wird hierbei ebenfalls durch einen elementaren Datenstrom repräsentiert. In der Synchronisationsschicht werden die einzelnen Objekte synchronisiert und mit Zeitstempeln (timestamps) versehen. Hierbei werden auch eventuelle Fehler in der Übertragung erkannt und korrigiert. In der Decompression Layer werden die einzelnen elementaren Datenströme an den entsprechenden datentypabhängigen Decoder weitergeleitet und decodiert. Die Szene kann nun zusammengestellt, gerendert und dargestellt werden.
2.4 Part: Systems
Die MPEG-4 Systems können als eine Art Toolbox zur Beschreibung der Beziehungen zwischen den Media Objects, den Objekten einer Szene, gesehen werden. Dabei wird dieses Verhältnis auf zwei Ebenen beschrieben. Einmal auf Ebene des Binary Format for Scenes und zusätzlich auf der Ebene der Object Descriptors. Beide Ebenen sollen nachfolgend kurz erläutert werden. Zusätzlich wird auf das MPEG-4-Dateiformat eingegangen.
2.4.1 Binary Format for Scenes
Mit der Entwicklung des MPEG-4-Standards wurde ein Tool zur Beschreibung von Szeneninhalten gesucht, welches einzelne Audio- bzw. Video-Streams, Updates der Szenen und eine starke Kompression für effizientes Streaming unterstützt. Zum Entwicklungszeitpunkt 1997 war dies keinem bestehenden Tool möglich, lediglich VRML
Kompositionsmöglichkeiten für 2D- und 3D-Objekte in 2- oder 3-dimensionalem Raum, dynamische Re-Komposition der Szene und Interaktionsmöglichkeiten. So entwickelte die MPEG, ausgehend von VRML97 als Basis, eine binäre Sprache für die Szenenbeschreibung in MPEG-4, dass Binary Format For Scenes (BIFS). BIFS übernimmt dabei alle Features von VRML wie z.B. die Struktur des Szenegraphen und das komplette 3D-Verhalten. Aufgrund der gehobenen Anforderungen erweitert BIFS die VRML um spezielle Inhalte, wie etwa die Möglichkeit 2D-Inhalte einzubeziehen, Daten-Kompression und Protokolle für einfache Szenenmodifikationen [vgl. Bartels2003].
Durch BIFS können nun, im Gegensatz zu VRML, 2D-Inhalte in eine Szene eingefügt werden, es besteht die Möglichkeit, in einem 3D-Koordinatensystem ein 2D-Koordinatensystem darzustellen und umgekehrt. Eine Szene kann somit 2D- und 3D-Objekte gleichzeitig enthalten, wodurch sich komplett neue Möglichkeiten für interaktive Inhalte ergeben. Dabei können 2D- und 3D-Objekte beliebig überlagert werden und sogar ganze Szenen auf beliebige Körper texturiert werden. Gleichzeitig ist durch sog. Update-Commands die Änderung einer Szene möglich und somit der wesentliche Grundstein für User-Interaktion gelegt.
Arbeit zitieren:
Christoph Andreas Schlütter, 2004, MPEG-4 - Möglichkeiten zur Interaktion, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Geschichte Europa - and. Länder - Mittelalter, Frühe Neuzeit
Seminararbeit, 17 Seiten
Jugendsprachliche Wortbildungsmittel anhand ausgewählter französischer...
Romanistik - Französisch - Linguistik
Seminararbeit, 36 Seiten
Die Auslandsberichterstattung internationaler Tageszeitungen am Beispi...
Medien / Kommunikation - Forschung und Studien
Hausarbeit (Hauptseminar), 58 Seiten
Kultische Handlungen in der römischen Landwirtschaft
Geschichte - Weltgeschichte - Frühgeschichte, Antike
Seminararbeit, 21 Seiten
Villa Rustica Die römische Villenwirtschaft
Geschichte - Weltgeschichte - Frühgeschichte, Antike
Essay, 9 Seiten
Kaiser Julian Apostata und die Christen
Geschichte - Weltgeschichte - Frühgeschichte, Antike
Hausarbeit (Hauptseminar), 14 Seiten
Die Sprachpolitik der Europäischen Union
Romanistik - Allgemeines u. Fächerübergreifendes
Seminararbeit, 31 Seiten
Christoph Andreas Schlütter hat den Text MPEG-4 - Möglichkeiten zur Interaktion veröffentlicht
Christoph Andreas Schlütter hat einen neuen Text hochgeladen
Introduction to MPEG; MPEG-1, MPEG-2 and MPEG-4
Lawrence Harte, April Wiblitzhouser, Tomas Pazderka
Distributed Multimedia Database Technologies Supported by MPEG-7 and M...
Harald Kosch, Kosch Kosch
Evaluation of MPEG-7 Query Applications
According to the MPEG-7 Query ...
Alaelddin Fuad Yousif Mohammed, Yuan Jiang
MPEG Video Compression Standard
Chad Fogg, William B. Pennebaker, Joan L. Mitchell, Didier J. LeGall
0 Kommentare