Die Flut an Multimedia-Daten steigt ständig weiter an und es werden Metadaten benötigt, damit Beschreibungen bereitgestellt werden können. Um eine wiederverwendbare Form dieser Beschreibungen zu erhalten, wurde der MPEG-7-Standard entwickelt. Mittlerweile sind verschiedene Anwendungen erstellt worden, die MPEG-7-Beschreibungen für Bilder, Videos und Audiodaten erstellen. In dieser Arbeit werden verschiedene Werkzeuge zur Annotierung von Multimeda-Daten mit MPEG-7-Beschreibungen betrachtet. Ziel ist die Analyse und der Vergleich aktuell verfügbarer MPEG-7-Annotierungstools aufgrund der verwendeten Deskriptoren, annotierbaren Medien, der abgedeckten Anwendungsdomänen (z.B.: Sport, Dokumentationen, Natur, etc.) und der Benutzbarkeit. Dabei wird eine Klassifizierung der Annotierungstools in automatische, semi-automatische und manuelle Annotierung vorgenommen. Zu Beginn wird auf die Motivation zur Entwicklung des MPEG-7-Standards eingegangen. Es folgt eine Definition von Annotierung und welche Ansätze und Entwicklungen zur Multimedia-Annotierung existieren. Dabei stößt man auf das Problem der semantischen Lücke und die Anstrengungen, diese zu überbrücken. Anschließend beschreibt ein Kapitel den MPEG-7-Standard. Danach werden die einzelnen getesteten Anwendungen vorgestellt und ein Bewertungskatalog erarbeitet, mit dem die anschließende Analyse durchgeführt wird. Zum Schluss wird noch kurz auf die zukünftige Entwicklung im Bereich der MPEG-Standards eingegangen.
Inhaltsverzeichnis
1 Einleitung
1.1 Multimedia-Daten und Metadaten
1.2 Standards
2 Annotierung von Multimedia-Daten
2.1 Definition
2.2 Semantische Lücke
2.3 Überbrückung der Semantischen Lücke
2.4 Arten der Annotierung
3 MPEG-7
3.1 MPEG
3.2 Der MPEG-7-Standard
3.2.1 Intention
3.2.2 Aufbau
3.2.3 Teile des Standards
3.3 Visual
3.3.1 Visuelle Farb-Deskriptoren
3.3.2 Visuelle Textur-Deskriptoren
3.3.3 Visuelle Form-Deskriptoren
3.3.4 Bewegungsdeskriptoren
3.4 Audio
3.4.1 Übersicht der Deskriptoren
3.4.2 Spoken Content
4 MPEG-7-Annotierungstools
4.1 Visual-Tools
4.1.1 Caliph & Emir
4.1.2 M-Ontomat-Annotizer
4.1.3 VideoAnnEx
4.1.4 IBM Multimodal Annotation Tool
4.1.5 VIZARD - Video Wizard
4.1.6 IENT-Cut
4.1.7 IBM MARVel
4.2 Audio-Tools
4.2.1 MPEG-7 Audio Encoder
4.2.2 MPEG-7 Audio Analyzer
4.2.3 MPEG-7 Audio Low Level Descriptors
4.2.4 MPEG-7 Spoken Content Demonstrator
4.3 Frameworks
4.3.1 Joanneum MPEG-7 Library
4.3.2 VizIR
4.3.3 MPEG-7 eXperimentation Model
4.4 Klassifizierung
5 Bewertungskatalog
5.1 Medien
5.1.1 Medienformate
5.1.2 Dateiformate
5.2 Domains
5.2.1 Bereiche
5.2.2 Erweiterbarkeit
5.3 Annotierung
5.3.1 Annotierungsart
5.3.2 Feature Extraktion
5.4 Deskriptoren
5.4.1 Validierung
5.4.2 Angewandte Deskriptoren
5.5 Entwicklungsstand
5.5.1 Version und Stabilität
5.5.2 Systemvoraussetzungen
5.6 Benutzerschnittstelle
5.6.1 Benutzeroberfläche
5.6.2 Dokumentation
5.7 Integrationsfähigkeit
5.7.1 Datentransfer
5.7.2 Schnittstellen
6 Analyse der MPEG-7-Annotierungstools
6.1 Visual-Tools
6.1.1 Caliph & Emir
6.1.2 M-Ontomat-Annotizer
6.1.3 VideoAnnEx
6.1.4 IBM Multimodal Annotation Tool
6.1.5 VIZARD - Video Wizard
6.1.6 IENT-Cut
6.1.7 IBM MARVel
6.2 Audio-Tools
6.2.1 MPEG-7 Audio Encoder
6.2.2 MPEG-7 Audio Analyzer
6.2.3 MPEG-7 Audio Low Level Descriptors
6.2.4 MPEG-7 Spoken Content Demonstrator
6.3 Frameworks
6.3.1 Joanneum MPEG-7 Library
6.3.2 VizIR
6.3.3 MPEG-7 eXperimentation Model
7 Zusammenfassung
7.1 Fazit
7.2 Ausblick
Zielsetzung & Themen
Diese Bachelorarbeit verfolgt das Ziel, aktuell verfügbare MPEG-7-Annotierungstools zu analysieren und miteinander zu vergleichen, um den Stand der Technik bei der Erstellung semantischer Metadaten für Multimedia-Daten zu evaluieren. Die zentrale Forschungsfrage untersucht dabei, inwieweit existierende Werkzeuge in der Lage sind, den MPEG-7-Standard effektiv zu unterstützen und die semantische Lücke bei der automatisierten Beschreibung von Multimedia-Inhalten zu überbrücken.
- Grundlagen des MPEG-7-Standards und des Lebenszyklus von Metadaten
- Klassifizierung von Annotierungstools in automatische, semi-automatische und manuelle Verfahren
- Entwicklung eines umfassenden Bewertungskatalogs für Annotierungssoftware
- Detaillierte Analyse und praktischer Vergleich verschiedener Visual- und Audio-Tools
- Diskussion der Herausforderungen bei der Interoperabilität und der zukünftigen Standardentwicklung
Auszug aus dem Buch
2.2 Semantische Lücke
Der Computer kann nur in äußerst beschränktem Umfang auf semantische Inhalte eingehen und diese erfassen. Die maschinell erstellten Metadaten enthalten also keine semantischen Informationen, sondern sind syntaktische Inhalte. In [Hare et al. 2006a] wird auf die verschiedenen Beschreibungsebenen eingegangen. Auf der untersten Ebene findet man die Raw-Daten. Die syntaktischen Inhalte bauen darauf auf und werden in diesem Zusammenhang als Low-Level-Features bezeichnet. Diese sind automatisch reproduzierbare Attribute, gespeichert in sogenannten Feature-Vektoren. Sie beschreiben, wie Inhalte organisiert sind, sagen aber nichts über deren Bedeutung aus. Zum Beispiel sind dies Color- und Kanten-Histogramme oder Texturen, die Teile eines Bildes oder das gesamte Bild repräsentieren. In Abbildung 2.1 sieht man wie in etwa eine Kantenerkennung aussehen würde, es ist aber nicht eindeutig erkennbar, um was es sich handelt.
Der Begriff High-Level-Features ist ein Synonym für semantische Inhalte, also die Bedeutung der Elemente. Objekte im Medium werden, z. B. durch Kombination von Feature-Vektoren extrahiert, erfasst und gekennzeichnet, idealerweise mit ihrer symbolischen Bezeichnung. So könnten am Beispiel Abbildung 2.1 die beiden Objekte vom Hintergrund unterschieden werden. Es wird noch detaillierter zwischen spezifischer, generischer und abstrakter Bedeutung der Objekte unterschieden. So steht beispielsweise spezifisch George W. Bush für eine generische Person und abstrakte für Macht. Die Benennung der Objekte alleine reicht jedoch nicht aus um den gesamten semantischen Inhalt zu erfassen. Elemente in jedem Level haben syntaktische (räumliche, zeiltiche, visuelle) und semantische (auf verschiedenen Ebenen: generisch, spezifisch, abstrakt) Beziehungen zueinander, z. B. stehen zwei Personen nebeneinander (syntaktisch) und sind befreundet (semantisch). Erst bei Betrachtung von Abbildung 2.2 zu ist erkennen, dass es sich bei Abbildung 2.1 auf der vorherigen Seite um Weißhandgibbons handelt.
Zusammenfassung der Kapitel
1 Einleitung: Diese Einleitung erläutert die wachsende Bedeutung von Multimedia-Daten und die Notwendigkeit von Metadaten und Standards zur effektiven Verwaltung.
2 Annotierung von Multimedia-Daten: Hier wird der Begriff der Annotierung definiert und das zentrale wissenschaftliche Problem der semantischen Lücke sowie Ansätze zu deren Überbrückung erörtert.
3 MPEG-7: Dieses Kapitel beschreibt den MPEG-7-Standard als einheitliches Framework für die Metadatenbeschreibung und stellt die wesentlichen Komponenten wie Visual- und Audiotools vor.
4 MPEG-7-Annotierungstools: Die verschiedenen betrachteten Visual-Tools, Audio-Tools und Frameworks werden in diesem Kapitel eingeführt und nach ihren funktionalen Fähigkeiten kategorisiert.
5 Bewertungskatalog: Hier wird eine strukturierte Matrix vorgestellt, anhand derer die verschiedenen Anwendungen nach Kriterien wie Medienunterstützung, Annotierungsart und Integrationsfähigkeit evaluiert werden.
6 Analyse der MPEG-7-Annotierungstools: In diesem Hauptteil erfolgt die detaillierte Untersuchung und Bewertung der ausgewählten Softwarelösungen basierend auf dem erstellten Katalog.
7 Zusammenfassung: Abschließend reflektiert die Arbeit die Ergebnisse des Vergleichs und gibt einen Ausblick auf die zukünftige Entwicklung im Bereich der Multimedia-Standards.
Schlüsselwörter
MPEG-7, Metadaten, Multimedia-Annotierung, semantische Lücke, Low-Level-Features, High-Level-Features, Feature-Vektoren, Bildanalyse, Video-Segmentierung, Ontologien, Information Retrieval, Standardisierung, MPEG-7-Annotierungstools, XML-Schema
Häufig gestellte Fragen
Worum geht es in dieser Bachelorarbeit grundsätzlich?
Die Arbeit vergleicht verschiedene Software-Anwendungen, die den MPEG-7-Standard zur Beschreibung und Annotierung von Multimedia-Daten (Bilder, Video, Audio) verwenden.
Welche zentralen Themenfelder werden behandelt?
Zu den Kernbereichen gehören die Grundlagen von Metadaten, der MPEG-7-Standard, die Herausforderung der semantischen Lücke sowie die methodische Evaluierung von Annotierungstools.
Was ist das primäre Ziel der Arbeit?
Das Ziel ist eine fundierte Analyse und ein Vergleich aktuell verfügbarer MPEG-7-Annotierungstools hinsichtlich ihrer Funktionalität, Benutzbarkeit und Konformität zum Standard.
Welche wissenschaftliche Methode kommt zum Einsatz?
Die Autorin verwendet eine deskriptive Analysemethode, gestützt durch die Erstellung eines Bewertungskatalogs, um die Tools anhand von Kriterien wie Medienunterstützung und Feature-Extraktion systematisch zu prüfen.
Was deckt der Hauptteil der Arbeit ab?
Der Hauptteil gliedert sich in die theoretische Fundierung zu MPEG-7 und Annotierungsmethoden sowie die detaillierte empirische Analyse verschiedener Visual- und Audio-Tools.
Durch welche Schlüsselwörter lässt sich die Arbeit charakterisieren?
Wichtige Begriffe sind MPEG-7, semantische Lücke, Multimedia-Annotierung, Metadaten-Lebenszyklus, Feature-Vektoren und Information Retrieval.
Wie unterscheidet die Arbeit zwischen automatischen und manuellen Annotierungsmethoden?
Die Arbeit klassifiziert Tools danach, ob die Feature-Extraktion (niedrige Ebene) automatisch abläuft und wie der Benutzer semantische Beschreibungen (hohe Ebene) ergänzen muss.
Welches Tool wird in der Arbeit als am weitesten entwickelt für den Audiobereich hervorgehoben?
Der MPEG-7 Audio Encoder wird als das am weitesten entwickelte Audio-Werkzeug identifiziert, da er alle 17 Audio-Deskriptoren unterstützt und eine hohe Formatunterstützung bietet.
- Citar trabajo
- Nikolaus Lefin (Autor), 2007, Vergleich bestehender MPEG-7-Annotierungstools, Múnich, GRIN Verlag, https://www.grin.com/document/93729