Vergleichsanalyse aktueller Videoformate mithilfe von objektiven Verfahren, die die Effizienz der benutzten Videocodecs messen


Bachelorarbeit, 2012
70 Seiten, Note: 1,0

Gratis online lesen

Inhaltsverzeichnis

Ehrenwörtliche Erklärung

Kurzfassung/Abstract

Bilderverzeichnis

Beispielverzeichnis

Tabellenverzeichnis

Verzeichnis mathematischer Aussagen

Formelverzeichnis

I Einführung
1 Einleitung
1.1 Motivation, Kontext und Gegenstand
1.2 Aufgabenstellung und Vorgehensweise
1.3 Gliederung
2 Videokomprimierung
2.1 Technischer Überblick
2.2 Videoformate und Codecs
2.2.1 Apple Quicktime und H
2.2.2 MP4 und H.264-Sorenson
2.2.3 Adobe Flash Video und H.264-MainConcept
2.2.4 WebM und VP
2.3 Komprimierungstechniken
2.3.1 Grundlagen
2.3.2 Verlustbehaftete Verfahren
2.3.3 Verlustfreie Verfahren
3 Videoqualität
3.1 Definition
3.2 Messarten und -verfahren
3.3 Spitzen-Signal zu Rausch-Verhältnis
3.4 Structural Similarity Index
3.5 Video Quality Metric

II Vergleichsanalyse der Komprimierungsformate
4 Versuchsaufbau
4.1 Testumgebung
4.2 Testvideos
4.2.1 Rahmenbedingungen
4.2.2 Videosequenz: Blätterdach
4.2.3 Videosequenz: Kontrollierter Brand
4.2.4 Videosequenz: Touchdown
4.3 Testablauf
5 Messung der Videoqualität
5.1 Videosequenz: Blätterdach
5.1.1 Peak-Signal to Noise Ratio
5.1.2 Structural Similarity Index
5.1.3 Video Quality Metric
5.2 Videosequenz: Kontrollierter Brand
5.2.1 Peak-Signal to Noise-Ratio
5.2.2 Structural Similarity Index
5.2.3 Video Quality Metric
5.3 Videosequenz: Touchdown
5.3.1 Peak-Signal to Noise-Ratio
5.3.2 Structural Similarity Index
5.3.3 Video Quality Metric

III Ergebnisse und Diskussion
6 Auswertung und Erkenntnisse
7 Offene Fragen und Ausblick

A Anhang
A.1 Blätterdach: PSNR-Werte
A.2 Blätterdach: SSIM-Werte
A.3 Blätterdach: VQM-Werte
A.4 Kontrollierter Brand: PSNR-Werte
A.5 Kontrollierter Brand: SSIM-Werte
A.6 Kontrollierter Brand: VQM-Werte
A.7 Touchdown: PSNR-Werte
A.8 Touchdown: SSIM-Werte
A.9 Touchdown: VQM-Werte

B Abkürzungsverzeichnis

C Quellenverzeichnis

Ehrenwörtliche Erklärung

Ich versichere ehrenwörtlich:

- Ich habe diese Thesis selbstständig verfasst,
- alle benutzten Quellen und Hilfsmittel - dazu zählen auch sinngemäß übernommene Inhalte, leicht veränderte Inhalte sowie übersetzte Inhalte - in Quellenverzeichnissen, Fußnoten oder direkt bei Zitaten angegeben,
- alle wörtlichen und sinngemäßen Zitate von Textstücken, Tabellen, Grafiken, Fotos, Quellcode usw. aus fremden Quellen als solche gekennzeichnet und mit seitengenauen Quellenverweisen versehen, und
- alle nicht als Zitate gekennzeichneten Inhalte selbst erstellt.
- Ich kenne und achte den Leitfaden für gute wissenschaftliche Praxis
„Wissenschaftliches Arbeiten - Leitfaden des Studiengangs Medien- und Kommunikationsinformatik, Fakultät Informatik, Hochschule Reutlingen“.
- Die von mir eingereichten Dokumente und Artefakte wurden noch nicht in dieser oder ähnlicher Form einer anderen Kommission zur Prüfung vorgelegt. Mir ist bekannt, dass unmarkierte und unbelegte wörtliche und bildliche Zitate und Paraphrasen Plagiate sind und nicht als handwerkliche Fehler, sondern als eine Form vorsätzlicher Täuschung der Prüfer gelten, indem der Plagiator fremde Gedanken als eigene Gedanken vortäuscht, um sich eine bessere Leistungsbewertung zu erschlei- chen.

Mir ist bekannt, dass Plagiarismus die Standards guter wissenschaftlicher Praxis, die Regeln des Studiengangs Medien- und Kommunikationsinformatik, die Studien- und Prüfungsordnung der Hochschule Reutlingen (§ 10 Täuschung und Ordnungsverstoß) und das Landeshochschulgesetz von Baden-Württemberg (§ 3 Wissenschaftliche Redlichkeit Abs. 5, § 62 Exmatrikulation Abs. 3) missachtet und seine studienrechtlichen Folgen vom Nichtbestehen bis zur Exmatrikulation reichen.

Mir ist auch bekannt, dass Plagiate sogar das Urheberrechtsgesetz (§ 51 Zitate, § 63

Quellenangabe, § 106 Unerlaubte Verwertung urheberrechtlich geschützter Werke) verletzen und zivil- und strafrechtliche Folgen nach sich ziehen können.

Reutlingen, den © Lars R. Schneider, Hochschule Reutlingen, Bachelor Thesis, 13. Januar 2012 Seite ii

Kurzfassung/Abstract

In dieser Arbeit werden Videocodecs in verschieden Container-Formaten auf ihre visu- elle Qualität untersucht. Das Ziel dieser Gegenüberstellung ist es qualitative Unter- schiede, als auch Stärken und Schwächen unter den Codecs zu analysieren. Dies ermöglicht eine Bestimmung der Videoqualität und Klassifizierung der Videocodecs. Zur Messung der Qualität werden objektive Verfahren eingesetzt, die verschiedene Aspekte in komprimierten Videoclips indexieren. Durch die Visualisierung der Ergeb- nisse können Schwankungen und Einbrüche detailliert aufgezeigt und analysiert wer- den.

In dieser Bachelor Thesis werden ausschließlich visuelle Störungen erfasst, die durch die Komprimierung entstehen. Fehler bei der Aufnahme oder Übertragung werden nicht berücksichtigt.

In this paper codecs of different container formats are examined for their visual quality. The aim of this comparison is to analyze qualitative differences, as well as strengths and weaknesses among the codecs. In addition the determination of video quality allows the classification of the codecs. To measure the quality objective methods are used, to index various aspects in compressed video clips. Fluctuations and break-downs can be pointed out and analyzed by the visualization of the results.

In this Bachelor Thesis exclusively visual disturbances are detected, which results from the compression. Errors during the recording or transmission are not considered.

© Lars R. Schneider, Hochschule Reutlingen, Bachelor Thesis, 13. Januar 2012 Seite v

Bilderverzeichnis

1 Einleitung

2 Videokomprimierung

Bild 2.1 Vereinfachter Zugriff auf eine Video Datei

Bild 2.2 Objekte in Quicktime [QTdoku]

Bild 2.3 Aufbau des MP4-Formats [MPEG4ov]

Bild 2.4 Aufteilung der Farbinformation im YCbCr-Modell [Poy03, S. 2]

Bild 2.5 Group-Of-Pictures

Bild 2.6 Verfolgung von Bewegungen [Wang03, S.9]

Bild 2.7 DPCM Codierung von aufeinanderfolgenden Bildpunkten

Bild 2.8 Histogramm der Grauwerte

3 Videoqualität

Bild 3.1 Full-Reference [Far10, S. 342]

Bild 3.2 Reduced-Reference [Far10, S. 342]

Bild 3.3 No-Reference [Far10, S. 343]

Bild 3.4 PSNR Korrelation mit subjektiven Messungen (MOS) [Wang04, S. 12]

Bild 3.5 Ablauf einer SSIM-Berechnung [Wang04, S. 6]

Bild 3.6 MSSIM Korrelation mit subjektiven Messungen [Wang04, S. 12]

Bild 3.7 Ablauf der Video Quality Metric [Pins03, S. 2]

Bild 3.8 VQM Korrelation mit subjektiven Messungen [Pins03, S. 10]

4 Versuchsaufbau

Bild 4.1 Benutzeroberfläche von BVQM

Bild 4.2 Videobild aus Blätterdach

Bild 4.3 Videobild aus Kontrollierter Brand

Bild 4.4 Videobild aus Touchdown

Bild 4.5 Ablauf der Messungen

5 Messung der Videoqualität

Bild 5.1 PSNR Berechnung des Clips Blätterdach

Bild 5.2 SSIM Berechnung des Clips Blätterdach

Bild 5.3 VQM Berechnung des Clips Blätterdach

Bild 5.4 PSNR Berechnung des Clips Kontrollierter Brand

Bild 5.5 SSIM Berechnung des Clips Kontrollierter Brand

Bild 5.6 VQM Berechnung des Clips Kontrollierter Brand

Bild 5.7 PSNR Berechnung des Clips Touchdown

Bild 5.8 SSIM Berechnung des Clips Touchdown

Bild 5.9 VQM Berechnung des Clips Touchdown

6 Auswertung und Erkenntnisse

7 Offene Fragen und Ausblick

Beispielverzeichnis

1 Einleitung

2 Videokomprimierung

Beispiel 2.1 Bandbreite eines HD-Videosignals

Beispiel 2.2 Huffman-Verfahren

Beispiel 2.3 Durchschnittliche Bits/Bildpunkt

3 Videoqualität

4 Versuchsaufbau

Beispiel 4.1 Code zur Berechnung vom PSNR

5 Messung der Videoqualität

6 Auswertung und Erkenntnisse

7 Ausblick und Offene Fragen

Tabellenverzeichnis

1 Einleitung

2 Videokomprimierung

3 Videoqualität

Tabelle 3.1 Beschreibung der Qualitätsindikatoren

4 Versuchsaufbau

Tabelle 4.1 Verwendete Konverter

Tabelle 4.2 Codec Einstellungen

Tabelle 4.3 Übersicht der Szenen in Blätterdach

Tabelle 4.4 Übersicht der Szenen in Kontrollierter Brand

5 Messung der Videoqualität

6 Auswertung und Erkenntnisse

7 Offene Fragen und Ausblick

Formelverzeichnis

1 Einführung

2 Videokomprimierung

3 Videoqualität

(3.1) Mittlerer Quadratischer Fehler [Wang06, S. 1]

(3.2) Spitzen-Signal zu Rausch-Verhältnis [Wang06, S. 1]

(3.3) Vergleich der Bildkomponenten und ihre Gewichtung [Wang04, S. 6]

(3.4) Mittlerer SSIM (MSSIM) [Wang04, S. 8]

4 Versuchsaufbau

5 Messung der Videoqualität

6 Auswertung und Erkenntnisse

7 Ausblick und Offene Fragen

Verzeichnis mathematischer Aussagen

1 Einleitung

2 Videokomprimierung

Satz 1.1 Fano-Bedingung

3 Videoqualität

4 Versuchsaufbau

5 Messung der Videoqualität

6 Auswertung und Erkenntnisse

7 Offene Fragen und Ausblick

Einführung

1 Einleitung

1.1 Motivation, Kontext und Gegenstand

High Definition-Filmmaterial1 aufzunehmen, zu bearbeiten und wiederzugeben setzt voraus, die Videodaten auf ein Minimum reduzieren zu können, ohne dass das mensch- liche Auge merkliche Qualitätseinbußen wahrnimmt. Dazu werden die aufgenomme- nen Clips in Videoformate umgewandelt, in denen integrierte Algorithmen dafür sor- gen, dass die Datengröße komprimiert wird. Diese Algorithmen sind allerdings nicht direkt im Videoformat definiert, sondern im jeweiligen Audio und Videocodec die in jedem Videoformat beinhaltet sind.

Bei der Komprimierung werden im Videosignal irrelevante und redundante Informationen entfernt. Das ermöglicht der Hardware das hohe Datenaufkommen zu verarbeiten und speichern. Unter Berücksichtigung der visuellen Qualität soll die Bitrate auf einen Mindestwert gesenkt werden. Dazu stehen dem Produzenten unterschiedliche Komprimierungsformate (Container-Formate) zur Verfügung, die abhängig vom Aufbau und Richtlinien auf verschiedene Codecs zugreifen.

Neben den seit Jahren etablierten Videoformaten wie Quicktime, Adobe Flash Video, MP4 und AVI werden regelmäßig neue Formate und Codecs veröffentlicht wie WebM mit VP82. Der Konkurrenzkampf im Bereich der Videokomprimierung führt zu einer unzureichenden Standardisierung, wodurch besonders in der Postproduktion Unsicher- heit bezüglich der optimalen Komprimierung vorherrscht. Neue Speichermedien, Tech- nologien, Übertragungskanäle und Codecs fördern die Entstehung neuer Formate, die auf Anwendungsgebiete und Zielgruppen angepasst sind. Diese Spezialisierung hat zur Folge, dass viele Formate bei der lokalen Speicherung dieselben Komprimierungsver- fahren einsetzen. Durch die unterschiedlichen Hersteller, die die gleiche Klientel bedie- nen, entstand ein intransparentes Sammelsurium, das stetig weiter anwächst. Eine klare Linie, welcher Codec die geringsten Bildartefakte bei gleicher Bitrate bietet existiert nicht.

1.2 Aufgabenstellung und Vorgehensweise

In dieser Arbeit werden Komprimierungsformate gegenübergestellt, die jeweils ver- schiedene Codecs benutzen. Die Auswahl der Formate ist aufgrund der weiten Verbrei- tung, gezielt auf den Consumer-Bereich und Internet ausgerichtet. Ziel ist es den Vide- ocodec auszumachen, der die beste Videoqualität bei gleicher Bitrate liefert. Die Analyse soll auf der Grundlage von objektiven Ergebnissen erfolgen, womit sie wie- derholbar, exakt und frei von subjektiven Einflüssen sind. Die Messungen erfolgen von Videobild zu Videobild, sowie bei differierenden Bitraten. Durch die Analyse der Codecs ist es möglich, abhängig von dem Einsatz, das richtige Format auszuwählen.

Die Analyse umfasst vier Formate mit verschiedenen Codecs: WebM mit VP8, MP4 mit H.264-Sorenson, F4V mit H.264-MainConcept und MOV mit H.264. Dazu werden drei Videosequenzen eingesetzt, die besondere Charakteristiken aufweisen. Jedes Video wird in jedes der vier Formate komprimiert.

Die Messungen zur Bestimmung der Videoqualität beruhen auf drei objektiven Verfahren, wobei jedes auf eine andere Art und Weise Störungen durch die Komprimierung misst. Dabei wird das originale Video mit der komprimierten Version verglichen. Die Differenz gibt Auskunft über die Videoqualität der komprimierten Sequenz und somit auch über die Effizienz des Videocodecs.

Das Verfahren Spitzen-Signal zu Rausch-Verhältnis misst Veränderungen der Pixel und beschränkt sich somit auf eindeutige Veränderungen durch die Komprimierung. Aller- dings beeinflussen hauptsächlich Strukturen und Kanten die Perzeption, weshalb Stör- ungen der Konturen in einem Bild stärker zu gewichten sind. Diesen Ansatz setzt der Structural Similarity Index um und berücksichtigt hauptsächlich diese Veränderungen. Die beiden Qualitätsindizes messen die Qualität von Videobild zu Videobild und beschränken sich auf die Bildqualität über einen bestimmten Zeitraum. Die Video Qua- lity Metric hingegen bezieht auch zeitliche Veränderungen in die Messungen mit ein, weshalb bei diesem Verfahren nicht nur ein Bild im Video bewertet wird, sondern das Video als Ganzes.

1.3 Gliederung

Die Arbeit gliedert sich in drei Hauptbereiche. In den Grundlagen werden allgemeine Informationen über die untersuchten Formate und deren Komprimierungstechniken gegeben. Das umfasst auch die Videoqualität und die Verfahren, die zur Messung ein- gesetzt werden. Im zweiten Abschnitt werden der Versuchsaufbau und die Durchführ- ung näher beschrieben. Die Messergebnisse von jedem Videoclip werden erörtert und analysiert. Im letzten Abschnitt wird auf die gewonnenen Erkenntnisse eingegangen und Offene Fragen erörtert.

2 Videokomprimierung

2.1 Technischer Überblick

Der Codec in einem Videoformat ermöglicht die Dekomprimierung von einer komprimierten Datei. Der Codec ist dabei auf dem Computer installiert, der das Video wiedergeben soll, während in der Videodatei nur die Referenz auf den Codec vorhanden ist. Beim Abspielen der Datei wird mithilfe des Codecs die codierte Information wiederhergestellt.

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.1 Vereinfachter Zugriff auf eine Video Datei

Neben der Dekomprimierung ist der Codec auch für die Komprimierung der Datei zuständig. Die Effizienz eines Videoformats hängt damit vom Audio- und Videocodec ab. Ein Codec kann durchaus als eine Aneinanderreihung von Algorithmen verstanden werden, deren Ziele es ist irrelevante und redundante Informationen zu verringern.

Häufig unterscheiden sich Videoformate im Aufbau, bei der Übertragung und Wiedergabe, während zur Komprimierung auf identische oder artverwandte Codecs zugegriffen wird. Dementsprechend gleichen sich die Videoformate bei der lokalen Speicherung und Archivierung.

Bildauflösung Die Rahmenbedingung der Codierung bestimmen grundlegenden die Qualität eines

Videos. Dazu zählt auch die Videoauflösung, die die Menge an Bildpunkten zur Dar- stellung definiert. Derzeitig werden Videos dem HDV-Standard entsprechend codiert, dadurch beträgt die Zeilenhöhe 720 oder 1080 Zeilen. Bei der Auflösung muss zwi- schen Voll- (progressiv) und Halbbildern (interlaced) unterschieden werden. Halbbilder speichern nur jede zweite Zeile in einem Videobild ab. Aufgrund des Phi-Effekts3 und einer Frequenz von 50 Bildern pro Sekunden erscheinen die Halbbilder wie vollständige Bilder (Vollbilder).

Farbmodell Des Weiteren können Videos in verschiedenen Farbmodellen vorliegen, wodurch Einsparungen bei den Bits je Bildpunkt erzielt werden ([Abbildung in dieser Leseprobe nicht enthalten]2.3.2 Verlustbehaftete Verfahren). Die beiden geläufigsten Modelle sind RGB und YUV. Das RGB ist das meistgenutzte und findet auch in der Videobearbeitung Anwendung. Die Farbkomponenten sind Rot, Grün und Blau und benötigen zum abspeichern 8 Bits. Das aus der Fernseh-Branche bekannte Modell ist das YUV, bei dem die Helligkeitskomponente (Y) und die beiden Farbkomponenten (U und Y) zum Darstellen des Bildes eingesetzt werden. Dazu wer- den 8 Bits oder 10 Bits gebraucht.

In dieser Arbeit werden die Testvideos mit 1080p bei einer Bildfrequenz von 29,97Hz codiert ([Abbildung in dieser Leseprobe nicht enthalten]4.2.1 Rahmenbedingungen). Die hohe Auflösung mit Vollbildern ist das Ergebnis der derzeitigen Marktsituation, in der 1080p Standard ist. Die 29,97 Bilder pro Sekunden begründen sich aus der Tatsache, dass die Aufnahmen in 30Hz erfolgten ([Abbildung in dieser Leseprobe nicht enthalten]4.2 Testvideos) und eine Abbildung auf 25Hz (PAL) Nebeneffekte verursachen kann.

2.2 Videoformate und Codecs

2.2.1 Apple Quicktime und H.264

Das eigene Videoformat veröffentlichte Apple Inc. bereits im Jahr 1991 und ist seitdem Teil des Apple eigenen Arbeitsablaufes zur nicht-linearen Videobearbeitung. Zum Abspielen von Quicktime (.mov) auf Windows-PCs ist ein Plug-In notwendig. Das Format bietet neben der herkömmlichen Nutzung als Container für Audio (Codec: AAC) und Video, auch die Möglichkeit durch Referenzen auf externe Signale, die Dateigröße gering zu halten. Quicktime findet nicht nur im Consumer-Bereich Anwen- dung, sondern auch in der professionellen Videobearbeitung. Insbesondere durch den schnellen Datenaustausch, der z.B. die Kommunikation zwischen Regisseur und Cutter vereinfacht, ist es weitverbreitet. [Hey03, S. 175] Im Quicktime Format wird die Infor- mation des Videomaterials getrennt vom eigentlichen Rohmaterial gespeichert. [QTdoku] Dazu werden Objekte (Atome) eingesetzt, die in einer hierarchischen Baum- struktur angeordnet sind. In [Abbildung in dieser Leseprobe nicht enthalten]Bild 2.2 ist die Struktur eines Atoms zu sehen, das wei- tere Atome enthält. Die Zweige und Blätter werden als Atom-Container und Atom- Leafs bezeichnet und enthalten weitere Atome oder Daten.

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.2 Objekte in

Quicktime [QTdoku]

Zurzeit wird Quicktime im Internet besonders für interaktive Virtual Reality Anwendung eingesetzt z.B. 360° Panoramas. Es bietet sich aber auch zur lokalen Speicherung und Archivierung von Videos an, da mit einer längerfristigen Unterstützung durch Apple zu rechnen ist. Die länger währende Dominanz von Flash Videos in Videostreaming, verdrängte Quicktime aus dem Web.

Quicktime ermöglicht es ein Videosignal mit dem Codec H.264 (ISO/IEC 14496 Part 10) zu codieren. H.264 ist der derzeitig gängige Videocodec, dessen Einsatzgebiet nicht nur in Container-Formaten liegt, sondern auch in Blue-Ray-Disc, Consumer Camcor- der, HDTV, Videokonferenz und Videostreaming. Zur Komprimierung werden Algo- rithmen wie Prädiktive Codierung, Transformation, Quantisierung und Entropiecodie- rung eingesetzt. ([Abbildung in dieser Leseprobe nicht enthalten]2.3 Komprimierungstechniken) Bei der Codierung stehen unterschiedliche Profile (Baseline, Constrained Baseline, Extended, Main, High, High10, High422, High444pred) und Level (1 bis 5.1) zur Auswahl, wodurch leicht Anpassungen an den Einsatzzweck vorgenommen werden können.

H.264 wurde von unterschiedlichen Unternehmen weiterentwickelt und an ihre eigenen Systeme angepasst. Zusätzlich existiert die freie Nachbildung x.264, die frei von Lizenzen und Patenten ist.

2.2.2 MP4 und H.264-Sorenson

Das MP4 Container-Format (ISO/IEC 14496 Part 15) ist dazu ausgelegt MPEG-4 oder H.264 Videosignale zu speichern (Audiocodec: AAC). Die Dateiendung ist .mp4 und genutzt wird es zum Datenaustausch, Videobearbeitung, Videostreaming und lokalen Abspielen. MP4 ist das ursprüngliche Format, dass für den H.264 Codec vorgesehen war. Aufgrund der zahlreichen Formate die H.264 oder dessen Weiterentwicklungen verwenden, hat es an Bedeutung verloren. Zurzeit findet MP4 im Bereich Videostrea- ming rege Anwendung. Ein Plug-In zum Abspielen ist nicht notwendig. Die Struktur des Containers entspricht dem ISO Base Media File Format, welches auf dem Quick- time Format von Apple Inc. basiert. Dementsprechend ist MP4 objektbasiert und ent- hält unterschiedliche Objekte (Atome). ([Abbildung in dieser Leseprobe nicht enthalten]Bild 2.3).

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.3 Aufbau des

MP4-Formats

[MPEG4ov]

Das Objekt moov enthält Informationen über Dauer, Zeiger auf das Rohmaterial, Beschreibung des Objektes, Indizes und Marker. Das mdat Objekt beinhaltet die eigentlichen Audio und Video Rohdateien, [MPEG4ov] die allerdings auch extern auf Servern ausgelagert sein können.

Der H.264-Sorenson Codec ist eine dieser Weiterentwicklungen des H.264. Allgemein ist wenig über ihn bekannt, da Sorenson Media die vorgenommenen Änderungen unter Verschluss hält. Die Struktur und die verwendeten Methoden zur Komprimierung ähn- eln weiterhin denen aus H.264. Aufgrund des geschlossenen Systems von Sorenson ist es nur über den Konverter Sorenson Squeeze möglich, eine Datei mit H.264-Sorenson zu komprimieren. Zudem ist MP4 das einzige Format, das diesen Codec einbetten kann.

2.2.3 Adobe Flash Video (F4V) und H.264-MainConcept

Flash Video bezeichnet die beiden Videoformat FLV (.flv) und F4V (.f4v) von Adobe Systems Inc., die in der Entwicklungsumgebung von Adobe Flash zur Komprimierung von Videos eingesetzt werden. Mit Hilfe von Entwicklungswerkzeugen ist es möglich, die Flash Videos mit Funktionen zu erweitern. Zum Abspielen der Dateien ist ein Plug- In notwendig, dass aber bei 98% der internetfähigen Desktop PCs installiert ist [Adobe07]. Untersucht wird das F4V-Format (Video for Adobe Flash) dass seit dem Flash Player 9 verfügbar ist und die MPEG-4 Variante des FLV-Formats ist. Als Video- codec wird der H.264-MainConcept verwendet, während FLV auf den VP6 Codec zugreift. Zur Codierung des Audiosignals wird der AAC Codec eingesetzt. Das Format F4V entspricht, genau wie MP4, dem ISO Base Media File Format und hat dement- sprechend die gleiche Struktur.

Bekannt sind die Flash Formate hauptsächlich durch ihre Ambitionen Videos über das Web zu übertragen. Insbesondere Portale wie YouTube setzen trotz HTML5 und WebM weiterhin auf Flash Videos zur Übertragung. Auch bei der Echtzeitübertragung (True Streaming) von Videos wird weiterhin auf Flash Video gesetzt, das aber vielmehr mit der Entwicklungsumgebung und deren Funktionen zusammenhängt, als mit dem Vide- oformat. Der in F4V verwendete Codec H.264-MainConcept ist eine Weiterentwick- lung des H.264, die auch bei weiteren Videoformaten eingesetzt wird: MP4, Matroska, AVI und MOV. Details über die Änderungen, die von MainConcept vorgenommen wurden, beschränken sich auf zusätzliche Einstellungsmöglichkeiten bei der Codierung. Grundsätzlich sind die verwendeten Komprimierungstechniken dieselben: Prädiktive Codierung, Transformation, Quantisierung und Entropiecodierung.

2.2.4 WebM und VP8

Das opensource Videoformat WebM, dass von Google unterstützt wird, verwendet zum Codieren ausschließlich den VP8 Videocodec und den Vorbis Audiocodec. Die Entwickler beschreiben die Ausrichtung des Formates wie folgt: "The WebM project is dedicated to developing a high-quality, open video format for the web that is freely available to everyone." [WMProj]

Die Struktur des Formates entspricht dem von Matroska (.mkv), wobei WebM lediglich auf das Nötigste reduziert ist. Durch die strikte Vorgabe des Video und Audiocodec, schränkt es die Freiheit beim Codieren ein. Das wiederum erleichtert die Wiedergabe. Der Nutzer muss nur Wissen ob sein Media Player das Format lesen kann, ohne Rücksicht auf installierte Codecs nehmen zu müssen. Die Verbreitung des For- mates schreitet voran, nicht nur dass Google die Unterstützung auf den Android Smart- phones ermöglichte, auch YouTube bietet ausgewählte Videos im WebM-Format an. Dazu kommt der Web-Standard HTML5, der über den Video-Tag Videostreaming von WebM-Videos vereinfacht.

VP8 wurde zusammen mit dem WebM-Format im Jahr 2010 von Google veröffentl- icht. Gemeinsam soll ein Standard geschaffen werden, der die Übertragung von Videos über das Internet eindeutig definiert. Dementgegen stehen eine mangelhafte Dokumen- tation und ein Rechtsstreit über 12 Patente. Zusätzlich erfordert die Codierung und Decodierung mehr Rechenaufwand und Zeit wie als H.264, wodurch WebM Schwie- rigkeiten hat sich als Standard zu etablieren. Trotzdem zeigen Untersuchungen, dass der Codec mit dem derzeitigen Marktführer H.264 konkurrieren kann.

Bei der Komprimierung werden unterschiedliche Algorithmen eingesetzt: Farbabtastung (4:2:0), Entropiecodierung, Diskrete Cosinus Transformation und Prädiktive Codierung. ([Abbildung in dieser Leseprobe nicht enthalten]2.3 Komprimierungstechniken) [VP8Guide] Eine Besonderheit von VP8 ist zudem die Möglichkeit den Output an die Bandbreite anzupassen.

2.3 Komprimierungstechniken

2.3.1 Grundlagen

Die Videokomprimierung setzt auf Methoden, die aus der Bildkomprimierung bekannt sind. Diese Algorithmen lassen sich der Intra-Codierung zuordnen, wobei jedes Bild im Video getrennt betrachtet und codiert wird. Es existieren zwei Komprimierungstypen: Verlustbehaftet und Verlustfrei, die sich signifikant unterscheiden. Letztere erzielt geringe Komprimierungsraten ist aber in der Lage vollständig die komprimierte Infor- mation wiederherzustellen. Bei den verlustbehafteten Verfahren gehen Informationen verloren, ihr Einsatz ist dennoch notwendig, da das hohe Datenaufkommen bei verlust- freien Codecs schwer zu verarbeiten ist.

Redudanz und Generell ist es egal, welchem Typ ein Codec angehört, das Ziel ist das gleiche. Unter Irrelevanz entfernen Berücksichtigung der Videoqualität wird das Datenaufkommen klein gehalten, indem Redundanz und Irrelevanz im Videosignal reduziert werden. Redundanz wird verringert mittels Repräsentant, die wiederkehrende Informationen zusammenführen. Mit dem Entfernen von Irrelevanz ist das Ausnutzen der Beschränktheit des menschlichen Sehens gemeint. Das Sehvermögen hat seine physischen und psychischen Grenzen, wodurch es möglich ist, Informationen aus einem Signal zu entfernen, ohne dass der Mensch überarbeit in der Lage ist diesen Verlust wahrzunehmen.

Ein digitalisiertes unkomprimiertes Video erfordert überproportional viel Ressourcen zur Speicherung und Verarbeitung. Das trifft auch auf die Übertragung von Medien in das Internet zu. Für gewöhnlich hat ein deutscher Haushalt eine Internetanbindung von durchschnittlich 17 Mbit/s, [Bitkom] wodurch es utopisch ist, online unkomprimierte HD-Videos zu übertragen. ([Abbildung in dieser Leseprobe nicht enthalten]Beispiel 2.1)

Beispiel 2.1

Bandbreite eines HD- Videosignals

2.3.2 Verlustbehaftete Verfahren

Aufgezeichnete Videos enthalten Informationen, die vom Menschen nicht verarbeitet werden können. Dies macht sich die verlustbehaftete Codierung zunutze, um ohne Qualitätseinbußen das Datenaufkommen zu reduzieren. Allerdings reicht dies nicht aus, um die Bitraten angemessen zu reduzieren. Dementsprechend sind radikale Algorithmen mit hohen Kompressionsraten notwendig, die allerdings nach der Komprimierung nicht die identische Information wiederherstellen können.

Farbabtastung

Bei der Farbabtastung (engl.: Chroma Subsampling) wird ein unendliches, analoges Videosignal abgetastet und bei der Quantisierung in ein zeitdiskretes Signal umgewandelt. Dabei werden über 16 Mill. Farben (True Color) digitalisiert. Für das menschliche Auge reichen aber auch dreimal 256 Farben (RGB-Farbmodell) aus. Der Mensch nimmt Helligkeit stärker wahr und hier setzt die Farbabtastung an. Sie konvertiert die 16 Mill. Farben in das YUV-Farbmodell (YCbCr), bei dem die Helligkeit von der Farbe getrennt wird. Dieses Modell speichert die Helligkeitswerte (Y) ab, während Cb und Cr Farbkomponenten beinhalten. Durch das Addieren der Bildkomponenten entsteht ein farbiges Gesamtbild.

Das YUV-Farbmodell bietet Qualitätsstufen mit unterschiedlich hohen Komprimierungsraten. Die Helligkeitskomponenten bleiben vollständig erhalten, während die Qualität der Farbkomponenten reduziert wird. In der Qualitätsstufe 4:2:2 ([Abbildung in dieser Leseprobe nicht enthalten]Bild 2.4) kommen auf zwei Helligkeitswerte ein Farbwert. Bei der Perzeption kommt es auf die Kanten und Struktur an und die wurden vollständig beibehalten. Folglich leidet der Gesamteindruck nur geringfügig während Einsparungen von 25% möglich sind.

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.4 Aufteilung der Farbinformation im

YCbCr-Modell [Poy03, S. 2]

Differenzbilder

Die Veränderungen in einem Videobild zu seinem Vorgänger sind, außer bei harten Szenenwechseln, sehr gering - das birgt hohes Komprimierungspotenzial. Um das aus- nutzen zu können, werden die Bilder in einem Video in drei Typen unterteilt: I-Bilder, P-Bilder und B-Bilder. Mit Hilfe von Referenzen auf vorherige oder nachfolgende Bil- der, ist es nicht mehr notwendig, einzelne Bilder zu codieren. Durch die Referenzie- rung auf vorhandene Informationen ist es möglich Redundanz zu entfernen, wodurch nur noch die Differenz zwischen den jeweiligen Bildern codiert wird. Dieses Vorgehen beschränkt sich immer auf eine Gruppe an Bilder - Die Group-Of-Pictures.

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.5 Group of Pictures

Die Aufteilung in kleine Gruppen ist notwendig um Fehler zu vermeiden und die Kom- plexität beim Codieren und Decodieren zu senken. Je größer eine Group-Of-Pictures ist desto mehr Informationen werden von anderen Bildern bezogen. Dies führt zu einer hohen Latenzzeit, die negativ den Gesamteindruck beeinflusst. Deshalb ist eine Group- Of-Pictures zeitlich limitiert und dauert abhängig von der Implementation ungefähr 10 Videobilder. Die Grundlage eines GOP ist das I-Bild, das lediglich ein vollständig codiertes Standbild ist, bei dem nur Algorithmen aus der Bildcodierung (Intra-Codie- rung) eingesetzt werden. Ein P-Bild enthält Referenzen auf Informationen von voran- gegangenen Bildern. Das B-Bild bezieht Information von den vorangegangenen Video- bildern als auch von den Nachfolgenden. Hierbei wird die höchste Komprimierungsrate erzielt.

Prädiktive Codierung Die Prädiktive Codierung (Bewegungsvorhersage) verwendet Blöcke im Videobild und verfolgt deren Bewegung über mehrere Bilder hinweg. Anstatt alle Informationen Bild für Bild weiter zu speichern, wird nur der Bewegungsvektor gespeichert. Dieses Ver- fahren wird eingesetzt, um ihn einem statischen Bild ein bewegendes Objekt effizient zu komprimieren. Dementsprechend ist die Codierung sehr rechenintensiv, während bei der Decodierung die Bewegungen leicht zu berechnen sind. In [Abbildung in dieser Leseprobe nicht enthalten]Bild 2.6 ist das Videobild in Makroblöcke aufgeteilt. Die Kanten werden im darauf folgendem Bild

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.6 Verfolgung von Bewegungen [Wang03, S. 9]

Prädiktive Differenzialcodierung

Ein spezielles Verfahren der Prädiktiven Codierung ist die Prädiktive Differenzialco- dierung (engl.: Differential Pulse Code Modulation, DPCM), die nur die Differenz der Farbwerte zueinander codiert. Es wird angenommen, dass jeder Bildpunkt den gleichen Farbwert wie der Vorgänger hat. Trifft diese Annahme nicht zu, wird der Differenzwert (Prediction Error) berechnet. Dieser Wert wird anstatt des ursprünglichen Wertes gespeichert. Dadurch sind weniger Bits zur Speicherung der Farbwerte notwendig, da die Differenz immer kleiner gleich des Farbwertes ist. In regelmäßigen Abständen wer- den die abgetasteten Werte und nicht die Differenz codiert, um Fehlern vorzubeugen. Wird wie im [Abbildung in dieser Leseprobe nicht enthalten]Bild 2.7 von einem 2x2 Makroblock ausgegangen, dann wird in Bild n+1 nur noch die Differenz zu Bild n codiert.

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.7 DPCM Codierung von aufeinanderfolgenden Bildpunkten

Diskrete Kosinustransformation

In der Bildkomprimierung werden Transformationen eingesetzt, die auch in der Video- komprimierung Anwendungen finden, der bekannteste Vertreter ist die Diskrete Kosi- nustransformation (DCT). Die Transformation macht es sich zunutze, dass das mensch- liche Sehvermögen empfindlicher für klare Kanten und Flächen ist und feine Linien schwerer wahrnimmt. [Huß03, S. 4-70] Die DCT transformiert räumliche Information in Spektralinformation, [Nel93, S. 326] das heißt, dass die Bildpunkte in den Frequenz- bereich transformiert werden. Das Videobild wird in 8x8 Pixel Makroblöcke aufgeteilt mit einem Grundfarbton. Für jeden Block werden die originalen Farbwerte in Kosinus Wellen dargestellt, höhere Frequenzen signalisieren eine starke Abweichung vom Grundton (DCT-Koeffizient), niedrige Frequenzen weißen auf eine geringe Abwei- chung hin. Jedem Block wird eine Kosinusfunktion zugewiesen, deren Schwingung durch die Farbwerte bestimmt wird.

2.3.3 Verlustfreie Verfahren

Verlustfreies Komprimieren setzt voraus nach der Codierung die ursprünglichen Infor- mationen 1:1 rekonstruieren zu können. In Video-Codecs werden verlustfreie Algorith- men eingesetzt, die aus der Bilddatenkompression bekannt sind und der Intra-Codie- rung zuzuordnen sind. Diese Verfahren entfernen die Redundanz im Videosignal und werden für gewöhnlich nach der verlustbehafteten Komprimierung eingesetzt.

Entropiecodierung

Die Lauflängencodierung entfernt z.B. redundante Farbwerte und ersetzt sie durch die Anzahl und den Wert, wodurch das Verfahren Signale eindeutig codiert. Die Entropie- codierung nimmt einen anderen Ansatz zur verlustfreien Codierung und weißt den Farbwerten abhängig von der statistischen Häufigkeit ein variables Codewort (Präfixc- ode) zu. Ein Pixel in einem Bild wird durch eine Menge an Bits dargestellt, die Entropi- ecodierung legt für den häufigsten Farbwert den kleinsten Präfixcode (1 Bit) fest, je höher das Auftreten, desto niedriger die benötigte Bitanzahl. Damit der erzeugte Code eindeutig zuweisbar ist, muss die Fano-Bedingung erfüllt sein. [Sack05]

Satz 1.1 Fano- Ein Codewort darf kein Anfangswort eines anderen Codeworts sein, sonst ist die zeichenfolge Bedingung nicht eindeutig dekodierbar.

Für gewöhnlich dominieren in einem Bild bestimmte Farbwerte, weshalb die reduzierte Datengröße der häufigeren Werte ein geringeres Bits/Bildpunkt-Verhältnis zur Folge hat. Dies zeigt auch die Analyse der Grauwerte in [Abbildung in dieser Leseprobe nicht enthalten]Bild 2.8

Abbildung in dieser Leseprobe nicht enthalten

Bild 2.8

Histogramm der Grauwerte

Shannon-Fano

Eine angewandte Umsetzung der Entropiecodierung ist der Shannon-Fano Algorith Algorithmus mus, der sich auch die Auftrittwahrscheinlichkeit von Farbwerten in einem Bild zunutze macht. Mithilfe eines Shannon-Baums erhalten die Farbwerte - Blätter des Baums - einen Binärcode zugewiesen. Damit die Information eindeutig codiert ist, muss die Fano-Bedingung erfüllt sein. Zu Beginn werden die Werte nach ihrer Wahr- scheinlichkeit sortiert, anschließend werden sie in zwei Gruppen aufgeteilt mit ähnlic- her Wahrscheinlichkeit. Die linke Gruppe erhält eine 1 zugewiesen, die Rechte eine 0. Dieser Schritte werden so lange durchgeführt, bis jede Teilgruppe nicht mehr als ein Symbol enthält. [Strutz00, S. 29]

Huffman-Codierung David A. Huffman stellt in seinem Artikel "A Method for the Construction of Mini- mum-Redundancy Codes" fest, dass das Shannon-Fano Verfahren nicht zwingend opti- mal codiert. [Huff52, S. 1098] Dementsprechend entwickelte Huffman ein erweitertes Verfahren, das zwar einen höheren Rechenaufwand erfordert, aber ein besseres Kom- primierungsverhältnis erreicht. Im [Abbildung in dieser Leseprobe nicht enthalten]Beispiel 2.2 ist ein 4x4 Bildausschnitt mit 4 Farb- werten dargestellt. Bei der Huffman-Codierung wird von jedem Farbwert die Wahr- scheinlichkeit des Auftretens bestimmt und sortiert. Im Huffman-Baum ist ersichtlich, dass die beiden Farben mit den geringsten Wahrscheinlichkeiten aufsummiert werden, wobei eine Farbe eine 1 und die Andere eine 0 zugewiesen bekommt. Dies wird solange durchgeführt, bis die aufsummierte Wahrscheinlichkeit 100% erreicht. Geht man nun das Baumdiagramm von oben nach unten bis zu den Blättern bzw. Farbwerten durch und reiht die boolean Zahlen aneinander, so erhält man einen eindeutigen binären Präfixcode, der den Farbwert repräsentiert.

Abbildung in dieser Leseprobe nicht enthalten

Beispiel 2.2

Huffman-Verfahren

Zur Darstellung eines Farbwertes, sind umso mehr Bits nötig umso seltener das statisti- sche Auftreten ist. In [Abbildung in dieser Leseprobe nicht enthalten]Beispiel 2.2 ist jedem Farbwert ein verschieden großer Präfixc- ode zugewiesen, dadurch lässt sich die durchschnittliche Bits/Bildpunkt-Rate wie folgt berechnen:

Beispiel 2.3 Durchsch

nittliche Bits/Bildpunkt

Abbildung in dieser Leseprobe nicht enthalten

Bei statischen Bitgrößen wäre in diesem Beispiel jeder Farbwert mit 2 Bits dargestellt worden. Die Komprimierungsrate ist in diesem Beispiel gering, bei steigender Anzahl von Farbwerten erhöht sich die Rate exponential.

Arithmetrische- Bei den bisher vorgestellten Verfahren existiert eine Untergrenze, da jeder Farbwert Codierung mindestens mit einem Bit dargestellt werden muss. Dieses Problem löst im Gegensatz zur Entropiecodierung, die Arithmetrische Codierung, indem die Werte durch Häufigk- eitsintervalle codiert werden. Die 100% Wahrscheinlichkeit wird in geschachtelte Intervalle aufgesplittet, sodass ein Wert durch eine Fließkommazahl codiert wird. Trotz seiner Effizienz ist dieses Verfahren selten implementiert, da gültige Patente die Nut- zung einschränken.

3 Videoqualität

3.1 Definition

In dieser Arbeit wird die Videoqualität von hochauflösenden Videosequenzen gemes- sen, womit der Fokus auf der Sinnesmodalität des Sehens liegt. Folglich ist mit "Video- qualität" das Qualitätsempfinden von Personen zur visuellen Qualität einer Videose- quenz gemeint. Zwar beeinflusst der Ton signifikant die Wahrnehmung, wird aber wegen der qualitativen Ähnlichkeit der Audio-Codecs nicht weiter berücksichtigt.

Vom Aufnahmegerät bis zum Zuschauer durchläuft eine Videosequenz Prozesse, die sich nachteilig auf die Videoqualität auswirken. Zum einen sind Komprimierungsver- fahren für visuelle Artefakte und Verzerrung verantwortlich, da diese über verlustbe- haftete Algorithmen die Datengröße gering halten. Zum Anderen muss mit Übertrag- ungsfehlern gerechnet werden, insbesondere bei Video-Streaming Diensten die das UDP-Protokol verwenden. Ergo sind Messungen der Videoqualität erforderlich, da wesentliche Bildinformationen fehlen und dadurch negativ die Perzeption der Videos beeinflusst wird.

Bei der Bestimmung der Videoqualität kann es keinen eindeutigen Indexwert geben, der die tatsächliche Qualität widerspiegelt. Dies hängt damit zusammen, dass das Qua- litätsempfinden von Mensch zu Mensch variiert. Begründet ist dies durch physische Unterschiede z.B. Sehstärke und psychische Unterschiede z.B. geschulte Wahrneh- mung unter den Zuschauern. Eine weitere Tatsache, die berücksichtigt werden muss, ist, dass der Mensch Bilder mit hohem Kontrast und leichter Farbsättigung generell besser bewertet, obwohl eine Veränderung der Bildinformation vorliegt. [Dim02] Diese wirft die Frage auf, ob ein komprimiertes Video das durch z.B. Farbfilter verbessert wurde, qualitativ besser ist, obwohl es nicht dem originalen Video entspricht? Die Ant- wort hängt davon ab, wie Videoqualität definiert ist. Laut der vorherigen Definition lautet die Antwort: Ja, die wahrgenommen Videoqualität zählt - unabhängig von Ver- zerrungen der Realität. Von den drei verwendeten Messverfahren berücksichtigt dies ausschließlich die Video Quality Metric, durch den Parameter si_gain ([Abbildung in dieser Leseprobe nicht enthalten]3.5 Video Quality Metric).

3.2 Messarten- und verfahren

Subjektive Messungen Die zuverlässigste Methode um die Qualität zu bestimmen ist ein Testversuch, bei dem Probanden Angaben zur Videoqualität geben. Mit steigender Anzahl der Teilnehmer ist es möglich über Annäherung der Antworten, einen mittleren Qualitätsindex zu bestim- men. Diese subjektiven Messverfahren für digitale Videos wurden in ITU-T Rec P.910 [ITUP.910] getestet und standardisiert. Das bekannteste ist das Absolute Category Rating, bei dem die komprimierte Sequenz ohne Referenz subjektiv beurteilt wird. Dabei werden die einzelnen Sequenzen nacheinander dem Probanden gezeigt, wobei dieser die Qualität über eine neunstufige Bewertungs-Skala bestimmt. [Far10, S.340]

Ferner gibt es weitere Methoden: Paired Comparison und Degradition Category Rating bei denen zusätzlich ein Referenzvideo zur Verfügung steht. Für die Nutzung dieser subjektiven Messverfahren spricht die hohe Genauigkeit bei einer hohen Anzahl von Probanden. Deshalb dienen diese Verfahren auch als Vergleichsindex für mathemati- sche Messungen.

Objektive Messungen Für die Praxis eignen sich subjektive Messungen kaum, da sie zeitaufwendig sind, hohe Kosten verursachen und die Testergebnisse nicht reproduzierbar sind. Deshalb wird nach einem objektiven Verfahren geforscht, das mindestens dieselbe Genauigkeit wie subjektive Messungen aufweist.

Die objektiven Messverfahren basierten früher auf der Idee, technische Eigenschaften der Videobilder miteinander zu vergleichen. Die Entwicklung ging dahingegen, dass mittlerweile gezielt visuelle Aspekte z.B. Helligkeit extrahiert werden. Das führt zu einer hohen Korrelation mit den subjektiven Messergebnissen, da nur die ausschlaggebenden Qualitätskriterien in die Berechnung des Qualitätsindexes einfließen. Die Möglichkeit die Algorithmen in Hard- und Software zu implementieren führt dazu, dass die objektiven Messverfahren zur automatisierten Qualitätsbestimmung von Fernsehen und Video-Streaming eingesetzt werden.

Die objektiven Messverfahren lassen sich in drei Typen unterteilen. Eine Full-Refe- rence ([Abbildung in dieser Leseprobe nicht enthalten]Bild 3.1) Metrik benötigt zur Berechnung das vollständige Referenzvideo sowie die komprimierte Version - dies triff auf das Verfahren PSNR ([Abbildung in dieser Leseprobe nicht enthalten]3.3 Spitzen Sig- nal zu Rausch Verhältnis) zu. Wenn lediglich bestimmte Parameter aus der Referenz extrahiert werden müssen, um den Index zu berechnen, so wird vom Reduced Refe- rence Typ ([Abbildung in dieser Leseprobe nicht enthalten]Bild 3.2) gesprochen zu dem u.a. SSIM ([Abbildung in dieser Leseprobe nicht enthalten]3.4 Structural Similarity Index) und VQM ([Abbildung in dieser Leseprobe nicht enthalten]3.5 Video Quality Metric) gehören. Ist ein Messverfahren nicht auf ein Referenzvideo angewiesen und setzt zur Qualitätsbestimmung nur auf das kompri- mierte Video, dann ist es vom Typ No-Reference ([Abbildung in dieser Leseprobe nicht enthalten]Bild 3.3). Diese Aufteilung ist für die Bestimmung des Anwendungsgebietes wichtig, zumal diese Typen mit unterschied- lichen Datengrundlagen Messungen durchführen.

Abbildung in dieser Leseprobe nicht enthalten

Bild 3.1

Full-Reference [Far10, S. 342]

Abbildung in dieser Leseprobe nicht enthalten

Bild 3.2

Reduced-Reference [Far10, S. 342]

Abbildung in dieser Leseprobe nicht enthalten

Bild 3.3

No-Reference [Far10, S. 343]

3.3 Spitzen-Signal zu Rausch-Verhältnis

Ein in der Bildverarbeitung beliebtes objektives Maß zur Bestimmung der Qualität ist das Spitzen-Signal zu Rausch-Verhältnis (engl.: Peak-Signal to Noise-Ratio, PSNR), das sich durch seine Verständlichkeit, geringen Rechenaufwand und leichte Implemen- tierung auszeichnet. Zur Berechnung wird jeder Bildpunkt aus dem Referenz-Videobild benötigt, womit der Qualitätindex vom Typ Full-Reference ist. Das Verfahren basiert auf dem Mittleren Quadratischen Fehler (engl.: Mean-Square-Error, MSE), der die Dif- ferenz zwischen dem original Videosignal (f) und dem Komprimierten (F) berechnet.

(3.1) M N

Mittlerer Quadratischer Fehler [Wang06, S. 1]

Abbildung in dieser Leseprobe nicht enthalten

Von jedem Bildpunkt wird die Verfälschung berechnet, aufsummiert und durch die Auflösung dividiert, daraus bildet sich der durchschnittliche Störwert je Pixel - der Mittlere Quadratische Fehler. Die Berechnungen erfolgen immer mit einer Farbkompo- nente, beim YUV-Farbmodell ist es die Helligkeits-Komponente Y, da diese maßgebl- ich wahrgenommen wird.

Das Spitzen-Signal zu Rausch-Verhältnis bildet sich aus dem Verhältnis zwischen dem maximalen Signal (bei einer 8-Bit Farbkomponente ist es 255) und dem MSE. Währ- end der Mittlere Quadratische Fehler ein Maß für den Unterschied zwischen zwei Bil- dern ist, gibt PSNR an, wie hoch die Ähnlichkeit ist - Je höher der Wert, desto höher die Übereinstimmung.

Abbildung in dieser Leseprobe nicht enthalten

Bild 3.4 PSNR Korrelation mit subjektiven

Messungen (MOS) [Wang04, S. 12]

Der PSNR-Index beschränkt sich auf die Unterschiede unter den Bildpunkten und offenbart Schwachpunkte. Bei der Berechnung wird ignoriert, dass durch den Aufbau des menschlichen Wahrnehmungssystems bestimmte Störungen intensiver wahrge- nommen werden als Andere. Unscharfe Kanten werden vom Menschen schwer erfasst, während Pixelstörungen in Flächen sofort auffallen. Beide Artefakte sind im Spitzen- Signal zu Rausch-Verhältnis gleich gewichtet, wodurch Abweichungen zur tatsächlic- hen Bildqualität entstehen. Trotz der weitverbreiteten Nutzung sind die Prädiktionen des PSNR ungenau wie Untersuchungen in [Mar06] und [Wang06] zeigen. Allerdings eignet sich PSNR durchaus als Basisreferenz, [Wang06, S. 6] da es durch seinen einfa- chen Aufbau zuverlässig ist und die Werte nicht exorbitant schwanken ([Abbildung in dieser Leseprobe nicht enthalten]Bild 3.5).

Abbildung in dieser Leseprobe nicht enthalten

3.4 Structural Similarity Index

Die Idee hinter Verfahren wie PSNR liegt in der Erkennung und Gewichtung von Bildfehlern. Zhou Wang beschreibt in seinem Artikel [Wang04] das objektive Messverfahren Structural Similarity Index (SSIM), welches Störungen in Bildstrukturen als Indikator für Bildqualität einsetzt. Durch diesen neuen Ansatz werden perzeptive Bildkomponenten bei der Berechnung berücksichtigt, wodurch die Messungen besser mit der subjektiven Wahrnehmung übereinstimmen.

Zur Berechnung des SSIM werden drei Bildkomponenten unabhängig voneinander gemessen und mit dem Referenzbild verglichen. Diese Qualitätskriterien umfassen

Helligkeit , Kontrast und Struktur . ([Abbildung in dieser Leseprobe nicht enthalten]Bild 3.6)

Abbildung in dieser Leseprobe nicht enthalten

Bild 3.5 Ablauf einer SSIM-Berechnung [Wang04, S. 6]

Bei der Berechnung des SSIM werden die Ergebnisse miteinander multipliziert und abhängig von der Implementation unterschiedlich gewichtet. Das endgültige Ergebnis kann dabei von schlechte Qualität 0 bis gute Qualität 1 reichen.

Abbildung in dieser Leseprobe nicht enthalten

Allerdings beschränkt sich die Berechnung des SSIM auf ein 8x8 Pixel großen Bildabschnitt. Das Fenster wird zwar Pixel für Pixel über das gesamte Bild geschoben, [Wang04, S. 2] eine Aussage über die Qualität eines Bildes kann er nicht geben. Deshalb wurde der Mean Structural Similarity Index (MSSIM) definiert, der den mittleren SSIM-Wert eines Videobildes repräsentiert.

Abbildung in dieser Leseprobe nicht enthalten

Die hohe Anzahl an gemessen SSIM-Werten kann dazu genutzt werden, Störungen in Strukturen visuell darzustellen. Dies setzt die SSIM-Indexabbildung um, die durch die Messergebnisse Qualitätseinbrüche im Bild lokalisieren kann.

Im Structural Similarity Index wird nicht versucht die menschliche Wahrnehmung nachzubilden, vielmehr die dafür wichtigen Aspekte gesondert extrahiert, gemessen und ausgewertet. Demzufolge zählt der SSIM zum Typ Reduced Reference. Untersu- chungen wie die aus [Dong07] zeigen dass die neue Philosophie, im Vergleich zu PSNR, zu einer erhöhten Übereinstimmung mit subjektiv gemessenen Werten führt. ([Abbildung in dieser Leseprobe nicht enthalten]Bild 3.7)

[...]


1 Videoclips die entsprechend dem HDV-Standard in einem hochauflösenden Format vorliegen.

2 WebM und VP8 ist ein Videoformat und Videocodec die 2010 von Google veröffentlicht wurden und speziell zur Komprimierung von Web-Videos konzipiert sind.

3 Ein Phänomen, bei dem der Mensch aufgrund des trägen Auges, ab einer bestimmten Anzahl an Bildern pro Sekunden die Bilder überlappend wahrnimmt.

69 von 70 Seiten

Details

Titel
Vergleichsanalyse aktueller Videoformate mithilfe von objektiven Verfahren, die die Effizienz der benutzten Videocodecs messen
Hochschule
Hochschule Reutlingen  (Fakultät Informatik)
Veranstaltung
Medien- und Kommunikationsinformatik
Note
1,0
Autor
Jahr
2012
Seiten
70
Katalognummer
V189568
ISBN (Buch)
9783656139072
Dateigröße
2251 KB
Sprache
Deutsch
Schlagworte
H.264, MainConcept, Sorenson, PSNR, SSIM, VQM, VP8, Videoqualität, objektiv, Videocodec, Codec, Videoformat, Format, Komprimierung, Messverfahren, Video
Arbeit zitieren
Lars Rainer Schneider (Autor), 2012, Vergleichsanalyse aktueller Videoformate mithilfe von objektiven Verfahren, die die Effizienz der benutzten Videocodecs messen, München, GRIN Verlag, https://www.grin.com/document/189568

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Vergleichsanalyse aktueller Videoformate mithilfe von objektiven Verfahren, die die Effizienz der benutzten Videocodecs messen


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden