Gegenstand dieser Arbeit ist ein serverseitiger Dienst zur Analyse von HTML-Code. Im Mittelpunkt steht der Bild- und Video-Content der jeweiligen Seite. Nach einer erfolgreichen Analyse wird zunächst jegliche Information kategorisiert und im Zuge dessen eine realistische Verweildauer eines Benutzers abgeschätzt. Das Ergebnis liegt dem Benutzer sowohl als grafische Oberfläche, sowie in einem zur weiteren Verarbeitung benötigen JSON-Format vor.
Durch das extrem wachsende Bedürfnis nach immer effizienteren und schnelleren Wegen des Datenaustauschs ist das World Wide Web eines der wichtigsten Bestandteile unseres modernen Lebens geworden. Nicht zuletzt durch das schier unvorstellbar große Feld an Informationen, welches das World Wide Web im Jahr 2015 mit 863.105.652 Internetpräsenzen bietet, ist das Thema „Information Retrieval“, das Suchen nach multimedialen Dokumenten (Texte, Bilder, Vi-deo, Audio, Hypertexte), ein grundlegender Baustein des World Wide Web.
Inhaltsverzeichnis
1 Einleitung
2 Anforderungsanalyse
2.1 Grundlagen der Informationswissenschaft
2.2 Information & Wissen
2.2.1 Subjektives Wissen
2.2.2 Objektives Wissen
2.2.3 Informationsübermittlung
2.2.4 Informationsvermittlung
2.3 Information Retrieval
2.3.1 Informationsbedarf
2.3.2 Recall und Precision
2.3.3 Allgemeine Relevanz
2.3.4 Retrieval Modelle
2.4 Bereitstellung und Auswertung von Informationen im Web
2.4.1 Link-Topologie
2.4.2 Ranking
2.4.3 Multimedia Retrieval
3 Konzept
3.1 Modellbildung
3.2 HTML-Dokumenten-Analyse
3.3 Grafikformate
3.4 Grafikarten im Web
3.5 Bilderverarbeitungsbibliotheken
3.6 Zeitabschätzung und Verweildauer
4 Realisierung
4.1 Designumsetzung
4.2 Serverseitige Implementierung
4.3 Datenanalyse
5 Evaluierung / Test
6 Zusammenfassung und Ausblick
Zielsetzung & Themen
Die vorliegende Bachelorarbeit befasst sich mit der Konzeption und technischen Realisierung eines serverseitigen Dienstes zur automatisierten Analyse von HTML-Code. Das primäre Ziel besteht darin, durch eine detaillierte Auswertung der Bild- und Videoinhalte einer Webseite eine realistische Abschätzung über die Verweildauer eines Benutzers zu treffen, wobei die Ergebnisse sowohl grafisch als auch im JSON-Format zur weiteren Verarbeitung bereitgestellt werden.
- Grundlagen der Informationswissenschaft und des Information Retrievals
- Methoden zur Analyse von multimedialen Inhalten (Bilder, Videos) in Webdokumenten
- Technisches Konzept zur Kategorisierung von Web-Content
- Entwicklung eines Algorithmus zur Verweildauer-Abschätzung
- Implementierung eines serverseitigen Dienstes mittels PHP
Auszug aus dem Buch
2.2.1 Subjektives Wissen
Das erlangte Wissen einer Person, wird subjektives Wissen genannt. Subjektives Wissen ist nicht grundsätzlich richtig oder falsch. Allgemein betrachtet ist das Wissen für das jeweilige Subjekt gültig, sprich das Wissen hat einen grundsätzlichen Wahrheitsanspruch, der keinen objektiven Kriterien unterliegt. In vielen Bereichen kann nur subjektives Wissen erlangt werden. Zum Beispiel im Bereich der Physiologie. In diesem Erkenntnisbereich kann das Wissen nur auf Symptome und nicht objektivierbaren Phänomenen aufbauen. Daher ist subjektives Wissen immer beschränktes Wissen.
Des Weiteren wird zwischen subjektivem impliziten Wissen und subjektivem explizitem Wissen unterschieden.
Subjektives implizites Wissen: Es ist anzunehmen, dass jede Person über deutlich mehr Wissen verfügt als sie anderen direkt verständlich mitteilen kann. Das Wissen steckt implizit in dem Können selbst. Es entsteht durch intuitives, nicht zu verbalisierendes und nicht zu formalisierendes, erfahrungsgebundenes Handeln. Dieses Wissen weiterzugeben ist meist schwierig.
Subjektives explizites Wissen: Explizites Wissen ist im Vergleich zum impliziten Wissen „greifbares Wissen“. Es wird von eindeutig kodiertem Wissen gesprochen, das deshalb mittels Sprache und Schrift übermittelbar ist. Aber auch explizites Wissen kann implizite Anteile enthalten. Zum Beispiel diese Arbeit. Ich als Urheber habe bestimmte Begabungen, bin Kenner gewisser Themen und bringe durch persönliche Erfahrungen, persönliches Wissen und damit auch möglicherweise Fehler in diese schriftliche explizite Form der Ausarbeitung mit ein.
Zusammenfassung der Kapitel
1 Einleitung: Das erste Kapitel erläutert die Motivation, Problemstellung und Zielsetzung der Arbeit im Kontext der Informationswissenschaft.
2 Anforderungsanalyse: Dieses Kapitel erarbeitet die inhaltlichen Grundlagen zur Wissensrepräsentation und den Methoden des Information Retrievals.
3 Konzept: Es wird eine technische Lösung zur Analyse von HTML-Dokumenten entwickelt, die Bild- und Videoinhalte kategorisiert und für eine Zeitabschätzung aufbereitet.
4 Realisierung: Dieses Kapitel beschreibt die technische Umsetzung des Dienstes mittels PHP und die Anwendung von Bibliotheken zur Bildanalyse.
5 Evaluierung / Test: Anhand von Use Cases wird der entwickelte Dienst getestet und die Ergebnisse der systemseitigen Analyse kritisch betrachtet.
6 Zusammenfassung und Ausblick: Eine abschließende Reflektion der Arbeit sowie ein Ausblick auf mögliche Erweiterungen, wie das Parsen von CSS und JavaScript, werden dargelegt.
Schlüsselwörter
Dienst zur Analyse, Information Retrieval, Webseite, Bilder, Videos, Hypertext-Dokumente, serverseitig, PHP, HTML-Code, Verweildauer, Bildsegmentierung, JSON, Wissensrepräsentation, Datenanalyse
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der Entwicklung eines serverseitigen IT-Dienstes, der HTML-Quellcode analysiert, um spezifische Medienelemente zu erkennen und daraus eine Verweildauer für Webseitenbesucher zu berechnen.
Welche zentralen Themenfelder werden abgedeckt?
Zentral sind die Felder Information Retrieval, Bildverarbeitung, Webdesign-Analyse und die Modellierung von Benutzerverhaltensmustern.
Was ist das primäre Ziel der Untersuchung?
Das primäre Ziel ist die automatische Klassifizierung von Bild- und Videoinhalten einer Webseite, um auf dieser Basis eine fundierte, realistische Schätzung der Verweildauer von Nutzern zu generieren.
Welche wissenschaftliche Methode wird verwendet?
Es wird ein theoretisches Modell zur Informationsklassifizierung aufgestellt, welches mittels mathematischer Berechnungsformeln für Relevanzgrade und dwell times operativ umgesetzt und in einer Testumgebung evaluiert wird.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil liegt der Fokus auf der Anforderungsanalyse, der konzeptionellen Modellbildung, der Auswahl geeigneter Programmierbibliotheken und der detaillierten Beschreibung der Implementierung der Parser-Logik.
Durch welche Schlüsselwörter lässt sich die Arbeit charakterisieren?
Die Arbeit lässt sich vor allem durch die Begriffe Information Retrieval, Bildsegmentierung, HTML-Analyse, Verweildauer-Abschätzung und PHP-basierte serverseitige Verarbeitung charakterisieren.
Welche Rolle spielt die Bildkategorisierung für den Dienst?
Die Bildkategorisierung ist essenziell, da unterschiedliche Bildarten (wie Produktbilder, Hintergrundbilder oder Icons) eine differenzierte Gewichtung und damit unterschiedliche Auswirkungen auf die berechnete Verweildauer haben.
Wie geht das System mit nicht-textuellen Inhalten um?
Das System nutzt verschiedene Bildverarbeitungstechniken, wie den Sobel-Operator zur Kantenerkennung oder Farbhistogramme, um Metadaten über die Multimedia-Objekte zu gewinnen, auch wenn keine expliziten Text-Tags vorliegen.
- Citar trabajo
- Sergio Staab (Autor), 2016, Umsetzung eines Dienstes zur Analyse von HTML-Code im Bereich Information Retrieval, Múnich, GRIN Verlag, https://www.grin.com/document/374648