Umsetzung eines Dienstes zur Analyse von HTML-Code im Bereich Information Retrieval


Bachelorarbeit, 2016

85 Seiten, Note: 1,6


Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1 Einleitung

2 Anforderungsanalyse
2.1 Grundlagen der Informationswissenschaft
2.2 Information & Wissen
2.2.1 Subjektives Wissen
2.2.2 Objektives Wissen
2.2.3 Informationsübermittlung
2.2.4 Informationsvermittlung
2.3 Information Retrieval
2.3.1 Informationsbedarf
2.3.2 Recall und Precision
2.3.3 Allgemeine Relevanz
2.3.4 Retrieval Modelle
2.4 Bereitstellung und Auswertung von Informationen im Web
2.4.1 Link-Topologie
2.4.2 Ranking
2.4.3 Multimedia Retrieval

3 Konzept
3.1 Modellbildung
3.2 HTML-Dokumenten-Analyse
3.3 Grafikformate
3.4 Grafikarten im Web
3.5 Bilderverarbeitungsbibliotheken
3.6 Zeitabschätzung und Verweildauer

4 Realisierung
4.1 Designumsetzung
4.2 Serverseitige Implementierung
4.3 Datenanalyse

5 Evaluierung / Test

6 Zusammenfassung und Ausblick

Kurzfassung

Durch das extrem wachsende Bedürfnis nach immer effizienteren und schnelleren Wegen des Datenaustauschs ist das World Wide Web eines der wichtigsten Bestandteile unseres modernen Lebens geworden.

Nicht zuletzt durch das schier unvorstellbar große Feld an Informationen, welches das World Wide Web im Jahr 2015 mit 863.105.652 Internetpräsenzen bietet, ist das Thema „Information Retrieval“, das Suchen nach multimedialen Dokumenten (Texte, Bilder, Video, Audio, Hypertexte), ein grundlegender Baustein des World Wide Web.

Gegenstand der hier vorgestellten Arbeit ist ein serverseitiger Dienst zur Analyse von HTML-Code. Im Mittelpunkt steht der Bild- und Video-Content der jeweiligen Seite. Nach einer erfolgreichen Analyse wird zunächst jegliche Information kategorisiert und im Zuge dessen eine realistische Verweildauer eines Benutzers abgeschätzt. Das Ergebnis liegt dem Benutzer sowohl als grafische Oberfläche, sowie in einem zur weiteren Verarbeitung benötigen JSON-Format vor.

Schlagwörter: Dienst zur Analyse, Information Retrieval, Webseite, Bilder, Videos, Hypertext-Dokumente, serverseitig, PHP

Abbildungsverzeichnis

Abbildung 1: Bewusste Konzentration

Abbildung 2: Grundlegende Informationsübermittlung, angelehnt an[1]

Abbildung 3: Menschlicher Informationsvermittler, angelehnt an[1]

Abbildung 4: Maschineller Informationsvermittler, angelehnt an[1]

Abbildung 5: Information Indexing, angelehnt an[1]

Abbildung 6: Weiterverarbeitung von Informationen, angelehnt an[1]

Abbildung 7: Recall und Precision[11]

Abbildung 8: Relevanzurteil bei Endnutzern[1]

Abbildung 9: Relevanzurteil bei Experten[1]

Abbildung 10: Relevanzverteilungen[1]

Abbildung 11 Informationsbedarf[8]

Abbildung 12: Linkbeziehungen[1]

Abbildung 13: Tiefensuchbaum & Breitensuchbaum[9]

Abbildung 14: Monomediales Retrieval[1]

Abbildung 15: Multimediales Retrieval[1]

Abbildung 16: Farbmodelle[5]

Abbildung 17: Unterteilung des RGB-Farbraums in 36 Teilbereiche[5]

Abbildung 18: Prinzip des Faltungsprozesses[19]

Abbildung 19: Konvolution mit Filtermasken[19]

Abbildung 20: Olympische Ringe Hochpass-Filterung[16]

Abbildung 21: Segmentierung eines Videos[5]

Abbildung 22: Sequenzdiagramm Ablauf

Abbildung 23: Schematischer Aufbau einer URL

Abbildung 24: Objektkategorisierung

Abbildung 25: Funktionsdiagramm

Abbildung 26: Ablaufdiagramm category

Abbildung 27: UC001-Objekt

Abbildung 28: UC002-Verweildauer

Tabellenverzeichnis

Tabelle 1: Faktoren zur Suche von Informationen

Tabelle 2: Anfrage- und Ausgabeformen

Tabelle 3: HTML Tags und deren Funktionen

Tabelle 4: Vergleich Bitmap und Vektorgrafiken[13]

Tabelle 5: Kategoriezuordnung

Tabelle 6: Kennwerte

Tabelle 7: Kennwerte

Tabelle 8: Special dwell time

Tabelle 9: Relevance degree

Tabelle 10: Dwell time

Tabelle 11: Similarity

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Die Grundlage dieser wissenschaftlichen Arbeit ruht auf der rasanten Entwicklung des World Wide Web (WWW), welches auf dem „Hypertext Transfer Protocol“ (http) und der grafikfähigen „Hypertext Markup Language“ (HTML) basiert. Wo 1983 ca. 500 zusammenhängende Rechner existierten, waren es nicht ganz 15 Jahre später über 2.000.000 Rechner, von denen HTML-Dokumente abgerufen werden konnten.

Die Anforderungen an Webseiten in Bezug auf Benutzerfreundlichkeit und Informations- visualisierung steigt seitdem unaufhörlich. Wo zunächst noch mit reinen Textdokumen- ten als „Webseite“ gearbeitet wurde, ist das wirtschaftliche Interesse an Webseiten heute so groß, dass dem Benutzer auf Webseiten ein Schauspiel an Neuigkeiten, Animationen und Werbung geboten wird, um ihn möglichst lange auf der von ihm geöffneten Seite zu halten oder ihn sogar zu animieren, die Seite wiederholt abzurufen. Das World Wide Web bietet heutzutage mit 863.105.652 Internetpräsenzen (Stand 2015) einen Pull an Daten. Gleichzeitig werden lokale Daten durch die zunehmende Vernetzung von Cloud-Compu- ting (IT-Infrastrukturen werden über ein Netz zur Verfügung gestellt, ohne dass diese auf dem lokalen Rechner installiert sein müssen) und dem Social-Media (digitale Technolo- gien und Medien wie Weblogs, Wikis und soziale Netzwerke, über die miteinander kom- muniziert werden kann und Inhalte ausgetauscht werden können) immer mehr Personen zugänglich gemacht. Benutzern wird eine unvorstellbar große Menge an Informationen als Text, Bild, Ton und Video bereitgestellt.

Doch genau hier entsteht das Problem. Diese Masse an Daten kann nur genutzt werden, wenn sie auch erschlossen ist, sprich wenn ein Benutzer auch weiß, dass es die Daten gibt und wo es sie gibt, wie er die gesuchten Informationen darin finden und nutzen kann. Das weitreichende Thema der Informationswissenschaft, das sich einfach erklärt mit dem Suchen und Finden von Informationen, wird gerade in der Informatik durch diesen Pull an Informationen immer höher gewichtet.

Viele Firmen sind vom WWW durch ihre Web- und Werbeauftritte nahezu abhängig. Sie wollen informieren und animieren, dabei steht der reine Informationsgewinn hauptsäch- lich im Vordergrund. Es geht darum, mit der richtigen Visualisierung den Benutzer auf ein Produkt aufmerksam zu machen. Ein entscheidender Vorteil ist, zu wissen, wie Infor- mationen visuell aufgebaut sein müssen und in welchem Verhältnis sich Bild-, Text- und Videoinhalt in Bezug auf die spätere Darstellung des Benutzers verhalten. Damit wäre eine schnelle Abschätzung bezüglich der Verweildauer und dem inhaltlichen Aufbau der Seite im Bereich Marketing und Werbung, sowie in Studien und Verhaltensmuster mög- lich.

Der Aufbau eines Schätzwertes bedarf der vorherigen Analyse der Webseite, einer genauen Filterung von einzelnen Content-Elementen, sprich Text, Bild, Ton und Video, sowie eines Algorithmus zur statistischen Berechnung.

Das Thema dieser Bachelorarbeit beschäftigt sich daher mit der Konzeption und Entwick- lung eines Dienstes zur Analyse von HTML-Code. Im Mittelpunkt steht der Bild- Content der jeweiligen Seite, um eine Abschätzung der Verweildauer eines Benutzers einer Web- seite vorzunehmen.

Vorgang:

Nach einer erfolgreichen Analyse werden zunächst jegliche Informationen zwecks bes- serer Zeitabschätzung kategorisiert. Dabei setzen sich die späteren Zeitabschätzungen aus drei Fixpunkten zusammen. Dem vorliegenden Text, der Anzahl unterschiedlicher Bilder und den eventuell vorhandenen Videos. Dabei wird zunächst unterschieden zwischen

- Videos
- Text
- original_images
- popup_images
- thumbnail_images
- info_images
- backround_images

Diese skizzierte Einteilung stellt sich weitaus komplexer dar und bildet den Schwerpunkt in den Kapiteln 3.3, 3.4 „Grafik- und Video-Formate“. Im Zuge dessen kann an den unterschiedlichen Inhalten eine realistische Verweildauer eines Benutzers abgeschätzt werden. Zur späteren Studie bietet es sich an, den Dienst als serverseitige Web-Applikation zur Verfügung zu stellen, somit muss nichts aufwändig auf einem PC lokal installiert und Softwareupdates nicht manuell nachgeladen werden.

Diese Arbeit gliedert sich in sechs Abschnitte.

Das erste Kapitel stellt eine Einleitung in das Thema dar. Es werden Motivation, Aufgabenstellung und Zielsetzung der Arbeit erläutert.

Im Kapitel „Anforderungsanalyse“ werden die inhaltlichen Grundlagen der Informations- wissenschaft herausgearbeitet, auf der die Konzeption des Dienstes aufbaut. Es wird zu- dem analysiert, welche allgemeinen Komponenten bei der Konzeption berücksichtigt werden müssen, um eine klare Zielsetzung festlegen zu können. Anschließend werden ausgehend von Problemstellungen Anforderungen an den zu entwickelnden Dienst abgeleitet und Funktionalitäten herausgearbeitet, die für eine sinnvolle Benutzung des Dienstes unabdingbar sind.

Im darauffolgenden Kapitel „Konzept“ wird aus den Anforderungen an den Dienst eine Lösung angeboten. Nach Erarbeitung der möglichen Programmiertechniken und nutzbaren Libarys, werden die einzelnen Content-Elemente definiert und vorgestellt. Im Anschluss daran wird das technische Konzept präsentiert.

Das Kapitel „Implementierung“ erläutert einige interessante Details über die Umsetzung des Dienstes.

Ein abschließendes Fazit wird im Kapitel „Zusammenfassung und Ausblick“ geschlos- sen. Interessante Erweiterungen für den Dienst sollen hier ebenfalls näher erläutert wer- den.

Hinweis zum Umgang mit neu eingeführten Begriffen:

In dieser Arbeit neu eingeführte Fremdbegriffe werden einmalig in Anführungszeichen gesetzt. Bei nachfolgender Verwendung der Begriffe fallen die Anführungszeichen weg.

2 Anforderungsanalyse

Ausschlaggebend für das logische Verständnis des grundlegenden Gedankens hinter die- ser Arbeit, ist der Überblick über die Informationswissenschaft. Das Verständnis von zu- nächst alltäglichen Begriffen muss klar definiert werden, um sich später mit der umfas- senden Struktur eines Information Retrieval Systems, genauer dem Multimedia Retrieval in allen Details auseinandersetzen zu können. Im Folgenden werden Definitionen und Grundlagen herausgearbeitet.

2.1 Grundlagen der Informationswissenschaft

Die Informationswissenschaft befasst sich mit der Beschaffung, Verarbeitung und Bereit- stellung von relevanten Informationen und Wissen. Dabei ist die Geschichte des Suchens und Findens von Informationen fast so alt wie die Menschheit selbst. Allerdings reicht diese in Form einer Wirtschaftsdisziplin gerade mal bis in die 50er Jahre des letzten Jahr- hunderts zurück.

Zum Teilaspekt dieser Geschichte gehören Disziplinen, wie das Information Retrieval, d.h. das Wiederauffinden von Informationen. Dies ist ein Thema, seit es Bibliotheken gibt. Die Wissensrepräsentation ist eine eng an das Information Retrieval gebundene Disziplin, die sich mit dem Verdichten, Repräsentieren und „Gut-Auffindbar-Machen“ von Informationen beschäftigt. Einsatzbereiche hat sie in der heutigen Internetwirtschaft und in der betrieblichen Informationswirtschaft.

Ob Bibliotheken oder moderne Technologien, wie Smartphones oder das Internet - in der heutigen Zeit kommt man durch Informations- und Kommunikationsprozesse beinahe überall mit Wissen und Informationen in Berührung. Der eigentliche Informationsinhalt, neudeutsch „Content“, ist für die Informationswissenschaft weniger von Interesse. Es geht vielmehr um die Struktur der Information und die Funktion der eigentlichen Infor- mationsverarbeitung. [1]

2.2 Information & Wissen

Die Begriffe „Information“ und „Wissen“ sind in der Informationswissenschaft allgegen- wärtig, aber was ist überhaupt eine Information und in welchem Zusammenhang steht diese mit dem eigentlichen Wissen? Eine sehr naheliegende Vorgehensweise bei der An- näherung an ein Gebiet ist, sich zunächst näher mit dem Begriff auseinanderzusetzen.

„Information ist Wissen in Aktion“ (Prof. Dr. Rainer Kuhlen: 1995).

Aber was ist Wissen? Wissen entsteht durch Wissensproduktion, welche zunächst einen Rohstoff benötigt, die ungefilterte Information. Diese wird von unserer Wahrnehmung aufgenommen und als „interne Wahrnehmung“ verarbeitet. Die interne Wahrnehmung ist eine geistige Suchfunktion, die sowohl bewusst, als auch unbewusst geschehen kann.

Dabei muss die Konzentration nicht bewusst auf der Information selbst liegen. In Abbil- dung 1 konzentriert sich das Auge bewusst auf ein Auto, nimmt aber im gleichen Moment wahr, dass die Sonne scheint. Das subjektive Wissen wird mit der bloßen Wahrnehmung erhöht. [1]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Bewusste Konzentration

Allgemein wird Wissen auch als die Gesamtheit der Kenntnisse auf einem bestimmten Gebiet gesehen. Es ist aber hierbei zwischen dem Wissen bestimmter Personen, also subjektivem Wissen und dem objektiven Wissen, in Form von Wissensspeichern, wie z.B. Büchern oder Datenbanken zu unterscheiden.

2.2.1 Subjektives Wissen

Das erlangte Wissen einer Person, wird subjektives Wissen genannt. Subjektives Wissen ist nicht grundsätzlich richtig oder falsch. Allgemein betrachtet ist das Wissen für das jeweilige Subjekt gültig, sprich das Wissen hat einen grundsätzlichen Wahrheitsanspruch, der keinen objektiven Kriterien unterliegt. In vielen Bereichen kann nur subjektives Wissen erlangt werden. Zum Beispiel im Bereich der Physiologie. In diesem Erkenntnisbereich kann das Wissen nur auf Symptome und nicht objektivierbaren Phänomenen aufbauen. Daher ist subjektives Wissen immer beschränktes Wissen.

Des Weiteren wird zwischen subjektivem impliziten Wissen und subjektivem explizitem Wissen unterschieden. [1]

- Subjektives implizites Wissen

Es ist anzunehmen, dass jede Person über deutlich mehr Wissen verfügt als sie anderen direkt verständlich mitteilen kann. Das Wissen steckt implizit in dem Können selbst. Es entsteht durch intuitives, nicht zu verbalisierendes und nicht zu formalisierendes, erfahrungsgebundenes Handeln. Dieses Wissen weiterzugeben ist meist schwierig. [1]

- Subjektives explizites Wissen

Explizites Wissen ist im Vergleich zum impliziten Wissen „greifbares Wissen“. Es wird von eindeutig kodiertem Wissen gesprochen, das deshalb mittels Sprache und Schrift übermittelbar ist. Aber auch explizites Wissen kann implizite Anteile enthalten. Zum Beispiel diese Arbeit. Ich als Urheber habe bestimmte Begabungen, bin Kenner gewisser Themen und bringe durch persönliche Erfahrungen, persönliches Wissen und damit auch möglicherweise Fehler in diese schriftliche explizite Form der Ausarbei- tung mit ein. [1]

2.2.2 Objektives Wissen

Objektives Wissen existiert unabhängig von Personen in Form von Dokumenten, Bü- chern, Datenbanken. Es ist Wissen, das für jedes Subjekt gültig und daher allgemein gül- tig ist. Man muss davon ausgehen, dass im Falle objektiv gültigen Wissens auch alle an- deren Personen zum selben Ergebnis, sprich zum selben Wissen gelangen können. Aus objektivem Wissen kann subjektives Wissen erarbeitet werden, z.B. beim Lesen eines Buches. Genauso kann subjektives Wissen als objektives Wissen fixiert werden, z.B. beim Schreiben eines Buches. [1]

2.2.3 Informationsübermittlung

Die eigentliche Information ist zunächst eine Teilmenge aus dem objektiven oder subjektiven Wissen, die in der konkreten Situation für eine bestimmte Person oder Personengruppe nützlich sein kann. Eine Extraktion von Information wäre aber ohne eine Wissensrepräsentation aus einem Wissensfundus ohne entscheidenden physikalischen Prozess, dem Signal nicht möglich. [5]

Signale sind Darstellungen einer Nachricht durch eine physikalische Größe, etwa Druckerschwärze auf dem Papier. Die Information ist grundsätzlich an einen physikalischen Träger gebunden. Wie in Abbildung 2 zu sehen ist, wird bei einer Informationsübermittlung eine Information (das gemeinte Wissen als Signal) von einer Informationsquelle über einen Kanal zu einem Empfänger übertragen. Dabei müssen „Encoder“ (ein zwischen Sender und Kanal geschalteter Interpreter, der Zeichen in physikalische Signale umwandelt) und „Decoder“ (der zwischen Kanal und Sender sitzende Gegenspieler des Decoders) aufeinander abgestimmt sein. [1]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Grundlegende Informationsübermittlung, angelehnt an 1

Problematisch daran ist, dass der Kommunikationskanal störungsanfällig ist, da es zwischen dem gemeinten Wissen des Senders und dem verstandenen Wissen des Empfängers keinen direkten Kontakt gib. Wie in Abbildung 3 dargestellt, baut man nun einen Informationsvermittler in die Informationsübermittlungskette ein. So verschwimmt die Klarheit des jeweils gemeinten Wissens und dem jeweils verstandenen Wissen durch das Einbinden des subjektiven Wissens des Informationsvermittlers. [1]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Menschlicher Informationsvermittler, angelehnt an1

Ein Beispiel zur Veranschaulichung des Problems:

Im Laufe dieser Arbeit soll die komplexe Methodik des Information Retrieval von Wolf- gang G.Stock besprochen werden. Dieser hat sein Wissen in mehreren schriftlichen Ar- beiten fixiert (Kanal1). Obwohl man kaum erschöpfend eruieren kann, was er wirklich meinte (gemeintes Wissen). Ein Informationsvermittler (in diesem Fall übernehme ich diese Rolle) hat STOCKS Bücher gelesen und im besten Fall - auf Basis der vorliegenden Wissensbasis - verstanden (diese Wissensbasis enthält noch andere Quellen z.B. Infor- mation Retrieval von Reginald Ferber). Eine Meinung zur Methodik des Information Ret- rieval ist entstanden und in dieser Arbeit (Kanal2) fixiert worden. Nun kommt der Leser dieses Textes (Empfänger) ins Spiel. Dieser versteht auf der Basis seines Vorwissens meine Interpretation STOCKS Information Retrieval. Nun ist die Frage, wie viel von dem, was Herr Stock in der Tat meinte, bei dem Leser angekommen ist?

Um es vorwegzunehmen, dieses Verschwimmen des gemeinten Wissens versucht die Informationswissenschaft durch geeignete Methoden und Hilfen der Wissensrepräsentation und des Information Retrieval zu minimieren. [1]

Im nächsten Beispiel in Abbildung 4 schalte ich einen maschinellen Informationsvermittler z.B. eine Suchmaschine im Internet zwischen Sender und Empfänger. Die Fehlerquelle, das subjektive Wissen des Informationsvermittlers, fällt nun weg und wird durch eine objektive Datenquelle ersetzt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Maschineller Informationsvermittler, angelehnt an1

Die Maschine speichert nun das in Bewegung gesetzte Wissen objektiv ab, die Frage ist nur wie? Und: In welcher Reihenfolge wird das Wissen wieder ausgegeben, um daraus dem Empfänger einen informellen Mehrwert und damit befriedigende Information zu lie- fern? Information kann teuer sein, wenn Wissen zur richtigen Zeit an einem entsprechen- den Ort benötigt wird. Wie bereits erwähnt, kann durch einen maschinellen Informations- vermittler das zweckorientierte Wissen recherchiert werden. Dieser Prozess gehört zur Informationsvermittlung. [1]

2.2.4 Informationsvermittlung

Der im Folgenden skizzierte Ablauf stellt die Grundlage der Informationsaufarbeitung einer Wissensrepräsentation dar, d.h den Schritt von Daten zum Wissen. Dabei werden die Phasen dieser Informationsautonomie kurz erläutert.

- Information Indexing (Repräsentation des Wissens)
- Information Retrieval (Informationen suchen und finden)  Weiterverarbeitung (Bereitstellen von Informationen)

„Indexing“ geht auf das Wort „Index“ zurück, also das Registern in einem Buch. Dabei beschäftigt sich das Information Indexing mit der Aufbereitung des vorliegenden Ge- samtwissens (die „Dokumentarische Bezugseinheit“ (DBE)), durch eine Dokumentati- onseinheit (DE), wie Abbildung 5 zeigt. Die DBE wird zunächst geprüft. Die Frage nach der „Dokumentationswürdigkeit“ muss beantwortet werden. Kriterien sind der Informa- tionsbedarf der Benutzer, thematischen Kriterien, die kritische Prüfung des Inhalts usw. Danach entsteht eine Repräsentation der DBE in der DE. Merkmale sind formale und inhaltliche Beschreibungen. Die eigentliche Information wird so durch informellen Mehr- wert veredelt, die das Suchen und Finden von relevanten Informationen vereinfacht. [1]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Information Indexing, angelehnt an1

Im klassischen Fall hat nun ein Benutzer einen Informationsbedarf. Er eruiert nach den speziellen Indikatoren des benötigen Suchfeldes. Ein Retrieval-System sortiert nach einer ausgiebigeren Selektion den Inhalt nach Relevanz und Pertinenz, dabei wird die Sprache des Rechercheurs mit der der DEs und der DBEs abgeglichen. Der Rechercheur kann sich dann DEs (mit dem darin liegenden informellen Mehrwert) aussuchen und die dahinter- stehenden DBEs, also die eigentlichen Dokumente selbst ansehen. Dieser Ablauf ist weit- aus komplexer, als gerade beschrieben, und bildet den Schwerpunkt der folgenden Arbeit.

Nachdem der Empfänger nun die relevante Dokumentationseinheit und die daran gebundene dokumentarische Bezugseinheit erhalten hat, kann er seinen Wissensstand, wie in Abbildung 6 beschrieben, mit den neu erworbenen Informationen vereinigen. Im günstigsten Fall entsteht daraus neues Wissen, das nun zu Handlungen und dem Aufbau neuer Informationen genutzt werden kann.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Weiterverarbeitung von Informationen, angelehnt an1

Es ist zu sehen, dass aus einer großen Menge von Wissen die relevante Information ex- trahiert, informell veredelt und einer Person in einer bestimmten Problemstellung hilf- reich präsentiert wird. Damit wird auch unmittelbar der Bezug zum Begriff „Retrieval“ deutlich. [1]

2.3 Information Retrieval

Die Geschichte des Information Retrieval (IR) ist mit dem Bibliothekswesen entstanden. Zielführend war und ist die Frage, wie Dokumente gespeichert und organisiert werden müssen, um „inhaltlich“ fragen zu können. Dabei beschäftigt sich diese Arbeit zentral mit dem maschinellen Bereitstellen von multimedialen Dokumenten wie Bildern und Videos in Hypertext-Dokumenten. Information Retrieval setzt sich aus zwei Teilbegriffen zu- sammen. Nach der Auseinandersetzung mit der Begrifflichkeit des Wissens und der In- formation, soll zunächst die Deutung des Wortes „Retrieval“ vorgenommen werden. Hier bietet z.B. Langenscheidts Wörterbuch folgende Bedeutungen an: „wiederfinden“, „wie- derbekommen“, „(sich etwas) zurückholen“, „herausholen“, “herausfischen“, “wieder- gewinnen“, „wiedererlangen“, „etwas der Vergangenheit entreißen“, „apportieren“. Festzuhalten sind dabei drei Aspekte. [5]

Das Wissen muss nicht neu ,,erfunden“ werden, alle benötigten Daten sind vorhanden. Es gilt, die relevanten Informationen in einer expliziten Situation aus der Fülle des Wissens herauszufischen. Dies ist der genaue Übergang von Wissen zur Information. Nahtlos führt dies zum zweiten Aspekt des Begriffs. Es wird immer aus einer großen Menge eine Teil- menge „herausgeholt“ oder „herausgefischt“. Im Information Retrieval geschieht das meist innerhalb von einem riesigen Datenpull wie Bibliotheken oder dem Internet, in de- nen Informationen gesucht werden. Die Bedeutung des „apportieren“ zielt auf ein IR- System ab, das die Informationsversorgung eines Benutzers gewährleisten soll.

Hervorzuheben ist, dass Information Retrieval nicht als Selektierung, Auswertung oder Zusammenfassung großer Wissensmengen anzusehen ist, sondern als Prozess des Wis- senstransfers, bei dem Grundwissen mit zusätzlichem Wissen in eine Handlung umge- setzt wird. Solch ein Prozess beginnt mit der Umsetzung von subjektivem Wissen in ob- jektives Wissen, dabei kann es sich um ein verfasstes Textdokument, ein Bild oder einen Film handeln. Das eigentliche objektive Wissen wird dabei unvollständig ggf. auch miss- verständlich weitergegeben wie in Kapitel 2.2.2 bereits beschrieben. Nun wird das Doku- ment in einer bestimmten Form in einem System abgespeichert. Die Unschärfe in diesem Wissenstransfer beginnt nun bei dem Informationsbedürfnis des Benutzers. Dieser stellt eine Anfrage an das System. Man kann die Anfrage als eine Frage in Form des subjekti- ven Wissens sehen, daher ist sie immer nur ein Versuch das tatsächliche Informationsbe- dürfnis zu beschreiben. [4]

Ein kleines Beispiel: Sie recherchieren nach der Frage was ist „Java“? Welche Information wollen sie erhalten?

Objektiv müsste das Ergebnis Informationen über eine Insel, einen Kaffee und eine Pro- grammiersprache enthalten. Es ist zu sehen, dass das Informationsbedürfnis und damit

die eigentliche Frage nach den gesuchten Informationen grundsätzlich subjektiv zu betrachten ist, daher darf die Zielsetzung eines IR-Systems nicht sein, eine gestellte Anfrage isoliert „richtig“ zu beantworten. Der „Schlüssel“ zur „richtigen Information“ verbirgt sich also hinter der Frage selbst.

Im Folgenden wird nun auf wichtige Teilaspekte, Anforderungen und Einsatzszenarien von IR-Systemen eingegangen, die helfen werden den eigentlichen „Schlüssel“ besser selektieren zu können.

2.3.1 Informationsbedarf

Wie das Java-Beispiel verdeutlicht, ist die Stellung einer Frage ein wichtiger Punkt, der das zu erwartende Ergebnis des Informationsbedürfnisses beeinflusst.

Nach STOCK[1] ist zwischen zwei problemorientierten Fragetypen A und B zu unterscheiden. Wobei Fragetyp A auf die Übermittlung von Fakteninformationen abzielt und Fragetyp B auf eine Sammlung von Informationen. Zunächst sollen einige Informationsbedarfe, die zu betrachtet werden

- Welche Farbe hat die Freiheitsstatue in New York?  Wie ist unsere Zeitmessung entstanden?  Wie viel wiegt ein Liter Wasser?  Wie viel kostet das neue iPhone 6s?
- Welcher Zusammenhang existiert zwischen dem Treibhauseffekt und Klimakata- strophen?

Eine Frage des Typs A ist mit dem gefundenen Wissen in Form eines konkreten Faktums im besten Falle beantwortet oder eben nicht. Die Handlungsrelevanz zur Befriedigung des Informationsbedarfs ist damit exakt zu bestimmen. Anders bei Typ B. Hier reicht eine Information nicht aus, das Informationsproblem wird durch eine Anzahl von mehr oder weniger großen Informationsblöcken befriedigt. Diese Blöcke beantworten einen Teil der Aspekte, nach denen gefragt wurde. Die Relevanz der gefundenen Information ist dabei sehr vage zu beurteilen, da selbst ein objektiver Sachverhalt, von Experten als informati- onsbefriedigend eingestuft werden könnte, jedoch für einen konkreten Benutzer eventuell irrelevant sein könnte. Mögliche Fälle: Der Benutzer a) kennt diese Antwort bereits, b) hat keine Zeit eine lange Ausarbeitung durchzulesen, c) kann durch sein geringes Hinter- grundwissen die vorliegenden Fakten nicht zuordnen usw. Es ist eine subjektive Frage, der man versucht, mit objektivem Wissen Herr zu werden. Dabei ist die subjektive Frage das grundlegende Problem. Etwas, das man nicht genau kennt, kann man kaum klar als

Frage formulieren. Man müsste das wissen, was man versucht zu fragen, also die Antwort kennen, um die Frage nach der Antwort zu stellen. [3]

Fragen des Typs A wären demnach:

- Welche Farbe hat die Freiheitsstatue von New York?
- Wie viel wiegt ein Liter Wasser?
- Wie viel kostet das neue iPhone 6s?

Fragen des Typs B wären somit:

- Wie ist unsere Zeitmessung entstanden?
- Welcher Zusammenhang existiert zwischen dem Treibhauseffekt und Klimakata- strophen?

Es ist festzuhalten, dass Informationsbedarf eines Subjektes, z.B. eines Benutzers dann befriedigt ist, wenn aus Sicht des Benutzers ausreichend relevante, objektive Fakten zur Erschließung seiner expliziten „Wissenslücke“ führen. [3]

2.3.2 Recall und Precision

Zur Erschließung einer Wissenslücke werden alle relevanten, bzw. pertinenten Dokumente benötigt, aber auch nur solche. Dabei ist es schwierig, den Informationsfilter richtig über die Menge an eventuell nützlichen Dokumenten zu legen. Man spricht von zwei Kennwerten, „Recall“ und „Precision“, um Datenqualität zu beschreiben.

Hierbei sind drei Mengen zu beachten:

x: gefundene, relevante Treffer, y: irrelevante Dokumentationseinheiten, die in der Treffermenge enthalten sind (Ballast), z: relevante Dokumentationseinheiten, die nicht gefunden wurden (Verlust)

Die Genauigkeitsquote (Precision) ergibt sich nach einer Division aus der Anzahl der gefundenen, relevanten Dokumentationseinheiten und der gefundenen Datensätze.

Precision = x / (x+y)

Diese Wert ist ein Maß für die Genauigkeit der Recherche, da er den Anteil der für eine Fragestellung relevanten Treffer an der Gesamttreffermenge repräsentiert. Dabei kann man sagen, dass eine Treffermenge mit hoher Precision nur wenig Ballast enthält.

Die Vollständigkeitsquote (Recall) errechnet sich als Quotient aus der Anzahl der gefun- denen, relevanten Dokumentationseinheit und der Gesamtzahl der relevanten Doku- mente.

Recall = x / (x+z)

Dieser Wert zeigt, wie viele relevante Dokumente in dem Verhältnis zum Gesamtbestand der relevanten Dokumente gefunden wurden.

Wie die Abbildung 7 zeigt, beseht zwischen dem Recall und der Precision ein Konflikt. Die beiden Werte sind antiproportional zueinander, sprich mit steigender Precision sinkt der Recall und umgekehrt. Der Ballast an irrelevanten Dokumenten steigt, je mehr Wert auf die Vollständigkeit aller gefundenen Dokumente gelegt wird, doch wenn zu genau nach einem Suchbegriff recherchiert wird, könnten relevante Dokumente nicht gefunden werden.

Daher ist es wichtig, einen guten Kompromiss zwischen der Genauigkeit und der Vollständigkeit zu finden. [3]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Recall und Precision11

2.3.3 Allgemeine Relevanz

Der Benutzer einer Suchmaschine erwartet, für ihn relevante Daten zu finden. Dabei stellt sich die Frage, was Relevanz ist?

In der Informationswissenschaft ist kaum ein Punkt so relevant, wie das Suchen der „richtigen“ Daten. Dabei geht es nicht um den Wahrheitswert selbst, sondern um die Relevanz in Bezug auf den Blickwinkel des Subjekts. Man spricht allgemein von „relevant“ in allen Fällen, in denen es belanglos ist zwischen objektivem, nutzerunabhängigen Wissen und dem subjektiven Wissen des Benutzers zu unterscheiden. Wie das Problem des Informationsbedürfnisses gezeigt hat, ist dies aber im Fragetyp B nicht einfach zu verallgemeinern. Daher muss bei der Definition von „allgemeiner Relevanz“ nochmals zwischen „spezieller Relevanz“ und „Pertinenz“ unterschieden werden.

Spezielle Relevanz

Es ist festzuhalten, dass das in einem Dokument enthaltene Wissen als relevant einzustu- fen ist, wenn es objektiv zur Vorbereitung einer Entscheidung oder der Schließung einer Wissenslücke dient. Um die Relevanz einer dokumentarischen Bezugseinheit genau ein- schätzen zu können, müssen viele Teilaspekte betrachtet werden. Benutzerunabhängig gesagt, ist die Relevanz die Relation zwischen der Suchanfrage in Bezug auf das Thema und die systemseitigen Aspekte. STOCK[1] zählt dabei, wie von SARACEVIC[1] vorgeschla- gen, sämtliche Aspekte auf. 1. Maß, Grad, Schätzung, 2. Zusammenhang, Befriedigung, 3. Dokument, Artikel, 4. Anfrage, Informationsbedarf, 5. Person, Nutzer, Algorithmus eines Sortierverfahrens. Je nachdem, was nun für die fünf Punkte eingesetzt wird, ergeben sich unterschiedliche Relevanz-Aspekte. Dabei ist festzustellen, dass eine einfache Un- terscheidung zwischen Relevanz und Pertinenz ein sehr einseitiger Ansatz ist. Theore- tisch verbergen sich zwischen dem R-System, dem möglichen Nutzer und dem eigentli- chen Thema bis zu 36 kombinatorische Beziehungen, die die Relevanz verändern.

Ein binärer Ansatz die Frage „relevant oder nicht relevant“ zu klären, ist die plausible Annahme, dass ein Benutzer die gefundenen Dokumente entweder für relevant oder irrelevant hält. Diesen 1/0 Ansatz belegen mehrere Studien, bei denen unterschiedliche Probanden mit denselben Dokumenten getestet wurden. Die Grafik in Abbildung 8 zeigt, wie Endnutzer eine Information werten, wenn Zwischenwerte möglich sind.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Relevanzurteil bei Endnutzern1

Es sticht klar hervor, dass die Mittelwerte deutlich geringer ausfallen. Noch eher tendierten „Information Professional“, also Experten, deren berufliche Aufgabe darin besteht, Informationen strategisch einzusetzen, zu dem binären 1/0 Ansatz. Sie kennen die Maße Recall und Precision und setzen diese täglich in ihrer Arbeit ein. Das unterscheidet sie vom theoriefreien Denken des Endnutzers. (Abbildung 9) [1]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: Relevanzurteil bei Experten1

Man muss aber auch davon ausgehen, dass ein Relevanzurteil zunächst einen mehrstufigen Prozess darstellt, der später in ein binäres Ergebnis mündet. So sollte der Mittelbereich zwischen dem Intervall 1 und 0 als partielle Relevanz ebenso in Relevanzverteilungen einfließen. Bei einer Recherche (ohne Nutzerurteil) gibt es zwei Ansätze die informetrische und inverse Verteilung. [1]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 10: Relevanzverteilungen1

Abbildung 10 zeigt einige Verteilungen, wobei die Y-Achse den Grad der Relevanz re- präsentiert und X die Plätze der Dokumente, die bei einer Suchanfrage z.B. einer Such- maschine im Internet angezeigt werden. Bei einer binären Verteilung werden alle Doku- mente mit einer Relevanz von 1 angegeben. Das wären in Abbildung 10 die ersten 80.000, wobei hier kein Relevance Ranking stattfindet und somit keine sortierte Ausgabe entsteht. Die zweite Betrachtung einer Relevanzverteilung, die „informetrische“, ist an eine Ge- setzmäßigkeit gebunden, was die Formel[Abbildung in dieser Leseprobe nicht enthalten] widergibt. C ist eine Konstante. Nimmt man an, dass es ein Dokument mit der Relevanz 1 gibt, so ist C = 1. Das r steht für den Relevanzplatz und u für einen Wert, der zwischen etwa 1 und 2 liegt, je nach konkreter Verteilung. Dazu ein Beispiel: Hätte das erstplatzierte Dokument eine Relevanz von 1, würde das zweite eine Relevanz von 0,5 bei u = 1 oder eine Relevanz von 0,25 bei u = 2 haben.

Bezieht man nun die zuvor behandelten Relevanzurteile von Benutzern und Experten mit ein und fasst diese so zusammen, dass auch sie Relevanzverteilungen entsprechen, erhält man eine gespiegelte logistische Kurve, eine inverse logistische Kurve. Es ist festzuhal- ten, dass auf eine realistische Suchanfrage der Wert des Rangs in einer Größenordnung von 10.000 zu sehen ist. Die Erkenntnis über die richtige Relevanzverteilung hat dabei Auswirkungen auf die Konstruktion von Algorithmen zur Bestimmung des Nutzverhal- tens bei großen Treffermengen. [1]

[...]

Ende der Leseprobe aus 85 Seiten

Details

Titel
Umsetzung eines Dienstes zur Analyse von HTML-Code im Bereich Information Retrieval
Hochschule
Hochschule RheinMain
Note
1,6
Autor
Jahr
2016
Seiten
85
Katalognummer
V374648
ISBN (eBook)
9783668522756
ISBN (Buch)
9783668522763
Dateigröße
3199 KB
Sprache
Deutsch
Schlagworte
Information Retrieval, Analyse von HTML-Code, Informationsbedarf, Recall und Precision, Retrieval Modelle
Arbeit zitieren
Sergio Staab (Autor), 2016, Umsetzung eines Dienstes zur Analyse von HTML-Code im Bereich Information Retrieval, München, GRIN Verlag, https://www.grin.com/document/374648

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Umsetzung eines Dienstes zur Analyse von HTML-Code im Bereich Information Retrieval



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden