Visualisierung im Information Retrieval System

Möglichkeiten und Methoden zur Informationsvisualisierung in einem Information Retrieval System


Tesis, 2002

67 Páginas, Calificación: 2,3


Extracto


Inhaltsverzeichnis

Zusammenfassung

Abstract

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung
1.1 Motivation
1.2 Problemdefinition
1.2.1 Visuelle Metaphern
1.2.2 Interaktionsmöglichkeiten
1.2.3 Orientierungshilfen

2 Grundlagen
2.1 Visualisierung
2.2 Informationsvisualisierung
2.2.1 Informationsressource
2.2.2 Data Mining
2.2.3 Informationsbenutzer
2.3 Informationsraum
2.3.1 Vektorraummodel
2.4 Visualisierungsprozess (Pipeline)
2.4.1 Filtering
2.4.2 Mapping
2.4.3 Rendering
2.5 Information Retrieval
2.5.1 Daten
2.5.2 Information
2.5.3 Grundelemente der Informationssuche
2.5.4 Information Retrieval System
2.6 Datentypen
2.6.1 Eindimensionale Daten
2.6.2 Zweidimensionale Daten
2.6.3 N-Dimensionale Daten
2.6.4 Hierarchien
2.6.5 Textdokumente und Hypertext

3 Visualisierung hierarchischer Daten
3.1 Tree
3.2 Venn-Diagramm und Nested Treemap
3.3 Tree-Map
3.4 Cone Trees und Cam Trees
3.5 Fractal Tree
3.6 Hyperbolic Tree
3.7 Information Cube

4 Visualisierung eindimensionaler Daten
4.1 Perspective Wall
4.2 Information Corridor
4.3 Spiral

5 Visualisierung n-dimensionaler Daten
5.1 Methoden
5.2 Reduction of Dimension
5.2.1 Focusing
5.2.2 Linking
5.2.3 Brushing
5.2.4 Slicing
5.3 Projection Pursuit
5.3.1 Grundlegende Methoden
5.3.2 Scatterplots
5.3.3 Hyperslice
5.4 Geometric Coding
5.4.1 Glyphs
5.4.2 Chernoff Faces
5.4.3 Hyperbox
5.5 Parallele Koordinaten
5.6 Hierarchische Koordinatensysteme
5.6.1 Hierarchische Achsen
5.6.2 Dimensional Stacking
5.6.3 Worlds within Worlds

6 Navigation und Interaktion
6.1 Zoom und Pan
6.2 Fokus und Kontext
6.2.1 Fisheye View
6.2.2 Degree of Interest (DOI)
6.2.3 Document Lens
6.2.4 Information Landscape
6.3 Exploration
6.3.1 Visual Exploration Paradigma
6.3.2 Incremental Exploration Technics
6.4 Clustering
6.4.1 Self-Organizing-Map (SOM)
6.4.2 Hierarchical Agglomerative Clustering

7 Ausblick

Literaturverzeichnis

Zusammenfassung

Das Ziel dieser Arbeit ist es dem Leser einen Überblick der Möglichkeiten zu geben, wie mit Hilfe der Informationsvisualisierung der Mensch leichter Informationen finden kann, um so Probleme, sei es wissenschaftlicher Natur oder nicht, besser verstehen und lösen zu können.

Das erste Kapitel beschreibt die derzeitige Problemsituation, sich in der immensen Informationsflut von Datenbanken und im World Wide Web zurechtzufinden. Es werden Anforderungen formuliert, die eine Informationsvisualisierungstechnik erfüllen sollte.

Im zweiten Kapitel werden die Grundbegriffe für das Verstehen der Visualisierung beleuchtet. Es wird dabei näher auf die Informationsvisualisierung und das Information Retrieval System eingegangen.

Das dritte Kapitel wird sich den Visualisierungstechniken von hierarchischen Daten widmen.

Beim vierten Kapitel werden Techniken vorgestellt, um eindimensionale Datenstrukturen darzustellen.

Das fünfte Kapitel beschäftigt sich mit den besonderen Methoden und Techniken, um multidimensionale Informationsstrukturen zu visualisieren und verstehen zu können.

Im sechsten Kapitel werden die Navigations- und Interaktionsmöglichkeiten der Visualisierungstechniken untersucht und bewertet.

Abstract

The goal of this work is to give an overview of the possibilities to the reader, as with the help of Information Visualization humans can find information more easily to understand and solve problems, is it scientific nature or not, in a better way.

The first chapter describes the present problem situation to get along in the immense flood of information of data bases and in the World Wide Web. Requirements are formulated, which an information visualization technology should fulfill.

In the second chapter the fundamental ideas for understanding visualization are lit up. It is entered more in greater detail thereby with Information Visualization and the Information Retrieval system.

The third chapter will dedicate itself to the visualization techniques of hierarchical data.

In the fourth chapter techniques are presented, in order to visualize linear data structures.

The fifth chapter is occupied with special methods and techniques, in order to visualize and to understand multi-dimensional information structures.

In the sixth chapter navigation and interaction possibilities of the visualization techniques are examined and evaluated.

Abbildungsverzeichnis

Abbildung 1: Das Informationsmodell

Abbildung 2: Visualisierungs-Pipeline

Abbildung 3: Einfacher 3 Stufen-Hierarchiebaum

Abbildung 4: Probleme hierarchischer Darstellung ([Kaz96])

Abbildung 5: Venn-Diagramm Darstellung ([Shn91])

Abbildung 6: Nested Treemap Darstellung von Abbildung 5 ([Shn91])

Abbildung 7: Non-Nested Treemap Darstellung von Abbildung 6 ([Shn91]) 24 Abbildung 8: Tree-Map Visualisierung eines Dateisystems mit 1500 Dateien und 190 Verzeichnissen ([Tur92])

Abbildung 9: Cone Tree ([Rob91])

Abbildung 10: Cam Tree ([Rob91])

Abbildung 11: Darstellung eines fraktalen Baum ([Koi93])

Abbildung 12: Hyperbolischer Baum ([Rao94])

Abbildung 13: Visualisierung mittels Information Cube ([Rek93])

Abbildung 14: Perspective Wall Darstellung ([Mac91])

Abbildung 15: Information Corridor Visualisierung (Quelle: http://www.arch.columbia.edu/DDL/research/patent)

Abbildung 16: Visualisierung mittels Spirale (Quelle: http://www.rhizome.org/spiral )

Abbildung 17: Scatterplot Darstellung vierdimensionaler Daten ([War97]).. 39 Abbildung 18: Fünfdimensionale Hyperslice Darstellung ([Won97])

Abbildung 19: Star Glyphs ([Mar95])

Abbildung 20: Sticky Figures ([Won97])

Abbildung 21: Chernoff Faces Visualisierung ([Che73])

Abbildung 22: Fünfdimensionale Hyperbox ([Won97])

Abbildung 23: Parallele Koordinaten ([Fua99])

Abbildung 24: Extruded Parallel Coordinates

Abbildung 25: Three-dimensional Coordindates ([Weg97])

Abbildung 26: Links: Orthog. Achsen Rechts: Hierarchische Achsen ([Won97])

Abbildung 27: Histogram Plot Darstellung der hierarchischen Achsen ([Won97])

Abbildung 28: Dimensional Stacking

Abbildung 29: Worlds within Worlds Darstellung ([Won97])

Abbildung 30: Space-scale Diagramm ([Fur98])

Abbildung 31: Semantisches Zoomen ([Fur98])

Abbildung 32: Informationsstruktur ohne Fisheye-Verzerrung ([Sar92])

Abbildung 33: Informationsstruktur mit Fisheye-Verzerrung ([Sar92])

Abbildung 34: Document Lens ([Rob93])

Abbildung 35: Grafische Oberfläche der InternetMap (Quelle: http://www.webmap.com/maps/internetmap/index.html)

Abbildung 36: Erklärung der Zoom-Funktion (Quelle: http://www.webmap.com/maps/internetmap/index.html)

Abbildung 37: Die 11 Kugeln sind nach ihrer Zugehörigkeit gruppiert

Abbildung 38: Schema des SOM Algorithmus ([Kas98])

Abbildung 39: WEBSOM-Visualisierung von über 80 Newsgroups mit über einer Million Einträgen (Quelle: http://websom.hut.fi/websom/milliondemo/html/root.html )

Abbildung 40: Hierarchical Clustering mit dem HAC-Algorithmus ([Her00])

Tabellenverzeichnis

Tabelle 1 : Vergleich zwischen Information Visualization und Scientific Visualization ([Ger97])

Es ist [...] daher notwendig, das Wesentliche so einfach, so klar wie möglich, ohne Einbuße an Tiefe, mitteilbar zu machen.

Karl Jaspers

1 Einleitung

1.1 Motivation

Aufgrund der zunehmenden Bedeutung von vernetzten Daten und der stetig steigenden Informationsmenge, die online verfügbar ist, entstehen Probleme mit der Handhabung der Ergebnismengen einer Suchabfrage und Schwierigkeiten, die richtigen Informationen zu finden. Deshalb ist es sehr wichtig, einen schnellen und effizienten Zugriff bzw. Abfrage der Informationen zu gewährleisten. Dies trifft nicht nur auf Datenbanken zu, sondern betrifft auch das World Wide Web, das mittlerweile zur einer Informationsquelle mit einer extrem komplexer Struktur und unüberschaubarem Ausmaß geworden ist. Es ist daher nötig, Methoden zu generieren, die die Möglichkeiten heute zur Verfügung stehender Suchmaschinen bei weitem übersteigen.

Die Auswertung dieser großen Datenmengen ist ein weiteres Problem. Wenn Daten in Form von Zahlen, meist in Tabellen angeordnet, präsentiert werden, bleiben uns die Zusammenhänge oft verborgen. Diese Daten können verschiedenster Art sein, wie beispielsweise Finanzdaten, Produktionsdaten, Messwerte oder gar als Textdokumente vorliegen.

Zur Lösung dieser Probleme trägt die Informationsvisualisierung bei. Mit ihr werden abstrakte Daten durch grafische Metaphern ersetzt, die es dem Anwender erleichtern soll, aus den riesigen Datenmengen das Gesuchte zu finden. Doch nicht nur die Visualisierung der Informationen ist von großer Bedeutung, sondern die Art und Weise, wie der Computer dem Menschen hilft, verborgene Zusammenhänge und Einsichten verständlich zu machen, ist von großer Wichtigkeit.

1.2 Problemdefinition

Damit Informationen verständlich veranschaulicht werden können, werden der Informationsvisualisierung bestimmte Aufgabenbereiche zugeteilt, die zu erfüllen sind. Diese Anforderungen finden natürlich auch in benachbarten Forschungsbereichen Bedeutung, für die Informationsvisualisierung allerdings nehmen sie jedoch eine wichtige und zentrale Stellung ein. Die Anforderungen an die Informationsvisualisierung sind:

- Das Erfinden von geeigneten visuellen Metaphern.
- Schaffen von Interaktionsmöglichkeiten
- Orientierungshilfen für den Anwender

1.2.1 Visuelle Metaphern

Die visuelle Metapher soll dem Anwender die Möglichkeit geben, die gesuchten Informationen leicht und schnell zu finden. Dieses Ziel kann erreicht werden, indem visuelle Metaphern verwendet werden, die der Anwender aus seinem Alltagsleben her kennt. Kulturelle Einflüsse des Anwenders können für das Gestalten der visuellen Metapher eine Rolle spielen.

1.2.2 Interaktionsmöglichkeiten

Damit die dargestellten Informationen für den Anwender vollständig begreifbar werden, muss es dem Anwender möglich sein, zu interagieren. Es sollten Interfaces geschaffen werden, die dem Anwender die Möglichkeit geben, die Suchabfrage dynamisch zu gestalten, da zum Lösen von Problemen meist mehrere Fragen zu beantworten sind.

1.2.3 Orientierungshilfen

Dem Anwender soll geholfen werden, nicht den Überblick zu verlieren und sich auf das Wesentliche konzentrieren zu können. Diese Hilfen können graphischer, hierarchischer oder zeitlicher Natur sein.

2 Grundlagen

In diesem Kapitel werden wichtige Begriffe erklärt, die in dieser Arbeit Verwendung finden. Der Leser erhält dadurch ein besseres Verständnis über die zu behandelnde Problematik und wie die Begriffe in dieser Arbeit verwendet werden.

2.1 Visualisierung

„to visualize“: form a mental vision, image, or picture of (something not visible or present to sight, or of an abstraction); to make visible to the mind or imagination [The Oxford English Dictionay, 1989]

Im Allgemeinen wird die Visualisierung als Abbildungsprozess von Daten unter Zuhilfenahme einer Kodierungstechnik bezeichnet, der das menschliche Verständnis und die Kommunikation maximieren soll.

Die Visualisierung besteht aus 3 Hauptbereichen:

- Volume Visualization
- Flow Visualization
- Information Visualization

Die Volume – und Flow Visualization gehören der wissenschaftlich- technischen Visualisierung (Scientific Visualization) an, bei der physikalische Erscheinungen wie strömungsdynamische Untersuchungen, klimatologische Applikationen und medizinische Daten im Vordergrund stehen. Diese Daten werden als räumliche Daten bezeichnet, da sie direkt auf eine zwei- oder dreidimensionale Darstellung projiziert werden können.

Die Aufgaben der Visualisierung sind ([Däs99]):

- Symbole, Diagramme oder Animationen helfen komplexe Prozessabläufe und Objektbeziehungen in der Realwelt zu veranschaulichen und gegebenenfalls zu vereinfachen.
- Visualisierung vereinfacht den Zugang zu Massendaten, z. B. durch Klassifikation und Datenstrukturierung.
- Visualisierung hilft bei der Analyse und Interpretation von Daten, bei der Sichtbarmachung verborgener Trends sowie bei der Mustererkennung.

Dementsprechend hat die Visualisierung die Zielsetzung, Daten leicht verständlich und überschaubar darzustellen. Die Qualität der Visualisierung hängt aber nicht nur von der Visualisierungstechnik ab, viel endscheidender ist die menschliche Auffassung. Wie müssen die dargestellten Informationen beschaffen sein, damit der Anwender sie richtig interpretiert?

2.2 Informationsvisualisierung

Die Informationsvisualisierung ist ein relativ junges Forschungsgebiet der Informatik. Unter Informationsvisualisierung werden heute alle Konzepte, Methoden und Applikationen zur visuellen Darstellung von Informationen aus Datenbanken, digitalen Bibliotheken oder anderen großen Dokumentsammlungen zusammengefasst ([Däß98]). Im Gegensatz zur wissenschaftlich-technischen Visualisierung sind bei der Informationsvisualisierung abstrakte Daten von Bedeutung. Da die Informationsvisualisierung nicht mit räumlichen Daten korreliert, ist sie auch nicht an einen Raum gebunden. Deshalb kann man abstrakte Daten in n Dimensionen einbeschreiben.

In der Informationsvisualisierung werden Methoden der nicht interaktiven, der interaktiven und der generativen Computergrafik angewandt und mit Methoden aus den Bereichen Interface-Design und Human-Computer- Interaction kombiniert.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1 : Vergleich zwischen Information Visualization und Scientific Visualization ([Ger97])

Der Informationsvisualisierung liegt ein Informationsmodell zu Grunde. Das Informationsmodell beschreibt den Weg von der Informationsressource über das Data Mining zum Informationsbenutzer (siehe Abbildung 1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Das Informationsmodell

2.2.1 Informationsressource

Die Informationsressource stellt die Informationen für den Anwender bereit. Sie soll den Informationsbedarf des Informationsbenutzers decken. Für gewöhnlich stellen diese Informationsressourcen Online-Datenbanken, File- Server oder digitale Bibliotheken dar.

2.2.2 Data Mining

Das Data- oder Information Mining hilft dem Anwender genau die richtigen Informationen aus dem Datendschungel zu Tage zu fördern, die er braucht. Es umfasst den Prozess der Suche und Analyse großer Datenbanken, um nützliche Informationen zu finden. Ausgehend von den Informationsressourcen ist beim Data Mining eine genaue Treffermenge wichtig.

Data Mining geht davon aus, dass die besondere Fähigkeit des Menschen, ungewöhnliche Ereignisse sofort zu erkennen und mit der Fähigkeit des Computers, riesige Datenmengen zu speichern, interaktiv genutzt werden sollte und zu praktikablen Ergebnissen führen muss.

Beim Data Mining steht der Mensch im Mittelpunkt, der mit einer großen Datenbank interagiert und Vorgangsweisen festlegt, um Teilprobleme zu lösen und die dazu nötigen Informationen findet, die ihn zu entscheidungsrelevanten Erkenntnissen führt. Dabei kann er die Informationen von der Ressource bis hin zur Visualisierung beliebig verändern. Dies wird durch die Interaktivität der Visualisierungsapplikation unterstützt.

2.2.3 Informationsbenutzer

Der Informationsbenutzer bekommt die gesuchten Daten in verständlicher Form visualisiert. Dadurch wird der bewusste Denkvorgang durch einen intuitiven Wahrnehmungsvorgang unterstützt. Diese Synergie aus visualisierter Information und der Kreativität und Intelligenz des Menschen macht die Informationsvisualisierung zu einem mächtigen Werkzeug.

2.3 Informationsraum

Damit die Informationen visualisiert werden können, müssen sie in einen Informationsraum eingeschrieben werden. Dieser stellt den Informationsumfang der zu visualisierenden Informationen dar. Diese Informationskollektion wird als Vektorraum aufgefasst, dessen Dimension gleich der Anzahl der verschiedenen Terme ist, die benötigt werden, um Dokumente in der Informationskollektion darzustellen.

Der Vektorraum hat jedoch eine spezifische, dreidimensionale Raumstruktur, in der die Objekte und deren Objektbeziehungen dargestellt werden. Da aber maximal 3 Dimensionen auf Raumachsen abgebildet werden können, werden Attribute benutzt, um Relationen zu visualisieren.

2.3.1 Vektorraummodel

Jede Eigenschaft eines Elements der Datenstruktur wird durch eine Dimension dargestellt, der jeweils ein Wert zugeschrieben wird. Diese Werte spannen den sogenannten Vektorraum auf. Jedes Dokument wird als Vektor im Vektorraum dargestellt. Die Länge des Vektors spiegelt das Gewicht des Vektors wider. Sind zwei Dokumente inhaltlich ähnlich, so zeigen ihre Vektoren in die ähnliche Richtung. Die Suchabfrage wird ebenfalls als Vektor dargestellt. Zeigen Vektoren in dieselbe Richtung wie die Suchabfrage, so bedeutet das, dass die betreffenden Dokumente für die Suchabfrage relevant sind. So werden nicht nur exakte Übereinstimmungen von Dokumenten, sondern auch ähnliche Dokumente erfasst. Die Trefferquote wird dadurch erhöht.

Mathematisch gesehen lassen sich beliebig viele Dimensionen im Vektorraum behandeln, da jedoch der Vektorraum n-Dimensionen besitzen kann und nur drei Dimensionen dargestellt werden können, müssen die Vektoren entsprechend heruntergerechnet werden

2.4 Visualisierungsprozess (Pipeline)

Ausgehend von den räumlichen oder abstrakten Daten muss das zu visualisierende Phänomen in geeigneter Weise sichtbar gemacht werden. Dazu wird die Visualisierungs-Pipeline verwendet, die sich in den meisten Visualisierungstechniken wiederfindet ([Mar98]).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Visualisierungs-Pipeline

Der Visualisierungsvorgang besteht aus drei Stufen. Bei der ersten Stufe, dem Filtering, bereitet man die Rohdaten des Phänomens auf. Das geschieht beispielsweise durch Selektion oder Reduktion der Ergebnisdaten. In der zweiten und wichtigsten Phase, dem Mapping, wird eine geometrische Repräsentation gewählt, die die Zuordnung der Darstellungselemente regelt.

Die letzte Stufe ist das Rendering. Hier werden die geometrischen Objekte in visuelle Informationen grafisch umgesetzt.

2.4.1 Filtering

Beim Filtering wird ein empirisches Modell generiert, welches das zu visualisierende Phänomen charakterisiert. Damit eine sinnvolle geometrische Darstellung der Informationen möglich ist, müssen die Rohdaten aufbereitet werden, da Daten unzureichend oder für die nachfolgenden Visualisierungsschritte zu umfassend sein können. Ziel ist es durch Selektion, Interpolation oder Reduktion des empirischen Modells sich den Ausgangs- oder Realdaten zu nähern.

2.4.2 Mapping

Beim Mapping-Prozess werden die gefilterten Daten auf geometrische Objekte projiziert. Die Attribute der geometrischen Objekte beinhalten geometrische oder topologische Eigenschaften wie z. B. Transparenz, Form oder Textur. Für das empirische Modell wird eine geeignete geometrische Repräsentation gewählt, die das Phänomen verdeutlicht. Solche geometrischen Repräsentationen sind üblicherweise geometrische Primitive oder Volumenelemente (Voxel).

2.4.3 Rendering

Bei diesem Prozess rechnet eine Renderengine die gesamte geometrische Repräsentation in eine zweidimensionale bildliche Darstellung um. Je nachdem wie ausgereift der Renderer ist, berücksichtigt er die Licht- und Schattenverhältnisse, sowie die optische Reduzierung des Treppeneffektes (Antialiasing).

2.5 Information Retrieval

Das Problem bei katalogbasierten Suchmaschinen ist, dass sie nur nach Schlüsselworten suchen und den Kontext des Dokumentes außer acht lassen. Dadurch werden die gemeinsamen Muster und Relationen der unterschiedlichen Dokumente nicht erkannt.

Wenn der Anwender Informationen benötigt, um ein vorliegendes Problem zu lösen, kann er in den wenigsten Fällen genau angeben welche Informationen er braucht. Das Informationsbedürfnis wird daher als „unscharf“ bezeichnet .

Aufgrund der semantischen Beziehungen der Suchabfrage des Anwenders können die gesuchten Informationen mit Hilfe des Information Retrieval herausgefiltert werden.

Information Retrieval umfasst den technisch-gestützten Prozess des Wissenstransfers von der Informationsressource bis hin zum Informationssuchenden ([Kno97]). Dabei wird Information Retrieval eingesetzt, um die Informationen zu verwalten und zu suchen. Informationen werden so aufbereitet und angeboten, dass sie bei einer Informationssuche möglichst präzise und vollständig herausgefiltert werden können.

Ein Dokument, das unter hundert anderen noch gut abgrenzbar ist, kann unter Tausenden von Dokumenten bereits schwer auffindbar und unter Millionen von Dokumenten praktisch unauffindbar sein, da es einfach zu viele gibt, die diesem Dokument sehr ähnlich sind. Information Retrieval versucht aufgrund der semantischen Beziehungen der Dokumente so nah wie möglich an die Suchabfrage und deren Suchparameter zu kommen.

2.5.1 Daten

Daten beziehen sich auf Kollektionen von Nummern, Zeichen oder Bildern in einer Form, die von dem Menschen oder dem Computer bewertet werden können. Daten können gespeichert, verarbeitet und bewegt werden. Daten für sich alleine gestellt, haben keine Bedeutung, nur wenn sie von einer Art Datenbearbeitungssystem, wie der Mensch oder der Computer, interpretiert werden, erhalten sie Bedeutung und werden so zu Informationen ([Ber81]).

2.5.2 Information

Durch Zuordnung von Semantik und Pragmatik werden Daten zu Informationen, die sich in einem gewissen Kontext interpretieren lassen. Dieselben Daten können für verschiedene Formen der Information herangezogen und bearbeitet werden. Information kann auch als Antwort einer Frage über Daten angesehen werden ([Ber81]).

Aus jeder Information können wieder Daten für einen anderen Prozess gewonnen werden, die wiederum neue Informationen ergeben. Informationen können als Objekte betrachtet werden, denen Attribute zugeordnet sind und zwischen denen gewisse Beziehungen definiert sind.

2.5.3 Grundelemente der Informationssuche

Bei einer Informationssuche versucht der Anwender einen unbefriedigenden Wissenszustand mit Hilfe einer Suchabfrage aus einem Informationsressource zu stillen.

Die Informationssuche wird in vier Phasen beschrieben ([Shn98]) :

- Formulierung

In dieser Phase wird die Suchanfrage beschrieben. Dies wird einerseits durch die Verwendung von geeigneten Parametern (z. B. Phrasen), andererseits durch die Eingabe von bestimmten Suchbegriffen erreicht.

- Herbeiführung der Suchaktion

In dieser Phase läuft die eigentliche Suchaktion ab. Dabei werden implizite Aktionen wie die Aktivierung einer Fortschrittsanzeige und explizite Aktionen wie die Verwendung von gesetzten Parametern ausgeführt.

- Resultatsbetrachtung

Diese Phase beschreibt die Präsentation der Suchergebnisse. Hier werden die Suchergebnisse vom Anwender analysiert, in dem er bestimmte Dokumentenattribute (Dateinamen, Alter,...) auswählt.

- Verfeinerung

Hier werden die nächsten Schritte formuliert. Dies kann durch Ändern bestimmter Parameter eine neue Suche bedeuten oder die Weiterverarbeitung der Suchergebnisse sein.

2.5.4 Information Retrieval System

Ein Information Retrieval System informiert den Anwender nicht über seine Anfrage. Es weist ihn lediglich auf die Existenz (oder Nichtexistenz) von Dokumenten bezüglich der Anfrage des Anwenders hin. Eine gute Definition des Information Retrieval Systems liefert Professor Gerard Salton:

"Die Informationen, die mit Retrievalsystemen verarbeitet werden, bestehen aus Dokumenten. Information Retrieval beschäftigt sich demnach mit der Repräsentation und Speicherung von und dem Zugriff auf Dokumente oder Dokumentstellvertreter. Ausgangspunkt ist der natürlichsprachige Text der Dokumente, Auszüge aus diesem Text oder Zusammenfassungen (Abstracts).

Richtet man an ein Retrievalsystem eine Suchanfrage, so erhält man als Ergebnis eine Menge von Referenzen. Diese Referenzen verweisen den Nutzer des Retrievalsystems auf potentiell relevante Veröffentlichungen." ([Sal87])

2.6 Datentypen

Damit man begreifbare Formen für Daten entwickeln kann, muss man über die Daten, die zu visualisieren sind, Bescheid wissen. Ebenso muss man über die Entwicklungsziele im Klaren sein, sodass effiziente Datenstrukturen und Zugriffsmethoden geschaffen werden können. Im folgenden wird auf die Charakteristik von Daten eingegangen und wichtige Eigenschaften der Daten beleuchtet.

Die Datentypen, die visualisiert werden, sind ([Shn96]):

- Eindimensionale Daten
- Zweidimensionale Daten
- Multidimensionale bzw. n-dimensionale Daten
- Hierarchische Daten
- Text und Hypertext

2.6.1 Eindimensionale Daten

Diese Daten besitzen nur eine Dimension. Ein typisches Beispiel für diesen Datentyp wären chronologische Daten oder nach dem Alphabet geordnete Daten. Werden eindimensionale Daten visualisiert, so kann man nur vorwärts und rückwärts durch die Daten navigieren.

2.6.2 Zweidimensionale Daten

Geografische Daten sind ein typisches Beispiel für zweidimensionale Daten, die sich durch die Breite („ latitude “) und die Länge („ longitude “) als Dimensionen charakterisieren lassen. Obwohl es leicht erscheint, ein – und zweidimensionale Daten zu visualisieren oder darin zu navigieren, werden doch bei großen Datenbeständen Schwierigkeiten bemerkbar: Temporale oder geografische Daten werden unüberschaubar und der Anwender wird mit einem Datenüberfluss konfrontiert, was nicht zum Verständnis visualisierter Daten führt.

2.6.3 N-Dimensionale Daten

Diese Daten sind von komplexer Natur und in den meisten Fällen in mehr als drei Dimensionen strukturiert. Deshalb erlauben diese Daten keine einfache Visualisierung wie zwei- oder dreidimensionale Daten. N-Dimensionale Datenmengen bestehen zumeist aus einer Menge unabhängiger Variablen oder Attributen. Für jedes dieser Attribute wird nun eine Dimension in Form einer Metapher (z. B. Farbe oder Größe des darzustellenden Elements) erstellt. Dadurch, dass kein einfaches Abbilden der Dimensionen auf eine zweidimensionale Darstellungsfläche möglich ist, müssen speziale Strategien geschaffen werden, die eine verständliche Repräsentation möglich macht.

Aktienkurse oder Daten aus einer Volkszählung können als Beispiele für n- dimensionale Daten betrachtet werden.

2.6.4 Hierarchien

Daten haben oft Beziehungen zueinander und Abhängigkeiten gegenüber anderen Datenbeständen. Durch diese Beziehungen und Abhängigkeiten der Daten entsteht eine komplexe Informationsstruktur, die sich leicht verständlich als hierarchische Struktur darstellen lässt. Als bekannte Metapher werden Hierarchiebäume verwendet, die sich in jedem Aufbau eines Dateisystems wiederfinden.

2.6.5 Textdokumente und Hypertext

Nicht alle Daten können mit Dimensionen beschrieben werden. Im Zeitalter des World Wide Web ist ein weiterer Datentyp wichtig geworden – Text und Hypertext. Diese Datentypen unterscheiden sich sehr stark und können so nicht einfach durch Zahlen und Formeln beschrieben werden. In den meisten Fällen werden diese Datentypen in eine vektoriale Größe umgerechnet, um sie besser visualisieren zu können.

3 Visualisierung hierarchischer Daten

3.1 Tree

Bäume oder Hierarchien sind die elementarsten Dateistrukturen in Computersystemen. Deshalb sind viele Visualisierungssysteme spezialisiert, um hierarchische Strukturen darzustellen.

Ein klassisches Tree-Layout besteht aus einer Menge von Knoten, die durch Kanten miteinander verbunden sind. Der Ausgangspunkt wird als Wurzel bezeichnet und steht im Anzeigefeld meist oben. Die Wurzel selber kann aus mehreren Teilbäumen bestehen. Jeder Knoten, der mit einem Knoten durch eine Kante verbunden ist, wird als Sohn oder Nachfahre bezeichnet. Bei Bäumen wird nach Stufen unterschieden: Die Wurzel befindet sich auf Stufe 0, während die Söhne oder Nachfahren des Knotens auf Stufe t, auf Stufe t+1 liegen ([Güt92]).

Hierarchien umfassen in Richtung der übergeordneten Stufe eine immer geringere Anzahl von Elementen pro Stufe. Die typische abstrahierte Darstellung von Hierarchien sind deshalb in zweidimensionaler Darstellung Dreiecke und in einer dreidimensionalen Darstellung Pyramiden.

Abbildung 3 zeigt einen einfachen Hierarchiebaum:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Einfacher 3 Stufen-Hierarchiebaum

Werden bei einer hierarchischen Dateistruktur viele Knoten verwendet, so werden einige Probleme deutlich. Die Übersichtlichkeit der einzelnen Elemente geht umso mehr verloren, je mehr Information dargestellt wird. Außerdem wird die Darstellungsfläche nur sehr gering ausgenutzt. Ein weiteres Defizit von Baumstrukturen ist die geringe Menge an Information, die ein Knoten über sich selbst liefert. Abbildung 4 verdeutlicht diesen Sachverhalt:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4 : Probleme hierarchischer Darstellung ([Kaz96]).

3.2 Venn-Diagramm und Nested Treemap

Venn-Diagramme wurden 1880 von John Venn eingeführt. Diese Diagrammtechnik von Venn wurde ursprünglich entwickelt, um logische Zusammenhänge zu verdeutlichen. Sie repräsentiert im Allgemeinen Boole’sche Verbände und wird häufig in der Mengenlehre verwendet.

Die Knoten in einem Venn-Diagramm werden entsprechend ihrer Wichtigkeit ineinander verschachtelt und als Ellipsen oder Kreise dargestellt. Die so entstehende topologische Anordnung der Ellipsen wird entsprechend der Nachfahren der Knoten rekursiv unterteilt ([Ven80]).

Final del extracto de 67 páginas

Detalles

Título
Visualisierung im Information Retrieval System
Subtítulo
Möglichkeiten und Methoden zur Informationsvisualisierung in einem Information Retrieval System
Universidad
St. Pölten University of Applied Sciences  (Fachhochschule St. Pölten, Österreich)
Calificación
2,3
Autor
Año
2002
Páginas
67
No. de catálogo
V111860
ISBN (Ebook)
9783640158348
ISBN (Libro)
9783640270934
Tamaño de fichero
4658 KB
Idioma
Alemán
Palabras clave
Visualisierung, Information, Retrieval, System
Citar trabajo
DI Christian Grlica (Autor), 2002, Visualisierung im Information Retrieval System, Múnich, GRIN Verlag, https://www.grin.com/document/111860

Comentarios

  • No hay comentarios todavía.
Leer eBook
Título: Visualisierung im Information Retrieval System



Cargar textos

Sus trabajos académicos / tesis:

- Publicación como eBook y libro impreso
- Honorarios altos para las ventas
- Totalmente gratuito y con ISBN
- Le llevará solo 5 minutos
- Cada trabajo encuentra lectores

Así es como funciona