Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases


Seminararbeit, 2000
29 Seiten, Note: 2,3

Gratis online lesen

Inhaltsverzeichnis

Abbildungsverzeichnis

1 Einleitung

2 Grundlegende Begriffe, Formen und Techniken der Visualisierung
2.1 Visualisierung - Definition und Ziele
2.1.1 Visualisierung - Begriffsbestimmung
2.1.2 Grundlegende Ziele einer Visualisierung
2.1.3 Aufnahme und Verarbeitung visueller Informationen durch den
Menschen
2.1.3.1 Physische Aufnahme visueller Informationen:
2.1.3.2 Informationsselektion
2.1.3.3 Informationsverarbeitung
2.2 Einfache Formen visueller Informationsdarstellung

3 Visualisierung von Multiparameterdaten
3.1 Multiparameterdaten
3.2 Konzepte zur Visualisierung von Multiparameterdaten
3.2.1 Panel-Matritzen
3.2.1.1 Scatterplot-Matritzen:
3.2.1.2 Hyperslices
3.2.2 Streckenzüge
3.2.2.1 Sternförmige Koordinaten
3.2.2.2 Parallele Koordinaten
3.2.2.3 Parahistogramme
3.2.2.4 Erweiterte Parallele Koordinaten
3.2.3 Ikonbasierte Techniken
3.2.3.1 Stick-Figure-Ikone
3.2.3.2 Farbikone
3.2.3.3 Chernoff Ikone
3.2.3.4 Kreispalette
3.2.3.5 Data Jacks
3.2.3.6 Shape Coding (Autoglyph)
3.2.4 Pixelbasierte Techniken
3.2.4.1 Spiralanordnung
3.2.4.2 Achsenanordnungen
3.2.4.3 Gruppenanordnungen
3.2.4.4 Recursive-Pattern-Techniken
3.2.5 Hierarchische Techniken
3.2.5.1 Dimensional Stacking
3.2.5.2 World-within-Worlds
3.2.5.3 Cone Trees
3.3 Vergleich

4 Zusammenfassung

Literaturverzeichnis

Anhang

Abbildungsverzeichnis

Abbildung 1: Beispiel für eine Scatterplot-Matrix

Abbildung 2: Sternförmige Koordinaten

Abbildung 3: Parallele Koordinaten

Abbildung 4: Stick-Figure-Icone

Abbildung 5: Verschiedene Iconen

Abbildung 6: Autoglyph für 12 Merkmale pro Datensatz

Abbildung 7: Spiralanordnung eines Attributs

Abbildung 8: Anordnung der Fenster bei der Visualisierung fünfdimensionaler Daten

Abbildung 9: Achsanordnung

Abbildung 10: Gruppenanordnung fünfdimensionaler Daten

Abbildung 11: Mögliche Anordnungsschemata bei der Recursive- Pattern-Technik

Abbildung 12: Dimensional Stacking

Abbildung 13: Worlds-within-Worlds-Darstellung für einen 6- dimensionalen Merkmalsraum

Abbildung 14: Cone Tree

1 Einleitung

Die zunehmende Automatisierung von Vorgängen in Wirtschaft, Wissen- schaft und Verwaltung führt dazu, das sich die Menge an Informationen, die weltweit vorhanden ist, ca. alle 20 Monate verdoppelt1. Zum Auffinden von entscheidungsrelevanten Informationen in diesen großen Daten- mengen, kann man sich die Fähigkeiten des Menschen im Bereich der visuellen Wahrnehmung zu Nutze machen. In dieser Arbeit sollen daher Ansätze zur Visualisierung großer Datenmengen vorgestellt werden, die es dem Anwender ermöglichen, bspw. Beziehungen, Korrelationen oder Abhängigkeiten in den Daten zu entdecken. Schwerpunkt liegt dabei auf den Daten, die aus zwei oder mehr Parametern bestehen und Darstellungsformen, die das Ergebnis als starres Bild auf einer Ebene darstellen. Auf Konzepte für Bewegtbilder wie Computeranimationen, Film und Video sowie komplexe Bildkonzepte (Virtuelle Realität, Multimedia oder Prozeßvisualisierung) kann im Rahmen dieser Arbeit nicht eingegangen werden.

2 Grundlegende Begriffe, Formen und Techniken der Visualisierung

Dieses Kapitel dient zur Begriffsbildung sowie zur Darstellung der Prozesse der Informationsaufnahme und Informationsverarbeitung beim Menschen im Rahmen visueller Reize. Zudem sollen einige grundlegende einfache Darstellungsformen für Daten vorgestellt werden.

2.1 Visualisierung - Definition und Ziele

2.1.1 Visualisierung - Begriffsbestimmung

Mitte der achtziger Jahre wurde der Begriff Visualisierung durch die Com- putertechnologie geprägt und von einem Synonym für Computergrafik immer mehr zu einem Oberbegriff für verschiedene Teilgebiete der Computertechnik2. Im Duden wird „Visualisierung“ als etwas „optisch darstellen“ definiert3. In der Literatur finden sich jedoch weniger allge- meine Definitionen. Bei CHARWAT4findet sich eine informationstechnisch ausgerichtete Auffassung des Begriffs. CHARWAT versteht unter Visua- lisierung die Umwandlung von Informationen, die ursprünglich nicht in Bildform vorliegen, in eine für die menschliche Wahrnehmung geeignetere grafische Darstellung.

Eine weitere Definition findet sich bei KRÖMKER, der der Herkunft der Daten keine Bedeutung beimisst, und unter Visualisierung den Vorgang der „Sichtbarmachung von Materie, Energie, Informationen und Prozessen“5versteht. Dabei reduziert er den Begriff Visualisierung für den Bereich der Informatik auf die Visualisierung von Daten, den „direkten Repräsentanten von Informationen“.

2.1.2 Grundlegende Ziele einer Visualisierung

Ziel einer Visualisierung ist es, aus einer gegebenen Datenmenge eine geeignete visuelle Repräsentation zu erzeugen, um damit eine effektive Auswertung zu ermöglichen, die

- die Analyse,
- das Verständnis und
- die Kommunikation

von

- Modellen,
- Konzepten und
- Daten

erleichtert6.

2.1.3 Aufnahme und Verarbeitung visueller Informationen durch den Menschen

Grundlegende Idee der Visualisierung von Daten und ihren Eigenschaften ist es, die Fähigkeiten des menschlichen visuellen Wahrnehmungssystems zur Analyse großer Datenmengen auszunutzen7.

In diesem Kapitel soll daher ein grundlegendes Verständnis der visuellen Prozesse des Menschen sowie der Informationsverarbeitung erzeugt werden.

Die Komplexität und der Umfang dieses Themengebietes insbesondere im Bereich der neurobiologischen Vorgänge erlaubt es in dieser Arbeit allerdings nur einen kurzen Abriss darzustellen8.

2.1.3.1 Physische Aufnahme visueller Informationen:

Ein Seheindruck beim Menschen entsteht mittels eine Reizung von auf der Netzhaut (Retina) befindlichen Rezeptorzellen durch das von einem Betrachtungsgegenstand reflektierte Licht9. Es existieren zwei Arten von Rezeptorzellen, die für die Weiterverarbeitung des Seheindrucks verantwortlich sind und exzentrisch auf der Retina angeordnet sind; sehscharfe, farbempfindliche Zapfen (ca. 6 Mio), die sich im Schärfebereich der Netzhaut (Fovea Centralis) befinden und licht- empfindliche Stäbchen (ca . 125 Mio)10. Bedingt durch diese Struktur der Netzhaut werden nicht alle Informationen des Blickfeldes gleichzeitig und homogen aufgenommen11. Die in der Fovea Centralis befindlichen Zapfen reichen nicht aus, um Betrachtungsobjekte in ihrer ganzen Ausdehnung detailliert wahrzunehmen. Durch Blickbewegungen (Saccaden) wird der Betrachtungsgegenstand „gescannt“, dabei wird der Blickverlauf von der Peripherieinformation bzw. der Erfahrung bestimmt., ggf. wird das gesamte Blickfeld gescannt. Die in den verschiedenen Rezeptorzellen entstehenden Reizungen werden über die sich kreuzenden Sehnerven in den in der Großhirnrinde befindlichen visuellen Cortex übertragen, wo die abschliessende Verarbeitung der Bilder geschieht. In diesem, im hinteren Teil des Schädels gelegenen Teil des Gehirns siedeln Zelltypen, die auf Strukturen mit komplexen winkelspezifischen, breitenspezifischen und positionsspezifischen Eigenschaften reagieren. Andere Zelltypen des visuellen Cortex sind dagegen für längen-, farb- und phasenspezifische Eigenschaften sowie die Analyse von Bewegungen und Stereoinformationen zuständig12.

In einem weiteren Schritt erfolgt die Verarbeitung der durch den Sehprozeß wahrgenommenen Reize, die eigentliche Informationsverarbeitung. Diese unterteilt sich in zwei Phasen13:

1)Automatische Phase: visuelle Eindrücke (bspw. Formen, Farben, Strukturen) werden parallel erfasst und verarbeitet.

2)Bewußte (kognitive) Phase:Sequentielle (serielle) Selektion bei der Informationsaufnahme (langsamer).

2.1.3.2 Informationsselektion

Aus der Vielzahl der - nicht nur visuellen - Reize wird wegen der begrenzten Informationsbearbeitungskapazität des Menschen nur ein Teil zur Verarbeitung weitergegeben14. Dabei erfolgt die Selektion entweder durch bewusstes Hinwenden zur Reizquelle oder unbewusst im Rahmen einer „Stand-by-Aufmerksamkeit“. Wichtig in diesem Zusammenhang ist der „Grad der Aktiviertheit“ des Individuums, der durch Einflüsse wie Reiz- art, Reizstärke und durch personenspezifische Faktoren bestimmt wird15. Hierbei kann die Visualisierung als Instrument zur Selektion relevanter Informationen dienen.

2.1.3.3 Informationsverarbeitung

Aufgenommene Informationen werden verarbeitet, indem sie zusam- mengefasst, bewertet, verglichen und interpretiert werden. Daraus entstehen Handlungen und Handlungsabsichten. Die zu verarbeitenden Informationen können dabei sowohl aus der direkten Wahrnehmung als auch aus dem Langzeitspeicher stammen. Die Verknüpfung von neuen mit alten Informationen, insb. zur Einordnung, Bewertung und Relati- vierung, bezeichnet man als Assoziation. Diese Prozesse der Informa- tionsverarbeitung finden im „Arbeitsspeicher“ statt, der bis zu sieben Informationseinheiten („chunks“) gleichzeitig verarbeiten kann16. Im Falle von visuellen Informationen können lediglich nur drei „chunks“ gleichzeitig verarbeitet werden, wobei 0,1 Sekunden genügen, um eine inhaltliche Vorstellung des Bildes beim Betrachter zu generieren17.

Die Kapazitätsbeschränkungen des Arbeitsspeichers bedingen, daß die Informationsverarbeitung weitgehend sequentiell erfolgen muß. Um dem Betrachter eine solche Vorgehensweise zu erleichtern, sollten graphische Darstellungen nicht dazu führen, daß sich der Betrachter bei jedem „Scanvorgang“ einer neuen Sequenz wieder neu orientieren muß18. Ebenso vereinfachen Assoziationsvorgänge und Schemata-Vergleichs- prozesse die Informationsverarbeitung.

Auf die daran anschliessenden Prozesse der Informationsspeicherung (insb. Lerntheorien) sowie Aspekte der Entscheidungstheorie soll im folgenden nicht weiter eingegangen werden.

2.2 Einfache Formen visueller Informationsdarstellung

Im weiteren sollen grundlegende Techniken der Visualisierung kurz beschrieben werden, um eine Basis für die in Kapitel 3 dargestellten Techniken der Visualisierung multivariater Daten zu erlangen. Schwerpunkt hierbei liegt auf den starren Bildern, insbesondere der Grafiken für Wertedarstellungen.

Ziel von Wertedarstellungen ist die Darstellung von Zahlenwerten und ihren Beziehungen untereinander. Dabei lassen sich die Grundformen Punktediagramm, Kurvendiagramm, Säulendiagramm, Balkendiagramm, und Strukturdiagramm unterscheiden.

Punktediagramme (Scatter Plots) werden durch ein rechtwinkliges Koordinatensystem beschrieben. Die waagerechte Achse (Abzisse) repräsentiert die unabhängigen Variablen der Beobachtungsfälle, die senkrechten Achse (Ordinate) stellt die zugehörigen Merkmals- ausprägungen mittels graphischer Symbole dar19. Punktediagramme nutzen dabei die Fähigkeiten des Menschen relative Positionen analysieren zu können und decken dadurch etwaige Korrelationen zwischen abhängiger und unabhängiger Variable auf. Bei Zusammenfassung mehrerer Datenreihen muß dabei auf eine Markierung der zu einer Variablen gehörenden Datenwerte mittels Farbe oder Form geachtet werden.

In Linien- und Kurvendiagrammen werden benachbarte Punkte einer gemeinsamen quantitativen Scala zusätzlich mit Linien- und Kurven- segmenten verbunden. Trends und lokale Strukturen in den Daten werden dadurch besser kenntlich gemacht20. Linien- und Kurvendiagramme sind für Daten mit stetigem Definitionsbereich die effektivste Methode zur Visualisierung21.

Bei Säulendiagrammen befinden sich die unabhängigen Variablen auf der waagerechten Achse. Die abhängigen Variablen werden auf der senkrechten Achse mittels Säulen abgetragen22.

In Balkendiagrammen erfolgt die Darstellung der abhängigen Zahlenwerte in horizontalen, rechts- oder linksbündig angeordneten Balken23. In Balkendiagrammen lassen sich die Werte recht leicht in eine Rangfolge bringen und sind somit insbesondere für Rangfolge-Vergleiche geeignet24. Eine Sonderform des Balkendiagramms ist das Ganttdiagramm, das in der Zeitplanung Anwendung findet25. Anfangs- und Endtermin der Aktivität werden hier durch die Endpunkte der Balken repräsentiert. Die Länge des Balkens spiegelt die Zeitdauer wider.

Histogramme stellen im Gegensatz zu Balken- und Säulendiagrammen nicht die Datenwerte selbst dar, sondern ihre Häufigkeit und Verteilung. Histogramme werden üblicherweise als verbundene Säulendiagramme dargestellt26.

Kreisdiagramme27eignen sich ebenfalls zur Darstellung quantitativer Merkmale über einer nominalen, unabhängigen Variablen. Diese Darstellungsform bedient sich dabei eines Kreises (oder auch anderer geometrischer Strukturen), in dem die Größen der verschiedenen Merkmale durch unterschiedlich große Segmente dargestellt werden, die mittels Texturen und/oder Farben optisch voneinander getrennt werden. Dabei impliziert das Kreisdiagramm, daß sich die verschiedenen Größen zu einer Grundgesamtheit addieren. Somit sind Kreisdiagramme geeignet, Datenwerte in Relation zur Gesamtpopulation herauszustellen. Dabei ist aus Gründen der Übersichtlichkeit auf eine ausreichende Grösse und eine Beschränkung auf 5-6 Datenwerte zu achten.

Verbunddiagramme entstehen durch Verknüpfung der oben dargestellten Darstellungsformen in einer Abbildung.

3 Visualisierung von Multiparameterdaten

Im Laufe der letzten Jahre entwickelten sich immer mehr Visualisierungs- techniken um große Datenmengen mit mehrdimensionalen Merkmalsaus- prägungen anschaulich zu präsentieren. In diesem Kapitel soll ein jeweils kurzer Einblick in die in der Literatur vorhandenen Ansätze gegeben werden.

3.1 Multiparameterdaten

Im weiteren sollen als Multiparameterdaten solche Daten bezeichnet werden, bei denen mindestens zwei („multi“) abhängige Variablen vorhanden sind28.

3.2 Konzepte zur Visualisierung von Multiparameterdaten

3.2.1 Panel-Matrizen

Als „Panel-Matrix“ bezeichnet man eine in Matrixform angeordnete bivariate Darstellung, in denen Daten aus m-dimensionalen Merkmalsräu- men in einem 2-dimensionalen Merkmalsraum veranschaulicht werden29.

3.2.1.1 Scatterplot-Matrizen:

Ausgangspunkt für Scatterplot-Matrizen sind Punktediagramme, die von zwei Variablen in einem rechtwinkligen Koordinatensystem aufgespannt werden. In einer Scatterplot-Matrix spiegelt jede Zeile die Wertekom- bination einer Variablen mit jeder anderen Variablen des Merkmalsraumes in einem seperaten Diagramm wider (Vgl. Abb. 1)30. Wertedarstellungen in den einzelnen Scatterplots einer Matrix können jedoch nicht immer eindeutig sein, da mehrere Datensätze in einem Punkt abgebildet werden können, solange die dargestellten Punkte nicht in ihrer Darstellung variieren (Größe, Farbe, Form)31.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Beispiel für eine Scatterplot-Matrix (Quelle: Cleveland (1993), S. 285)

3.2.1.2 Hyperslices

Bei 32 der Technik der Hyperslices werden (m² −m)/ 2 2-dimensionale Schnitte durch einen m-dimensionalen Merkmalsraum gelegt. Dabei werden die Schnitte an einem interessierenden Punkt angelegt, dem sog. „Current Point“. Durch Verschiebung dieses Punktes wird im Merkmalsraum navigiert. Die 2-Dimensionalen Teilansichten werden wiederum in einer Matrix ausm²Elementen dargestellt.

3.2.2 Streckenzüge

Die Idee der Streckenzüge basiert auf der Darstellung von Punkten des Merkmalsraumes auf einer eigens für jede Variable konstruierten Achse33. Die Merkmalsausprägungen eines Datensatzes werden dabei als Punkte auf den entsprechend skalierten Achsen abgetragen und verbunden.

3.2.2.1 Sternförmige Koordinaten

Bei dieser Darstellungsform sind die Achsen sternförmig angeordnet. Der die Achsen verbindende Streckenzug bildet somit eine polygonale Fläche.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Sternförmige Koordinaten

3.2.2.2 Parallele Koordinaten

In dieser Darstellungsform werden die Koordinatenachsen parallel an- geordnet und die Merkmalsausprägungen auf jeder Achse für jeden Da- tensatz verbunden (Vgl. Abb. 3a). Nachteil dieser Darstellungsform - wie auch der Sternförmigen Koordinaten - ist die Tatsache, das identische Da- tensätze zu einer Deckung der Linien, bzw. Streckenzüge führen34.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Parallele Koordinaten (Quelle: Keim / Kriegel (1996), S. 21)

Diese Methode eignet sich insbesondere um Charakteristiken in der

Datenstruktur aufzuspüren, da sich Streckenzüge an häufig auftretenden Merkmalsausprägungen deutlich sichtbar kummulieren (Vgl. Abb 3b)35.

3.2.2.3 Parahistogramme

Durch den Einbau von Histogrammen in die Darstellungsform der Parallelen Koordinaten wird versucht, dem Nachteil sich deckender Streckenzüge entgegenzuwirken. Achsen werden in dieser Darstellung durch Balken ersetzt, die Aufschluss über die Häufigkeitsverteilung der entsprechenden Merkmalsausprägungen geben. Dazu wird jeder „Achsen- Balken“ über die Anzahl der möglichen Merkmalsausprägungen geteilt36.

3.2.2.4 Erweiterte Parallele Koordinaten

Eine andere Erweiterung der Parallelen Koordinaten wurde von WEGENKITTL37vorgestellt. Hierbei wird ein in der Ebene erzeugtes System paralleler Koordinaten durch die Einführung einer weiteren Achse in den Raum geöffnet. Diese Achse kann entsprechend der Anzahl der darzustellenden Datensätze oder anderer Parameter, beispielsweise der Zeit, skaliert werden38.

3.2.3 Ikonbasierte Techniken

Unter Ikonen39versteht man graphische Primitive, die Werte von Variablen durch geometrische Charakteristika (z. B. Länge, Winkel, Form) und/oder Darstellungsattribute (z.B. Transparenz, Farbe) abbilden.

3.2.3.1 Stick-Figure-Ikone

Eine Stick-Figure-Ikone ist eine einfache, 2-dimensonale vier-armige Figur. Durch die Position in der Fläche, die Länge und Dicke der Arme, sowie den Winkel der fünf Striche, können bis zu 17 Dimensionen pro Datensatz und Icone dargestellt werden40 (Vgl. Abb. 4). Durch Zusammenfassen dieser Iconen zu Iconen-Familien lässt sich die Anzahl der darzustellenden Parameter noch erhöhen. Mit zunehmender Anzahl der Dimensionen wird es allerdings immer schwieriger, einzelne Datenwerte zu unterscheiden41.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4: Stick-Figure-Icone (Quelle: Keim (1996))

3.2.3.2 Farbikone

In einer Farbikone wird ein Polygon durch Linien unterteilt. Die erste Möglichkeit besteht nun in einer Einfärbung der Linien in Abhängigkeit der Variablenausprägung und einer Interpolation der Farben in den dazwischen liegenden Flächen42. Ein weiterer Ansatz färbt direkt die Flächen zwischen den Linien konstant ein (Vgl. Abb. 5a). Während der erste Ansatz interpolierbare Werte voraussetzt, bei denen der fließende Übergang sichtbar gemacht werden kann, liegt die Stärke des zweiten An- satzes in der Möglichkeit der Seperation von Merkmalsausprägungen43.

3.2.3.3 Chernoff Ikone

Die Chernoff-Ikone, oder auch Chernoff’sche Gesichterdarstellung, macht sich die Fähigkeit des Menschen, Mimik in Gesichtern relativ schnell unterscheiden zu können, zu Nutze44. Dabei werden Variablenausprägungen durch die Größe, Position und Ausrichtung von Kopf, Augen, Mund und Nase dargestellt (Vgl. Abb 5b).

Eine Erweiterung dieses Ansatzes sind die asymetrischen Gesichter, bei

denen bis zu 18 Merkmale in einem Gesicht kombiniert werden45.

3.2.3.4 Kreispalette

Eine Kreispalette verschlüsselt Datenwerte ähnlich der Farbicone in der Größe und Farbe von Kreisen (Vgl. Abb. 5c)46.

3.2.3.5 Data Jacks

Data Jacks sind eine Erweiterung der Iconen-Darstellung im 3-

dimensionalen Raum. Es werden Variablenwerte durch viergliedrige Figuren im Raum dargestellt, die in Gliederlänge und Farbe variieren47. Abbildung 5d zeigt einen auf die Ebene projizierten Data Jack.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 5: Verschiedene Iconen (Quelle: Schumann / Müller (2000), S. 194)

3.2.3.6 Shape Coding (Autoglyph)

Beim Shape Coding werden Rechtecke mit einem regelmäßigen Gitter überzogen und jedem Merkmal eine Gitterzelle zugeordnet. Danach werden die so für jeden Datensatz konstruierten Ikonen zeilen- und spaltenweise angeordnet (Vgl. Abb. 6). Die Ausprägungen der Merkmale werden farblich verschlüsselt48. Üblicherweise wird die Anzahl der Farben gering gehalten, so daß sich das Shape Coding insbesondere für binäre Wertebereiche eignet49.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6: Autoglyph für 12 Merkmale pro Datensatz (Quelle: Wong (1997), S. 17)

3.2.4 Pixelbasierte Techniken

Die bisher vorgestellten Techniken erlauben nur eine Darstellung von bis zu 1.000 Datensätzen gleichzeitig auf einer Darstellungsfläche. Pixel- basierte Techniken versuchen durch eine Abbildung der Datenwerte eines Datensatzes in einem Pixel der Darstellungsfläche die Anzahl der gleichzeitig darstellbaren Datensätze auf bis zu 1.000.000 zu erhöhen50. Dabei wird der Abstand des Datenwertes zu einem Anfragewert bestimmt und durch eine unterschiedliche Färbung des Pixels dargestellt. Dem Distanzwert ‚0’ wird die Farbe gelb zugeordnet. Größere Distanzwerte werden mit zunehmener Entfernung immer dunkler51. Je nach Anordnung der Pixel lassen sich verschiedene Visualisierungstechniken unter- scheiden.

3.2.4.1 Spiralanordnung

Bei52 der Spiralanordnung werden die Distanzwerte jedes Attributs sowie das Gesamtergebnis in einem seperaten Fenster dargestellt. Die Anordnung der Pixel geschieht dabei spiralförmig um die Fenstermitte herum (Vgl. Abb. 7) . Das Fenster für das Gesamtergebnis enthält in der Mitte die gelben Pixel, die die Datensätze mit der geringsten Distanz zur Anfrage repräsentieren. Zum Rand hin werden die Pixel dunkler. In den Fenstern der einzelnen Attribute erfolgt kein kontinuierlicher Farbüber- gang, da die Reihenfolge der Pixel derjenigen im Gesamtergebnis- Fenster entspricht. Da die Pixel in jedem Attributfenster durch die gleichen Koordinaten beschrieben werden, lassen sich Zusammenhänge zwischen den Attributwerten eines Datensatzes herstellen (Vgl. Abb 8).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 7: Spiralanordnung eines Attributs (Quelle: Keim (1995), S. 8)

Abbildung in dieser Leseprobe nicht enthalten

Abb. 8: Anordnung der Fenster bei der Visualisierung fünfdimensionaler Daten (Quelle: Keim (1995), S. 8)

3.2.4.2 Achsenanordnungen

Bei der53 Distanzberechnung ergeben sich positive oder negative Abweichungen der Attributwerte von ihren Anfragewerten. In der Achsenanordnung können nun durch Teilung des Fensters in vier Quadranten jeweils zwei Attribute gleichzeitig dargestellt werden (Vgl. Abb. 9). Datensätze mit positiven Distanzen werden rechts, bzw. oberhalb, Datensätze mit negativen Distanzen werden links, bzw. unterhalb, der teilenden Achsen eingezeichnet. Datensätze, bei denen die Distanz zum Anfragewert ‚0’ ist, werden wie bei der Spiralanordnung als gelber Punkt in der Mitte dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 9: Achsenanordnung (Quelle: Keim /Kriegel (1995), S. 8)

3.2.4.3 Gruppenanordnungen

Anders 54als bei der Spiral- oder Achsenanordnung, bei denen die verschiedenen Attribute in unterschiedlichen Fenstern dargestellt werden, erfolgt die Darstellung der Attribute bei der Gruppenanordnung in neben- einander liegenden Pixeln, die - ähnlich dem Shape-Coding (Vgl. Abschnitt 3.2.3.6) - eine eindeutig abgrenzbare Gruppe bilden (Vgl. Abb. 10).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 10: Gruppenanordnung fünfdimensionaler Daten (Quelle: Keim/Kriegel (1995))

Die einzelnen Pixel-Gruppen sind dabei wie bei der Spiralanordnung, jedoch in einem Fenster, positioniert. Aus Gründen der Übersichtlichkeit verlangt diese Darstellungsform mehr Platz, da z. B. die einzelnen Pixel- Gruppen durch einen Zwischenraum optisch voneinander getrennt werden müssen.

3.2.4.4 Recursive-Pattern-Techniken

Ausgehend 55von der Gruppenanordnung werden Gruppen von Daten- werten rekursiv angeordnet. D. h., es werden Gruppen von Pixeln (sog. „Pattern“) nach einem vorher definierten Schema zeilen- oder spalten- weise angeordnet (Vgl. Abb. 11). Diese geordneten Gruppen werden danach wieder nach einem Schema gruppiert usw.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 11: Mögliche Anordnungsschemata bei der Recursive-Pattern-Technik (Quelle: Keim / Kriegel / Ankerst (1995))

3.2.5 Hierarchische Techniken

3.2.5.1 Dimensional Stacking

Beim Dimensional Stacking werden 2-dimensionale Koordinatensysteme ineinander verschachtelt56. Es werden Variablenpaare gebildet, die ein Gitter aufspannen, in dem sich alle Wertepaare dieser Variablen darstellen lassen. Dieser Vorgang wird für die übrig gebliebenen Variablen wiederholt, bis keine Variable mehr übrig bleibt und somit jeder Punkt des Merkmalsraumes genau durch eine Gitterzelle der letzten Hierarchiestufe repräsentiert wird57. Abbildungen 12.1 und 12.2 veranschaulichen diese Unterteilungsstrategie am Beispiel eines 6-dimensionalen Merkmalsrau- mes .

Abbildung in dieser Leseprobe nicht enthalten

Abb. 12.1: Dimensional Stacking (Quelle: Schumann / Müller (2000), S. 206

Abbildung in dieser Leseprobe nicht enthalten

Abb. 12.2 : Dimensional Stacking (Quelle: Schumann / Müller (2000), S. 206

3.2.5.2 World-within-Worlds

In dieser Technik werden 3-dimensionale Koordinatensysteme ineinander verschachtelt58. In einem Koordinatensystem, das von drei Variablen aufgespannt wird, wird ein Punkt von Interesse (bspw. durch „anklicken“ am Bildschirm) herausgegriffen. Für diesen Datenwert wird dann ein weiteres Koordinatensystem anhand eines anderen Variablentripels konstruiert (Vgl. Abb. 13). Dieser Prozeß kann weitergeführt werden, bis alle Variablen definiert sind59.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 13: Worlds-within-Worlds-Darstellung für einen 6-dimensionalen Merkmalsraum (Quelle: Schumann / Müller (2000), S. 208)

Cone Trees sind ist weitere Technik zur Visualisierung von hierarchischen Anordnungen. Zur Veranschaulichung von Zusammenhängen in der Datenstruktur werden Kegel im Raum positioniert. Die Kegelspitze repräsentiert einen Vaterknoten, am unteren Ende des Kegelmantels werden an den Kindknoten weitere Kegel angesetzt (Vgl. Abb. 14). Die Darstellung der eigentlichen Datenwerte erfolgt erst auf der letzten Stufe60. Somit ist der Platzbedarf sehr groß und Werte können verdeckt werden61.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 14: Cone-Tree (Quelle: Robertson (1991), S. 193)

3.3 Vergleich

Die 62 vorgestellten Visualisierungstechniken sollen im Hinblick auf die Wahrnehmbarkeit von Zusammenhängen und Eigenschaften von Daten unterschieden werden63. Die insgesamt darstellbare Datenmenge ist bei den Panel-Matrizen, den Ikonbasierten Techniken und im besonderen den pixelbasierten Techniken am größten. Einzelne Werte lassen sich am besten in Panel-Matrizen oder Streckenzügen identifizieren. Ebenso die Werteverteilung. Das Erkennen von Korrelationen oder Clustern ist in allen Techniken gut möglich, insbesondere das Erkennen von mehrdi- mensionalen Korrelationen ist bei den ikonenbasierten Techniken möglich.

Ebenso unterstützen die ikonenbasierten Techniken durch das vermehrte Auftreten gleicher Ikonenformen das Ableiten von Häufigkeiten.

4 Zusammenfassung

Aufbauend auf grundlegenden Techniken der Wertedarstellung wurden im Laufe der letzten Jahre Visualisierungstechniken entwickelt, die versuchen, der immer größer werdenden Menge an Daten gerecht zu werden und dem Anwender ein Werkzeug zur Wissensentdeckung in diesen großen Datenbeständen an die Hand zu geben. Für Multiparameterdaten sind dies die Techniken der Panel-Matrizen, Streckenzüge, Ikonbasierte Techniken, hierarchische Techniken sowie - als jüngster Ansatz- die pixelbasierten Techniken. All diese Techniken nutzen die Fähigkeit des Menschen, graphische Darstellungen schneller auffassen und analysieren zu können als beispielsweise Informationen, die in Schrift oder Zeichenform vorhanden sind64. Insbesondere die pixelbasierten Techniken erlauben eine Darstellung von bis zu 1.000.000 Datensätzen gleichzeitig und gestatten dem Betrachter Strukturen in den Daten zu erkennen.

Literaturverzeichnis

Charwat, H.J. (1992): Lexikon der Mensch-Maschine-Kommunikation, München, 1992.

Chernoff, H. (1973): The Use of Faces to Represent Points in k- Dimensional Space Graphically, in: Journal of American Statistical Organisation, Vol. 68, 1973, S. 361 - 368.

Cleveland, W. S. (1993): Visualizing Data, New Jersey, 1993.

Duden-Redaktion(1996): Duden "Rechtschreibung der deutschen Sprache", Mannheim, 1996.

Feiner, S. ; Beshers, C. (1990): Visualizing n-Dimensional Virtual Worlds with n-Visions, in: Computer Graphics, Vol. 24, Nr. 2, 1990, S. 37 - 38.

Flury, B. ; Riedwyl, H. (1981): Graphical Representation of Multivariate Data by Means of Asymetrical Faces, in: Journal of American Statistical Organisation, Vol. 76, 1981, S. 757 - 765.

Grinstein, G. (1992): Visualization for Knowledge Discovery, in:

International Journal of Intelligent Systems, Vol. 7, 1992, S. 637 - 648.

Hauske, G. (1994): Systemtheorie der visuellen Wahrnehmung, Stuttgart, 1994.

Keim, D. A. ; Kriegel, H.-P. (1995): Visualisierungstechniken zur

Exploration und Analyse sehr großer Datenbanken, Proc. GI-Fachtagung Datenbanksysteme in Büro, Technik und Wissenschaft , in: Informatik aktuell, Dresden, 1995, S. 262 - 281, Internet:

<URL:http://www.dbs.informatik.uni-muenchen.de/Publikationen/Papers/ BTW95Vis.ps>.

Keim D. A.; Kriegel H.-P.; Ankerst M. (1995): Recursive Pattern: A Technique for Visualizing Very Large Amounts of Data, in: Proceedings Visualization'95 Conference, Atlanta, 1995, S. 279 - 286, Internet: <URL:http://www.dbs.informatik.uni-muenchen.de/Publikationen/Papers/ Vis95.ps>.

Keim, D. A. ; Kriegel, H.-P. (1996): Visualization Techniques for Mining Large Databases: A Comparison, in: Transactions on Knowledge and Data Engineering (TKDE'96), Special Issue on Data Mining, Vol. 8, No. 6, 1996, S. 923 - 938, Internet: <URL:http://www.dbs.informatik.uni- muenchen.de/Publikationen/Papers/TKDE96.ps>.

Kroeber-Riel, W. (1986): Vorteile der Business Graphik: Zu den Wirkungen von Bild und Graphik auf das Entscheidungsverhalten, in: Information Management, Nr. 3, 1986, S. 17 - 23.

Krömker, D. (1992): Visualisierungssysteme, Berlin, 1992.

Leven, W. (1991): Blickverhalten von Konsumenten, Heidelberg, 1991. Meyer, Jörn-Axel (1996): Visualisierung im Management, Wiesbaden, 1996.

Meyer, Jörn-Axel (1999): Visualisierung von Informationen, Wiesbaden, 1999.

Ong, H.L.; Lee, H. - Y. (1996): Software Report WinViz - A Visual Data Analysis Tool, in: Computation & Graphics, Vol. 20, Nr. 1, 1996, S. 83 - 84.

Robertson, G. G.; Mackinlay, J. D.; Card, S. K.(1991): Cone Trees: Animated 3D Visualization of Hierarchical Information, in: Proceedings ACM CHI International Conference on Human Factors in Computing, 1991, S. 189 - 194.

Rohr, G. (1988): Grundlagen menschlicher Informationsverarbeitung, in: Balzert et al. (Hrsg.), Einführung in die Softwareergonomie, Berlin, 1988, S.27 - 48.

Schumann, H., Müller, W. (2000): Visualisierung: Grundlagen und allgemeine Methoden, Berlin, 2000.

Tufte, E. R. (1983): The Visual Display of Quantitative Information, Cheshire, 1983.

Wegenkittl, R. ; Löffelmann, H. ; Gröller, E. (1997): Visualizing the Behavior of Higher Dimensional Dynamical Systems, in: Proceedings Visualization '97, Los Almiatos, 1997, S. 119 - 125.

Willim, B. (1989): Leitfaden der Computergraphik - Visuelle Informations- darstellung mit dem Computer, Berlin, 1989.

Wong, P. C. ; Bergeron, R. D. (1997): 30 Years of Multidimensional Multivariate Visualization, in: Nielson, G. M. et al. (Hrsg.), Scientific Visualization, Los Almiatos, 1997, S. 3 - 33.

Anhang

Abbildung in dieser Leseprobe nicht enthalten

Abb. A1: Chernoff’sche Gesichter (Quelle: Tufte (1983), S. 142)

Abbildung in dieser Leseprobe nicht enthalten

Abb. A2: Stick-Figure-Ikonendarstellung (Quelle: Keim /Kriegel (1995)

Abbildung in dieser Leseprobe nicht enthalten

Abb. A3: Spiralanordnung (Quelle : Keim / Kriegel (1995))

Abbildung in dieser Leseprobe nicht enthalten

Abb. A4: Achsenanordnung (Quelle: Keim / Kriegel (1995))

Abbildung in dieser Leseprobe nicht enthalten

Abb. A5: Recursive Pattern (Quelle: Keim / Kriegel (1995))

Abbildung in dieser Leseprobe nicht enthalten

Abb. A5: Gruppenanordnung (Quelle: Keim / Kriegel (1995))

[...]


1Vgl. Keim / Kriegel (1995), S. 1.

2Vgl. Meyer (1999), S. 31.

3Duden (1996), S. 807.

4Vgl. Charwat (1992), S. 455.

5Krömker (1992), S. 1.

6Vgl. Schumann/Müller (2000), S. 5

7Vgl. Schumann/Müller (2000), S. 69.

8Zur Vertiefung: Schumann /Müller (2000), S. 69-124, Hauske (1994).

9Vgl. Leven (1991), S. 79.

10Vgl. Hauske (1994), S. 139.

11Vgl. Meyer (1999), S. 91.

12Vgl. Schumann/Müller (2000), S. 73 f.

13Vgl. Meyer (1999), S. 92.

14Vgl. Rohr (1988), S. 34.

15Vgl. Meyer (1999), S. 93

16Vgl. Meyer (1999), S. 94.

17Vgl. Kroeber-Riel (1986), S. 18.

18Vgl. Meyer (1999), S. 94.

19Vgl. Schumann / Müller (2000), S. 131.

20Vgl. Willim (1989), S. 55 f.

21Vgl. Schumann / Müller (2000), S. 133.

22Vgl. Schumann / Müller (2000), S. 134.

23Vgl. Meyer (1999), S. 42.

24Vgl. Willim (1989), S. 59.

25Vgl. Meyer (1996), S. 47.

26Vgl. Schumann / Müller (2000), S. 135.

27Vgl. Schumann / Müller (2000), S. 138f.

28Vgl. Wong (1997), S. 8.

29Vgl. Wong (1997), S. 11.

30Vgl. Cleveland (275), S. 275.

31Vgl. Schumann / Müller (2000), S. 180.

32Vgl. Schumann (2000), S. 183 f.

33Vgl. Schumann / Müller (2000), S. 185.

34Vgl. Schumann / Müller (2000), S. 186.

35Vgl. Wegenkittl / Löffelmann / Gröller (1997), S. 121.

36Vgl. Ong / Lee (1996) S. 83.

37Vgl. Wegenkittl / Löffelmann / Gröller (1997), S. 121 f.

38Vgl. Schumann / Müller (2000), S. 188.

39 in der Literatur wird auch der Begriff „Glyph“ verwendet, vgl. Schumann (2000), S. 192. 13

40Vgl. Grinstein (1992), S. 639.

41Vgl. Wong (1997), S.16.

42Vgl. Schumann (2000), S. 193.

43Vgl. Wong (1997), S. 17.

44Vgl. Chernoff (1973), S. 363.

45Vgl. Flury / Riedwyl (1981), S. 757 f.

46Vgl. Schumann (2000), S. 194.

47Vgl. Schumann / Müller (2000), S. 194.

48Vgl. Wong (1997), S. 16 f.

49Vgl. Schumann / Müller (2000), S. 195.

50Vgl. Keim (1995).

51Vgl. Keim (1995), S. 7.

52Vgl. Keim (1995), S. 7 f.

53Vgl. Keim (1995), S. 8 f.

54Vgl. Keim (1995), S. 9.

55Vgl. Keim / Kriegel / Ankerst (1995), S. 280 f.

56Vgl. Wong (1997), S. 19.

57Vgl. Schumann / Müller (2000), S. 205.

58Vgl. Schumann / Müller (2000), S. 207.

59Vgl. Feiner / Beshers (1990), S. 37 f.

3.2.5.3 Cone Trees

60Vgl. Robertson (1991), S. 190.

61Vgl. Schumann / Müller (2000), S. 209.

62Vgl. Schumann / Müller (2000), S. 211 - 215.

63Vgl. Keim / Kriegel (1995), S. 10.

64Vgl. Kroeber / Riel (1986), S. 19.

28 von 29 Seiten

Details

Titel
Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases
Note
2,3
Autor
Jahr
2000
Seiten
29
Katalognummer
V98842
Dateigröße
883 KB
Sprache
Deutsch
Schlagworte
Visualisierungstechniken, Unterstützung, Knowledge, Discovery, Databases
Arbeit zitieren
Holger Himmel (Autor), 2000, Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases, München, GRIN Verlag, https://www.grin.com/document/98842

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden