Name: Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases
Price: 0.99 EUR
Availability: InStock
Author: Holger Himmel
ISBN: 978-3-638-97293-2

Extracto

Inhaltsverzeichnis

Abbildungsverzeichnis

1 Einleitung

2 Grundlegende Begriffe, Formen und Techniken der Visualisierung
2.1 Visualisierung - Definition und Ziele
2.1.1 Visualisierung - Begriffsbestimmung
2.1.2 Grundlegende Ziele einer Visualisierung
2.1.3 Aufnahme und Verarbeitung visueller Informationen durch den
Menschen
2.1.3.1 Physische Aufnahme visueller Informationen:
2.1.3.2 Informationsselektion
2.1.3.3 Informationsverarbeitung
2.2 Einfache Formen visueller Informationsdarstellung

3 Visualisierung von Multiparameterdaten
3.1 Multiparameterdaten
3.2 Konzepte zur Visualisierung von Multiparameterdaten
3.2.1 Panel-Matritzen
3.2.1.1 Scatterplot-Matritzen:
3.2.1.2 Hyperslices
3.2.2 Streckenzüge
3.2.2.1 Sternförmige Koordinaten
3.2.2.2 Parallele Koordinaten
3.2.2.3 Parahistogramme
3.2.2.4 Erweiterte Parallele Koordinaten
3.2.3 Ikonbasierte Techniken
3.2.3.1 Stick-Figure-Ikone
3.2.3.2 Farbikone
3.2.3.3 Chernoff Ikone
3.2.3.4 Kreispalette
3.2.3.5 Data Jacks
3.2.3.6 Shape Coding (Autoglyph)
3.2.4 Pixelbasierte Techniken
3.2.4.1 Spiralanordnung
3.2.4.2 Achsenanordnungen
3.2.4.3 Gruppenanordnungen
3.2.4.4 Recursive-Pattern-Techniken
3.2.5 Hierarchische Techniken
3.2.5.1 Dimensional Stacking
3.2.5.2 World-within-Worlds
3.2.5.3 Cone Trees
3.3 Vergleich

4 Zusammenfassung

Literaturverzeichnis

Anhang

Abbildungsverzeichnis

Abbildung 1: Beispiel für eine Scatterplot-Matrix

Abbildung 2: Sternförmige Koordinaten

Abbildung 3: Parallele Koordinaten

Abbildung 4: Stick-Figure-Icone

Abbildung 5: Verschiedene Iconen

Abbildung 6: Autoglyph für 12 Merkmale pro Datensatz

Abbildung 7: Spiralanordnung eines Attributs

Abbildung 8: Anordnung der Fenster bei der Visualisierung fünfdimensionaler Daten

Abbildung 9: Achsanordnung

Abbildung 10: Gruppenanordnung fünfdimensionaler Daten

Abbildung 11: Mögliche Anordnungsschemata bei der Recursive- Pattern-Technik

Abbildung 12: Dimensional Stacking

Abbildung 13: Worlds-within-Worlds-Darstellung für einen 6- dimensionalen Merkmalsraum

Abbildung 14: Cone Tree

1 Einleitung

Die zunehmende Automatisierung von Vorgängen in Wirtschaft, Wissen- schaft und Verwaltung führt dazu, das sich die Menge an Informationen, die weltweit vorhanden ist, ca. alle 20 Monate verdoppelt¹. Zum Auffinden von entscheidungsrelevanten Informationen in diesen großen Daten- mengen, kann man sich die Fähigkeiten des Menschen im Bereich der visuellen Wahrnehmung zu Nutze machen. In dieser Arbeit sollen daher Ansätze zur Visualisierung großer Datenmengen vorgestellt werden, die es dem Anwender ermöglichen, bspw. Beziehungen, Korrelationen oder Abhängigkeiten in den Daten zu entdecken. Schwerpunkt liegt dabei auf den Daten, die aus zwei oder mehr Parametern bestehen und Darstellungsformen, die das Ergebnis als starres Bild auf einer Ebene darstellen. Auf Konzepte für Bewegtbilder wie Computeranimationen, Film und Video sowie komplexe Bildkonzepte (Virtuelle Realität, Multimedia oder Prozeßvisualisierung) kann im Rahmen dieser Arbeit nicht eingegangen werden.

2 Grundlegende Begriffe, Formen und Techniken der Visualisierung

Dieses Kapitel dient zur Begriffsbildung sowie zur Darstellung der Prozesse der Informationsaufnahme und Informationsverarbeitung beim Menschen im Rahmen visueller Reize. Zudem sollen einige grundlegende einfache Darstellungsformen für Daten vorgestellt werden.

2.1 Visualisierung - Definition und Ziele

2.1.1 Visualisierung - Begriffsbestimmung

Mitte der achtziger Jahre wurde der Begriff Visualisierung durch die Com- putertechnologie geprägt und von einem Synonym für Computergrafik immer mehr zu einem Oberbegriff für verschiedene Teilgebiete der Computertechnik². Im Duden wird „Visualisierung“ als etwas „optisch darstellen“ definiert³. In der Literatur finden sich jedoch weniger allge- meine Definitionen. Bei CHARWAT⁴findet sich eine informationstechnisch ausgerichtete Auffassung des Begriffs. CHARWAT versteht unter Visua- lisierung die Umwandlung von Informationen, die ursprünglich nicht in Bildform vorliegen, in eine für die menschliche Wahrnehmung geeignetere grafische Darstellung.

Eine weitere Definition findet sich bei KRÖMKER, der der Herkunft der Daten keine Bedeutung beimisst, und unter Visualisierung den Vorgang der „Sichtbarmachung von Materie, Energie, Informationen und Prozessen“⁵versteht. Dabei reduziert er den Begriff Visualisierung für den Bereich der Informatik auf die Visualisierung von Daten, den „direkten Repräsentanten von Informationen“.

2.1.2 Grundlegende Ziele einer Visualisierung

Ziel einer Visualisierung ist es, aus einer gegebenen Datenmenge eine geeignete visuelle Repräsentation zu erzeugen, um damit eine effektive Auswertung zu ermöglichen, die

- die Analyse,
- das Verständnis und
- die Kommunikation

von

- Modellen,
- Konzepten und
- Daten

erleichtert⁶.

2.1.3 Aufnahme und Verarbeitung visueller Informationen durch den Menschen

Grundlegende Idee der Visualisierung von Daten und ihren Eigenschaften ist es, die Fähigkeiten des menschlichen visuellen Wahrnehmungssystems zur Analyse großer Datenmengen auszunutzen⁷.

In diesem Kapitel soll daher ein grundlegendes Verständnis der visuellen Prozesse des Menschen sowie der Informationsverarbeitung erzeugt werden.

Die Komplexität und der Umfang dieses Themengebietes insbesondere im Bereich der neurobiologischen Vorgänge erlaubt es in dieser Arbeit allerdings nur einen kurzen Abriss darzustellen⁸.

2.1.3.1 Physische Aufnahme visueller Informationen:

Ein Seheindruck beim Menschen entsteht mittels eine Reizung von auf der Netzhaut (Retina) befindlichen Rezeptorzellen durch das von einem Betrachtungsgegenstand reflektierte Licht⁹. Es existieren zwei Arten von Rezeptorzellen, die für die Weiterverarbeitung des Seheindrucks verantwortlich sind und exzentrisch auf der Retina angeordnet sind; sehscharfe, farbempfindliche Zapfen (ca. 6 Mio), die sich im Schärfebereich der Netzhaut (Fovea Centralis) befinden und licht- empfindliche Stäbchen (ca . 125 Mio)¹⁰. Bedingt durch diese Struktur der Netzhaut werden nicht alle Informationen des Blickfeldes gleichzeitig und homogen aufgenommen¹¹. Die in der Fovea Centralis befindlichen Zapfen reichen nicht aus, um Betrachtungsobjekte in ihrer ganzen Ausdehnung detailliert wahrzunehmen. Durch Blickbewegungen (Saccaden) wird der Betrachtungsgegenstand „gescannt“, dabei wird der Blickverlauf von der Peripherieinformation bzw. der Erfahrung bestimmt., ggf. wird das gesamte Blickfeld gescannt. Die in den verschiedenen Rezeptorzellen entstehenden Reizungen werden über die sich kreuzenden Sehnerven in den in der Großhirnrinde befindlichen visuellen Cortex übertragen, wo die abschliessende Verarbeitung der Bilder geschieht. In diesem, im hinteren Teil des Schädels gelegenen Teil des Gehirns siedeln Zelltypen, die auf Strukturen mit komplexen winkelspezifischen, breitenspezifischen und positionsspezifischen Eigenschaften reagieren. Andere Zelltypen des visuellen Cortex sind dagegen für längen-, farb- und phasenspezifische Eigenschaften sowie die Analyse von Bewegungen und Stereoinformationen zuständig¹².

In einem weiteren Schritt erfolgt die Verarbeitung der durch den Sehprozeß wahrgenommenen Reize, die eigentliche Informationsverarbeitung. Diese unterteilt sich in zwei Phasen¹³:

1)Automatische Phase: visuelle Eindrücke (bspw. Formen, Farben, Strukturen) werden parallel erfasst und verarbeitet.

2)Bewußte (kognitive) Phase:Sequentielle (serielle) Selektion bei der Informationsaufnahme (langsamer).

2.1.3.2 Informationsselektion

Aus der Vielzahl der - nicht nur visuellen - Reize wird wegen der begrenzten Informationsbearbeitungskapazität des Menschen nur ein Teil zur Verarbeitung weitergegeben¹⁴. Dabei erfolgt die Selektion entweder durch bewusstes Hinwenden zur Reizquelle oder unbewusst im Rahmen einer „Stand-by-Aufmerksamkeit“. Wichtig in diesem Zusammenhang ist der „Grad der Aktiviertheit“ des Individuums, der durch Einflüsse wie Reiz- art, Reizstärke und durch personenspezifische Faktoren bestimmt wird¹⁵. Hierbei kann die Visualisierung als Instrument zur Selektion relevanter Informationen dienen.

2.1.3.3 Informationsverarbeitung

Aufgenommene Informationen werden verarbeitet, indem sie zusam- mengefasst, bewertet, verglichen und interpretiert werden. Daraus entstehen Handlungen und Handlungsabsichten. Die zu verarbeitenden Informationen können dabei sowohl aus der direkten Wahrnehmung als auch aus dem Langzeitspeicher stammen. Die Verknüpfung von neuen mit alten Informationen, insb. zur Einordnung, Bewertung und Relati- vierung, bezeichnet man als Assoziation. Diese Prozesse der Informa- tionsverarbeitung finden im „Arbeitsspeicher“ statt, der bis zu sieben Informationseinheiten („chunks“) gleichzeitig verarbeiten kann¹⁶. Im Falle von visuellen Informationen können lediglich nur drei „chunks“ gleichzeitig verarbeitet werden, wobei 0,1 Sekunden genügen, um eine inhaltliche Vorstellung des Bildes beim Betrachter zu generieren¹⁷.

Die Kapazitätsbeschränkungen des Arbeitsspeichers bedingen, daß die Informationsverarbeitung weitgehend sequentiell erfolgen muß. Um dem Betrachter eine solche Vorgehensweise zu erleichtern, sollten graphische Darstellungen nicht dazu führen, daß sich der Betrachter bei jedem „Scanvorgang“ einer neuen Sequenz wieder neu orientieren muß¹⁸. Ebenso vereinfachen Assoziationsvorgänge und Schemata-Vergleichs- prozesse die Informationsverarbeitung.

Auf die daran anschliessenden Prozesse der Informationsspeicherung (insb. Lerntheorien) sowie Aspekte der Entscheidungstheorie soll im folgenden nicht weiter eingegangen werden.

2.2 Einfache Formen visueller Informationsdarstellung

Im weiteren sollen grundlegende Techniken der Visualisierung kurz beschrieben werden, um eine Basis für die in Kapitel 3 dargestellten Techniken der Visualisierung multivariater Daten zu erlangen. Schwerpunkt hierbei liegt auf den starren Bildern, insbesondere der Grafiken für Wertedarstellungen.

Ziel von Wertedarstellungen ist die Darstellung von Zahlenwerten und ihren Beziehungen untereinander. Dabei lassen sich die Grundformen Punktediagramm, Kurvendiagramm, Säulendiagramm, Balkendiagramm, und Strukturdiagramm unterscheiden.

Punktediagramme (Scatter Plots) werden durch ein rechtwinkliges Koordinatensystem beschrieben. Die waagerechte Achse (Abzisse) repräsentiert die unabhängigen Variablen der Beobachtungsfälle, die senkrechten Achse (Ordinate) stellt die zugehörigen Merkmals- ausprägungen mittels graphischer Symbole dar¹⁹. Punktediagramme nutzen dabei die Fähigkeiten des Menschen relative Positionen analysieren zu können und decken dadurch etwaige Korrelationen zwischen abhängiger und unabhängiger Variable auf. Bei Zusammenfassung mehrerer Datenreihen muß dabei auf eine Markierung der zu einer Variablen gehörenden Datenwerte mittels Farbe oder Form geachtet werden.

In Linien- und Kurvendiagrammen werden benachbarte Punkte einer gemeinsamen quantitativen Scala zusätzlich mit Linien- und Kurven- segmenten verbunden. Trends und lokale Strukturen in den Daten werden dadurch besser kenntlich gemacht²⁰. Linien- und Kurvendiagramme sind für Daten mit stetigem Definitionsbereich die effektivste Methode zur Visualisierung²¹.

Bei Säulendiagrammen befinden sich die unabhängigen Variablen auf der waagerechten Achse. Die abhängigen Variablen werden auf der senkrechten Achse mittels Säulen abgetragen²².

In Balkendiagrammen erfolgt die Darstellung der abhängigen Zahlenwerte in horizontalen, rechts- oder linksbündig angeordneten Balken²³. In Balkendiagrammen lassen sich die Werte recht leicht in eine Rangfolge bringen und sind somit insbesondere für Rangfolge-Vergleiche geeignet²⁴. Eine Sonderform des Balkendiagramms ist das Ganttdiagramm, das in der Zeitplanung Anwendung findet²⁵. Anfangs- und Endtermin der Aktivität werden hier durch die Endpunkte der Balken repräsentiert. Die Länge des Balkens spiegelt die Zeitdauer wider.

Histogramme stellen im Gegensatz zu Balken- und Säulendiagrammen nicht die Datenwerte selbst dar, sondern ihre Häufigkeit und Verteilung. Histogramme werden üblicherweise als verbundene Säulendiagramme dargestellt²⁶.

Kreisdiagramme²⁷eignen sich ebenfalls zur Darstellung quantitativer Merkmale über einer nominalen, unabhängigen Variablen. Diese Darstellungsform bedient sich dabei eines Kreises (oder auch anderer geometrischer Strukturen), in dem die Größen der verschiedenen Merkmale durch unterschiedlich große Segmente dargestellt werden, die mittels Texturen und/oder Farben optisch voneinander getrennt werden. Dabei impliziert das Kreisdiagramm, daß sich die verschiedenen Größen zu einer Grundgesamtheit addieren. Somit sind Kreisdiagramme geeignet, Datenwerte in Relation zur Gesamtpopulation herauszustellen. Dabei ist aus Gründen der Übersichtlichkeit auf eine ausreichende Grösse und eine Beschränkung auf 5-6 Datenwerte zu achten.

Verbunddiagramme entstehen durch Verknüpfung der oben dargestellten Darstellungsformen in einer Abbildung.

3 Visualisierung von Multiparameterdaten

Im Laufe der letzten Jahre entwickelten sich immer mehr Visualisierungs- techniken um große Datenmengen mit mehrdimensionalen Merkmalsaus- prägungen anschaulich zu präsentieren. In diesem Kapitel soll ein jeweils kurzer Einblick in die in der Literatur vorhandenen Ansätze gegeben werden.

3.1 Multiparameterdaten

Im weiteren sollen als Multiparameterdaten solche Daten bezeichnet werden, bei denen mindestens zwei („multi“) abhängige Variablen vorhanden sind²⁸.

3.2 Konzepte zur Visualisierung von Multiparameterdaten

3.2.1 Panel-Matrizen

Als „Panel-Matrix“ bezeichnet man eine in Matrixform angeordnete bivariate Darstellung, in denen Daten aus m-dimensionalen Merkmalsräu- men in einem 2-dimensionalen Merkmalsraum veranschaulicht werden²⁹.

3.2.1.1 Scatterplot-Matrizen:

Ausgangspunkt für Scatterplot-Matrizen sind Punktediagramme, die von zwei Variablen in einem rechtwinkligen Koordinatensystem aufgespannt werden. In einer Scatterplot-Matrix spiegelt jede Zeile die Wertekom- bination einer Variablen mit jeder anderen Variablen des Merkmalsraumes in einem seperaten Diagramm wider (Vgl. Abb. 1)³⁰. Wertedarstellungen in den einzelnen Scatterplots einer Matrix können jedoch nicht immer eindeutig sein, da mehrere Datensätze in einem Punkt abgebildet werden können, solange die dargestellten Punkte nicht in ihrer Darstellung variieren (Größe, Farbe, Form)³¹.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Beispiel für eine Scatterplot-Matrix (Quelle: Cleveland (1993), S. 285)

3.2.1.2 Hyperslices

Bei ³² der Technik der Hyperslices werden (m² −m)/ 2 2-dimensionale Schnitte durch einen m-dimensionalen Merkmalsraum gelegt. Dabei werden die Schnitte an einem interessierenden Punkt angelegt, dem sog. „Current Point“. Durch Verschiebung dieses Punktes wird im Merkmalsraum navigiert. Die 2-Dimensionalen Teilansichten werden wiederum in einer Matrix ausm²Elementen dargestellt.

3.2.2 Streckenzüge

Die Idee der Streckenzüge basiert auf der Darstellung von Punkten des Merkmalsraumes auf einer eigens für jede Variable konstruierten Achse³³. Die Merkmalsausprägungen eines Datensatzes werden dabei als Punkte auf den entsprechend skalierten Achsen abgetragen und verbunden.

3.2.2.1 Sternförmige Koordinaten

Bei dieser Darstellungsform sind die Achsen sternförmig angeordnet. Der die Achsen verbindende Streckenzug bildet somit eine polygonale Fläche.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Sternförmige Koordinaten

3.2.2.2 Parallele Koordinaten

In dieser Darstellungsform werden die Koordinatenachsen parallel an- geordnet und die Merkmalsausprägungen auf jeder Achse für jeden Da- tensatz verbunden (Vgl. Abb. 3a). Nachteil dieser Darstellungsform - wie auch der Sternförmigen Koordinaten - ist die Tatsache, das identische Da- tensätze zu einer Deckung der Linien, bzw. Streckenzüge führen³⁴.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Parallele Koordinaten (Quelle: Keim / Kriegel (1996), S. 21)

Diese Methode eignet sich insbesondere um Charakteristiken in der

Datenstruktur aufzuspüren, da sich Streckenzüge an häufig auftretenden Merkmalsausprägungen deutlich sichtbar kummulieren (Vgl. Abb 3b)³⁵.

3.2.2.3 Parahistogramme

Durch den Einbau von Histogrammen in die Darstellungsform der Parallelen Koordinaten wird versucht, dem Nachteil sich deckender Streckenzüge entgegenzuwirken. Achsen werden in dieser Darstellung durch Balken ersetzt, die Aufschluss über die Häufigkeitsverteilung der entsprechenden Merkmalsausprägungen geben. Dazu wird jeder „Achsen- Balken“ über die Anzahl der möglichen Merkmalsausprägungen geteilt³⁶.

3.2.2.4 Erweiterte Parallele Koordinaten

Eine andere Erweiterung der Parallelen Koordinaten wurde von WEGENKITTL³⁷vorgestellt. Hierbei wird ein in der Ebene erzeugtes System paralleler Koordinaten durch die Einführung einer weiteren Achse in den Raum geöffnet. Diese Achse kann entsprechend der Anzahl der darzustellenden Datensätze oder anderer Parameter, beispielsweise der Zeit, skaliert werden³⁸.

3.2.3 Ikonbasierte Techniken

Unter Ikonen³⁹versteht man graphische Primitive, die Werte von Variablen durch geometrische Charakteristika (z. B. Länge, Winkel, Form) und/oder Darstellungsattribute (z.B. Transparenz, Farbe) abbilden.

3.2.3.1 Stick-Figure-Ikone

Eine Stick-Figure-Ikone ist eine einfache, 2-dimensonale vier-armige Figur. Durch die Position in der Fläche, die Länge und Dicke der Arme, sowie den Winkel der fünf Striche, können bis zu 17 Dimensionen pro Datensatz und Icone dargestellt werden⁴⁰ (Vgl. Abb. 4). Durch Zusammenfassen dieser Iconen zu Iconen-Familien lässt sich die Anzahl der darzustellenden Parameter noch erhöhen. Mit zunehmender Anzahl der Dimensionen wird es allerdings immer schwieriger, einzelne Datenwerte zu unterscheiden⁴¹.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4: Stick-Figure-Icone (Quelle: Keim (1996))

3.2.3.2 Farbikone

In einer Farbikone wird ein Polygon durch Linien unterteilt. Die erste Möglichkeit besteht nun in einer Einfärbung der Linien in Abhängigkeit der Variablenausprägung und einer Interpolation der Farben in den dazwischen liegenden Flächen⁴². Ein weiterer Ansatz färbt direkt die Flächen zwischen den Linien konstant ein (Vgl. Abb. 5a). Während der erste Ansatz interpolierbare Werte voraussetzt, bei denen der fließende Übergang sichtbar gemacht werden kann, liegt die Stärke des zweiten An- satzes in der Möglichkeit der Seperation von Merkmalsausprägungen⁴³.

3.2.3.3 Chernoff Ikone

Die Chernoff-Ikone, oder auch Chernoff’sche Gesichterdarstellung, macht sich die Fähigkeit des Menschen, Mimik in Gesichtern relativ schnell unterscheiden zu können, zu Nutze⁴⁴. Dabei werden Variablenausprägungen durch die Größe, Position und Ausrichtung von Kopf, Augen, Mund und Nase dargestellt (Vgl. Abb 5b).

Eine Erweiterung dieses Ansatzes sind die asymetrischen Gesichter, bei

denen bis zu 18 Merkmale in einem Gesicht kombiniert werden⁴⁵.

3.2.3.4 Kreispalette

Eine Kreispalette verschlüsselt Datenwerte ähnlich der Farbicone in der Größe und Farbe von Kreisen (Vgl. Abb. 5c)⁴⁶.

3.2.3.5 Data Jacks

Data Jacks sind eine Erweiterung der Iconen-Darstellung im 3-

dimensionalen Raum. Es werden Variablenwerte durch viergliedrige Figuren im Raum dargestellt, die in Gliederlänge und Farbe variieren⁴⁷. Abbildung 5d zeigt einen auf die Ebene projizierten Data Jack.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 5: Verschiedene Iconen (Quelle: Schumann / Müller (2000), S. 194)

3.2.3.6 Shape Coding (Autoglyph)

Beim Shape Coding werden Rechtecke mit einem regelmäßigen Gitter überzogen und jedem Merkmal eine Gitterzelle zugeordnet. Danach werden die so für jeden Datensatz konstruierten Ikonen zeilen- und spaltenweise angeordnet (Vgl. Abb. 6). Die Ausprägungen der Merkmale werden farblich verschlüsselt⁴⁸. Üblicherweise wird die Anzahl der Farben gering gehalten, so daß sich das Shape Coding insbesondere für binäre Wertebereiche eignet⁴⁹.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6: Autoglyph für 12 Merkmale pro Datensatz (Quelle: Wong (1997), S. 17)

3.2.4 Pixelbasierte Techniken

Die bisher vorgestellten Techniken erlauben nur eine Darstellung von bis zu 1.000 Datensätzen gleichzeitig auf einer Darstellungsfläche. Pixel- basierte Techniken versuchen durch eine Abbildung der Datenwerte eines Datensatzes in einem Pixel der Darstellungsfläche die Anzahl der gleichzeitig darstellbaren Datensätze auf bis zu 1.000.000 zu erhöhen⁵⁰. Dabei wird der Abstand des Datenwertes zu einem Anfragewert bestimmt und durch eine unterschiedliche Färbung des Pixels dargestellt. Dem Distanzwert ‚0’ wird die Farbe gelb zugeordnet. Größere Distanzwerte werden mit zunehmener Entfernung immer dunkler⁵¹. Je nach Anordnung der Pixel lassen sich verschiedene Visualisierungstechniken unter- scheiden.

3.2.4.1 Spiralanordnung

Bei⁵² der Spiralanordnung werden die Distanzwerte jedes Attributs sowie das Gesamtergebnis in einem seperaten Fenster dargestellt. Die Anordnung der Pixel geschieht dabei spiralförmig um die Fenstermitte herum (Vgl. Abb. 7) . Das Fenster für das Gesamtergebnis enthält in der Mitte die gelben Pixel, die die Datensätze mit der geringsten Distanz zur Anfrage repräsentieren. Zum Rand hin werden die Pixel dunkler. In den Fenstern der einzelnen Attribute erfolgt kein kontinuierlicher Farbüber- gang, da die Reihenfolge der Pixel derjenigen im Gesamtergebnis- Fenster entspricht. Da die Pixel in jedem Attributfenster durch die gleichen Koordinaten beschrieben werden, lassen sich Zusammenhänge zwischen den Attributwerten eines Datensatzes herstellen (Vgl. Abb 8).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 7: Spiralanordnung eines Attributs (Quelle: Keim (1995), S. 8)

Abbildung in dieser Leseprobe nicht enthalten

Abb. 8: Anordnung der Fenster bei der Visualisierung fünfdimensionaler Daten (Quelle: Keim (1995), S. 8)

3.2.4.2 Achsenanordnungen

Bei der⁵³ Distanzberechnung ergeben sich positive oder negative Abweichungen der Attributwerte von ihren Anfragewerten. In der Achsenanordnung können nun durch Teilung des Fensters in vier Quadranten jeweils zwei Attribute gleichzeitig dargestellt werden (Vgl. Abb. 9). Datensätze mit positiven Distanzen werden rechts, bzw. oberhalb, Datensätze mit negativen Distanzen werden links, bzw. unterhalb, der teilenden Achsen eingezeichnet. Datensätze, bei denen die Distanz zum Anfragewert ‚0’ ist, werden wie bei der Spiralanordnung als gelber Punkt in der Mitte dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 9: Achsenanordnung (Quelle: Keim /Kriegel (1995), S. 8)

3.2.4.3 Gruppenanordnungen

Anders ⁵⁴als bei der Spiral- oder Achsenanordnung, bei denen die verschiedenen Attribute in unterschiedlichen Fenstern dargestellt werden, erfolgt die Darstellung der Attribute bei der Gruppenanordnung in neben- einander liegenden Pixeln, die - ähnlich dem Shape-Coding (Vgl. Abschnitt 3.2.3.6) - eine eindeutig abgrenzbare Gruppe bilden (Vgl. Abb. 10).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 10: Gruppenanordnung fünfdimensionaler Daten (Quelle: Keim/Kriegel (1995))

Die einzelnen Pixel-Gruppen sind dabei wie bei der Spiralanordnung, jedoch in einem Fenster, positioniert. Aus Gründen der Übersichtlichkeit verlangt diese Darstellungsform mehr Platz, da z. B. die einzelnen Pixel- Gruppen durch einen Zwischenraum optisch voneinander getrennt werden müssen.

3.2.4.4 Recursive-Pattern-Techniken

Ausgehend ⁵⁵von der Gruppenanordnung werden Gruppen von Daten- werten rekursiv angeordnet. D. h., es werden Gruppen von Pixeln (sog. „Pattern“) nach einem vorher definierten Schema zeilen- oder spalten- weise angeordnet (Vgl. Abb. 11). Diese geordneten Gruppen werden danach wieder nach einem Schema gruppiert usw.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 11: Mögliche Anordnungsschemata bei der Recursive-Pattern-Technik (Quelle: Keim / Kriegel / Ankerst (1995))

3.2.5 Hierarchische Techniken

3.2.5.1 Dimensional Stacking

Beim Dimensional Stacking werden 2-dimensionale Koordinatensysteme ineinander verschachtelt⁵⁶. Es werden Variablenpaare gebildet, die ein Gitter aufspannen, in dem sich alle Wertepaare dieser Variablen darstellen lassen. Dieser Vorgang wird für die übrig gebliebenen Variablen wiederholt, bis keine Variable mehr übrig bleibt und somit jeder Punkt des Merkmalsraumes genau durch eine Gitterzelle der letzten Hierarchiestufe repräsentiert wird⁵⁷. Abbildungen 12.1 und 12.2 veranschaulichen diese Unterteilungsstrategie am Beispiel eines 6-dimensionalen Merkmalsrau- mes .

Abbildung in dieser Leseprobe nicht enthalten

Abb. 12.1: Dimensional Stacking (Quelle: Schumann / Müller (2000), S. 206

Abbildung in dieser Leseprobe nicht enthalten

Abb. 12.2 : Dimensional Stacking (Quelle: Schumann / Müller (2000), S. 206

3.2.5.2 World-within-Worlds

In dieser Technik werden 3-dimensionale Koordinatensysteme ineinander verschachtelt⁵⁸. In einem Koordinatensystem, das von drei Variablen aufgespannt wird, wird ein Punkt von Interesse (bspw. durch „anklicken“ am Bildschirm) herausgegriffen. Für diesen Datenwert wird dann ein weiteres Koordinatensystem anhand eines anderen Variablentripels konstruiert (Vgl. Abb. 13). Dieser Prozeß kann weitergeführt werden, bis alle Variablen definiert sind⁵⁹.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 13: Worlds-within-Worlds-Darstellung für einen 6-dimensionalen Merkmalsraum (Quelle: Schumann / Müller (2000), S. 208)

Cone Trees sind ist weitere Technik zur Visualisierung von hierarchischen Anordnungen. Zur Veranschaulichung von Zusammenhängen in der Datenstruktur werden Kegel im Raum positioniert. Die Kegelspitze repräsentiert einen Vaterknoten, am unteren Ende des Kegelmantels werden an den Kindknoten weitere Kegel angesetzt (Vgl. Abb. 14). Die Darstellung der eigentlichen Datenwerte erfolgt erst auf der letzten Stufe⁶⁰. Somit ist der Platzbedarf sehr groß und Werte können verdeckt werden⁶¹.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 14: Cone-Tree (Quelle: Robertson (1991), S. 193)

3.3 Vergleich

Die ⁶² vorgestellten Visualisierungstechniken sollen im Hinblick auf die Wahrnehmbarkeit von Zusammenhängen und Eigenschaften von Daten unterschieden werden⁶³. Die insgesamt darstellbare Datenmenge ist bei den Panel-Matrizen, den Ikonbasierten Techniken und im besonderen den pixelbasierten Techniken am größten. Einzelne Werte lassen sich am besten in Panel-Matrizen oder Streckenzügen identifizieren. Ebenso die Werteverteilung. Das Erkennen von Korrelationen oder Clustern ist in allen Techniken gut möglich, insbesondere das Erkennen von mehrdi- mensionalen Korrelationen ist bei den ikonenbasierten Techniken möglich.

Ebenso unterstützen die ikonenbasierten Techniken durch das vermehrte Auftreten gleicher Ikonenformen das Ableiten von Häufigkeiten.

4 Zusammenfassung

Aufbauend auf grundlegenden Techniken der Wertedarstellung wurden im Laufe der letzten Jahre Visualisierungstechniken entwickelt, die versuchen, der immer größer werdenden Menge an Daten gerecht zu werden und dem Anwender ein Werkzeug zur Wissensentdeckung in diesen großen Datenbeständen an die Hand zu geben. Für Multiparameterdaten sind dies die Techniken der Panel-Matrizen, Streckenzüge, Ikonbasierte Techniken, hierarchische Techniken sowie - als jüngster Ansatz- die pixelbasierten Techniken. All diese Techniken nutzen die Fähigkeit des Menschen, graphische Darstellungen schneller auffassen und analysieren zu können als beispielsweise Informationen, die in Schrift oder Zeichenform vorhanden sind⁶⁴. Insbesondere die pixelbasierten Techniken erlauben eine Darstellung von bis zu 1.000.000 Datensätzen gleichzeitig und gestatten dem Betrachter Strukturen in den Daten zu erkennen.

Literaturverzeichnis

Charwat, H.J. (1992): Lexikon der Mensch-Maschine-Kommunikation, München, 1992.

Chernoff, H. (1973): The Use of Faces to Represent Points in k- Dimensional Space Graphically, in: Journal of American Statistical Organisation, Vol. 68, 1973, S. 361 - 368.

Cleveland, W. S. (1993): Visualizing Data, New Jersey, 1993.

Duden-Redaktion(1996): Duden "Rechtschreibung der deutschen Sprache", Mannheim, 1996.

Feiner, S. ; Beshers, C. (1990): Visualizing n-Dimensional Virtual Worlds with n-Visions, in: Computer Graphics, Vol. 24, Nr. 2, 1990, S. 37 - 38.

Flury, B. ; Riedwyl, H. (1981): Graphical Representation of Multivariate Data by Means of Asymetrical Faces, in: Journal of American Statistical Organisation, Vol. 76, 1981, S. 757 - 765.

Grinstein, G. (1992): Visualization for Knowledge Discovery, in:

International Journal of Intelligent Systems, Vol. 7, 1992, S. 637 - 648.

Hauske, G. (1994): Systemtheorie der visuellen Wahrnehmung, Stuttgart, 1994.

Keim, D. A. ; Kriegel, H.-P. (1995): Visualisierungstechniken zur

Exploration und Analyse sehr großer Datenbanken, Proc. GI-Fachtagung Datenbanksysteme in Büro, Technik und Wissenschaft , in: Informatik aktuell, Dresden, 1995, S. 262 - 281, Internet:

<URL:http://www.dbs.informatik.uni-muenchen.de/Publikationen/Papers/ BTW95Vis.ps>.

Keim D. A.; Kriegel H.-P.; Ankerst M. (1995): Recursive Pattern: A Technique for Visualizing Very Large Amounts of Data, in: Proceedings Visualization'95 Conference, Atlanta, 1995, S. 279 - 286, Internet: <URL:http://www.dbs.informatik.uni-muenchen.de/Publikationen/Papers/ Vis95.ps>.

Keim, D. A. ; Kriegel, H.-P. (1996): Visualization Techniques for Mining Large Databases: A Comparison, in: Transactions on Knowledge and Data Engineering (TKDE'96), Special Issue on Data Mining, Vol. 8, No. 6, 1996, S. 923 - 938, Internet: <URL:http://www.dbs.informatik.uni- muenchen.de/Publikationen/Papers/TKDE96.ps>.

Kroeber-Riel, W. (1986): Vorteile der Business Graphik: Zu den Wirkungen von Bild und Graphik auf das Entscheidungsverhalten, in: Information Management, Nr. 3, 1986, S. 17 - 23.

Krömker, D. (1992): Visualisierungssysteme, Berlin, 1992.

Leven, W. (1991): Blickverhalten von Konsumenten, Heidelberg, 1991. Meyer, Jörn-Axel (1996): Visualisierung im Management, Wiesbaden, 1996.

Meyer, Jörn-Axel (1999): Visualisierung von Informationen, Wiesbaden, 1999.

Ong, H.L.; Lee, H. - Y. (1996): Software Report WinViz - A Visual Data Analysis Tool, in: Computation & Graphics, Vol. 20, Nr. 1, 1996, S. 83 - 84.

Robertson, G. G.; Mackinlay, J. D.; Card, S. K.(1991): Cone Trees: Animated 3D Visualization of Hierarchical Information, in: Proceedings ACM CHI International Conference on Human Factors in Computing, 1991, S. 189 - 194.

Rohr, G. (1988): Grundlagen menschlicher Informationsverarbeitung, in: Balzert et al. (Hrsg.), Einführung in die Softwareergonomie, Berlin, 1988, S.27 - 48.

Schumann, H., Müller, W. (2000): Visualisierung: Grundlagen und allgemeine Methoden, Berlin, 2000.

Tufte, E. R. (1983): The Visual Display of Quantitative Information, Cheshire, 1983.

Wegenkittl, R. ; Löffelmann, H. ; Gröller, E. (1997): Visualizing the Behavior of Higher Dimensional Dynamical Systems, in: Proceedings Visualization '97, Los Almiatos, 1997, S. 119 - 125.

Willim, B. (1989): Leitfaden der Computergraphik - Visuelle Informations- darstellung mit dem Computer, Berlin, 1989.

Wong, P. C. ; Bergeron, R. D. (1997): 30 Years of Multidimensional Multivariate Visualization, in: Nielson, G. M. et al. (Hrsg.), Scientific Visualization, Los Almiatos, 1997, S. 3 - 33.

Anhang

Abbildung in dieser Leseprobe nicht enthalten

Abb. A1: Chernoff’sche Gesichter (Quelle: Tufte (1983), S. 142)

Abbildung in dieser Leseprobe nicht enthalten

Abb. A2: Stick-Figure-Ikonendarstellung (Quelle: Keim /Kriegel (1995)

Abbildung in dieser Leseprobe nicht enthalten

Abb. A3: Spiralanordnung (Quelle : Keim / Kriegel (1995))

Abbildung in dieser Leseprobe nicht enthalten

Abb. A4: Achsenanordnung (Quelle: Keim / Kriegel (1995))

Abbildung in dieser Leseprobe nicht enthalten

Abb. A5: Recursive Pattern (Quelle: Keim / Kriegel (1995))

Abbildung in dieser Leseprobe nicht enthalten

Abb. A5: Gruppenanordnung (Quelle: Keim / Kriegel (1995))

[...]

¹Vgl. Keim / Kriegel (1995), S. 1.

²Vgl. Meyer (1999), S. 31.

³Duden (1996), S. 807.

⁴Vgl. Charwat (1992), S. 455.

⁵Krömker (1992), S. 1.

⁶Vgl. Schumann/Müller (2000), S. 5

⁷Vgl. Schumann/Müller (2000), S. 69.

⁸Zur Vertiefung: Schumann /Müller (2000), S. 69-124, Hauske (1994).

⁹Vgl. Leven (1991), S. 79.

¹⁰Vgl. Hauske (1994), S. 139.

¹¹Vgl. Meyer (1999), S. 91.

¹²Vgl. Schumann/Müller (2000), S. 73 f.

¹³Vgl. Meyer (1999), S. 92.

¹⁴Vgl. Rohr (1988), S. 34.

¹⁵Vgl. Meyer (1999), S. 93

¹⁶Vgl. Meyer (1999), S. 94.

¹⁷Vgl. Kroeber-Riel (1986), S. 18.

¹⁸Vgl. Meyer (1999), S. 94.

¹⁹Vgl. Schumann / Müller (2000), S. 131.

²⁰Vgl. Willim (1989), S. 55 f.

²¹Vgl. Schumann / Müller (2000), S. 133.

²²Vgl. Schumann / Müller (2000), S. 134.

²³Vgl. Meyer (1999), S. 42.

²⁴Vgl. Willim (1989), S. 59.

²⁵Vgl. Meyer (1996), S. 47.

²⁶Vgl. Schumann / Müller (2000), S. 135.

²⁷Vgl. Schumann / Müller (2000), S. 138f.

²⁸Vgl. Wong (1997), S. 8.

²⁹Vgl. Wong (1997), S. 11.

³⁰Vgl. Cleveland (275), S. 275.

³¹Vgl. Schumann / Müller (2000), S. 180.

³²Vgl. Schumann (2000), S. 183 f.

³³Vgl. Schumann / Müller (2000), S. 185.

³⁴Vgl. Schumann / Müller (2000), S. 186.

³⁵Vgl. Wegenkittl / Löffelmann / Gröller (1997), S. 121.

³⁶Vgl. Ong / Lee (1996) S. 83.

³⁷Vgl. Wegenkittl / Löffelmann / Gröller (1997), S. 121 f.

³⁸Vgl. Schumann / Müller (2000), S. 188.

³⁹ in der Literatur wird auch der Begriff „Glyph“ verwendet, vgl. Schumann (2000), S. 192. 13

⁴⁰Vgl. Grinstein (1992), S. 639.

⁴¹Vgl. Wong (1997), S.16.

⁴²Vgl. Schumann (2000), S. 193.

⁴³Vgl. Wong (1997), S. 17.

⁴⁴Vgl. Chernoff (1973), S. 363.

⁴⁵Vgl. Flury / Riedwyl (1981), S. 757 f.

⁴⁶Vgl. Schumann (2000), S. 194.

⁴⁷Vgl. Schumann / Müller (2000), S. 194.

⁴⁸Vgl. Wong (1997), S. 16 f.

⁴⁹Vgl. Schumann / Müller (2000), S. 195.

⁵⁰Vgl. Keim (1995).

⁵¹Vgl. Keim (1995), S. 7.

⁵²Vgl. Keim (1995), S. 7 f.

⁵³Vgl. Keim (1995), S. 8 f.

⁵⁴Vgl. Keim (1995), S. 9.

⁵⁵Vgl. Keim / Kriegel / Ankerst (1995), S. 280 f.

⁵⁶Vgl. Wong (1997), S. 19.

⁵⁷Vgl. Schumann / Müller (2000), S. 205.

⁵⁸Vgl. Schumann / Müller (2000), S. 207.

⁵⁹Vgl. Feiner / Beshers (1990), S. 37 f.

3.2.5.3 Cone Trees

⁶⁰Vgl. Robertson (1991), S. 190.

⁶¹Vgl. Schumann / Müller (2000), S. 209.

⁶²Vgl. Schumann / Müller (2000), S. 211 - 215.

⁶³Vgl. Keim / Kriegel (1995), S. 10.

Häufig gestellte Fragen

Was ist das Ziel der Visualisierung laut dieser Arbeit?

Das Ziel einer Visualisierung ist es, aus einer gegebenen Datenmenge eine geeignete visuelle Repräsentation zu erzeugen, um damit eine effektive Auswertung zu ermöglichen, die die Analyse, das Verständnis und die Kommunikation von Modellen, Konzepten und Daten erleichtert.

Wie werden visuelle Informationen vom Menschen aufgenommen und verarbeitet?

Die Aufnahme erfolgt durch Reizung von Rezeptorzellen auf der Netzhaut (Retina) durch Licht. Es gibt zwei Arten von Rezeptorzellen: sehscharfe, farbempfindliche Zapfen und lichtempfindliche Stäbchen. Die Reize werden über die Sehnerven zum visuellen Cortex übertragen, wo die Verarbeitung stattfindet. Die Informationsverarbeitung erfolgt in zwei Phasen: einer automatischen Phase, in der visuelle Eindrücke parallel erfasst werden, und einer bewussten (kognitiven) Phase, in der eine sequentielle Selektion bei der Informationsaufnahme stattfindet.

Welche einfachen Formen visueller Informationsdarstellung werden erwähnt?

Es werden Punktediagramme, Kurvendiagramme, Säulendiagramme, Balkendiagramme und Strukturdiagramme unterschieden.

Was sind Multiparameterdaten?

Als Multiparameterdaten werden solche Daten bezeichnet, bei denen mindestens zwei abhängige Variablen vorhanden sind.

Welche Konzepte zur Visualisierung von Multiparameterdaten werden beschrieben?

Beschrieben werden Panel-Matrizen (Scatterplot-Matrizen, Hyperslices), Streckenzüge (sternförmige Koordinaten, parallele Koordinaten, Parahistogramme, erweiterte parallele Koordinaten), Ikonbasierte Techniken (Stick-Figure-Ikone, Farbikone, Chernoff Ikone, Kreispalette, Data Jacks, Shape Coding), Pixelbasierte Techniken (Spiralanordnung, Achsenanordnungen, Gruppenanordnungen, Recursive-Pattern-Techniken) und Hierarchische Techniken (Dimensional Stacking, World-within-Worlds, Cone Trees).

Was ist eine Scatterplot-Matrix?

In einer Scatterplot-Matrix spiegelt jede Zeile die Werte Kombination einer Variablen mit jeder anderen Variablen des Merkmalsraumes in einem separaten Diagramm wider.

Was sind Parallele Koordinaten?

Bei dieser Darstellungsform werden die Koordinatenachsen parallel angeordnet und die Merkmalsausprägungen auf jeder Achse für jeden Datensatz verbunden.

Was sind Ikonenbasierte Techniken?

Unter Ikonen versteht man graphische Primitive, die Werte von Variablen durch geometrische Charakteristika und/oder Darstellungsattribute abbilden.

Was ist Shape Coding (Autoglyph)?

Beim Shape Coding werden Rechtecke mit einem regelmäßigen Gitter überzogen und jedem Merkmal eine Gitterzelle zugeordnet. Die Ausprägungen der Merkmale werden farblich verschlüsselt.

Was sind Pixelbasierte Techniken?

Pixel-basierte Techniken versuchen durch eine Abbildung der Datenwerte eines Datensatzes in einem Pixel der Darstellungsfläche die Anzahl der gleichzeitig darstellbaren Datensätze auf bis zu 1.000.000 zu erhöhen.

Was ist Dimensional Stacking?

Beim Dimensional Stacking werden 2-dimensionale Koordinatensysteme ineinander verschachtelt.

Was ist World-within-Worlds?

In dieser Technik werden 3-dimensionale Koordinatensysteme ineinander verschachtelt.

Final del extracto de 29 páginas - subir

Comprar ahora

Título: Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases

Trabajo de Seminario , 2000 , 29 Páginas , Calificación: 2,3

Autor:in: Holger Himmel (Autor)

Informática - Informatica de negocios

Leer eBook

Detalles

Título: Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases
Calificación: 2,3
Autor: Holger Himmel (Autor)
Año de publicación: 2000
Páginas: 29
No. de catálogo: V98842
ISBN (Ebook): 9783638972932
Idioma: Alemán
Etiqueta: Visualisierungstechniken Unterstützung Knowledge Discovery Databases
Seguridad del producto: GRIN Publishing Ltd.

Citar trabajo: Holger Himmel (Autor), 2000, Visualisierungstechniken zur Unterstützung eines Knowledge Discovery in Databases, Múnich, GRIN Verlag, https://www.grin.com/document/98842