Hypertext-Navigationsmechanismen und Verfeinerung von Suchergebnissen in einem Topic Map-basierten Informationsportal für die Landeshauptstadt Stuttgart

Entwurf und prototypische Implementierung


Diplomarbeit, 2003

99 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis:

1 Einleitung

2 Theorie
2.1 Wissen und Wissensmanagement
2.1.1 Einführung und Begriffserklärung
2.1.2 Sprache und Ihre Bedeutung
2.2 Wissensmanagement (KM)
2.3 Konzepte der Wissensstrukturierung
2.3.1 Index
2.3.2 Thesaurus
2.3.3 Semantisches Netz
2.3.4 Taxonomie
2.4 Topic Maps
2.4.1 Einführung und Begriffserklärung
2.4.2 Topic
2.4.3 Occurrences
2.4.4 Associations
2.4.5 Scopes
2.4.6 Facets
2.4.7 XML Topic Maps (XTM)
2.5 Künstliche Neuronale Netze (KNN)
2.6 Suchmaschinen
2.6.1 Einführung und Begriffserklärung
2.6.2 Indexierungsmechanismen
2.6.3 Ranking
2.7 Suchverfeinerungsmechanismen
2.7.1 Linguistische Ansätze
2.7.2 Statistische Ansätze
2.7.2.1 Transformation von Merkmalen
2.7.2.2 Kontingenztabelle
2.7.2.3 Faktorenanalyse
2.7.2.4 Clusteranalyse
2.7.2.4.1 Distanz- bzw. Ähnlichkeitsmaß
2.7.2.4.2 Klassifikationsverfahren
2.7.2.5 Rocchio-Algorithmus
2.7.3 Fuzzy-Technologie

3 Umsetzung
3.1 Überblick: Auftrag- und Arbeitgeber
3.1.1 Stadtverwaltung Stuttgart
3.1.2 CIT GmbH
3.2 Arbeitsumgebung
3.2.1 Servlet / Jsp
3.2.2 Topic Maps for Java (TM4J)
3.2.3 Lucene - Java Such API
3.2.4 Informationsportal
3.3 Anforderungen
3.4 Prototypisches Vorgehensmodell
3.5 Phasen der Analyse und der Konzeption
3.5.1 Darstellung der Dokumentengrundlage
3.5.2 Statistische Auswertung
3.5.3 Fuzzy Technik
3.5.4 Semantik
3.5.5 Aufbau eigener Daten
3.5.6 Korrelationsanalyse
3.5.7 Dokumentensichtung
3.5.8 Bewertung
3.5.9 Antwort-Datenbank Lexika
3.6 Layout
3.7 Navigation
3.7.1 Benutzereingaben
3.7.2 Filtersystem
3.8 Technische Dokumentation
3.8.1 Ablaufplan
3.8.2 Klassendiagramm (Packages)
3.8.2.1 Anfrageanalyse (myQueryAnalyser)
3.8.2.2 Historie
3.8.2.3 Antwort Analyse (ResponseAnalyser)
3.8.2.4 Common
3.8.2.5 Grundgesamtheit (GG)
3.8.3 ERM

4 Zusammenfassung

5 Literatur

6 Anhang 1

Abbildungsverzeichnis:

Abbildung 1: Wissenstreppe nach Klaus North

Abbildung 2: Schichtenmodell der organisatorischen Wissensbasis

Abbildung 3: Begriffsdreieck nach Odgen und Richards

Abbildung 4: Bausteine des KM nach Gilbert und Probst

Abbildung 5: Index mit verschiedenen Notationsformen

Abbildung 6: Darstellung eines Graphs

Abbildung 7: Topic, Topic Types und Topic Names

Abbildung 8: Name Element nach ISO 13250

Abbildung 9: Occurrences und Occurrence Roles

Abbildung 10: Anwendung von Scope Attributen nach ISO 13250

Abbildung 11: Definition eines Dokumententyps (XTM)- Antrag/Anfrage

Abbildung 12: Anhang von Metadaten an ein Antrags Dokument (Auszug)

Abbildung 13: Modell eines KNN mit „Feedback Schleife“

Abbildung 14: Indexierungsmechanismus

Abbildung 15: Huffmann-Baum für „ALLER ANFANG IST SCHWER“

Abbildung 16: Fiktive Vektorraum-Darstellung mit Anfrageterm

Abbildung 17: Einteilung der multivariaten Verfahren und Ihrer Anwendung

Abbildung 18: Allgemeiner Aufbau einer 2-dimensionalen Kontingenztabelle

Abbildung 19: Allgemeiner Aufbau einer 2-dimensionalen Korrelationsmatrix R

Abbildung 20: Allgemeines Vorgehensmodell der Clusteranalyse

Abbildung 21: Auszug einiger agglomerativer hierarchischer Klassifikationsverfahren

Abbildung 22: Dendrogramm für 5 Objekte (Single-Linkage)

Abbildung 23: Aufbau eines Fuzzy-Systems

Abbildung 24: Laden einer Topic Map anhand der übergebenen URL

Abbildung 25: Programm-Code zur Indexierung in Lucene

Abbildung 26: Aufbau des Informationsportals

Abbildung 27: Verteilung der Dokumente nach Dokumententypen

Abbildung 28: Verteilung aller Dokumentenarten nach Zeit

Abbildung 29: Auszug aus den Dokumentarten und Ihrer Metadaten

Abbildung 30: Transformation der Merkmale

Abbildung 31: Theoretische Clusterbildung von Suchergebnissen

Abbildung 32: Methode zur Auflistung der gefundenen Fuzzy-Ausdrücke

Abbildung 33: Fuzzy Wörter mit VF > 0.5F. Suchwort: Grundschulen

Abbildung 34: Semantik der Schlüsselwörter. Suchwort: Antrag

Abbildung 35: Auszug aus dem ERM Diagramm

Abbildung 36: Layout der Ergebnis Seite

Abbildung 37: JS Funktion mit Java Skriplet. Übernahme von Linkwerten in die Anfrage

Abbildung 38: Auszug aus dem Ablaufplan

Abbildung 39: Vereinfachte Darstellung der Packages und Regelwege

Abbildung 40: Filtersystem des Prototyps mit Schnittmengenfunktion

Abbildung 41: Auszug aus der Klasse Common_Data

Abbildung 42: Tabellen für die Speicherung der statistischen GG

Abbildung 43: ERM-Diagramm der Anwendung

Vorwort

Ein bedeutender Anteil der entscheidungsrelevanten Information in öffentlichen Unternehmen liegt in unstrukturierter Form (Dokumente) vor und besitzt keine Relation zu gleichartigen Informationsbeständen. Diese Tatsache erschwert die Sichtung und somit auch die Entscheidungsfindung von Suchenden. Topic Maps (TM), auf die später in dieser Arbeit ausführlicher eingegangen werden soll, stellen hier eine gute Möglichkeit der Informationsvernetzung dar. Jedoch eignen Sie sich nur bedingt, den Benutzer eines Informationsportals bei der Suchanfrage zu unterstützen. Ziel dieser Arbeit war es jedoch, dem Suchenden Mechanismen zur Verfeinerung von Suchanfragen bereitzustellen.

Aus diesem Grund wurde prototypisch ein Verfeinerungssystem sowie ein Navigations- und Hilfekonzept konzeptionell entwickelt und teilweise realisiert. Die in Java geschriebene Anwendung wurde von der Firma CIT GmbH in Auftrag gegeben. Sie bedient sich statistischer Verfahren, der Fuzzy Technologien sowie Konzepte die an denen der künstlichen Intelligenz angelehnt sind. Ziel war es den User sinnvoll zu unterstützen und die Suchtreffermenge zu reduzieren und „intelligent“ zu strukturieren.

Neu an dieser Arbeit ist, dass das System dabei nicht mit den Textdokumenten selber arbeitet, sondern auf die Metadaten1 aus der Topic Map aufsetzt und diese mittels Algorithmen verquickt. Dieser Ansatz ist, nach Meinung des Autors, so noch nicht behandelt worden und stellte eine große Herausforderung dar.

An dieser Stelle möchte ich mich bei der Firma CIT bedanken die mir die Möglichkeit gegeben hat dieses interessante Thema zu bearbeiten, des weitern bei Herrn H. Döringer meinem Betreuer an der Fachhochschule und Herrn J. Puhani für seine Unterstützung bei statistischen Fragen. Anmerkung: Die hier vorliegende Arbeit ist als PDF-Datei auf der mitgelieferten CD erhältlich, sowie der Java-Source-Code und die Online-Literatur.

1 Einleitung

Das Problem das Suchmaschinen gemeinsam haben, besteht heutzutage in der nicht mehr überschaubaren Anzahl von Treffern die eine Suchanfrage zurück- liefert. Auch das Ranking der Treffer und das damit verbundene Vorspiegeln von Relevanzstufen der einzelnen Dokumente ist eine aktuelle Problematik. Das realisierte Ranking berücksichtigt oft den Kontext des Users nicht. Meistens wird der User mit seiner Anfrage und der zurückgelieferten Treffer- menge „allein“ gelassen. Mit den genannten Schwierigkeiten beschäftigt sich das Forschungsgebiet Wissensmanagement (siehe Kapitel 2.2 ) und ein großer Bestandteil dieser Arbeit.

Im „Zeitalter der Informationen“ kommt es nicht mehr auf die Quantität und das Vorhandensein von Informationen an, sondern auf eine strukturierte und „qualitative“ Darstellung der benötigten Informationen. Dies belegt auch eine Umfrage der Delphi Group.

In dieser gaben 58% der 450 Befragten in wissensintensiven Bereichen tätigen Personen an, dass sie Probleme beim Auffinden der Informationen haben, die für die Ausführung Ihrer Arbeit notwendig sind. Über 51 % der Befragten gaben an, dass sie mehr als zwei Stunden ihrer Arbeitszeit täglich mit der Suche nach relevanten Informationen verbringen2. Diese Umfrage zeigt die Wichtigkeit von schnell zur Verfügung stehenden Informationen (+ Kontext = Wissen - siehe Kap. 2.1.2). Dass eine Verringerung der Informationssuche (Arbeitszeit) und eine Generierung von Wissen zu Einsparpotenzial führen versteht sich von sel- ber. Vor allem für größere Unternehmen oder Verwaltungen ist dieses Thema auch nach dem Informationstechnologie-Boom weiterhin interessant. Auch die Möglichkeiten der Informationsvernetzung (z.B. durch semantische Netze, Topic Maps, etc.) werden nach dem Abebben von Wissensmanagement- Projekten (engl. KM) weiterhin betrieben.

Bemühungen von Suchtechnologie-Anbietern haben sich in der Vergangenheit und auch stellenweise heutzutage primär auf die Volltextsuche von Doku- menten, dem Indexieren von Dokumenten mittels linguistischer Verfahren, sowie dem Optimieren der Performance beschränkt. Das Ranking der Dokumente gerät heutzutage vermehrt in den Blickwinkel des Interesses um dem Suchenden Hilfsmittel in der Informationsflut bereitzustellen. Auch das Strukturieren von Wissen und die damit realisierbaren Navigationsmechanismen sind ein durchaus aktuelles Thema.

Es wird versucht, die oben genannten Aufgaben mit Hilfe von Ansätzen der Statistik, der Linguistik, der Künstlichen Intelligenz (AI) und den Prinzipien der Fuzzy-Technologie zu verbessern. Es wurden Modelle entwickelt die eine bessere Navigation und ein individuelleres Ranking gewährleisten sollen.

Da sich die vorliegende Arbeit mit Suchverfeinerungsmechanismen in einem Topic Map-basierten Informationsportal beschäftigt, befasst sich der theoretische Teil der Arbeit mit den Themen der Wissensstrukturierung, dem KM im Allgemeinen und im Besonderen mit statistischen und linguistischen Ansätzen und Methoden. Dabei wird im Bereich der Statistik besonders auf die Clusteranalyse, die Transformation von qualitativen Merkmalen und auf die Korrelationsanalyse eingegangen. Auch die Grundprinzipien einer Such- maschine werden näher erklärt, um Grundlagen zu schaffen und um ein besseres Verstehen zu gewährleisten. Thematisch befasst sich die Arbeit mit Topic Maps und geht dabei auf die Vorzüge dieser näher ein.

Im praktischen Teil der Arbeit werden einige der oben genannten Ansätze realisiert und genauer beschrieben. Des Weiteren wird die bereits vorhandene Struktur, auf die das Suchverfeinerungssystem aufsetzt, erklärt. Dadurch beschäftigt sich ein Abschnitt des praktischen Teils mit Servlets und JavaServer Pages (JSP), dem Framework TM4J und der „Such-API“ Lucene. Auch der durch die Arbeit entstandene Prototyp wird genauer beschrieben und einige Ansätze und Elemente deskriptiv behandelt. Um ein besseres Verständnis der Anwendung zu erreichen, werden abschließend Code-Segmente, Klassen- diagramme, Abschnitte aus dem Ablaufplan und das Grundgerüst des Systems vorgestellt. Darüber hinaus werden einige Layout- und Navigationsbestandteile des Prototyps besprochen.

2 Theorie

2.1 Wissen und Wissensmanagement

„Wenn Siemens wüsste was Siemens weiß...“

Diese und ähnliche Redewendungen spiegeln gut die Probleme und Aufgaben wider mit denen sich das Wissensmanagement (KM) beschäftigt.

Zentrale Fragen des KM sind:

- Wie kann man aus Informationen Wissen generieren?
-Wie wandelt man implizites in explizites Wissen um?
-Wie strukturiert und konserviert man Wissen?
- Wie kann man darin navigieren?

Da Information nicht gleich Wissen ist und Daten keine Informationen sind, besteht trotz der zunehmenden Daten und Informationsflut keine proportionale Zunahme von Wissen. Heutzutage ist es schwierig an „echtes“ und verwert- bares Wissen zu gelangen, das den Unternehmen einen Wettbewerbsvorteil verschaffen kann und zudem noch Kosten spart. Im Gegensatz zu früher ist es heute problemlos möglich, überall und zu jeder Zeit via Internet / Intranet an Daten und Informationen zu gelangen. Jedoch bereitet der riesige Overhead3 an unstrukturierten Informationen dem Benutzer Mühe an die gewünschten Auskünfte zu kommen.

2.1.1 Einführung und Begriffserklärung

An dieser Stelle soll kurz der Unterschied der oben genannten Begriffe erläutert werden. Der Zusammenhang zwischen Zeichen, Daten, Informationen, etc. lässt sich am besten an der von Klaus North beschriebenen „Wissenstreppe“ verdeutlichen4. Die Wissenstreppe beschreibt dabei den syntaktischen Unter- schied der einzelnen Benennungen. Der Wettbewerbsvorteil stellt dabei das oberste Element und zugleich das Ziel des KM dar. Nach genauerer Sichtung sollte der Unterschied der Begriffe ohne Erklärung deutlich werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Wissenstreppe nach Klaus North5

Um den Begriff „Wissen“ besser zu verstehen, betrachten wir uns diese Stufe der Wissenstreppe genauer. Wissen = Informationen + Kontext. Als Informa- tionen verstehen wir in diesem Umfeld Artikel, Dokumente, Bildmaterial, etc. in strukturierter bzw. unstrukturierter Form. Kontext bildet den Zusammenhang (die Umgebung), in dem die Informationen bzw. der Benutzer (User) der Infor- mationen sich bewegen. Zusammenfassend kann man also nur von Wissen sprechen, wenn die Information und der User sich im gleichen Kontext bewegen (siehe auch Kap. 2.1.2). Eine einheitliche Definition des Begriffs „Wissen“ existiert in der Literatur nicht. Jedoch ist der Begriff des Wissens nach Krämer folgendermaßen definiert:

„Wissen wird bezeichnet als die zweckorientierte Vernetzung von Information... Es stellt die Abbildung (externer) realer Verhältnisse... auf (interne) Modelle von der Außenwelt dar, über die ein Individuum oder eine Organisation verfügt.“6

Der Term „implizit“ kommt aus dem lateinischen und bedeutet „eingeschlossen“ bzw. „inbegriffen“. Überträgt man diesen Begriff auf das KM, bedeutet es in etwa individuelles Wissen, also Wissen das dem Unternehmen nicht zugänglich und an eine Person gebunden ist. „Explizit“ kann als Gegenteil von implizit definiert werden. Es stellt das Wissen dar, das von „allen“ geteilt wird und dem Unternehmen zugänglich ist. Neben den erläuterten Begriffen gibt es in der Literatur auch noch den Term kollektives Wissen. Bei kollektivem Wissen kön- nen mehrere Personen gleichzeitig auf das Wissen zugreifen. Das Wissen des Unternehmens (kollektives Wissen) ist die Summe des Wissens aller Mit- arbeiter7. Um den Übergang der Wissensarten zu verdeutlichen, hat Wilhelm Mülder ein Modell der Wissensbasis entwickelt, das aus 5 Schichten besteht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Schichtenmodell der organisatorischen Wissensbasis8

Mit der Frage nach der Strukturierung und Speicherung von Wissen setzt sich das Kapitel 2.3 auseinander.

2.1.2 Sprache und Ihre Bedeutung

Zur Verdeutlichung der Schwierigkeiten der Wissensstrukturierung ist es sinn- voll, ein konkretes Beispiel näher anzuschauen. Dabei werden wir uns des semiontischen Dreiecks, auch Begriffsdreieck genannt, nach Odgen und Richards9 bedienen. Dieses Dreieck beschreibt das Interaktions- bzw. das Assoziationsmuster das zwischen einem Sender und einem Empfänger einer Nachricht entsteht. Nachfolgend soll es kurz erläutert werden:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Begriffsdreieck nach Odgen und Richards10

- Benennung: Wort oder Notation des Gegenstandes
- Begriff: die Gesamtheit der Eigenschaften oder Merkmale von Gegenständen
-Gegenstand: konkrete oder abstrakte Dinge oder Objekte

Versendet ein Nachrichtenteilnehmer z.B. die Benennung „Jaguar“ so ist vorstellbar, dass ein Empfänger dieser Nachricht einige Schwierigkeiten mit der Einordnung dieser Information haben könnte. Je nach Themenumfeld (Kontext) in dem sich der Empfänger befindet, kann er die Benennung mit einem Begriff in der Tierwelt, einer Automarke oder auch einem militärischen Fahrzeug (Jagdflugzeug) in Verbindung bringen. Entscheidet sich der Empfänger der Nachricht für einen vom Sender nicht beabsichtigten Gegenstand, z.B. für die Automarke, so ist die Kommunikation gescheitert.

Wörter die die oben beschriebene Eigenschaft aufweisen, dass Ihre Benennung für verschiedene Begriffe steht kann, werden auch als Polyseme11 bzw. Homonyme12 bezeichnet.

Überträgt man dieses Beispiel auf eine Suchanfrage eines Benutzers, ist vorstellbar, dass die vom Sender erwarteten Dokumente, entweder gar nicht auftauchen oder nur vereinzelt Treffer in einer sehr großen Treffermenge bilden.

Um diese Problematik zu minimieren wurden verschiedenen Konzepte entwickelt. Mit der Abgrenzung von Kontexten im Topic Map Konzept befasst sich das Kapitel 2.4.5. Mit dem Definieren von Gültigkeitsgrenzen für Benennungen beschäftigt sich das Kapitel Thesaurus.

2.2 Wissensmanagement (KM)

KM ist eine vergleichsweise junge Wissenschaftsdisziplin. Der Begriff des Wissensmanagements wurde 1986 zum ersten Mal von K. Wiig auf der von den Vereinten Nationen organisierten Konferenz „International Labor Organisation“ geprägt. Seit 1994 bieten große Beratungsunternehmen, wie z.B. PriceWater- houseCoopers zunehmend KM als Dienstleistung für Ihre Kunden an15. Am Anfang des 21. Jahrhunderts war es das Schlagwort in der IT-Branche. Jedoch kann KM nicht auf die IT alleine reduziert werden, sondern es sollte als ganz- heitliches Konzept verstanden werden, in dem die IT die Rolle des „Enabler’s“16 für eine Vielzahl von Funktionalitäten des KM realisiert. Weitere Dimensionen des KM sind, z.B. das Human Ressource Management (HRM) und die Unternehmensorganisation.

Themen und Aufgaben

Da diese Arbeit den Fokus nicht auf KM im Allgemeinen setzt, sondern sich speziell mit Topic Maps und mit Suchverfeinerungsmechanismen befasst, soll hier lediglich der Vollständigkeit halber ein kurzer Überblick über die Aufgaben des KM gegeben werden. Die Aufgaben des KM, die von Gilbert Probst und Kai Romhardt am schweizerischen Forum für Organisationales Lernen und KM an der Université de Genéve entwickelt worden sind, heißen in Ihrem Ansatz Bausteine17. Sie lassen sich in einen inneren und in einen äußeren Kreislauf aufteilen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Bausteine des KM nach Gilbert und Probst18

Der äußere Kreislauf - Wissensbewertung und Wissensziele - bildet dabei den traditionellen Managementprozess mit seinen Tätigkeiten - Zielsetzung, Um- setzung und Kontrolle - ab. Der innere Kreislauf befasst sich mit dem Aufstellen von Konzepten, der Technologie, der Strukturierung, der persistenten Speicher- ung und dem Navigieren in relevanten Informationen. Konzepte und Strukturierungsmethoden des KM werden zum Teil in Kapitel 2.3 besprochen.

Da man KM aber nicht nur auf die Informationstechnologie beschränken kann, sondern es als ein interdisziplinäres Fach verstanden werden muss, fallen in dieses Gebiet auch Anreizsysteme, personalpolitische und strategische Über- legungen sowie psychologische Maßnahmen. Auf diese Punkte wird in dieser Arbeit jedoch nicht eingegangen. Weitergehende Literatur dazu: [Karag2001]. Technologien und Navigationsmechanismen des KM, z.B. semantische Netze etc. werden später in dieser Arbeit noch ausführlicher behandelt.

2.3 Konzepte der Wissensstrukturierung

Grundlegende Konzepte der Strukturierung versuchen die Schwierigkeit des Wissensmanagement zu kompensieren. Sie versuchen, unstrukturiertes und verborgenes Wissen der verschiedenen meist heterogenen Systeme in nutzbares Wissen umzuwandeln.

Die grundlegenden Schwierigkeiten die sich dabei ergeben, werden in dem folgenden Kapitel behandelt und Lösungsansätze dazu beschrieben. Danach wird eine einfache Methode der Wissensstrukturierung vorgestellt - der Index. Nach der Beschreibung der Prinzipien von Indices wird auf die Thesauren eingegangen und schließlich zu den semantischen Netzen übergeleitet. Dabei werden Begrifflichkeiten aus dem Bereich Topic Maps in Klammern eingesetzt um deren Verbindung besser darzustellen.

2.3.1 Index

Das Wort Index kommt aus dem lateinischen und bedeutet übersetzt „Anzeiger, Register oder Verzeichnis“ und stellt eine Liste von Stichwörtern oder Themen (Topics) dar die auf Ressourcen (Occurences) zeigen. Ein traditioneller Index ist eine „Wissenskarte“ in einem Buch. Es enthält Themen und Stichworte von denen angenommen wird, dass sie für den Leser eines Buches interessant sind. Um einen schnellen Überblick zu gewähren, und ein schnelles Auffinden zu ermöglichen, werden diese am Ende eines Buches zusammengefasst. Der Index hat die Funktion, den Benutzer schnell an eine gesuchte Information heranzuführen. Die folgende Abbildung zeigt die Grundzüge eines Index.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Index mit verschiedenen Notationsformen.

Zusammenfassend kann man sagen, dass ein einfacher Index aus folgenden Charakteristika besteht:

- einer (alphabetischen) Liste aus Themen (Topics)
- erweise auf die vorkommende Stelle (Occurences) der Themen

Komplexere Indices können weitere Methoden aufweisen; zu denen gehören zum Beispiel:

- Unterschiedliche Schreibweisen für verschiedene Arten (Topic Types) von Themen, z.B. Personen werden kursiv dargestellt.
- Themen die als Synonyme eingefügt werden und auf andere verwandte Themengebiete verweisen.
- Unterkategorien die Zusammenhänge (Associations) zwischen verschiedenen Stichwörtern verdeutlichen.

Des Weiteren können zusätzliche Indices parallel auftreten, z.B. ein Index für Personen, ein Index für Orte und andere. Jedoch führt diese zunehmende Kom- plexität mit steigender Zahl von Indices zu keiner schnelleren Informationsver- mittlung.

2.3.2 Thesaurus

„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und Ihren (vorwiegend natürlich- sprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“ (DIN 1463)

Ein Thesaurus (aus dem griechischem „thesauros“ für Schatz, Schatzhaus) kann man als eine Art Indexierungs- bzw. Dokumentationssprache betrachten. Konkret eine geordnete Zusammenstellung von Begriffen und Ihren Bezeich- nungen zur Indexierung von Dokumentenbeständen anhand der im Thesaurus vordefinierten Terme. Er stellt ein standardisiertes Vokabular zur Verfügung und soll die in Kapitel 2.1.2 beschriebene Sender - Empfänger Problematik verringern.

Ein Thesaurus besteht aus einer begrenzten Sammlung von Begriffen für ein (in der Regel begrenztes) Fach- bzw. Dokumentationsgebiet. Die Begriffe in Thesauren werden durch Deskriptoren (Vorzugsbenennungen) repräsentiert.

Die Vorzugsbenennungen wiederum sind dabei ein terminologisch kontrolliertes Vokabular der natürlichen Sprache. Anforderungen an einen Deskriptor sind eine möglichst umfassende, zweifelsfreie und genaue Darstellung seiner Äquivalenzklasse. Des Weiteren muss dieser sich am Sprachgebrauch seines Fachgebiets orientieren und gleichzeitig einprägsam und unkompliziert sein20. Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürz- ungen, etc. von Deskriptoren werden Nicht-Deskriptoren genannt und zeigen mittels Verweise (Äquivalenzrelationen) auf benutzte Deskriptoren.

Das besondere an den Verweisen (Associations) bei einem Thesaurus ist die Typisierung. Diese zeigt nicht nur dass zwei Begriffe in Beziehung zueinander stehen, sondern auch in welcher Art und Weise diese Relation besteht. Es können also Rückschlüsse gezogen werden, die es ermöglichen:

- Hilfestellungen zur Orientierung innerhalb der Begriffsstruktur für den Suchenden bereit zu stellen.
-Hilfsmittel zur Festlegung des begrifflichen Verständnisses des Deskriptors bereitzustellen.
- Grundlagen für einen Navigationsmechanismus zu schaffen.
- Search Down21 bzw. Aufriss22 - Methoden zur Verfügung zu stellen.

Die Darstellung der Begriffsbeziehungen erfolgt durch eine eigene Thesaurus- nomenklatur (folgende Tabelle zeigt einen Auszug nach IS0 2788 bzw. DIN 1462).

Prinzipiell gibt es drei Arten von Beziehungen:

- Die hierarchische Relation und als Untergruppe davon:
-Generische Relation
-Partitive Relation (Bestandteilsrelation)
-Die assoziative Relation
- Die Äquivalenzrelation

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Thesaurusnomenklatur. Auszug nach IS0 2788 bzw. DIN 1462

2.3.3 Semantisches Netz

Indizes, Glossare oder Thesauri sind grundlegende Arten der Wissensstruktu- rierung, jedoch werden vor allem für das Gebiet der künstlichen Intelligenz andere und mächtigere Werkzeuge zur Strukturierung benötigt. Eine Möglich- keit stellen dabei die semantischen Netze dar. Semantische Netze stammen ursprünglich aus dem Forschungsfeld der Kognitionspsychologie, einem Teilgebiet der Psychologie. Dieses beschäftigt sich mit der menschlichen Wahrnehmung. Daraus entstanden die semantischen Netze die sich an dem Modell des menschlichen Gedächtnisses orientieren und versuchen, Informa- tionen assoziativ zu verknüpfen.

Im Bereich der Informatik wird ein semantisches Netz als ein „mathematisches Modell einer Menge begrifflicher Entitäten und der zwischen diesen bestehenden kognitiven Beziehungen“ definiert23.

Ein semantisches Netz besteht aus Knoten und Kanten. Knoten repräsentieren dabei Begriffe und Eigenschaften der Begriffe. Kanten geben die Beziehung zwischen den Knoten an, des Weiteren sind sie gerichtet und typisiert. Durch die Typisierung - also der Angabe einer näheren Beschreibung der Kante - ist es möglich, zusätzliche Informationen zu integrieren.

Nachfolgend werden zwei Arten von Beziehungen an dieser Stelle erwähnt, es sein nicht verschwiegen, dass es weitere gibt:

- Hierarchische Relation (Oberbegriff - Unterbegriff)
- Instanz - Begriffsrelation

Die hierarchische Relation ist zu finden sofern eine Ober/Unterordnung zwischen zwei Knoten existiert, z.B. (Specht Æ is-a Æ Vogel). Wobei „is-a“24 die Typisierung darstellt. Bei dieser Relation erbt der Unterbegriff (Specht) alle Eigenschaften des Oberbegriffs (Vogel). Es wird also der Unterbegriff aufgrund seiner höheren Ebene klassifiziert. Der Vorteil einer solchen hierarchischen Repräsentation von begrifflichem Wissen besteht in der ökonomischen Speicherung der Information. Die einem Begriff zugeordneten Eigenschaften gelten auch für alle Kind-Objekte dieses Begriffes und müssen daher nur einmal gespeichert werden.

Problematisch bei der hierarchischen Abbildung der Relationen sind jedoch Ausnahmen (nicht alle Vögel können fliegen) die von den abhängigen Oberbegriffen abweichen. Eigenschaften von Objekten die von Ihrem Oberbegriff nicht geteilt werden, werden explizit an das Objekt angehängt um das oben angegebene Manko zu beseitigen.

Die durch die Knoten eines semantischen Netzes dargestellten Begriffe lassen sich bezüglich ihres Abstraktionsgrades unterscheiden. Dabei lassen sich die Knoten formal in folgende Klassen unterteilen:

- Individualbegriffe
-Generische Begriffe
- Abstrakta

Individualbegriffe sind eindeutig identifizierbare Objekte der Realität (z.B. „Peter Bauer“, „2. Weltkrieg“, „Leichtathletik Weltmeisterschaft 2003“). Generische Begriffe bezeichnen Klassen von Objekten (z.B. „Vogel“, „Fisch“, „Mensch“). Abstrakta beschreiben Begriffe die sich auf nicht genauer abgrenzbare Objekte beziehen (z.B. „Kultur“, „Inhalt“, „Kummer“).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Darstellung eines Graphs25

Das Ergebnis der oben beschriebenen Strukturierungsmaßnahmen stellt einen Graphen dar, der aus Knoten und Kanten besteht. Durch „Abschreiten“ der Kanten kann man sich innerhalb des semantischen Netzes an beliebige definierte Orte (Begriffe) begeben. Dieser Graph ist ein von der darunter liegenden Datenmenge losgelöstes Wissensnetz. Die definierten Begriffe repräsentieren nur bestimmte darunter liegende Dokumente und Informationen.

Zur Verdeutlichung stelle man sich ein Fischernetz vor, das man an einem einzigen Punkt (Knoten) anhebt. Durch Anheben des Netzes entsteht ein drei- dimensionales Gebilde. Die sich daraus ergebenden Ebenen stellen Begriff- lichkeiten bzw. Objekte dar, die sich von dem ursprünglichen Knoten entfernen, abstrakter bzw. spezifischer werden oder überhaupt nichts mehr mit dem ausgewählten Begriff zu tun haben. Sie sind jedoch immer noch erreichbar.

Diese Eigenschaft der semantischen Netze machen sich Suchmaschinen zu Eigen, indem sie nicht nur die von dem Benutzer eingegebenen Begriffe für Ihre Suchanfrage benutzen, sondern den Suchbegriff automatisch anhand der in dem Netz gespeicherten Informationen erweitern. Beispielsweise könnte eine Anfrage eines Users der nach „Specht“ sucht durch folgende Begrifflichkeiten ergänzt werden: (Specht - Vogel - hat Flügel - etc.). Die genaue Erweiterungs- tiefe der Anfrage wird anhand von Regeln definiert und automatisch abge- arbeitet.

Indexierungsvorgänge werden anhand der in dem semantischen Netz gespeicherten Knoten durchgeführt.

2.3.4 Taxonomie

Taxonomie ist ein wissenschaftliches Klassifizierungssystem in dem Konzepte in einer Hierarchie organisiert werden. Es kommt sowohl in der Biologie als auch in einem Teilgebiet der Linguistik vor. Taxonomie versucht durch Segmen- tierung bzw. Klassifizierung der einzelnen Untersuchungsobjekte den Aufbau eines Systems zu beschreiben. Die einzelnen Klassen sind in einer Hierarchie organisiert und besitzen reine Klassen-Instanz-Beziehungen. Die Konzepte (Klassen) innerhalb eines definierten Systems müssen eindeutig sein und dürfen nur an einer Stelle der Taxonomie auftauchen. Ein gutes Taxonomie- Design zeichnet sich durch die vollständige Beschreibung eines zu analysierenden Untersuchungsbereichs aus.

Taxonomien werden besonders häufig im Bereich der Biologie verwendet. Das in der Literatur am häufigsten abgebildete Klassifizierungssystem ist die Abstammungslehre des Menschen.

2.4 Topic Maps

Die Geburtsstunde der Topic Maps (TM) geht auf das Jahr 1990 zurück, als die Davenport-Group nach Möglichkeiten des elektronischen Austausches von Dokumentationen gesucht hat. Eines der Hauptprobleme damals war dabei das Zusammenführen von Indexen verschiedener Dokumente. Ähnlich dem Prinzip eines Index in einem Buch, das dem Leser einen schnellen Zugriff auf gewünschte Informationen ermöglicht, kann dies mit Hilfe von Topic Maps auf den Bereich elektronischer Dokumente übertragen werden26.

Die Möglichkeiten, die mittels TM realisiert werden können, gehen weit über die von Indizes hinaus. Nachfolgend wird ein Überblick über die Struktur und den Aufbau von TM sowie der Bestandteile von TM nach dem ISO und dem XTM 1.0 Standard gegeben. Die aktuelle XTM 1.0-Spezifikation von Steve Pepper und Graham Moore ist unter http://www.topicmaps.org/xtm/1.0/ erhältlich bzw. auf der CD Version dieser Arbeit unter Ressourcen zu finden.

Den ISO Standard für TM erhält man unter http://www.topicmaps.org/xtm1.0.html#ref_iso13250 bzw. ebenfalls unter Ressourcen auf der CD.

2.4.1 Einführung und Begriffserklärung

In der Literatur werden Topic Maps (TM) oft als das „GPS“ (Global Positioning System) des „Informationsuniversums“ betitelt. Nach Verabschiedung des ISO/IEC Standard 13250:2000 am 3. Dezember 1999 machten sich einige Firmen die Technik zu Eigen, oftmals um Ihr Wissen in grafischer Art und Weise darzustellen. Aber auch um mittels dieser Technik Ihre Unternehmensstrukturen besser abbilden zu können27 und Wissensnetze aufzubauen.

Der ISO/IEC Standard 13250:2000 beschreibt TM und Ihre Elemente und erklärt die Syntax die hinter dem Konzept steht. Die Syntax und die Bezeichnungen einiger TM-Elemente wurden durch den XML Topic Maps (XTM) 1.0 Standard etwas abgewandelt, um auf die Anforderungen der XML-Techno- logie28 besser einzugehen (siehe auch Kap.2.4.7). Jedoch wurde an dem Grundgedanken von TM keine Veränderung vorgenommen.

Das Grundkonzept einer TM ist einfach, zugleich aber sehr mächtig: die Idee besteht daraus, beliebige Themen (Topics) mit anderen Themen via Assoziation typisiert zu verknüpfen und mittels Occurences auf Ressourcen zu verweisen. Themen (Topics) können dabei Konzepte, Objekte, Ideen, oder beliebige Dinge der realen Welt darstellen, über die man Aussagen mit der Topic Map treffen möchte. Dabei kann ein Thema einen oder mehrere Namen tragen. Ressourcen sind Vorkommensangaben und beziehen sich entweder auf externe Dokumente, Bilder, Dateien etc. oder können im Topic als Wert definiert werden. Assoziationen verknüpfen die einzelnen Topics oder können dazu genutzt werden, verschiedene Topic Maps zu vereinigen (mergen)29. Das Vereinigen unterschiedlicher Topic Maps ist einer der Hauptaspekte die zur Mächtigkeit der TM beitragen.

Eine Topic Map ist ein SGML-Dokument (nach ISO-Standard) oder ein XMLDokument (nach XTM-Standard), in dem die oben genannten Elemente verwendet werden. Die unterschiedlichen Typen werden dabei aus einer Grundmenge von Darstellungsformen abgeleitet, was eine große Flexibilität in der Anwendung der Standards garantiert30.

Der aus einer TM resultierende Graph ist ein von den Dokumenten unab- hängiges Wissen das man sich als Gitternetz über den Ressourcen vorstellen kann. Gültigkeitsbereiche der Topics werden über das Scope Objekt definiert und schränken dadurch Themen, Assoziationen und Ressourcen kontext- sensitiv ein.

2.4.2 Topic

Topics sind der Grundstein einer Topic Map. Das Wort Topic kommt von dem griechischen Wort topos, was sowohl Ort als auch Subjekt heißen kann. Ein Topic repräsentiert ein Subjekt in der realen Welt und kann an mehreren beliebigen Orten auftreten. Jeder einzelne Ort ist eine Ressource und wird (Topic) Occurence genannt. Konkret kann man sich ein Topic vorstellen als den Schatten der von einem realen Subjekt geworfen wird. Es ist ein Objekt das in der Topic Map das Subjekt repräsentiert - aber es ist nicht das Subjekt selbst. Oft wird in der Literatur jedoch kein Unterschied zwischen den Begrifflichkeiten gemacht und das Wort Topic steht sowohl für das Objekt (in der Topic Map) als auch für das Subjekt (in der reellen Welt).

In dieser Arbeit wird diese Terminologie nur angewandt, wenn sie erforderlich ist ansonsten wird der Begriff Topic verwendet.

Einem Topic-Element in einer Topic Map muss eine eindeutige ID zugeordnet werden. Diese ID dient der eindeutigen Identifikation eines Topics in einer Topic Map, dabei wird in der Praxis oft der Base Name31 eines Topics als ID benutzt, sofern er dem Anspruch der Eindeutigkeit genügt und von Sonder- oder Trenn- zeichen befreit ist.

Jedem Topic sind ein oder mehrere Topic Types zugeordnet. Topic Types sind wiederum Topics in einer Topic Map. Durch diese Definition können also Klasse -Instanz-Relation („is-a“) abgebildet werden. Dadurch besteht die Möglichkeit durch entsprechende Anwendungslogik, Informationen von Topic Types auch für die entsprechenden Topics aufzulösen. Durch diese Maßnahme können weitergehende Aussagen über Topics getroffen werden. Die Angabe eines TypAttributs ist im ISO Standard als optional definiert. Um dieses Konzept zu verdeutlichen, bedienen wir uns eines einfachen Beispiels.

Es sei gegeben: Die Topics „Deutschland“, „Bayern“, „München“ und „Ludwig II“, dann ist „Deutschland“ (sofern definiert) vom Typ „Staat“, „Bayern“ vom Typ „Bundesland“, München vom Typ „Stadt“ und „Ludwig II.“ vom Typ „König“. Da auch Topic Types Topics in einer TM sind, kann man z.B. die Information gewinnen was unter einem Staat, einem Bundesland, usw. zu verstehen ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Topic, Topic Types und Topic Names32

Des Weiteren wird ein Topic durch seine Benennung charakterisiert. Die Charakterisierung findet durch das so genannte Names Element statt. Topic Name Elemente werden im ISO - Standard in drei Bestandteile untergliedert:

-Base Name (required)
-Display Name (optional)
- Sort Name (optional)

Wie aus der Aufgliederung zu entnehmen ist, ist nur der Base Name für ein Topic erforderlich, alle anderen Bestandteile können je nach Anforderung verwendet werden oder auch nicht.

Der Base Name dient als genereller, grundlegender Name eines Topics. Jedes Name-Element kann durch Angabe eines Scopes untergliedert werden, wo- durch das Einsatzgebiet des jeweiligen Name-Elements eingeschränkt wird und dadurch mehrerer Name-Elemente nebeneinander existieren können, um zum Beispiel mehrsprachige Anwendungen zu realisieren (siehe auch Abb. unten). Das Base Name-Objekt beinhaltet dabei den eigentlichen Namen des Topics.

Theorie

Display Name wird verwendet um die im Element eingeschlossenen Werte als Name für das Topic anzuzeigen. Während der Verarbeitung einer TM durch eine entsprechende TM-Engine werden diese Werte angezeigt. Das Sort Name -Element kann zusätzlich für die Angabe eines Sortierschlüssels verwendet werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Name Element nach ISO 1325033

2.4.3 Occurrences

Der Verweis auf eine oder mehrere Ressourcen nennt sich Occurrence (Vorkommensstelle). Occurrences zeigen auf beliebige Objekte, die in irgend- einer Form relevant für das Topic sind. Bei einer Vorkommensstelle kann es sich beispielsweise um einen Artikel, ein Bild oder ein Video handeln. Es kann sich auch auf eine Erwähnung des Topics in einem Text mit anderem Thema, einem Kommentar oder irgendeine andere Informationsquelle, die einen Bezug zum Topic hat, beziehen. Die Art der Quelle ist nach ISO 13250 Standard nicht vorgeschrieben. Es ist deshalb durchaus möglich, auch nicht elektronische Ressourcen über eine Occurrence zu adressieren. Die Vorkommensstellen der Ressourcen sind in der Regel außerhalb der TM zu finden und werden über Adressierungsmethoden angesprochen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: Occurrences und Occurrence Roles34

Auch Occurrences besitzen einen Type; durch Angaben der TM-Elemente „Occurrence Role“ bzw. „Occurrence Role Type“ können zusätzliche Infor- mationen über die Art der zugrunde liegenden Informationsressource in das Topic integriert werden. Es wäre beispielsweise denkbar, die Klassifikation der einzelnen Ressourcen als Rolle anzugeben (Webseite, Bild, Video, Artikel). Das Element „Occurrence Role“ dient dabei der besseren Lesbarkeit des Topics, das „Occurrence Role Type“ Element ist wiederum ein Topic und weist der Occurrence eine gewisse Semantik zu35. Durch Angabe von Rollen erhöht sich die Mächtigkeit der TM.

Als Adressierungsmethode hat sich im ISO-Standard HyTime durchgesetzt, während bei XTM 1.0 mit XPointer bzw. XLink gearbeitet wird.

[...]


1 Metadaten: Sind Daten über Daten und werde meistens an das zu beschreibende Datenobjekt angehängt

2 vgl.[Delp2002], S. 2

3 bedeutet hier: Überhang, Flut

4 vgl. [North1998] S. 67

5 Quelle: [North1998]

6 vgl. [Rehäu1996], S. 5

7 vgl. [Ohrma2002], S.9

8 Quelle: [Mülder2001]

9 vgl. [Odgen1923], S.43

10 Quelle: [Baum2002], S. 16

11 Beispiel für Polyseme: Pferd: 1. Tier. 2. Turngerät. 3. Schachfigur; etc.

12 Beispiele für Homonyme (in der Lautung): Lehre und Leere, wieder und wider.

15 vgl. [Karag2001], S. 310ff

16 bedeutet: „Befähiger“, „Realisierer“ der KM Konzepte.

17 vgl. [Karag2001], S. 312f

18 Quelle: [Mülder2001]

20 vgl. [Baumü2002] S. 12

21 Search Down: Methode die ausgehend von einer Bezeichnung eine Schrittweise hierarchische Verfeinerung der Suchanfrage zulässt. Z.B. Staat Æ Bundesland Æ Stadt Æ Stadtteil

22 Aufriss: Gegenteil von Search Down

23 vgl. [Helb1996], S. 73

24 englisch für “ist-ein”

25 Quelle: http://wortschatz.uni-leipzig.de/

26 vgl. [Heck2001], S.2

27 vgl. [Rath2002], S. 1

28 Extensible Markup Language (XML)

29 vgl. [Schmuc2003], S.96

30 vgl. [Grossm2001], S.6

31 genereller Name eines Topic

32 Quelle: [Peppe2002]

33 Quelle: [Baumü2002] Hinweis: falsche typografische Anführungszeichen und fehlendes schließendes Anführungszeichen nach id=“person“

34 Quelle: [Peppe2001]

35 vgl. [Peppe2000], S.11

Ende der Leseprobe aus 99 Seiten

Details

Titel
Hypertext-Navigationsmechanismen und Verfeinerung von Suchergebnissen in einem Topic Map-basierten Informationsportal für die Landeshauptstadt Stuttgart
Untertitel
Entwurf und prototypische Implementierung
Hochschule
Hochschule Ludwigshafen am Rhein
Note
1,3
Autor
Jahr
2003
Seiten
99
Katalognummer
V33319
ISBN (eBook)
9783638338202
ISBN (Buch)
9783638723930
Dateigröße
1364 KB
Sprache
Deutsch
Anmerkungen
Der aus der Diplomarbeit entstandene Prototyp und weiter Informationen können als CD-Version über den Autor bezogen werden. Das vorliegende pdf-File beinhaltet Lesezeichen.
Schlagworte
Hypertext-Navigationsmechanismen, Verfeinerung, Suchergebnissen, Topic, Map-basierten, Informationsportal, Landeshauptstadt, Stuttgart
Arbeit zitieren
Osman Hassan (Autor), 2003, Hypertext-Navigationsmechanismen und Verfeinerung von Suchergebnissen in einem Topic Map-basierten Informationsportal für die Landeshauptstadt Stuttgart, München, GRIN Verlag, https://www.grin.com/document/33319

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Hypertext-Navigationsmechanismen und Verfeinerung von Suchergebnissen in einem Topic Map-basierten Informationsportal für die Landeshauptstadt Stuttgart



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden