Im „Zeitalter der Informationen“ kommt es nicht mehr auf die Quantität und das
Vorhandensein von Informationen an, sondern auf eine strukturierte und
„qualitative“ Darstellung der benötigten Informationen.
Das Problem das Suchmaschinen gemeinsam haben, besteht heutzutage in der
nicht mehr überschaubaren Anzahl von Treffern die eine Suchanfrage zurückliefert.
Auch das Ranking der Treffer und das damit verbundene Vorspiegeln
von Relevanzstufen der einzelnen Dokumente ist eine aktuelle Problematik.
Mit den genannten Schwierigkeiten beschäftigt sich
das Forschungsgebiet Wissensmanagement (siehe Kapitel 2.2 ) und ein großer
Bestandteil dieser Arbeit.
Ein bedeutender Anteil der entscheidungsrelevanten Information in
Unternehmen liegt in unstrukturierter Form vor und besitzt keine
Relation zu gleichartigen Informationsbeständen.
Diese Tatsache erschwert die Sichtung und somit auch die Entscheidungsfindung von Suchenden.
Topic Maps (TM), stellen hier eine gute Möglichkeit der Informationsvernetzung dar.
Da sich die vorliegende Arbeit mit Suchverfeinerungsmechanismen in einem
Topic Map-basierten Informationsportal beschäftigt, befasst sich der
theoretische Teil der Arbeit mit den Themen der Wissensstrukturierung, dem
Knowledge-Management (KM) im Allgemeinen und im Besonderen mit statistischen und linguistischen
Ansätzen und Methoden. Dabei wird im Bereich der Statistik besonders auf die
Clusteranalyse, die Transformation von qualitativen Merkmalen und auf die
Korrelationsanalyse eingegangen.
Auch die Grundprinzipien einer Suchmaschine werden näher erklärt,
um Grundlagen zu schaffen und um ein besseres Verstehen zu gewährleisten.
Thematisch befasst sich die Arbeit mit Topic Maps und geht dabei auf die Vorzüge dieser näher ein.
Im praktischen Teil der Arbeit werden einige der oben genannten Ansätze
realisiert und genauer beschrieben. Dadurch beschäftigt sich ein Abschnitt
des praktischen Teils mit Servlets und JavaServer Pages (JSP),
dem Framework TM4J und der „Such-API“ Lucene.
Auch der durch die Arbeit entstandene Prototyp wird genauer beschrieben und einige
Ansätze und Elemente deskriptiv behandelt.
Inhaltsverzeichnis
1 Einleitung
2 Theorie
2.1 Wissen und Wissensmanagement
2.1.1 Einführung und Begriffserklärung
2.1.2 Sprache und Ihre Bedeutung
2.2 Wissensmanagement (KM)
2.3 Konzepte der Wissensstrukturierung
2.3.1 Index
2.3.2 Thesaurus
2.3.3 Semantisches Netz
2.3.4 Taxonomie
2.4 Topic Maps
2.4.1 Einführung und Begriffserklärung
2.4.2 Topic
2.4.3 Occurrences
2.4.4 Associations
2.4.5 Scopes
2.4.6 Facets
2.4.7 XML Topic Maps (XTM)
2.5 Künstliche Neuronale Netze (KNN)
2.6 Suchmaschinen
2.6.1 Einführung und Begriffserklärung
2.6.2 Indexierungsmechanismen
2.6.3 Ranking
2.7 Suchverfeinerungsmechanismen
2.7.1 Linguistische Ansätze
2.7.2 Statistische Ansätze
2.7.2.1 Transformation von Merkmalen
2.7.2.2 Kontingenztabelle
2.7.2.3 Faktorenanalyse
2.7.2.4 Clusteranalyse
2.7.2.4.1 Distanz- bzw. Ähnlichkeitsmaß
2.7.2.4.2 Klassifikationsverfahren
2.7.2.5 Rocchio-Algorithmus
2.7.3 Fuzzy-Technologie
3 Umsetzung
3.1 Überblick: Auftrag- und Arbeitgeber
3.1.1 Stadtverwaltung Stuttgart
3.1.2 CIT GmbH
3.2 Arbeitsumgebung
3.2.1 Servlet / Jsp
3.2.2 Topic Maps for Java (TM4J)
3.2.3 Lucene - Java Such API
3.2.4 Informationsportal
3.3 Anforderungen
3.4 Prototypisches Vorgehensmodell
3.5 Phasen der Analyse und der Konzeption
3.5.1 Darstellung der Dokumentengrundlage
3.5.2 Statistische Auswertung
3.5.3 Fuzzy Technik
3.5.4 Semantik
3.5.5 Aufbau eigener Daten
3.5.6 Korrelationsanalyse
3.5.7 Dokumentensichtung
3.5.8 Bewertung
3.5.9 Antwort-Datenbank Lexika
3.6 Layout
3.7 Navigation
3.7.1 Benutzereingaben
3.7.2 Filtersystem
3.8 Technische Dokumentation
3.8.1 Ablaufplan
3.8.2 Klassendiagramm (Packages)
3.8.2.1 Anfrageanalyse (myQueryAnalyser)
3.8.2.2 Historie
3.8.2.3 Antwort Analyse (ResponseAnalyser)
3.8.2.4 Common
3.8.2.5 Grundgesamtheit (GG)
3.8.3 ERM
4 Zusammenfassung
Zielsetzung und thematische Schwerpunkte
Die vorliegende Arbeit befasst sich mit der Entwicklung und prototypischen Implementierung eines Suchverfeinerungssystems für ein Topic-Map-basiertes Informationsportal der Landeshauptstadt Stuttgart. Ziel ist es, den Suchenden in einer unübersichtlichen Informationsflut durch intelligente Navigations- und Filtermechanismen bei der gezielten Informationssuche zu unterstützen und Suchtreffermengen sinnvoll zu strukturieren.
- Grundlagen des Wissensmanagements und der Wissensstrukturierung
- Einsatz von Topic Maps (TM) zur semantischen Vernetzung von Informationen
- Anwendung statistischer Verfahren und Fuzzy-Technologien zur Suchverfeinerung
- Architektur und prototypische Realisierung eines Informationsportals (Korvis)
- Konzeption von Navigations- und Suchhilfemechanismen mittels Lucene und Java
Auszug aus dem Buch
2.4.1 Einführung und Begriffserklärung
In der Literatur werden Topic Maps (TM) oft als das „GPS“ (Global Positioning System) des „Informationsuniversums“ betitelt. Nach Verabschiedung des ISO/IEC Standard 13250:2000 am 3. Dezember 1999 machten sich einige Firmen die Technik zu Eigen, oftmals um Ihr Wissen in grafischer Art und Weise darzustellen. Aber auch um mittels dieser Technik Ihre Unternehmensstrukturen besser abbilden zu können und Wissensnetze aufzubauen.
Der ISO/IEC Standard 13250:2000 beschreibt TM und Ihre Elemente und erklärt die Syntax die hinter dem Konzept steht. Die Syntax und die Bezeichnungen einiger TM-Elemente wurden durch den XML Topic Maps (XTM) 1.0 Standard etwas abgewandelt, um auf die Anforderungen der XML-Technologie besser einzugehen (siehe auch Kap.2.4.7). Jedoch wurde an dem Grundgedanken von TM keine Veränderung vorgenommen.
Das Grundkonzept einer TM ist einfach, zugleich aber sehr mächtig: die Idee besteht daraus, beliebige Themen (Topics) mit anderen Themen via Assoziation typisiert zu verknüpfen und mittels Occurences auf Ressourcen zu verweisen. Themen (Topics) können dabei Konzepte, Objekte, Ideen, oder beliebige Dinge der realen Welt darstellen, über die man Aussagen mit der Topic Map treffen möchte. Dabei kann ein Thema einen oder mehrere Namen tragen. Ressourcen sind Vorkommensangaben und beziehen sich entweder auf externe Dokumente, Bilder, Dateien etc. oder können im Topic als Wert definiert werden.
Zusammenfassung der Kapitel
1 Einleitung: Die Arbeit beleuchtet die Problematik der unübersichtlichen Treffermengen bei Suchanfragen in öffentlichen Institutionen und stellt das Ziel vor, diese mittels Wissensmanagement und Topic Maps effizienter zu gestalten.
2 Theorie: Dieses Kapitel erläutert theoretische Grundlagen zu Wissensmanagement, Topic Maps, Künstlichen Neuronalen Netzen sowie Suchmaschinen- und Verfeinerungsmethoden.
3 Umsetzung: Hier wird der prototypische Aufbau des Suchverfeinerungssystems für das Stuttgarter Informationsportal „Korvis“ detailliert beschrieben, einschließlich der verwendeten Java-Technologien und statistischen Analyseansätze.
4 Zusammenfassung: Das abschließende Kapitel resümiert, dass eine intelligente Suchverfeinerung auf Basis von Topic Maps und statistischen Methoden notwendig ist, um die Informationsfindung für Anwender zu optimieren.
Schlüsselwörter
Wissensmanagement, Topic Maps, Suchverfeinerung, Information Retrieval, Suchmaschinen, Fuzzy-Technologie, Clusteranalyse, Metadaten, Informationsportal, Wissensstrukturierung, Lucene, Java, Korrelationsanalyse, Semantik, Datenextraktion
Häufig gestellte Fragen
Worum geht es in dieser Diplomarbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der Konzeption und Entwicklung eines Suchverfeinerungssystems, das in einem bestehenden, auf Topic Maps basierenden Informationsportal der Stadtverwaltung Stuttgart eingesetzt wird, um die Suchergebnisse für Anwender zu verbessern.
Was sind die zentralen Themenfelder der Arbeit?
Die Schwerpunkte liegen auf Wissensmanagement, semantischen Netzen (insbesondere Topic Maps), statistischen Analyse- und Klassifikationsmethoden sowie der praktischen Implementierung von Suchwerkzeugen in einer Java-Umgebung.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist es, durch die Kombination von Topic-Map-Daten und statistischen Verfahren Mechanismen zu entwickeln, die den Benutzer dabei unterstützen, Suchanfragen zu verfeinern und die resultierende Informationsmenge strukturiert und kontextbezogen zu filtern.
Welche wissenschaftlichen Methoden werden verwendet?
Es werden Ansätze aus der Statistik wie die Cluster- und Korrelationsanalyse, linguistische Verfahren zur Wortstammreduktion, Fuzzy-Logik sowie Methoden der Künstlichen Intelligenz (KNN) zur Modellbildung verwendet.
Was wird im praktischen Hauptteil behandelt?
Der Hauptteil dokumentiert die technische Umsetzung des Prototyps, die Integration von Lucene und TM4J, den Aufbau von Analysedatenbanken (mySQL) sowie die Gestaltung von Navigations- und Benutzeroberflächen mittels Servlets und JSP.
Welche Schlüsselwörter charakterisieren diese Arbeit?
Wichtige Begriffe sind Wissensmanagement, Topic Maps, Suchverfeinerung, Information Retrieval, Fuzzy-Technologie, Clusteranalyse und semantische Wissensstrukturierung.
Wie wird mit dem Problem der "Datenflut" im Stuttgarter Portal umgegangen?
Das System nutzt vorhandene Topic-Map-Strukturen und kombiniert diese mit einer eigenen Statistik-Datenbank, um die Treffermengen durch intelligente Filter und Assoziationsanalysen (semantische Vorschläge) für den Benutzer verständlicher zu machen.
Welchen Stellenwert nimmt die Fuzzy-Technologie im System ein?
Die Fuzzy-Technologie wird eingesetzt, um Eingabefehler bei Suchanfragen zu korrigieren und eine Unschärfe-Suche zu ermöglichen, die über exakte Treffer hinausgeht, indem Ergebnisse basierend auf Ähnlichkeitsdistanzen gewichtet werden.
- Citation du texte
- Osman Hassan (Auteur), 2003, Hypertext-Navigationsmechanismen und Verfeinerung von Suchergebnissen in einem Topic Map-basierten Informationsportal für die Landeshauptstadt Stuttgart, Munich, GRIN Verlag, https://www.grin.com/document/33319