Inhaltsverzeichnis
Inhaltsverzeichnis..................................................................................... ii
I. Einleitung. 01
II. Der Topic Maps Standard - ISO/IEC 13250. 04
II.1 Einführung und Hintergründe. 04
II.2 Topic Maps - Modell. 05
II.2.1 TOPIC’ 06
II.2.2 TOPIC OCCURRENCE’ 07
II.2.3 TOPIC ASSOCIATION’ 09
II.2.4 SCOPE’ und THEME’ 11
II.2.5 PUBLIC SUBJECT DESCRIPTOR’ und FACET’ 12
III. Einsatzmöglichkeiten von Topic Maps. 13
III.1 Wissensmanagement. 13
III.2 Internet. 14
III.3 Datenbanken. 15
III.4 Glossare. 15
III.5 Lexika/ Enzyklopädien. 16
III.6 Content Management Systeme in Unternehmen. 16
III.7 Telemediales Lernen. 17
III.8 E-Commerce. 18
III.9 Ontologiestrukturen: Fokus „WordNet“ 19
IV. Topic Maps und die WordNet-Ontologie. 20
IV.1 Ontologien. 20
IV.1.1 Definition und Hintergründe. 20
IV.1.2 Beispiele und Anwendungen. 21
IV.2 Ontologiestrukturen und der Topic Maps - Standard. 22
IV.3 WordNet: Eine charakteristische Beschreibung. 24
IV.3.1 Entwicklung und Hintergründe. 24
IV.3.2 Funktion und Möglichkeiten von WordNet. 26
IV.4 WordNet - Analyse. 27
IV.4.1 Nomen in WordNet. 27
IV.4.2 Synsets, Synonyms. 28
IV.4.3 Coordinated Terms. 29
IV.4.4 Hypernyms. 30
IV.4.5 Hyponyms. 33
IV.4.6 Familiarity. 35
IV.4.7 Meronyme, Holonyme, Antonyme, etc. 36
IV.4.8 Verben in WordNet. 37
IV.4.9 Adjektive in WordNet. 38
IV.5 Implementierung von WordNet durch Topic Maps. 39
IV.5.1 Die WordNet - Topic Map. 40
IV.5.2 Ontologie-Topics. 40
ii
IV.5.3 „Synset“-Topics. 41
IV.5.4 Association-Topics. 44
IV.5.5 Wort-Topics. 45
IV.5.6 Scope 46
V. Kritische Anmerkungen zu Topic Maps. 48
V.1 Allgemeine Kritik zum Topic Maps Standard. 48
V.2 Kritische Betrachtung der WordNet-Topic Map. 49
V.2.1 Ontologische Umsetzung. 49
V.2.2 Occurrences. 50
V.2.3 Semantische Ergänzungen. 50
V.2.4 Anwendungssoftware. 51
V.3 Entwicklungsmöglichkeiten und Ausblick. 52
VI. Modellierung einer Literatur-Map mit K 42 54
VI.1 K42-Tool. 54
VI.2 Literatur-Map. 58
V.II Zusammenfassung. 62
Anhang A: K42-LiteraturMap-XT-MAuszug. 64
Literaturverzeichnis. 67
iii
I. Einleitung
Das Management, die Strukturierung und die Beschaffung von Wissen und Informationen gehören heute zu den zentralen Aufgaben unserer Gesellschaft. In Wirtschaftsunternehmen, in der Forschung und im privaten Bereich müssen enorme Mengen an Daten verarbeitet und organisiert werden.
Ein Wissensvorsprung, gleich welchen Bereich betreffend, stärkt die eigene Position und wird als essentieller Vorteil betrachtet.
Das Feld des Wissensmanagements erlangte in letzter Zeit große Beachtung und spielt mittlerweile sowohl in der aktuellen Forschung, als auch in der unternehmerischen Umsetzung eine gewichtige Rolle.
Die gewaltige Zunahme an Daten und Informationen stellt hohe Herausforderungen an die Art und Technik des Umgangs mit diesen Ressourcen. Eine dominierende Ursache für die großen Mengen an Informationen liegt in dem Innovationsfortschritt computerbasierter Techniken begründet. Das hervorstechende Beispiel für diesen Bereich stellt das Internet (WWW, Email, etc.) dar. Die Informationen, welche im Internet in digitaler Form zur Verfügung stehen, sind quantitativ und qualitativ nicht mehr erfassbar.
Erst durch einen intelligenten Prozess der Strukturierung und Evaluierung kann eine Transformation von rohen Daten hin zu anwendbarem Wissen stattfinden. Daten und Informationen sind nur wertvoll, wenn sie sinnvoll in einen Zusammenhang gestellt werden. Mit dem Übergang von einer reinen Anhäufung von Informationen hin zu einer geordneten Struktur von Daten, welche Lösungen für Problemstellungen liefern kann, beschäftigt sich das Wissensmanagement. Werden die vorhandenen Informationen nicht intelligent verwaltet, kann es sein, dass sich schon allein die Suche nach den gewünschten Daten als aufwändiger herausstellt, als eine Neubeschaffung. Auch die Zusammenführung von Informationen kann neues Wissen entstehen lassen, indem beispielsweise Schlussfolgerungen gezogen werden können.
1 Zitiert nach [Kar01], S.309
1
Das Feld des Wissensmanagements deckt mehrere Gebiete ab und kann umfassend nur interdisziplinär betrachtet werden. Es wird eine hohe Anforderung an eine integrative Lösung für die sich ergebenden Problematiken gestellt. Aspekte des Wissensmanagements können aus sehr verschiedenen Blickwinkeln betrachtet werden:
- betriebswirtschaftlich
- organisationswissenschaftlich
- systemtheoretisch
- informationstechnisch
- psychologisch
Die betriebswirtschaftliche und organisationswissenschaftliche Betrachtung beschäftigt sich zum Beispiel mit der Selektion von wichtigen Informationen und deren Interpretation, wie Schlussfolgerungen, etc.. Wissen wird in diesem Feld angewendet und fungiert als Entscheidungsgrundlage, der inhaltliche Wert der Informationen liegt hier im Vordergrund.
Die systemtheoretische Betrachtung legt ihren Schwerpunkt auf die strukturelle Gliederung der Informationen in Systeme. Weitgehend vom Inhalt abstrahiert werden effiziente Systeme gesucht, die die Daten gültig und systematisch ordnen. Insbesondere bei der Suche in Informationen bestehen hohe technische, vorrangig informationstechnische Anforderungen. Die entworfenen Systeme zur Strukturierung der Daten müssen technisch umgesetzt werden. Computerbasierte Medien sind nicht nur die Ursache für die stark wachsenden Mengen an Daten, sie helfen auch, diese Informationen zu organisieren und zugänglich zu machen. Der psychologische Charakter des Wissensmanagements umfasst insbesondere die kognitive Verarbeitung von Informationen. Wissen sollte so aufbereitet angeboten werden, dass es leicht verstanden und behalten werden kann. Dazu ist das Wissensmanagement auf Forschung im Gebiet der Psychologie angewiesen. Diese Arbeit befasst sich schwerpunktmäßig mit der informationstechnischen Seite und zeigt mit dem ISO-Standard „ISO/IEC 13250 Topic Maps“ einen neuen Rahmen für die technische Realisierung von Wissensverarbeitung.
Die Organisation von Wissen bedarf effizienter Technologien, welche sich durch einen hohen systemischen Intelligenzquotienten 2 auszeichnen. Diese Technologie zeichnen sich dadurch aus, dass sie systematisch und standardisiert eingesetzt werden und selbständig intelligente Prozesse durchführen können. Dies nimmt der ISO-Standard für sich in Anspruch.
2 Begriff übernommen von Matthias Haun, vgl. [Hau02]
2
Das Topic Maps-Modell definiert ein standardisiertes semantisches Netz, welches den Zugang zu Informationen erleichtern soll. Topic Maps strukturieren die Daten in einer Art und Weise, die ein effizientes Navigieren ermöglicht. Dieses Modell wird grundlegend in Kapitel II dargestelllt.
In welchen Bereichen sich der Standard durchsetzen könnte und welche konkreten Anwendungsgebiete in Frage kommen, wird inhaltlich in Kapitel III dargelegt. Die meisten Anwendungsfälle können zum derzeitigen Stand der Umsetzung des Standards nur prognostiziert werden, ohne realisierte Anwendungen beschreiben zu können.
Der interdisziplinäre Charakter, welcher das weite Feld des Wissensmanagements umspannt, kommt in dieser Arbeit besonders in Kapitel IV zum Tragen. Die Ausführungen in diesem Kapitel widmen sich der Umsetzung einer lexikalischen Ontologie - WordNet - mit Topic Maps. Dafür wird unter linguistischen und sprachwissenschaftlichen Gesichtspunkten der ontologische Aufbau von WordNet beschrieben. Erst nach einem tiefergehenden Verständnis für die zu organisierenden Informationen, in diesem Fall der WordNet-Ontologie, kann adaptiv eine spezielle Topic Map entworfen werden. Das Ergebnis der Implementierung ist die in Kapitel IV beschriebene WordNet-Topic Map.
Nach einer kritischen Beurteilung des ISO/IEC 13250 Standards in Kapitel V wird in Kapitel VI noch kurz eine Applikation vorgestellt, mit welcher Topic Maps erstellt und angezeigt werden können.
Eine praktische Anwendung dieses Tools wurde mit dem Erstellen einer Topic Map, der inhaltlich eine Auswahl an Publikationen zu Grunde liegt, getestet. Diese Literatur-Map fungiert prinzipiell als Literaturdatenbank, jedoch mit den funktionellen Stärken und Möglichkeiten einer Topic Map. Diese Topic Map ist als XML-Datei vorhanden und liegt dieser Arbeit in elektronischer Form bei.
Kapitel VII fasst die grundlegenden Ergebnisse dieser Arbeit kurz zusammen und gibt einen Ausblick über zukünftige Entwicklungen.
3
II. Der Topic Maps Standard - ISO/IEC 13250
II.1 Einführung und Hintergründe
Der in diesem Kapitel beschriebene internationale Standard ISO/IEC 13250 definiert ein Modell zur Strukturierung von Informationen mit Hilfe sogenannter ‚Topic Maps’. Diese Topic Maps sollen ein Hilfsmittel darstellen, um große Wissensmengen und Informationsberge zugänglich zu machen 3 .
Sie stellen ein semantisches Netz oberhalb der eigentlichen Daten dar und vereinfachen somit das Navigieren durch große Mengen an Informationen. Daten werden durch Topic Maps miteinander verknüpft, sie werden beschrieben 4 und in Beziehung zueinander gestellt. Dabei bleiben die Informationen an sich unangetastet, die Topic Maps sind losgelöst und austauschbar.
Die Anfänge der Idee zur Gestaltung von „Maps“, welche der Wissensorganisation dienen, liegen schon im Jahre 1991. Der Schwerpunkt lag zu Beginn auf der Zusammenlegung und Strukturierung von Indexen. Über die Entwicklung des HyTime-Standards 5 gelangte man dann allmählich zum Topic Map-Standard. Im Jahr 1996 wurde von der ISO-SGML-Arbeitsgruppe das Arbeitsgebiet „Topic Navigation Maps“ eingerichtet. Nach einigen Jahren, begleitet von Debatten in Online-Foren und Meetings, wurde im Herbst 1999 die erste Version des ISO Standards 13250 von der Arbeitsgruppe ISO JTC1/SC34/WG3 verabschiedet.
Hauptsächlich geprägt und verfasst wurde der Standard von Michel Biezunski, Martin Bryan und Steve Newcomb. 6 Die zweite Version des Standards [ISO13250], welche die Grundlage für diese Arbeit bildet, wurde im Mai 2002 veröffentlicht. Die formelle Notation von Topic Maps ist in einer HyTime- und SGML-Architektur, wie in [ISO10744] beschrieben, definiert. Eine Topic Map ist ein SGML- oder XML-Dokument.
3 Vgl. [Ksi99]
4 Metadaten
5 Weitere Informationen zum HyTime-Standard [ISO10744] finden sich in [Lob00].
6 Vgl. [Pep99a].
4
II.2 Topic Maps - Modell
Das Modell wird größtenteils durch einige Objekte dominiert, die im Folgenden definiert und erläutert werden. Zentrale Bedeutungen haben innerhalb des Standards die Elemente:
- ‚TOPIC’
- ‚TOPIC OCCURRENCE’
- ‚TOPIC ASSOCIATION’
Die Funktionalität wird durch einige weitere Elemente und Optionen erweitert und ausgebaut:
- ‚SCOPE’
- ‚THEME’
- ‚PUBLIC SUBJECT DESCRIPTOR’
- ‚FACET’
-ETC.
Die Bezeichnungen werden in englischer Terminologie verwendet, um Fehldeutungen durch eine Übersetzung zu vermeiden. 7
Der Begriff ‚TOPIC MAP’ steht allgemein als Überbegriff für eine Struktur, die nach den Regeln des [ISO13250] aufgebaut ist. Eine Topic Map besteht aus den oben genannten Konzepten, wobei der explizite Aufbau sehr individuell gestaltet werden kann. Eine allgemeine Beschreibung von “Topic Maps” findet sich in den Ausführungen des Standards:
„A set of information resources regarded by a topic map application as a bounded object set whose hub document is a topic map document conforming to the SGML architecture defined by this International Standard.” 8
Eine Topic Map fasst demnach eine Ansammlung von Informationen zusammen, welche nach den Vorschriften des ISO/IEC Standards 13250 mit einer SGML-Architektur organisiert sind.
Eine Topic Map beinhaltet sowohl die Navigationsebene mit den Elementen zur Strukturierung der Informationen, als auch die Datenebene, auf welcher die konkreten Informationen und Ressourcen liegen.
7 Allg. Beschreibungen des Standards vgl. [Rat99b] und [Pep99b].
8 Zitat aus [ISO13250] S.5.
5
II.2.1 ‚TOPIC’
Der Definition, was ein Topic sein kann, sind keine Grenzen gesetzt - jedes „Ding“, jeder Gegenstand, jedes Wort und jede Zahl kann als Topic betrachtet werden. Je nach Anwendungsgebiet der Topic Map können die Topics frei gewählt werden. 9 Eine Topic Map über Literatur wird als Topics wohl Autoren, Buchtitel, Verlage oder auch allgemeinere Begriffe wie „Gedicht“, „Roman“, „Belletristik“ und „Literatur-Nobelpreis“ definieren. Das Topic an sich hat noch keine Aussagekraft und wird erst durch weitere Spezifikationen und Verknüpfungen charakterisiert. In den Worten des Standards:
„The invisible heart of every topic link is the subject that its author had in mind when it was created. In some sense, a topic reifies a subject.” 10
Eine Möglichkeit der Spezifikation stellt das Element ‚TOPIC TYPE’ dar. Hiermit kann einem Topic ein oder mehrere „Typen“ zugeordnet werden. Diese Typen fassen die Topics zu Klassen zusammen. Dem Topic „Pippi Langstrumpf“ könnte als Topic Type der Begriff „Kinderbuch“, oder auch „Name“ zugeordnet werden. Das Topic „Astrid Lindgren“ könnte mit dem Topic Type „Autor“ oder „Person“ deklariert werden. Ein Topic Type ist seinerseits auch als Topic definiert.
Topic Types bilden Kanten, die eine Verkettung von Topics bewirken. Dadurch können Typhierarchien und Klasse-Instanz Beziehungen kreiert werden. 11 Um Topics Namen geben zu können und eine detailliertere Beschreibung zu ermöglichen, wurde das Konzept des ‚TOPIC NAME’ definiert. Da es oft mehrere Möglichkeiten einer Namensgebung für unterschiedliche Funktionen gibt, untergliedert man den Topic Name in drei Elemente:
- ‚BASE NAME’
- ‚DISPLAY NAME’
- ‚SORT NAME’
Ein Base Name muss für jedes Topic definiert werden und bildet damit den „eigentlichen“ Namen. Display Name und Sort Name können optional angegeben werden. Der Display Name dient der Darstellung des Topics bei einer Applikation. Existiert kein solcher Name, erfüllt der Base Name diese Funktion, was auch beim Sort Name der Fall ist. Dieser wird bei einer Sortierung von Topics verwendet. Beispielhaft für das Topic „Pippi Langstrumpf“ könnte als Base Name „Pippi Langstrumpf“, als
9 Vgl. [Rat00]
10 Zitat aus [ISO13250] S.4.
11 Vgl. [Wid02] S.7
6
Display Name „P. Langstrumpf“ und als Sort Name „Langstrumpf, Pippi“ definiert werden.
Abb. II.1 zeigt eine Topic Map, angelehnt an die bisher verwendeten Beispiele mit Topics, Topic Types und Topic Names.
Abb II.1: Pippi Langstrumpf-Topic Map ‚Topics’
II.2.2 ‚TOPIC OCCURRENCE’
Topics wurden durch Types und Names in ihrer Art bisher sehr abstrakt definiert. Um das abstrakte Gebilde der Topics mit den Informationen, die verwaltet werden sollen in Verbindung zu bringen, werden Topic Occurrences eingeführt. Die Occurrence eines Topic stellt die relevante spezifizierte Informationressource für ein Topic an sich dar. Die Occurrence kann als der eigentliche Inhalt des Topics betrachtet werden. Dies können sowohl Online-Ressourcen, wie elektronische Daten oder Webpages, als auch Offline-Ressourcen sein. Die Arten der Occurrences können ebenso vielfältig ausfallen, wie die Topics selbst. Schriftdokumente, Video- oder Audioaufnahmen, Bilder, etc. sind Beispiele für die Art von Occurrences. Für das Topic „Pippi Langstrumpf“ käme als Occurrence das Hardcover-Buch im Bücherschrank genauso in Frage, wie ein digitales
7
Portrait von Pippi im Internet, eine Pippi Langstrumpf-Videokassette oder die Homepage eines Pippi-Langstrumpf-Fanclubs.
Um die beliebig vielen Occurrences eines Topics zu kategorisieren und die Verbindung zwischen Topic und Occurrence zu beschreiben, steht das Konzept der ‚OCCURRENCE ROLE’ 12 zur Verfügung. Occurrence Roles sind deklarierte Topics, beschreiben die Art der Occurrence und grenzen diese somit voneinander ab. Die Occurrence „Digitales Portrait von Pippi Langstrumpf“ könnte als Occurrence Role „Bild“ zugeordnet bekommen, die Homepageadresse des Pippi-Fanclubs wäre mit der Occurrence Role „Webpage“ zu beschreiben, usw.
Die Trennung von Topics und den dazugehörenden Occurrences in zwei Schichten macht Abb. II.2 ebenso deutich, wie die Bedeutung von verschiedenen Occurrence Roles.
Die Bezeichnung im Trapez stellt den Base Name dar, die Begriffe im Rechteck darunter typisieren das Topic (Topic Types) und die ovalen Kreis versinnbildlichen die Occurrences. Die unterschiedliche Occurrence Role bei den Occurrences soll durch den farblich verschiedenen Hintergrund deutlich gemacht werden.
Abb. II.2: Pippi Langstrumpf-Topic Map ‚Occurrences’
12 Innerhalb der ‚occurrence role’ kann wieder ein ‚occurence role type’ definiert werden.
8
II.2.3 ‚TOPIC ASSOCIATION’
Das dritte elementare Konzept des Standards, neben Topics und Occurrences, bilden die Topic Associations. Durch Associations wird aus den einzelnen Topics mit ihren Verweisen zu den entsprechenden Informationsquellen (Occurrences) ein Netz geknüpft. Associations beschreiben die Beziehungen zwischen Topics. Topics werden in Relation zueinander gesetzt und logisch miteinander zu einem semantischen Netz verbunden.
Eine spezielle Form von Associations wurde schon im Abschnitt II.2.1 mit dem Topic Type eingeführt. Damit konnte allerdings nur eine Typhierarchie aufgebaut werden. Mit Associations ist es möglich, jede Form von Relation zu deklarieren - sowohl symmetrische, transitive, als auch reflexive.
Eine Association wird mit dem Element „Association Link“ umgesetzt, welches wiederum ein Topic darstellt. Der Association Link beinhaltet sowohl Verweise auf die in Verbindung zueinander zu stellenden Topics, als auch die Art der Relation. Beispiele für Associations sind: „Astrid Lindgren“ ist Autor von „Pippi Langstrumpf“ „Pippi Langstrumpf“ ist Titel von „Kinderbuch“ „Astrid Lindgren“ ist ein „Autor“
Die Association Types der oben genannten Associations sind „ist Autor von“, „ist Titel von“ und „ist ein“. Association Types beschreiben, analog zu den Types von Topics und Occurrences die Art der Beziehung. So können zu Associations auch jeweils nur ein einziger Typ zugeordnet werden, der selbstredend auch wieder als Topic deklariert sein muss. Um die Topics, zwischen denen eine Verbindung hergestellt wird, genauer zu beschreiben, gibt es optional die Möglichkeit, Association Roles in dem Association Link anzugeben. Im oben genannten Beispiel für Associations könnte für „Astrid Lindgren“ die Association Role „Autor“ definiert werden, und für das Topic „Pippi Langstrumpf“ wäre als Association Role „Buch“ möglich. Mit dieser Beschreibung besteht die Möglichkeit, weitergehende Zusammenhänge zwischen Topics für einen Anwender sichtbar zu machen. So wird durch die Definition der Association Roles eine Relation zwischen den Topics „Autor“ und „Buch“ geschaffen, welche möglicherweise wieder auf weitere Instanzen der beiden Klassen anwendbar ist, usw. Solche intelligenten Schlussfolgerungen sind in solchen Fällen teilweise möglich, auf deren Art und Umsetzung wird bei der Beschreibung von [ISO
13250] jedoch nicht eingegangen.
Die Associations besitzen im Grunde keine explizite Richtung. So besteht die Association zwischen „Astrid Lindgren schrieb Pippi Langstrumpf“ in umgekehrter
9
Richtung mit „Pippi Langstrumpf wurde geschrieben von Astrid Lindgren“. Manche Associations können auch symmetrisch betrachtet werden. So beispielsweise der Verweis „Astrid Lindgren ist verheiratet mit Sture Lindgren“. In beide Richtungen gelesen, ist diese Association „ist verheiratet mit“ korrekt. In Topic Maps sind transitive Associations wohl die interessantesten und begründen mitunter die Mächtigkeit des Standards. Transitive Associations stehen für Klasse-Instanz- oder Teil-Ganzes-Relationen und erlauben eine Reihe von impliziten Schlussfolgerungen. 13 Wenn ein Kinderbuch ein Buch ist und ein Buch eine Publikation, dann ist auch ein Kinderbuch eine Publikation. Im Bereich der Associations stellen die Relationen „Künstler erschafft Kunstwerk“ und „Autor schreibt Buch“ eine transitive Beziehung dar. Diese Möglichkeit, Schlüsse aus transitiv gekennzeichneten Associations zu ziehen, kann bei der Anwendung von Topic Maps eine bedeutende Rolle spielen.
Association Roles bieten weiterhin die Möglichkeit, einen Association Type für ein Topic mehrmals zu verwenden, wenn das Topic unterschiedliche Rollen einnehmen kann. Auch Association Roles stehen in Form von Topics zur Verfügung. Abb.II.3 zeigt die bereits bekannte Topic Map, erweitert um einige beispielhaft definierte Associations.
Abb II.3: Pippi Langstrumpf-Topic Map ‚Associations’
13 Vgl. [Rat99a]
10
II.2.4 ‚SCOPE’ und ‚THEME’
Die Elemente Scope und Theme des Topic Maps-Modells gewinnen bei der Abgrenzung von Gültigkeitsbereichen für Topics an Bedeutung. Die bisher in den Abschnitten II.2.1 bis II.2.3 beschriebenen Komponenten des Standards beschreiben Charakteristika eines Topics. Mit den bereits beschriebenen Komponenten ist es möglich, ein Topic zu spezialisieren und in Relation zu anderen zu setzen. Bei dem Entwurf einer Topic Map kann sehr schnell das Problem auftreten, dass verschiedene Topics mit unterschiedlichen Bedeutungen auftreten, die jedoch den selben Namen tragen. Um solche sogenannten Homonyme mit mehreren unterschiedlichen Bezügen in einer Topic Map mit dem gleichen Namen darstellbar zu machen, werden Scopes eingeführt. Diese beschreiben den Rahmen, in welchem das Topic zu interpretieren ist. „Pippi Langstrumpf“ stellt ein solches Homonym dar. Ein Topic mit diesem Namen kann sowohl das Buch beschreiben, als auch die Hauptfigur der Lindgren-Erzählung. Der Scope wäre dann im ersten Fall beispielsweise „Buch“ oder „Kinderliteratur“, im zweiten Fall wäre als Scope „Person“ oder „literarische Figur“ zu wählen. Ebenso wäre es denkbar, „Pippi Langstrumpf“ als Liedtitel oder Name eines Cafés zu interpretieren.
Eine differenzierte Abgrenzung wird durch eine Unterteilung in Themes und Scopes möglich. Themes beschreiben immer exakt einen Themenbereich, wie ihn „literarische Figur“ darstellt. Der Scope eines Topics kann dann mehrere Themes umfassen, die in ihrer Schnittmenge den Gültigkeitsbereich des Topics abstecken. Themes und Scopes sind, wie zu erwarten, auch wieder selbständige Topics.
II.2.5 ‚PUBLIC SUBJECT DESCRIPTOR’ und ‚FACET’
Public Subject Descriptor ist ein Konzept, das besonders bei einer Zusammenführung (Merging) von Topic Maps zur Geltung kommt. Im umgekehrten Fall zu dem Homonym-Problem, ist es möglich, dass zwei Topics zwar unterschiedliche Namen haben, aber dasselbe meinen. Ganz klassisch ist dies bei der Verwendung unterschiedlicher Sprachen der Fall. So haben die drei Topics „Autor“, „Author“ und „Auteur“ dieselbe Bedeutung, nur wurden sie unterschiedlich in den Sprachen Deutsch, Englisch und Französisch benannt.
Bei der Charakterisierung eines Topics kann ein ‚IDENTITY ATTRIBUTE’ eingerichtet werden, welches standardisierte Werte enthält. So gibt es beispielsweise festgelegte Ländercodes, welche Topics, die Länder beschreiben, identifizieren. Das Problem,
11
nicht sämtlich Topics standardisieren zu können, ist offensichtlich und somit ist die Nutzung dieses Konzeptes in erheblichem Umfang eingeschränkt. 14 Neben dem Public Subject Descriptor, welcher mit den Identity Attributes das Topic über die Grenzen einer Topic Map hinaus festlegt, ist im Topic Map Modell noch ein ‚SUBJECT DESCRIPTOR’ definiert. Der Subject Descriptor beinhaltet Informationen, die eindeutig die Identität des Topics beschreiben und dieses somit als unverwechselbar markieren.
Als letztes Konzept des Topic Maps-Modells wird hier noch das Element ‚FACET’ vorgestellt. Ein Facet besteht aus einem Eigenschafts-Wert Paar. Die Eigenschaft wird als Facet Type deklariert, die Werte bezeichnet man als Facet Values. Einem Topic kann mit Hilfe dieses Konzeptes eine Eigenschaft zugeordnet werden, die das Topic detaillierter beschreibt, die zusätzliche Informationen liefert, ohne eine Occurrence zu referieren und eine Filtermöglichkeit innerhalb einer Topic Map darstellt. Eine detailliertere Beschreibung des Topics „Astrid Lindgren“ wäre zum Beispiel durch die Einrichtung eines Facets mit der Eigenschaft „Geschlecht“ und dem entsprechenden Wert „weiblich“ möglich. Ein Facet mit der Eigenschaft „Geburtsdatum“ und dem dazugehörigen Wert „14.11.1907“ stellt eine zusätzliche Information zur Verfügung, ohne auf eine Occurrence verweisen zu müssen. Das Facet-Element lässt somit die strikte Trennung zwischen dem semantischen Netz der Topic Maps, oberhalb jeglicher Inhalte, und den Informationsressourcen verschwimmen. Facets sind selbst natürlich auch Topics, können durch ihre Filter-Funktion aber auch als orthogonal zu der Topic Maps-Struktur stehend interpretiert werden. Topics können durch Facets gefiltert werden, indem nur solche Topics als relevant betrachtet werden, die für einen bestimmten Facet Type einen speziellen Wert beinhalten. So ließen sich durch den Facet Type „Geschlecht“ sämtliche weibliche Autoren aus der Menge sämtlicher Autoren herausfiltern. Facets können wiederum mit Facets weitere Eigenschaften zugeordnet werden, so dass zusammenhängende Ketten gebildet werden können.
14 Vgl. [Pep99a] S.56
12
III. Einsatzmöglichkeiten von Topic Maps
III.1 Wissensmanagement
Die grundlegende Motivation für die Entwicklung von Topic Maps war der Wunsch, Wissen und Informationen effektiv zu strukturieren und praktisch nutzbar zu machen. So beschreibt H. Rath die Topic Maps als „the GPS of the information universe“ 15 . Als Ziel der Topic Maps nennt die XTM Specification „… to improve the findability and the manageability of information.” 16 .
Topic Maps können theoretisch überall dort Einsatz finden, wo große Mengen an Informationen und Wissen vorhanden sind. Da Topic Maps aber nicht nur Daten strukturieren können, sondern auch semantische, teilweise intelligente Verbindungen herstellen, gibt es auch außerhalb einer reinen Datenverwaltung neue Anwendungsmöglichkeiten.
Der Topic Maps Standard ist jedoch noch so neu, dass es auf dem Gebiet der Applikationen noch hohen Entwicklungsbedarf gibt. Eine Auflistung von einigen derzeit zur Verfügung stehenden Anwendungen ist in Kapitel VI angeführt. Die Ausgestaltung von nutzbaren Tools, die auf konkrete Aufgaben ausgelegt sind, liegt noch in der Zukunft. Daher können über potenzielle Einsatzmöglichkeiten nur unter Vorbehalt Prognosen angestellt werden. In welchen Bereichen der Standard erfolgreich eingesetzt werden kann, wird im Großen davon abhängen, wie intelligent und praktisch eine Umsetzung möglich ist. Ein Beispiel, an dem die Mächtigkeit und Problematik einer Topic Maps - Struktur in einer Anwendung erkennbar sind, wird in Kapitel III am Beispiel der WordNet - Ontologie behandelt. Das Feld der möglichen Einsatzmöglichkeiten für Topic Maps ist auch aus dem Grund so vielfältig, weil der Standard an sich so abstrakt und flexibel ausgelegt ist 17 . Die Struktur mit Topics und Associations ist nahe am menschlichen Denken angelehnt und daher so vielseitig.
In den folgenden Abschnitten werden jeweils Gebiete vorgestellt, die für einen Einsatz von Topic Maps prädestiniert erscheinen. Durch die Flexibilität des Standards variieren dabei die Aspekte des Modells, die im Vordergrund stehen. So reichen die funktionellen Schwerpunkte von Sucheigenschaften (im Internet) über Katalogisierung (bei Datenbanken) hin zu assoziativen Verknüpfungen (im e-Learning).
15 Siehe [Rat01] S.1
16 Siehe [XTM1.0]
17 Siehe dazu auch Kapitel V.1
13
III.2 Internet
Das Internet entwickelte sich in den letzten Jahren zu einer gigantischen Datenressource. Laut der aktuellen Zählung von [RIP@] war im Mai 2003 die Anzahl von 20.209.347 Rechnern (Hosts) an das Internet angeschlossen. Unzählige Dokumente, Bilder, etc. stehen weltweit zur Verfügung und bilden einen heterogenen Informationspool enormen Ausmaßes. Durch diese riesigen Mengen wird es jedoch auch sehr schwer, genau das zu finden, was man sucht - die sprichwörtliche Suche nach der Stecknadel im Heuhaufen. Die allgemein bekannten Suchmaschinen im Internet arbeiten mit einer Volltextsuche und liefern teilweise unüberschaubare Mengen an Treffern.
Die Notwendigkeit, dieses Wissen zu strukturieren und navigierbar zu machen, liegt auf der Hand.
So spricht man beim Internet der nächsten Generation gerne von einem „semantic web“, welches eine sinnvolle Vernetzung der Informationen bieten soll 18 . Dokumente und andere Informationsquellen können durch Topic Maps erfasst und mit Metadaten versehen werden. Auch Verknüpfungen zwischen einzelnen Themen wären möglich und durch die Setzung von Scopes könnte die Suche auf einen gewünschten Rahmen begrenzt werden. Das allergrößte Problem hierbei ist jedoch die Anfertigung der Metadaten. Der Rahmen, in welchem ein Artikel Gültigkeit besitzt oder beispielsweise der Inhalt eines Bildes müssen interpretiert werden und lassen sich nicht automatisch erfassen, sondern müssen „von Hand“ eingetragen werden. Neben der reinen Suchfunktion von Suchmaschinen spielen bei der Navigation durch das Web auch sog. Webportale oder Themenkataloge (wie beispielsweise Yahoo.com) eine große Rolle. Diese sind in ihrer Struktur dem Topic Maps Modell bereits ähnlich und könnten sicherlich relativ leicht mit Hilfe von Topic Maps umgesetzt werden. Allein die drängende Notwendigkeit, die Inhalte des Internets zu strukturieren und leichter zugänglich zu machen, wird die Entwicklung von Topic Maps - Applikationen für das Internet fördern.
Das Internet spielt für die Bedeutung der Topic Maps auch dahingehend eine große Rolle, dass Dienste, welche auf dem Topic Maps - Modell beruhen über das Internet zugänglich gemacht werden können. So beispielsweise Online - Enzyklopädien oder große Datenbanken.
18 Vgl. [Ber01]
14
III.3 Datenbanken
Datenbanken sind meist thematisch bereits auf gewisse Gebiete ausgelegt und können in ihrem Inhalt sehr stark variieren. So existieren Datenbanken, die hauptsächlich aus reinen Zahlenkolonnen bestehen genauso, wie Datenbanken, welche Zeitungsartikel archivieren, oder Personendaten verwalten. Durch die Möglichkeit, Topic Maps situationsbezogen an die jeweiligen Daten anzupassen, ist ein Einsatz in jedem beschriebenen Fall möglich.
Die praktische Umsetzung einer Datenbank durch eine Topic Map ist nicht nur theoretisch vorstellbar, sondern ist bereits in Form eines Zeitungsartikelarchivs verfügbar. Die „Wiener Zeitung“ hat nach eigenen Angaben als erstes Zeitungsunternehmen der Welt eine Topic Map-Datenbank entwickelt 19 . Diese ist öffentlich im Internet verfügbar und stellt Zeitungsartikel, strukturiert nach den Regeln des ISO-Standards zur Verfügung. Damit ist ein gutes Beispiel für die Anwendung von Topic Maps für Datenbanken vorhanden.
III.4 Glossare
Glossare beschreiben, alphabetisch geordnet, wichtige Begriffe, die in einem gewissen Zusammenhang, meist in einem Dokument, eine Rolle spielen. Sie bieten so selbständig, unabhängig von Verweisen, eine Definition von ausgesuchten Begriffen. Die relativ einfache Struktur eines Glossars ließe sich so wohl auch problemlos durch Topic Maps darstellen. Die zu definierenden Begriffe könnten leicht als Topics innerhalb einer Topic Map betrachtet werden. Die Definition könnte im Rahmen eines Topic Maps - Modells prinzipiell auf zwei Arten verankert werden. Zum einen wäre es möglich, die Definitionsbeschreibung direkt mit in das Topic durch Facets zu integrieren. Dies ist möglich, da Definitionen in Form eines Glossars nur aus Text bestehen und relativ kurz und elementar ausfallen. Zum anderen bestände die Möglichkeit, Occurrences anzulegen, welche die Definitionen enthalten.
Eine ähnlich Struktur und damit auch einen ähnlichen Einsatz von Topic Maps stellen Lexica und Enzyklopädien dar.
19 Siehe [Wie@]
15
III.5 Lexika/ Enzyklopädien
Lexika bzw. Enzyklopädien bilden bereits durch ihre interne Struktur mit der Aufgliederung in Begriffe eine einfach durch Topic Maps darstellbare Anwendungsmöglichkeit. So bilden die Begriffe die einzelnen Topics, welche dann genauer charakterisiert werden können. Texte und Bilder können als Occurrences angegeben werden, Verweise mit Hilfe der Associations. Inwieweit das Modell mit seinen Möglichkeiten ausgenutzt wird, hängt dann von der jeweiligen Umsetzung ab. Topic Maps bilden sicherlich eine gute Grundlage, um digitale Enzyklopädien zu entwickeln, die mit multimedialen Quellen arbeiten. Lexika und Enzyklopädien existieren, um Wissen und Informationen zugänglich zu machen. Insofern passt die Auslegung des ISO- Standards sehr gut in dieses Gebiet und findet dort potenziell gute Einsatzmöglichkeiten.
III.6 Content Management Systeme in Unternehmen
Das ‚Knowledge Management’ spielt besonders in größeren Unternehmen eine wichtige Rolle. Der Erfolg eines Unternehmens hängt in hohem Maße von der internen Kommunikation und Informationspolitik ab. Das Wissen und die Informationen, welche innerhalb einer Unternehmung vorhanden sind, sollten im Allgemeinen für alle Mitarbeiter leicht zugänglich sein. Um den Aufwand der Informationsbeschaffung, welcher durchaus einen großen Teil der Arbeit einer Firma ausmachen kann, gering zu halten, kommen in Unternehmen Content Management Systeme zum Einsatz. Unterschiedliche Abteilungen, welche im Grunde voneinander unabhängig arbeiten, verwenden öfters die gleichen Informationen, bzw. arbeiten mit der gleichen Wissensgrundlage. Um denselben Suchprozess, bzw. die gleiche Wissensbeschaffung nicht parallel mehrmals in einem Unternehmen finanzieren zu müssen, ist es vorteilhaft, Systeme einzurichten, die zentral Informationen managen. Informationen und Daten, aber auch das Wissen und die Fähigkeiten „in den Köpfen“ der Mitarbeiter, sollen für das komplette Unternehmen zugänglich gemacht werden. Die Suche kann meist nicht exakt definiert werden, sondern es werden lediglich Informationen in einem gewissen Rahmen gesucht, ohne beispielsweise konkrete Titel von firmeninternen Publikationen zu kennen. Dies macht eine Strukturierung der Informationen, in welcher man assoziativ navigieren kann, sehr vorteilhaft. So bildet
16
das Feld der Content Management Systems ein weites Anwendungsgebiet für Topic Maps. 20
III.7 Telemediales Lernen
Da in letzter Zeit große Mengen an Informationen in digitaler Form vorhanden sind, liegt es Nahe, auch die Wissensvermittlung und Wissensaneignung in digitaler Form anzubieten. Diese telemedialen oder elektronischen Lern- oder Lehrformen arbeiten mit digitalen Medien und besitzen somit neue Möglichkeiten des Lernens. Telemediales Lernen kann sowohl in der beruflichen Fort- und Weiterbildung Anwendung finden, als auch im privaten Bereich. Auch professionelle Lehranstalten, wie Universitäten, entwickeln mehr und mehr Konzepte hin zu telemedialen Lehrformen. So werden an der TU Darmstadt bereits Online-Vorlesungen angeboten und an konkreten Projekten gearbeitet 21 . So beispielsweise an dem Projekt k-MED, in welchem ein elektronisches Lehrsystem für den Bereich der Medizin entwickelt wird. Für genaueres siehe [k-M@].
Vorteile des telemedialen Lernens gegenüber herkömmlichen Methoden ist erstrangig die orts -und zeitunabhängige Möglichkeit, Lernangebote in Anspruch zu nehmen. Auch was die Teilnehmerzahl betrifft, ist man bei einer elektronischen Lernumgebung sehr flexibel. Durch die Einbindung multimedialer Komponenten in das Lehrangebot kann eine größere Interaktivität der Lernenden erreicht werden, was positive Auswirkungen auf die Lernerfolge hat.
Durch die schnelle Überholung von Wissen auf neuen Forschungsgebieten besteht bei den entsprechenden Themen ein hoher Anspruch auf Aktualität. Diese Aktualisierungen sind im telemedialen Bereich um einiges effektiver vorzunehmen, als bei herkömmlichen Lehrformen. Besonders durch eine modulare Zusammensetzung der Lerninhalte können dann ganz gezielt überholte Inhalte ausgetauscht werden. 22 Topic Maps können dazu dienen, solche Lernumgebungen zu strukturieren. Mit den Konzepten der Topic Maps sind Lernpfade kreierbar, die verschiedene Topics miteinander verbinden. Verknüpfungen können aufgebaut werden, mit denen beispielsweise weitere Hilfen oder Vertiefungen aufgezeigt werden können. Durch die Einrichtung von Facets könnte auch eine Filterung der Lerninhalte nach gewähltem Anspruchsniveau stattfinden. Innerhalb eines Themengebietes (Scope) könnten dann,
20 Vgl. [Sig03] und [Koo01].
21 Vgl. [KOM@]
22 Vgl. [See02]
17
je nach den Voraussetzungen des Anwenders, spezielle Inhalte für Anfänger oder Fortgeschrittene ausgewählt werden.
Ein weiterer Vorteil von Topic Maps stellt die Integrierbarkeit verschiedener Topic Maps dar. So können Lernumgebungen einfach zusammengeführt oder erweitert werden. Module, welche in verschiedenen Bereichen einsetzbar sind, sind demnach leicht mehrfach zu verwenden und unkomplizierter zu aktualisieren. So können komplett unterschiedliche ‚Lernpfade’ auf die gleichen Occurrences zugreifen. Ist der Inhalt einer Occurrence überholt, muss diese nur einmalig aktualisiert werden. 23
III.8 E-Commerce
Für Einsatzmöglichkeiten der Topic Maps im E-Commerce stehen hier vor allem Online-Auktionen und Online-Shops im Vordergrund.
Diese Geschäftsgebiete finden bereits große Anwendung und steigern ihre Bedeutung in erheblichem Maße. Hervorstechende Unternehmen im Costumer-to-Costumer -und im Business-to-Costumer-Bereich stellen „Amazon“, der „Otto-Versand“ und „ebay“ dar. „ebay“, das Internet-Auktionshaus beispielsweise, stößt mit knapp 15 Milliarden $ Umsatz weltweit im Jahr 2002 in große Dimensionen vor 24 . Vorteile des E-Commerce gegenüber dem herkömmlichen Handel bestehen sicherlich in der Orts- und Zeitungebundenheit, seine Einkäufe tätigen zu können. Auch das Sortiment kann durch die zentrale Lagerung reichhaltiger angeboten und einfacher auf die verschiedenen Wünsche der Kunden ausgelegt werden.
Ein Nachteil der virtuellen Kaufhäuser besteht darin, dass man die Ware nicht direkt betrachten und ausprobieren kann, sondern sich mit Bildern und Beschreibungen begnügen muss. Auch die persönliche Beratung fehlt bei Online-Shops. So bieten die neuen Online-Shops eine gute Alternative für Kunden, die genau wissen, was sie wollen. Ist dies jedoch nicht der Fall, kann man sich in dem vielfältigen Angebot leicht verlieren. Um dies zu verhindern und keine potenziellen Kunden durch große und unübersichtliche Produktmengen zu verlieren, hat man großes Interesse daran, seine Angebote leicht zugänglich zu machen, und Hilfestellungen bei der Suche nach dem richtigen Produkt zu geben. Hierbei könnten auch Topic Maps eine wichtige Rolle spielen, indem das Navigieren in der Produktpalette vereinfacht wird. Gerade bei komplizierteren Produkten sind intelligente Assistenten vonnöten, die während des Kaufprozesses beratend zur Seite stehen. Hier könnten beispielsweise assoziative Verbindungen der Topic Maps eine Aufgabe übernehmen und einen Pfad über
23 Vgl. [Sig02].
24 exakt 14,87 Milliarden $. Vgl. [eba@].
18
verschiedene Topics bilden, an dem der Käufer zu dem für ihn idealen Produkt navigiert wird. 25
III.9 Ontologiestrukturen: Fokus „WordNet“
Topic Maps lassen in ihrer Struktur starke Analogien zu Ontologien erkennen. Ontologien bieten eine Repräsentation der zugrundeliegenden Begriffe und derer Zusammenhänge und erfüllen somit, ebenso wie Topic Maps, die Aufgabe, Informationen zu strukturieren und zu interpretieren 26 . Damit ergibt sich für Ontologien ein sehr großes Anwendungsfeld. Große und fortgeschrittene Ontologien sind auf dem linguistischen Gebiet vorhanden und befinden sich auch noch weiter im Aufbau. Das sprachwissenschaftliche Forschungsgebiet über Relationen und Strukturen in der Sprache bilden ein solides Fundament, um Ontologien zu entwickeln. Für die englische Sprache gibt es bereits größere lexikalisch-semantische Netze, wie WordNet 27 und Cyc 28 .
Ableger davon für andere europäische Sprachen befinden sich ebenso im Aufbau. Beispiele dafür sind GermaNet 29 oder EuroWordNet 30 . Die Forschung und das Wissen über den Aufbau von Ontologien kann dank der starken Analogien auch bei der Kreation von Topic Maps hilfreich sein. Topic Maps können bei großen Mengen an Informationen schnell unübersichtlich werden, was besonders zu einem Problem des Autors einer Topic Map werden kann. Ontologien können daher helfen, semantisch gültige Topic Maps zu kreieren. Trotz der flexiblen und freien Ausgestaltung des Standards ISO/IEC 13250 gibt es bei der Erstellung einer Topic Map gewisse Bedingungen und Zwänge, denen man sich unterwerfen muss. Um sinnnvoll gestaltete Topic Maps zu bilden, kann man die Struktur von Ontologien übernehmen und Topic Map-Ontologien bilden 31 . In [Gro02] wird diese Topic Map Ontologie so beschrieben:
The set of priviledged topics and their characteristics, including associations between them, is what we can call the topic map ontology.
Im folgenden Kapitel wird die Implementierung von WordNet durch Topic Maps analysiert und somit explizit eine Anwendungsmöglichkeit des Topic Map Standards für eine lexikalische Ontologie aufgezeigt.
25 Vgl. [Rat01]
26 Vgl. [Hes02]
27 siehe [Wor@]
28 siehe [Cyc@]
29 Nähere Informationen zu GermaNet in [Ham97].
30 Siehe [Eur@].
31 Vgl. [Gro02]
19
IV. Topic Maps und die WordNet-Ontologie
IV.1 Ontologien
IV.1.1 Definition und Hintergründe
Der Begriff ‚Ontologie’ wird in vielen Zusammenhängen verwendet und dementsprechend streuen sich auch die Definitionen, welche für Ontologien vorhanden sind. Ontologien in dem Sinne, wie sie in dieser Arbeit verstanden werden, repräsentieren und organisieren Wissen in einer klaren Struktur. Wissensdomänen werden, wenn sie durch eine Ontologie dargestellt werden, in Begriffe und Beziehungen zwischen den Begriffen aufgeteilt und damit eine semantische Struktur gebildet. T. Gruber bietet in [Gru93] eine Definition für den Begriff ‘Ontologie’ an:
"An ontology is a formal, explicit specification of a shared conceptualization. `Conceptualization' refers to an abstract model of phenomena in the world by having identified the relevant concepts of those phenomena. `Explicit' means that the type of concepts used, and the constraints on their use are explicitly defined. `Formal' refers to the fact that the ontology should be machine readable. `Shared' reflects that ontology should capture consensual knowledge accepted by the communities". 32
Ontologien als formale Beschreibung von Begriffen zu sehen, steht auch in dem Erklärungsversuch in “The MIT Encyclopedia of the Cognitive Science” im Vordergrund. Dort wird ‚Ontologie’ als „..a related collection of formalized concepts…” 33 definiert. Ontologien bieten vielfältige Darstellungsmöglichkeiten für Informationen, die beispielsweise über die einer reinen Klassifizierung hinausgehen. Sie bilden eine bestimmte Art von semantischen Netzen und können je nach Ausgestaltung unterschieden werden. So wird in [Sow96] zwischen axiomatischen und terminologischen Ontologien differenziert.
Die in diesem Kapitel genauer untersuchte Ontologie ‚WordNet’ gehört zu der Gruppe der terminologischen Ontologien.
Diese Ontologien sind nicht vollständig durch Axiome beschrieben, wie die axiomischen Ontologien. 34
32 Zitat aus: [Gru93].
33 Zitat aus: [MIT99].
34 Vgl. [See02], S.73.
20
Die Existenz von Ontologien läßt sich auf den selben Ursprung zurückführen, der auch den Topic Maps - Standard begründet. Auf dem Gebiet der Wissensverarbeitung besteht der Wunsch, leicht zu handhabende, standardisierte Strukturen der Wissensdarstellung zu besitzen, mit denen man einfach arbeiten kann und die kompatibel sind. Geläufige Begriffe auf diesem Gebiet sind ‚Knowledge Representation’, ‚Knowledge Management’, ‚Knowledge Acquisition’ oder auch ‚künstliche Intelligenz (artificial intelligence)’ und ‚Cognitive Modeling’.
IV.1.2 Beispiele und Anwendungen
Ontologien sind für die unterschiedlichsten Bereiche vorhanden und sind in ihrer Definition so flexibel, dass ständig neue Varianten entstehen. In den vorhergehenden Kapiteln kamen auch schon Ontologien zum Tragen, ohne dass sie speziell als solche benannt wurden. So kann das Beispiel von Pippi Langstrumpf, mit dem das Topic Maps - Modell erklärt wurde auch als Ontologie betrachtet werden. Eine Repräsentation der geschilderten Wissensdomäne um ‚Pippi Langstrumpf’ ist in Abbildung IV.1 als reine Ontologie dargestellt. Dabei bleiben die speziellen Anforderungen des Topic Maps - Standards unberücksichtigt und die Form der Darstellung kann frei gewählt werden.
Somit kann jedermann über jedes beliebige Thema seine eigene Ontologie aufbauen. Eine Anleitung für strukturiertes Vorgehen bei dem Entwerfen einer Ontologie findet sich bei [Noy03] und [Gru95].
Auch die als Anwendungsgebiet von Topic Maps vorgestellten Webportale sind als Ontologien strukturiert. Themenkataloge wie beispielsweise bei Yahoo.com oder Ciao.com können als Ontologien betrachtet werden, die sich im Groben auf eine Aufgliederung in Klassen und Unterklassen beschränken (Klassifizierung von Internetseiten). Es gibt auch noch einige weitere Ontologien, die sich mit der Strukturierung des Internets beschäftigen, jedoch konnte sich noch keine durchsetzen oder bewähren. 35
Ontologien größeren Ausmaßes finden sich im lexikalisch-linguistischen Bereich. Die bereits erwähnten Ontologien WordNet und Cyc bilden relativ umfassend die englische Sprache wieder und gehören zu den ausgefeilteren Ontologien. Eine ausführliche Beschreibung und Analyse der WordNet Ontologie findet sich in diesem Kapitel in Abschnitt 3.
Aber auch im Bereich digitaler Bibliotheken gibt es Bestrebungen, Such- und Verwaltungsfunktionen mit Hilfe von Ontologien, die die unterschiedlichen, bereits
35 Vgl. [Hef99]
21
bestehenden Systeme miteinander verbinden, zu vereinfachen. Die ‚ABC-Ontology’ ist beispielsweise auf dieses Feld ausgerichtet. 36
Abb. IV.1: Pippi Langstrumpf-Ontologie
IV.2 Ontologiestrukturen und der Topic Maps - Standard
Wenn man den ISO/IEC 13250 Standard betrachtet, so setzt dieser nur sehr wenige Vorschriften fest, wie eine Topic Map aufzubauen ist. In der Gestaltung der Verknüpfungen, was Associations und Occurrences betreffen, wird dem Autor der Topic Map relativ freies Spiel gelassen. Inwieweit die Konkretisierung bei einzelnen Topic Maps aussieht, hängt vom jeweiligen Einzelfall ab. Auch wie der Standard
36 Vgl. [Lag01]
22
genutzt werden soll und auf welchen Gebieten dieser Anwendung finden soll, wird nicht festgesetzt. Dieser generalistische Ansatz ist so gewollt und die Flexibilität in der Anwendung des Modells ist eine wichtige Charakterisierung und begründet mitunter die Mächtigkeit. In den Worten des Standards ist dies folgendermaßen formuliert: “This International Standard constraints neither the use to which topic maps can be put, nor the character of the processing that may be applied by a conforming application. This conformance clause is intended to guarantee that conforming topic maps can be understood to whatever degree conforming read-only applications are intended to understand them, and that the topic mapping information expressed using the topic map syntax will be preserved by conforming read/write applications…” 37
Es gibt eine Festlegung auf gewisse Zwänge, sogenannte ‚constraints’, die sich jedoch hauptsächlich auf die Syntax und formale Beschreibungen beziehen. Durch das Fehlen einer ‚Anleitung’, wie Topic Maps strukturiert sein sollten, kann man sehr schnell zu einem Punkt kommen, an dem die Masse der zu verarbeitenden Topics, Associations und Occurrences so groß ist, dass man leicht die Übersicht verliert. Daraus folgt, dass auch bei der Kreation einer Topic Map ein hoher Organisationsgrad vorhanden sein sollte. Topic Maps müssen, wenn sie sinnvoll eingesetzt werden sollen, semantisch gültig sein und keine Unklarheiten oder Widersprüche aufweisen.
Das Wissen über Ontologien und deren Aufbau kann zum Erreichen dieses Ziels beitragen. Durch die starken Analogien zwischen Ontologien und Topic Maps lassen sich leicht Parallelen finden. Die Struktur von Topic Maps und die von Ontologien ähneln sich durchaus 38 . So besteht, wie bereits beschrieben, auch eine Ontologie in ihren Kernelementen aus einer Art Topic und Relationen zwischen diesen. Bei Ontologien spricht man terminologisch eher von Begriffen (bzw. von ‚concepts’) und deren Relationen. Ontologien bilden oft Gruppen von Begriffen, die dann durch Relationen miteinander verknüpft werden können. Diese Relationen können auch transitiv, symmetrisch, oder relativ sein. Die Umsetzung einer Ontologie ist nicht formal standardisiert, sodass Beschreibungen von Ontologien immer voneinander abweichen und differenzierte Formen annehmen können. Typisch für Ontologien ist ein hierarchischer Aufbau ihrer Struktur. Diese Einteilung in Ober- und Unterklassen läßt sich auch für Topic Maps finden. Eine Topic Map besitzt eine bestimmte Auswahl besonderer Topics, die eine fundamentale Struktur vorgeben. 39 Diese Topics bilden ein Gerüst für die komplette Topic Map und nehmen im Besonderen die Funktion von
37 Zitat aus [ISO13250] S.26, Note 50
38 Vgl. [LeG02]
39 Vgl. [Gro02] S.2
23
Typen wahr. Dieser Auswahl an speziellen Typen-Topics werden die restlichen Topics zugeordnet. Beispielsweise erfolgen Zuordnungen als Topic Types, Association Types, Occurrence Types, Facet Types, Facet Value Types oder Themes. Diese Types kann man, anlehnend an die Definition von Groenmo in seinem Artikel ‚Creating semantically valid topic maps’ 40 , als Ontologie-Topics bezeichnen. Auch das Element ‚Scope’ läßt eine Aufgliederung der Topic Map nach Ontologie-Strukturen zu.
Die Auswahl dieser besonderen Topics, vor allem auch unter der Berücksichtigung der Associations zwischen ihnen, bildet dann eine Topic Map Ontologie. Bei der Erstellung einer Topic Map muss diesem Konstrukt eine besondere Beachtung zukommen, da diese Topic Map Ontologie die Grundstruktur für die Topic Map vorgibt. Es ist sicherlich vorteilhaft und hilft bei der Bewahrung des Überblicks, wenn beim Aufbau einer Topic Map die Herangehensweise über eine Topic Map Ontologie gewählt wird. 41
IV.3 WordNet: Eine charakteristische Beschreibung
IV.3.1 Entwicklung und Hintergründe
Im folgenden Abschnitt wird das elektronische Wörterbuch ‚WordNet’ vorgestellt und analysiert, sowie dessen Besonderheiten herausgestellt. WordNet wurde an der Princeton University, New Jersey, USA entwickelt und findet seine Anfänge im Jahr 1985. Ausgangspunkt für die Entwicklung ist die Idee, die neuen Möglichkeiten der Computertechnik mit den Optionen, die eine rechnergestützte Datenverarbeitung bietet, auszunutzen, um ein mächtigeres Wörterbuch als die bisher vorhandenen aufzubauen.
WordNet ist ein Online-Wörterbuch, das in elektronischer Form seine Anwendung findet. Die englische Sprache soll möglichst umfassend und benutzerorientiert in diesem neuen elektronischen lexikalischen Werk abgebildet werden. Als Grundstruktur verwendet man dafür psycholinguistische Grundlagen und Theorien der Sprachwissenschaften. 42
40 Siehe [Gro02]
41 Vgl. [Obr03
42 Vgl. [Mil93], S.2
24
Die Autoren von WordNet, Georg A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, und Katherine Miller, beschreiben WordNet in [Mil93] folgendermaßen:
WordNet is an on-line lexical reference system whose design is inspired by current psycholinguistic theories of human lexical memory. English nouns, verbs, and adjectives are organized into synonym sets, each representing one underlying lexical concept. Different relations link the synonym set. […] WordNet is a proposal for a more effective combination of traditional lexicographoc information and modern high-speed computation. 43
Die Konzeption von WordNet orientiert sich am sprachlich-lexikalischen Gedächtnis und Denken des Menschen und daran, wie dieser Sprache verarbeitet und organisiert. Als Konsequenz weist der Aufbau von WordNet im Vergleich zu üblichen Sprachlexika große Unterschiede auf. Eine Anordnung der Wörter und Begriffe nach alphabetischer Reihenfolge muss dem neuen System der Organisation der Begriffe nach Wortarten weichen. WordNet besteht aus relativ unabhängig voneinander existierenden Grundkonzepten, aufgeteilt in Nomen, Verben und Adjektive. 44 Diese einzelnen Grundkonzepte bilden für sich selbständige lexikalische Wörterbücher. Verbindungen sind bisher nur in sehr geringem Umfang vorhanden, so beispielsweise über die Zuordnung von Attributen. 45
Innerhalb dieser einzelnen Wörterbücher basiert die grundlegende Organisationsidee auf der Bedeutung der Wörter (word meaning), und nicht auf der Wortform (word form). Wörter werden ihrer Bedeutung entsprechend einander zugeordnet und somit liegen ähnliche Bedeutungen auch, sinnbildlich gesprochen, „näher“ zusammen. Dies ist das Resultat der psycholinguistischen Betrachtung der Sprache. Im menschlichen Gedächtnis basiert die assoziative Strukturierung der Sprache auf dem Bedeutungscharakter der Wörter. Die explizite Umsetzung variiert in den Strukturen von Nomen, Verben und Adjektiven leicht, die Grundidee ist jedoch dieselbe. Die elementare Einheit von WordNet bilden die sogenannten „Synsets“. In „Synsets“ sind Wörter derselben Bedeutung zusammengefasst und bilden folglich ein „Set von Synonymen“. Diese „Synsets“ können in Beziehung zueinander gesetzt werden und bilden dann die Knoten eines semantischen Netzes. WordNet besitzt 70.100 solcher „Synsets“ (word meanings) und 95.600 unterschiedliche Wortformen (word forms). 46
43 Zitat aus [Mil93], S.1
44 Einteilung beruht auf [Fil65]
45 Näheres dazu in Kapitel IV.4.3
46 Vgl. [Mil93] S. 2
25
Eine Folge dieser konzeptuellen Aufteilung ist beispielsweise das mehrmalige Vorkommen einer gleichen Wortform. Besitzt ein Wort mehrere Bedeutungen (d.h., ist es polysem), findet man dieses Wort auch mehrmals in der WordNet Datenbank. WordNet legt auch einen besonderen Wert auf die Repräsentation von Ausdrücken, die mehrere Wörter beinhalten (multi-word strings). So gehen in das Sprachlexikon auch sogenannte „idiomatic verb phrases“ ein, die oft auch nur umgangssprachlich benutzt werden. Die Aufgliederung in Bedeutungsrahmen macht es leichter, diese Art von linguistischen Ausdrücken zuzuordnen, da das Problem der alphabetischen Zuordnung damit umgangen werden kann. 47
Beziehungen, die zwischen den abgegrenzten Bedeutungen bestehen, unabhängig von der konkreten Wortform, die betrachtet wird, bezeichnet man als semantische Relationen (semantic relations). Diese Form der Relation spielt eine hervorstechende Rolle in der Struktur von WordNet. Die reine Beziehung zwischen Wortformen nennt man lexikalische Relation (lexical relation). 48
Konkrete Anwendungen lexikalischer und semantischer Relationen wie zum Beispiel die Beschreibung von Synonymen, Antonymen, Hypernymen, etc. werden in den nachfolgenden Abschnitten behandelt, die genauer auf den jeweiligen Aufbau der Wörterbücher für Nomen, Verben und Adjektive eingehen.
IV.3.2 Funktion und Möglichkeiten von WordNet
Bisher wurde beschrieben, welche Idee hinter dem Konzept von WordNet steht, wie die grobe Strukturierung und der Aufbau aussieht und welche Punkte besondere Berücksichtigung bei der Konstruktion des Online-Wörterbuchs finden. Im Folgenden wird deutlich gemacht, welche Anwendungen mit WordNet möglich sind. Sowohl auf den lexikalischen Anwendungsfeldern üblicher Wörterbücher, aber auch darüber hinaus nimmt WordNet wichtige Aufgaben war, welche lexikalische und linguistische Fragestellungen berühren. Welche Anwendungen konkret mit WordNet durchgeführt werden, hängt auch in großem Maße von den Ideen und den Fähigkeiten der Anwender ab.
Wie bereits erwähnt, ist WordNet nicht dazu gedacht, nach alphabetischen Strukturen eine Auflistung aller englischen Wörter anzubieten. Der Aufbau nach konzeptionellen Gesichtspunkten erlaubt die Verwendung von WordNet als semantisch navigierbare lexikalische Informationsressource, die sowohl
47 Vgl. [Fel98a]
48 Vgl. [Mil93] S.5.
26
kurze Definitionen mit Beispielen von Begriffen liefert, als auch Thesaurusfunktionen erfüllen kann.
Eine neue Funktion, welche die Überlegenheit gegenüber bisherigen lexikalischen Werken ausmacht ist sicherlich die Möglichkeit, die Ober- und Unterklassen eines Begriffes anzeigen zu lassen. Somit kann die Positionierung eines Wortes in einem großen Zusammenhang verdeutlicht werden.
Die expliziten Funktionen, die in WordNet implementiert sind, variieren unter den verschiedenen Wortarten und werden einzeln im nächsten Abschnitt untersucht.
IV.4 WordNet - Analyse
Die Funktion von WordNet soll nun unter Verwendung eines Anwendungsbeispiels analysiert und deutlich gemacht werden.
Dafür werden sämtliche Angaben, die WordNet bezüglich eines Wortes ausgibt, aufgelistet. Die einzelnen Wortarten Nomen, Verb und Adjektiv werden in dieser Reihenfolge getrennt betrachtet. Dieses separate Vorgehen für die einzelnen Wortarten findet ebenso analog bei der Benutzeroberfläche von WordNet statt. Dort muss auch zu Beginn einer Suchanfrage die gewünschte Wortart ausgewählt werden.
IV.4.1 Nomen in WordNet
Beispiel: „author“
Als Beispiel der Wortart „Nomen“ wird der Begriff „author“ gewählt, als Anzeigeoptionen wird folgende Auswahl angeboten:
Aus diesen Optionen kann der Benutzer die gewünschte Funktion auswählen. In diesem Abschnitt werden die Punkte einzeln betrachtet und jeweils, teilweise auszugsweise, die Resultate dargestellt, die bei der Wahl einer Funktion aufgelistet werden.
27
IV.4.2 Synsets, Synonyms
Die Wahl von ‚Synonyms’ erzeugt folgende Ausgabe:
Untergliedert in die unterschiedlichen Bedeutungen (“Senses”), werden die Synsets angegeben. „Author“ ist Teil von zwei „Synsets“. Diese sind:
Synset Sense 1: [writer, author] Synset Sense 2: [generator, source, author]
Jedes Synset besitzt eine kurze Definition, welche die Bedeutung beschreibt. Diese Definition kann auch einen Beispielssatz beinhalten :
Synset Sense 1: [writes (books or stories or articles or the like) professionally (for pay)]
Synset Sense 2: [someone who originates or causes or initiates something; “he was the generator of several complaints”]
Zusätzlich wird von jedem der beiden “Author-Synsets“ noch die nächst höhere Instanz, das sogenannte ‚Hypernym’ angegeben. Dieses wird wieder als komplettes „Synset“ angezeigt, mit der entsprechenden Definition. Dieses Beispiel zeigt eine Bedeutungsklasse („Synset“) mit nur einer Wortform. Das „Synset“ von „communicator“ besteht nur aus diesem einen Wort, es sind keine weiteren Synonyme vorhanden. Wie
28
im weiterführenden Beispiel zu sehen, bilden diese „Synsets“ die Kernelemente der WordNet-Ontologie. Die Struktur beruht grundlegend auf diesen Bedeutungsklassen und nicht auf einzelnen Wortformen. So werden grundsätzlich immer die kompletten „Synsets“ mit allen inbegriffenen Wortformen angegeben. Die 57.000 in WordNet vorhandenen Nomen sind in 48.800 „Synsets“ eingeteilt 49 .
IV.4.3 Coordinated Terms
Die Wahl von ‚Coordinated Terms’ erzeugt folgende Ausgabe (auszugsweise):
49 Vgl. [Mil90] S.255.
29
Bei der Ausgabe von ‘Coordinated Terms’ werden alle „gleichrangigen Begriffe“ angezeigt. Dies sind Begriffe, welche dieselbe nächst höhere Instanz besitzen - alle Hyponyme des ersten Hypernyms des Ausgangsbegriffs.
Außerdem werden, wie auch schon bei der Synonym-Auflistung, die „Synsets“ mit zugehöriger Definition angezeigt. Auch die „gleichrangigen Begriffe“ erscheinen als „Synsets“ mit Definition.
Diese Funktion der Coordinated Terms ist somit allein eine zusammengefügte Anwendung unterschiedlicher anderer WordNet-Funktionen (Hyponyme, Hypernyme und Synonyme).
IV.4.4 Hypernyms
Die Wahl von ‚Hypernyms (author is a kind of...)’ erzeugt folgende Ausgabe:
30
Abb IV.4.: WordNet-Auszug: “Hypernyms”
Durch die angezeigten Hypernyme des ausgesuchten Nomens wird dieses bereits auf eine bestimmte Art definiert und kann innerhalb des angezeigten Rahmens zugeordnet werden. Ein Hypernym stellt einen verallgemeinerten Begriff zum Suchbegriff dar. Durch eine aufeinander aufbauende Folge von Hypernymen kann eine Kette gebildet werden, deren Endglied einen sehr allgemeinen Begriff darstellt. Dieses Endglied stellt den Anfang („beginner“) eines Themengebietes dar.
Im vorliegenden Beispiel ist [communicator] das nächste Hypernym zu [writer, author] („sense 1“). Es folgt das Hypernym von [communicator], welches durch die Bedeutungsklasse [person, individual, someone, somebody, mortal, human, soul] repräsentiert wird.
Hier wird wiederum die essentielle Bedeutung der „Synsets“ deutlich, welche die Grundelemente der WordNet-Ontologie bilden. Der Hypernym-Begriff ist nicht
31
zwischen einzelnen Wörtern (Wortformen) definiert, sondern stellt eine Verbindung zwischen zwei „Synsets“ her.
Hypernym-Beziehungen zwischen einzelnen Wörtern (Wortformen) ergeben sich dann aus der Zugehörigkeit zu den entsprechenden „Synsets“.
In WordNet sind sämtliche Nomen und deren Bedeutungen in 25 Anfänge („beginners“) eingeordnet, so dass 25 unterschiedliche Baumstrukturen existieren. Im angegebenen Beispiel ist das Nomen „author“ in der Auflistung die achte, bzw. neunte Verfeinerungsstufe, je nach betrachtetem Sinn („sense“). Jedoch gehört schon das zweite, beziehungsweise dritte Hypernym der Gruppe der „beginner“ an. Im betrachteten Beispiel ist dies für beide „senses“ das gleiche „Synset“ [person, human being]. Die im Beispiel nachfolgend aufgelisteten Hypernyme dienen lediglich der Abgrenzung der 25 Grundbegriffe.
Wie zu sehen, besitzen die „Beginners“ der unterschiedenen Themen, in die sämtliche Nomen eingeteilt sind auch wieder die charakteristische Form der „Synsets“.
Die „Beginners“, auf welchen die Nomen-Ontologie von WordNet beruht, sind in Tabelle 1 aufgelistet:
{act, action, activity} {natural object} {animal, fauna} {natural phenomenon} {artifact} {person, human being} {attribute, property} {plant, flora} {body, corpus} {possession} {cognition, knowledge} {process} {communication} {quantity, amount} {event, happening} {relation} {feeling, emotion} {shape} {food} {state, condition} {grop, collection} {substance} {location, place} {time} {motive} 50 Tabelle 1: WordNet-„Beginners“ der Nomen
50 Die Auflistung ist angelehnt an [Mil90], Table1.
32
Sämtliche angezeigten „Synsets“ werden wieder mit entsprechender Definition angegeben.
Die Verfeinerungen werden meist bereits nach der dritten bis vierten Stufe sehr detailliert und dienen dann eher einer technischen Beschreibung, als einer definitorischen. 51
Die Beziehung eines Nomens zu seinem Hypernym ist eine klassische Ober-Unterklassen - Beziehung. Die Relation ist somit transitiv und von ihrer strukturellen Art für sämtliche Hypernyme gleich. Dies ist insbesondere bei der späteren Betrachtung der Implementierung von WordNet durch Topic Maps relevant.
IV.4.5 Hyponyms
Die Angabe der Hyponyme wird in brief und full unterschieden. Da die Betrachtung in dieser Ausführung ohnehin nur auszugsweise erfolgt, hat diese Differenzierung hier keine weitere Bedeutung.
Die Wahl von ‚Hyponyms (...is a kind of author)’ erzeugt folgende Ausgabe (auszugsweise) :
51 Vgl. [Mil90] S.257.
33
Hyponyme stellen Unterbegriffe des Ausgangsbegriffs dar. Im Gegensatz zu Hypernymen findet keine Generalisierung des Begriffs, sondern eine Verfeinerung statt. Hypernyme und Hyponyme stellen demnach die gleiche Verbindung dar, nur die Richtung der Betrachtung ist eine andere. Sämtliche aufgelisteten Hyponyme haben als Hypernym den Begriff „author“.
In den Treffern kann man zwischen zwei Arten von Begriffen unterscheiden. Zuerst sind abstrakte „Synsets“ aufgelistet, welche den Begriff des „author“ genauer definieren. Dazu gehören beispielsweise die Bedeutungsklassen [biographer] oder [journalist]. Zum anderen werden als Hyponyme konkrete Personen angegeben, welche Autoren sind - so zum Beispiel das „Synset“ [Camus, Albert Camus]. Das „Synset“ einer Person besteht aus den verschiedenen Varianten, wie der Name dargestellt werden kann.
So besteht das „Synset“ aus folgenden Wortformen (Beispiel „Camus“):
[Nachname] ? [Camus]
[Vorname + Nachname] ? [Albert Camus] [Vorname + zweiter Vorname + Nachname] ? [nicht vorhanden]
Eine kurze Beschreibung der Person mit Geburts- und Todesjahr sind dann als Definition angefügt. 52
IV.4.6 Familiarity
Die Wahl von ‚Familiarity’ erzeugt folgende Ausgabe:
Der „Index of Familitary“ soll die Bekanntheit beziehungsweise den Verwendungsgrad eines Wortes angeben. Die Bekanntheit eines Wortes zu bestimmen und dann durch einen Wert auszudrücken birgt einige Probleme in sich, auf welche hier nicht näher eingegangen wird. Die Bestimmung dieses Charakteristikum ist in WordNet ausnahmsweise direkt auf die Wortform bezogen. Somit wird nicht auf die unterschiedliche „Familiarity“ verschiedener Bedeutungen desselben Wortes eingegangen.
52 Siehe analog die Beschreibung für Hypernyme IV.4.1.3
35
Nähere Informationen zur Bestimmung des „Index of Familiarity“ finden sich in [Bec90], S.63.
IV.4.7 Meronyme, Holonyme, Antonyme, etc.
Neben den bereits vorgestellten Möglichkeiten, Nomen in Verbindung zueinander zu setzen, stehen noch weitere zur Verfügung. Im verwendeten Beispiel mit dem Nomen „author“ sind diese Verbindungen nicht vorhanden, bei anderen Nomen können sie jedoch auch eine wichtige Rolle spielen.
So können Nomen ‚Meronyme’ zugeordnet werden. Meronyme stellen Teile des Ausgangsbegriffs dar (wieder zu „Synsets“ zusammengefasst). Meronyme stehen damit in einer ‚ist Teil von’-Beziehung. 53
Die entgegengesetzte Betrachtung dieser Relation bringt sogenannte ‚Holonyme’ hervor. Holonyme stellen Begriffe dar, von welchen der Ausgangsbegriff ein Teil ist. 54 An einem Beispiel kann der Unterschied zwischen Hyponymen und Meronymen verdeutlicht werden. Wird als Ausgangsbegriff das Wort „person“ gewählt, so stellt „creator“ ein Hyponym dar, eine Meronym-Verbindung zu „person“ verweist dagegen auf Begriffe wie „character“ oder „ear“.
WordNet zeigt, falls vorhanden, auch Gegensatzbeziehungen zwischen „Synsets“ an. Diese Relation ist symmetrisch und die entsprechenden Wörter werden als ‚Antonyme’ bezeichnet. „Darkness“ und „lightness“ sind ein Beispiel für ein Gegensatzpaar, sie sind gegenseitig Antonyme.
Bereits kurz erwähnt wurde auch die Möglichkeit, Nomen Eigenschaften zuzuweisen, die für diese typisch sind. Dies geschieht mit der Setzung von Verweisen (pointers) auf Adjektive.
Um die zu einem Nomen zugeordneten Eigenschaftswörter (Adjektive) angezeigt zu bekommen, wählt man im WordNet-Menü den Punkt ‚Attributes (...is a value of...)’. Durch diese Funktion werden Wörter, bzw. „Synsets“ unterschiedlicher Wortarten miteinander in Relation gesetzt.
53 Orginalbezeichnung in WordNet: „parts of ...“
54 Orginalbezeichnung in WordNet: „...is a part of ...“
36
IV.4.8 Verben in WordNet
Neben der Wortgruppe der Nomen ist WordNet nach Verben organisiert. Diese Wortart bildet mit den dazugehörigen Begriffen ein eigenständiges semantisches Netz, welches in seinem Aufbau starke Analogien zu dem der Nomen aufweist. Aus diesem Grund wird die Betrachtung der Verben nicht so ausführlich wie bei den Nomen ausfallen. 55
Die Grundstruktur der Verben wird durch 8.400 unterschiedliche „Synsets“ dominiert, die Verben gleicher Bedeutung zusammenfassen und Synonym-Gruppen bilden. In diesen „Synsets“ sind insgesamt 21.000 Verben vorhanden. 56 Im Vergleich zu den Nomen besitzt die Wortform eines Verbs im Durchschnitt mehr Bedeutungen, sie ist „polysemischer“ 57 . Besonders einige sehr häufig verwendete Verben wie {have, be, run, make, set, take u. a.} 58 besitzen eine Vielzahl unterschiedlicher Bedeutungen (senses).
Eine Besonderheit der Verben in WordNet gegenüber herkömmlichen Wörterbüchern ist die Einbindung „idiomatischer Ausdrücke“ (idiomatic expressions), welche aus mehreren Wörtern bestehen. Die Gliederung in „Synsets“ erlaubt relativ einfach die Integration von zusammengesetzten Ausdrücken (verb phrases), welche teilweise auch nur rein umgangssprachlich Gebrauch finden. 59
Analog zum Aufbau der Nomenstruktur gibt es auch bei den Verben eine baumartige Strukturierung der „Synsets“. Hyponym-Beziehungen verbinden die einzelnen Verben und bilden einen hierarchischen Aufbau.
Auch bei den Verben gibt es eine Gruppe von „Beginners“, die den Ausgangspunkt für alle weiteren Hyponyme bilden. Eine Auflistung der „Beginners“ mit Erklärung findet sich in [Fel98b], S.57-61.
Die semantischen Verknüpfungen zwischen Verben sind im Vergleich zu denen der Nomen vielfältiger und umfangreicher.
So besitzen die „Synsets“ der Verben beispielsweise auch ‚Troponyme’. Troponyme beschreiben inhaltlich dieselbe Aktion wie das Ausgangsverb, spezialisieren dieses jedoch. So stellt das Verb limp ein Troponym zu walk dar. „To Limp is also to walk in a certain manner” 60 .
Die bereits erwähnte Komplexität des semantischen Netzes der Verben beruht auch auf der Existenz von Gegensatz-Beziehungen. Diese Art von Beziehungen kommt bei
55 Praktische Umsetzungen von Verben in WordNet siehe [Wor@].
56 Siehe [Fel98b] S. 41.
57 Durchschnittlich besitzt ein Nomen 1,74 Bedeutungen, ein Verb 2,11. Siehe [Fel98b] S.40.
58 Auflistung entlehnt aus: [Fel98b] S.41.
59 Vgl. [Fel98a].
60 Zitat aus [Fel98b] S.47.
37
den Verben sowohl zwischen kompletten „Synsets“, als auch zwischen einzelnen Verben vor. So existieren eindeutige Gegensatz-Paare (Antonyme), wie beispielsweise approve und disapprove, oder emigrate und immigrate. In diesen Fällen bestehen dann sowohl lexikalische Beziehungen zwischen den einzelnen Wörtern, als auch semantische Relationen zwischen ganzen „Synsets“.
Eine letzte funktionelle Besonderheit der Verben bei WordNet, die hier erwähnt werden soll, ist die Anzeige von markanten Beispielsätzen, in denen das entsprechende Verb im Mittelpunkt steht. Somit wird dem Benutzer nicht nur eine Definition geliefert, sondern es werden ihm auch exemplarische Verwendungen des ausgewählten Verbs angezeigt.
IV.4.9 Adjektive in WordNet
Adjektive ähneln bei WordNet in ihrer semantischen Struktur nur sehr bedingt dem Aufbau von Nomen, bzw. Verben.
So werden Adjektive nicht in Hyponym-Beziehungen gesetzt, da dies bei Adjektiven schlecht möglich wäre. Beibehalten wird bei dieser Wortart jedoch auch das Prinzip der „Synsets“, welche Gruppen von Synonymen bilden. In WordNet sind ungefähr 19.500 Adjektive in ca. 10.000 „Synsets“ vorhanden.
Grundsätzlich wird bei der Betrachtung der Adjektive in zwei Hauptklassen unterschieden, in beschreibende (deskriptive) und in relationale Adjektive. 61 Beschreibende Adjektive weisen einem Nomen Eigenschaften zu, welche im Normalfall auch skalierbar sind. Adjektive der gleichen Bedeutung werden zu „Synsets“ zusammengefasst. Eigenschaften treten auch oft in Gegensatzpaaren auf, so dass zwischen zwei Adjektiven eine Antonym-Beziehung besteht, ohne dass semantisch ganze „Synsets“ in Relation gesetzt werden. Speziell für Adjektive ist in WordNet für diesen Fall das „Indirekte Antonym“ vorhanden. Besitzt ein beschreibendes Adjektiv kein direktes Gegenstück als Antonym, werden die Antonyme von Adjektiven angezeigt, zu dem eine synonyme Beziehung besteht. Das Adjektiv moist besitzt kein direktes Antonym. Allerdings besitzt es eine synonyme Beziehung zu wet. Wet besitzt dagegen ein direktes Antonym, nämlich dry. Somit ist dry das „Indirekte Antonym“ von moist. 62
Durch diese Verknüpfungen nimmt ein Adjektiv eines „Synsets“ eine besondere Stellung ein.
61 Vgl. [Fel93] S. 26
62 Beispiel aus [Fel93] S.29
38
Die beschreibenden Adjektive sind mit ihren zu beschreibenden Nomen durch Verweise (pointers) verbunden. Nomen, welche durch das ausgewählte Adjektiv verbunden sind, können bei WordNet angezeigt werden. Folglich wird hierbei die sonst herrschende strikte Trennung zwischen den Wortarten aufgehoben. Eine besondere Klasse beschreibender Adjektive, welche nicht durch Gegensatzpaare und „Synsets“ dargestellt werden können, sind Farbadjektive. 63 Die zweite Hauptklasse der Adjektive (relationale Adjektive) ist relativ groß und offen. Relationale Adjektive leiten sich von einem Hauptnomen ab und können dann benutzt werden, andere Nomen zu spezialisieren. So dienen sie unter anderem dazu, Nomen zu klassifizieren. 64 Relationale Adjektive besitzen keine Gegensatzpaar-Beziehungen und können in der Eigenschaft, welche sie beschreiben nicht skaliert werden. Falls mehrere relationale Adjektive die gleiche Bedeutung besitzen, werden auch sie in „Synsets“ zusammengefasst. Ansonsten besitzen sie einen Verweis zu dem Nomen, aus welchem sie abstammen. Beispiele für relationale Adjektive sind {electrical, atomic, nasal, verbal...}.
IV.5 Implementierung von WordNet durch Topic Maps
In den vorhergehenden Abschnitten wurde ausführlich sowohl das Topic Map Modell, als auch die Struktur und der Aufbau von WordNet behandelt. In diesem Abschnitt sollen diese beiden Punkte thematisch zusammengefasst und theoretisch die Möglichkeiten einer Implementierung von WordNet in Topic Map durchleuchtet werden. Diese Überlegungen sollen Möglichkeiten und Probleme einer Anwendung von Topic Map herausstellen. Durch die Umsetzung mit WordNet wurde eine umfassende und ausgefeilte Ontologie dafür ausgewählt.
Bei der folgenden Implementierung liegt der Schwerpunkt auf dem Erstellen einer Topic Map, die die Struktur und die Verknüpfungen von WordNet gültig wiedergibt. Der Frage, wie die genaue Suche innerhalb dieser Topic Map funktioniert, wie die Anzeige der angefragten Topics umgesetzt wird, etc. wird bei den folgenden Ausführungen nicht nachgegangen. Problematiken dieser Art und Weise beziehen sich auf die Applikation der Topic Map und erfordern weitergehende Unterstützung durch zusätzliche Software.
63 Näheres dazu siehe [Fel93] S.33
64 Vgl. [Fel93] S.35.
39
IV.5.1 Die WordNet - Topic Map
Durch die grundlegende Differenzierung bei WordNet in die Wortarten Nomen, Verben und Adjektive stellt sich die Frage, ob jede Wortart nicht separat in einer eigenen Topic Map realisiert werden könnte. Dies hätte den Vorteil, die einzelnen Topic Maps übersichtlicher gestalten zu können und den jeweiligen Topics müßte nicht explizit die entsprechende Wortart zugewiesen werden.
Dies würde jedoch voraussetzen, dass es keinerlei Verbindungen zwischen den Topic Maps geben darf. Associations zwischen Topics unterschiedlicher Topic Maps sind nicht möglich. Bei WordNet bestehen jedoch durch die Funktion der ‚Attributes’ 65 Verweise zwischen Nomen und Adjektiven. Folglich müssen Nomen und Adjektive in einer Topic Map implementiert werden. Da die ontologische Struktur der Verben sehr eng an die der Nomen angelehnt ist, wird WordNet im Folgenden mit Hilfe einer großen Topic Map dargestellt.
Ziel der WordNet-Topic Map ist es, die WordNet-Ontologie mit dem Topic Map Standard möglichst originalgetreu und einfach umzusetzen.
Die wesentliche Herausforderung dabei besteht im Erstellen einer semantisch gültigen Topic Map-Ontologie 66 mit entsprechenden Ontologie-Topics. Beim Aufbau der Topic Map wird demnach in verschiedene Topic-Klassen unterschieden.
Es existieren einerseits die bereits erwähnten Ontologie-Topics, welche die Struktur der Topic Map vorgeben und die WordNet - Ontologie widerspiegeln sollen und andererseits die Wort-Topics, die konkret die einzelnen Nomen, Verben bzw. Adjektive repräsentieren 67 . Die zweite Gruppe der Wort-Topics ist einfach zu erweitern, zu ersetzen oder zu verändern, wenn eine gültige Topic Map-Ontologie vorhanden ist.
IV.5.2 Ontologie-Topics
Die Definition der Ontologie-Topics ergibt sich weitgehend aus dem ontologischen Aufbau von WordNet. Dieser Aufbau ist grundlegend durch zwei Konzepte geprägt. Erstens durch das Gruppieren von Wörtern gleicher Bedeutung in „Synsets“ und zweitens durch die Verknüpfung dieser „Synsets“ und teilweise auch einzelner Wörter miteinander.
65 Vgl. Kapitel IV.4.3
66 Vgl. Kapitel IV.2
67 d.h. die Wortform der Nomen, bzw. Adjektive.
40
IV.5.3 „Synset“-Topics
Es wäre demnach sinnvoll, auch in der Topic Map Synonym-Gruppen zusammenzufassen und diese als Basis für weitere Verknüpfungen zu verwenden. Für das Zusammenfassen mehrerer Topics gibt es im Topic Map Modell mehrere Möglichkeiten. So könnte dies durch die Setzung eines gemeinsamen Scopes geschehen oder durch Associations, welche zwischen sämtlichen Topics der Gruppe eingerichtet werden. Diese Associations hätten dann die Bedeutung „ist Synonym von“, oder Ähnliches.
Bei solch einer Vorgehensweise tritt jedoch das Problem auf, dass die durch Scopes oder Associations gebildeten Gruppen nicht als Gruppe mit anderen Gruppen verknüpft werden können. Der Topic Map Standard sieht keine Associations zwischen Gruppen von Topics vor. Associations können nur zwischen einzelnen Topics eingerichtet werden, was dazu führen würde, wieder jedes einzelne Wort-Topic eines „Synsets“ mit entsprechenden Associations versehen zu müssen.
Eine Lösung dieses Problems stellt die Einführung von „Synset“-Topics dar. „Synset“-Topics sind Ontologie-Topics und repräsentieren sämtliche Wort-Topics eines „Synsets“. Die Wort-Topics eines „Synsets“ sind nicht miteinander durch Associations verbunden, sondern besitzen nur eine Association mit der Bedeutung „gehört zu Synset“, welche auf das entsprechende "Synset"-Topic verweist. Diese Association ist für alle Relationen von Wort-Topics zu „Synset“-Topics gleich, die Association spielt immer die gleiche Rolle („Association Role“). Verknüpfungen, welche komplette „Synsets“ betreffen, können dann durch Associations zwischen „Synset“-Topics realisiert werden. Um die „Synset“-Topics eindeutig zu definieren, müssen diese entsprechend charakterisiert werden. Die Bezeichnung der „Synset“-Topics ist belanglos, da nach diesen keine Suchanfragen stattfinden. Sie existieren nur für die interne Struktur der Topic Map. So kann als „base name“ einfach [Synset00001], [Synset00002], etc. verwendet werden. 68
Die zu den „Synsets“ gehörenden Definitionen, welche in WordNet sowohl für Nomen, Adjektive und Verben angegeben werden, können im jeweiligen „Synset-Topic“ integriert werden. Dazu eignet sich gut der im Topic Map Modell definierte „Subject Descriptor“. Der „Subject Descriptor“ ist für Informationen vorgesehen, welche das Topic definieren. Demnach stellt dies eine gute Möglichkeit dar, die zu den „Synsets“ gehörenden Definitionen und Beispielssätze in das „Synset“-Topic zu integrieren.
68 Nomen besitzen in WordNet 48.800 „Synsets“, Adjektive ca. 10.000.
41
Für eine Synonym-Anfrage für ein Nomen, ein Verb, oder ein Adjektiv sind mit der bisher beschriebenen WordNet-Topic Map alle Informationen enthalten, um eine korrekte Ausgabe zu erzeugen. Bei einer Suchanfrage für ein bestimmtes Wort wird dieses als Wort-Topic gefunden. Dieses Wort-Topic verweist mit einer Association auf das dazugehörige „Synset“-Topic. Darin ist die Definition für das „Synset“ enthalten. Außerdem sind sämtliche Wort-Topics, die mit dem „Synset“-Topic durch eine „Synset“-Association verbunden sind, Synonyme des Ausgangswortes. Die Umsetzung, diese Pfade zu gehen und die entsprechenden Informationen anzuzeigen, ist Aufgabe des Anwendungsprogramms und wird hier nicht weiter betrachtet, sondern für die Topic Map als gegeben angenommen. Auf den ersten Blick erscheint das Vorhandensein von Wörtern mit mehreren Bedeutungen (Homonyme) problematisch. Die meisten Wörter besitzen mehrere „senses“ in WordNet und sind folglich in mehreren „Synsets“ vorhanden. Diese Problematik wird jedoch zunächst ausgeblendet und in Kapitel IV.5.4 aufgelöst. Mit der Abbildung IV.7 wird die Grundstruktur der WordNet-Topic Map deutlich gemacht. Wort-Topics sind mit dem entsprechenden „Synset“-Topic mit einer Association verbunden.
Die Darstellung einer Topic Map in der für den Standard typischen und definierten Syntax wird im Folgenden mit Verwendung der in Abbildung IV.7 gezeigten Topic Map
42
illustriert. Dabei werden zunächst sämtliche Topics definiert und anschließend die Associations zwischen den Topics gebildet. Zu beachten ist die grundlegende Idee des ISO-Standards. Sämtliche Objekte sind dabei als Topic zu definieren. So müssen auch die Associations, bevor sie eingesetzt werden können, als Topic definiert sein. Im vorliegenden Beispiel ist dem jeweiligen Topic ein Kürzel vorangestellt, welches das Topic als „normales“ Topic oder als Association-Topic kennzeichnet. „t“ im id-name steht für „normales“ Topic und „at“ für Association-Topic.
Tabelle 3: ISO/IEC 13250-Syntax-Beispiel
43
IV.5.4 Association-Topics
Die Art der Verknüpfungen zwischen den Topics nehmen verschiedene Formen an. So kann man zwischen Associations unterscheiden, die zwischen zwei „Synset“-Topics bestehen, und denen, die zwei Wort-Topics miteinander in Relation setzen. Die dritte Art der Associations verknüpft „Synset“-Topics mit Wort-Topics, wie dies bei der „Synonym“-Association der Fall ist.
In der WordNet-Topic Map kommen folgende Associations vor:
- „Synonym“-Association
- „Hyper-/Hyponym“-Association
- „Mero-/Holonym“-Association
- „Antonym“-Association
- „Attribute“-Association
- „Troponym“-Association
Die „Synonym“-Association wurde schon im vorherigen Abschnitt kurz erwähnt. Sie stellt die Verknüpfung der einzelnen Wort-Topics zu dem dazugehörigen „Synset“-Topic her. Die Aussage der Association ist „[Wort-Topic] gehört zu [Synset-Topic]“.
Die „Hyper-/Hyponym“-Association verbindet „Synset“-Topics miteinander und ist auf „Synset“-Topics der Nomen und Verben begrenzt. Durch die Verknüpfung mit „Hyper-/Hyponym“-Associations wird es möglich, die Hypernyme und Hyponyme eines Wortes anzeigen zu lassen. Die Richtung dieser Association ist eindeutig bestimmt. Die „Synsets“ der Nomen und Verben sind in WordNet baumartig strukturiert und enden in den dazugehörigen „Beginners“ 69 . Diese Baumstruktur läßt sich in der WordNet-Topic Map durch diese Associations verwirklichen. Ein „Synset“-Topic wird mit allen seinen Hypernym-„Synset“-Topics durch diese Association verbunden. Dadurch erhalten die Hypernym-„Synset“-Topics gleichzeitig eine Verbindung zu einem Hyponym-„Synset“-Topic. Diese Association „nach oben“ betrachtet hat die Aussage „[Synset-Topic] ist Hyponym von [Synset-Topic]“, „nach unten“ betrachtet dreht sich der Sinn der Aussage zu „[Synset-Topic] ist Hypernym von [Synset-Topic]“.
69 Vgl. dazu Kapitel IV.4.1.3 und IV.4.2
44
Die „Mero-/Holonym“-Association ist in ihrer Struktur und Anwendung der „Hyper/Hyponym“-Association gleich. Die Associations zeigen lediglich auf die „Synset“-Topics, die inhaltlich die entsprechenden Mero- bzw. Holonyme darstellen. Diese Form der Associations ist nur für Nomen-„Synset“-Topics relevant.
„Antonym“-Associations müssen für Nomen, Verben und Adjektive unterschieden werden. Bei Nomen bestehen „Antonym“-Associations nur zwischen „Synset“-Topics. Bei Adjektiven und Verben treten dagegen oft Gegensatzpaare auf, sodass die Antonym-Beziehung zwischen einzelnen Wort-Topics besteht und nicht zwischen deren „Synset“-Topics. 70
Die „Attribute“-Association stellt eine Besonderheit unter den Associations dar. Sie existiert nur zwischen Wort-Topics von Nomen zu Adjektiven. Die Aussage in die eine Richtung ist „[Nomen-Wort-Topic] hat als Eigenschaft [Adjektiv-Wort-Topic]“. Von umgekehrter Richtung betrachtet ist die Bedeutung „[Adjektiv-Wort-Topic] ist eine Eigenschaft von [Nomen-Wort-Topic]“. Diese Associations zu finden, die entsprechenden Verweise anzuzeigen, etc. ist wieder die Aufgabe der Software-Umgebung, unter welcher die Topic Map ihre Anwendung findet.
Verben besitzen in WordNet noch Verknüpfungen, welche den einzelnen „Synsets“ Troponyme zuweisen. Diese Verbindung kann in der WordNet-Topic Map durch „Troponym“-Associaions umgesetzt werden. Diese Association findet nur bei Verben Anwendung und verknüpft nur komplette „Synsets“.
IV.5.5 Wort-Topics
Die Existenz von Wort-Topics wurde bislang einfach als gegeben angenommen. Die Charakterisierung der Wort-Topics ist auch relativ simpel, da im Großen und Ganzen die semantischen Verbindungen außerhalb der Wort-Topics durch Association-Topics implementiert sind.
Wort-Topics repräsentieren die Wörter (Wortformen), welche in WordNet als Nomen und Adjektive vorhanden sind. Dafür existiert für jedes Wort mindestens ein Wort-Topic, welches als „base name“ die entsprechende Wortform erhält. Innerhalb der Wort-Topics kann auch der in WordNet vorhandene „Index of Familiarity“ angegeben werden. Dies bietet sich an, da sich der „Index of Familiarity“ direkt auf die jeweiligen Wörter (Wortformen) bezieht. Ein Konzept zur Zuweisung von Werten für Topics stellen
70 Vgl. dazu Kapitel IV.4.3
45
Facets dar. Der „Index of Familiarity“ wird so in jedem Wort-Topic als Facet-Wert implementiert.
Ausserdem werden Wort-Topics mit einem Scope versehen, wie im nächsten Abschnitt genauer erläutert wird.
IV.5.6 Scope
Das Topic Map - Element Scope kann helfen, das Problem der Mehrdeutigkeit von Wörtern zu lösen 71 . Wörter haben meistens mehrere Bedeutungen (senses) und sind somit in verschiedenen Synsets vorhanden. In einer Topic Map dürfen jedoch nicht mehrere Topics gleichen Namens vorhanden sein, sonst werden sie zu einem Topic zusammengefasst. Der Verweis eines Wort-Topics zu mehreren „Synset“-Topics ist nicht möglich, da auch Associations zwischen Wort-Topics vorkommen und beispielsweise auch der „Index of Familiarity“ variiert, je nachdem, ob das Wort als Nomen oder Adjektiv betrachtet wird.
Die Setzung von Scopes erlaubt es in einer Topic Map jedoch Topics gleichen Namens mehrmals zu erstellen, vorrausgesetzt, diese gleichnamigen Topics besitzen verschiedene Scopes.
Demnach wird für jedes „Synset“, in welchem ein Wort vorkommt ein eigenes Wort-Topic erstellt. In den Scope des Wort-Topics wird dann einfach das entsprechende „Synset“-Topic geschrieben. Angelehnt an das Beispiel aus Abb. IV.7. wird das Wort-Topic [author] mit dem Scope [Synset20157] versehen. Damit ist das Problem der Mehrdeutigkeit von Wörtern unter Inkaufnahme einer höheren Anzahl an Wort-Topics gelöst.
Um das theoretische Modell für eine WordNet-Topic Map endgültig komplett abschließen zu können, muss noch eine Identifizierungsmöglichkeit für Nomen, Verben und Adjektive geschaffen werden. Dies geschieht am einfachsten auch durch das Setzen von Scopes. Neben der Angabe des relevanten „Synset“-Topics wird dann im Scope des Wort-Topics einfach auch die Wortart (Nomen/ Verb/ Adjektiv) angegeben. Abbildung IV.8. zeigt symbolische den konzeptuellen Aufbau der WordNet-Topic Map mit den wichtigsten Topics und Associations.
71 Problematik wurde bereits kurz in Kapitel IV.5.2.1 angesprochen.
46
V. Kritische Anmerkungen zu Topic Map
V.1 Allgemeine Kritik zum Topic Map Standard
Der ISO-Standard 13250 ist in seinen Grundelementen relativ einfach konzipiert und leicht verständlich. Das Modell ist sehr offen und flexibel gehalten, so dass es auf viele Bereiche angewendet werden kann. Dies bietet selbstverständlich einen großen Vorteil, da so ein weites Feld von Anwendungen mit dem Modell abgedeckt wird und eine gemeinsame Standardisierung möglich ist.
Diese abstrakte Natur des Modells muss jedoch auch kritisch betrachtet werden. Durch eine fehlende Konkretisierung in vielen Bereichen ist die Umsetzung des Standards nicht klar. Offengehaltene Definitionen rufen möglicherweise Missverständnisse oder stark divergierende Interpretationen hervor.
Diese Probleme treten besonders dann auf, wenn von dem theoretischen Modell eine Applikation entwickelt werden soll, die den Benutzern das Erstellen und Verwenden von Topic Maps ermöglicht.
Mit XTM, die Abkürzung für XML Topic Maps 72 , ist zwar eine Sprache vorhanden, die allgemein eine Syntax für Topic Maps definiert, dennoch hängt die Mächtigkeit von Topic Maps maßgeblich von der Umsetzung in einem Tool ab. Als Beispiel sei hier das Element der Associations genannt. Der Standard definiert ganz abstrakt die Möglichkeit, Topics mit Associations zu verbinden. Wie diese Verbindungen jedoch konkret definiert sind, bleibt dem Anwender, bzw. dem Programmierer des Tool überlassen. So gibt es beispielsweise symmetrische, transitive, oder reflexive Relationen. Innerhalb einer Topic Map kann es sehr wichtig sein, zu wissen, welche Art von Relation vorliegt, um beispielsweise Schlussfolgerungen ziehen zu können. Diese Problematik verschiebt der Standard auf die Anwendungssoftware.
Der komplette Bereich der Inferenzen bleibt in der Beschreibung des ISO-Standards außen vor. Wie aus der Existenz zweier oder mehrerer Associations auf neue Associations geschlossen werden kann, bzw. wie neue Informationen aus Schlussfolgerungen gesammelt werden können, wird im Standard nicht behandelt. Gerade mit diesen Möglichkeiten wird aber oft die Mächtigkeit der Topic Maps begründet.
Einen großen Vorteil gegenüber bisherigen Systemen, Wissen zu organisieren, bietet Topic Maps mit der simplen Tatsache einer standardisierten Form. Je mehr Daten und
72 Siehe dazu [XTM1.0]
48
Informationsressourcen als Topic Map vorliegen, desto mächtiger und wertvoller wird der Standard. Ein wichtiger Gedanke bei der Standardisierung von ISO/IEC 13250 ist die Verknüpfung und Integration verschiedener Topic Maps. Die Verbindung unterschiedlicher Datenbestände ist nur möglich, wenn diese in ihrer Struktur gleich definiert sind und genau dies möchte Topic Maps erreichen. Im Topic Map Standard selbst ist das Zusammenführen von Topic Maps (merging) allerdings nur sehr vage definiert. Inwieweit unterschiedliche Informationssysteme, die beide auf Topic Maps aufbauen, tatsächlich zusammengeführt werden können, bleibt abzuwarten. Der Standard definiert auch keine Verknüpfungen zwischen verschiedenen Topic Maps. Associations zwischen Topics unterschiedlicher Topic Maps sind nicht möglich, was bedeutet, dass unterschiedliche Topic Maps nur komplett verschmolzen werden können. Dies beinhaltet dann einige Probleme, angefangen mit potenziell unterschiedlichen Sprachen der Topic Maps. In diesem Zusammenhang ist auch der Versuch kritisch zu sehen, mit Hilfe des „Public Subject Descriptor“ Topics eindeutig zu definieren. Dies ist wohl in einigen Bereichen, wie bei Ländern durch internationale Ländercodes, oder bei Büchern mit ISBN-Nummern möglich. In vielen Bereichen lassen sich Topics jedoch nicht international standardisiert katalogisieren. Aus diesen Gründen ist das Zusammenführen unterschiedlicher Topic Maps im größeren Stil kritisch zu sehen. Da die Bedeutung von Topic Maps mit der Größe und Menge der Informationen, welche im Rahmen des Standards organisiert sind, wächst und sinkt, stellt das Zusammenlegen (merging) von Topic Maps einen wegweisenden Aspekt dar.
V.2 Kritische Betrachtung der WordNet-Topic Map
V.2.1 Ontologische Umsetzung
Die Ontologie von WordNet konnte mit der in Kapitel IV.5 beschriebenen WordNet-Topic Map gut implementiert werden. Der ontologische Aufbau und die semantischen Strukturen werden von der Topic Map so dargestellt, wie sie in WordNet existieren. Auch wenn nur grob der Aufbau der Topic Map dargestellt ist, wurden sämtliche Kernelemente und Funktionen der Online-Enzyklopädie berücksichtigt. Als Nachteil könnte der relativ große Umfang der WordNet-Topic Map gesehen werden. Durch die Einführung der „Synset“-Topics und durch die mehrmalige Existenz polysemischer Wörter ist eine relativ hohe Anzahl an Topics vorhanden.
Möglicherweise könnte dies zu Problemen in der Anwendung kommen, beispielsweise die Performanz betreffend. Da der Topic Map Standard jedoch sehr auf Topics
49
bezogen ist, und es keine andere realisierbare alternative Möglichkeit gab, Gruppen von Topics zusammenzufassen, wurde dieser Umfang in Kauf genommen. Durch die Existenz der Synset-Topics konnten außerdem auch weitere Probleme elegant gelöst werden, so beispielsweise die eindeutige Scope-Zuweisung von Topics gleichen Namens.
V.2.2 Occurrences
Bemerkenswert ist die Tatsache, dass bei der WordNet-Topic Map das für Topic Maps zentrale Element der Occurrences keine Anwendung fand. Der Hauptgrund dafür liegt in der Beschaffenheit von WordNet als rein elektronisches Wörterbuch. Die Sprache in elektronischer Form stellt bei WordNet nicht ein Hilfsmittel zur Beschreibung anderer Inhalte dar, sondern ist selbst inhaltlicher Gegenstand. Dadurch entfallen Verweise auf externe Quellen, welche ja durch Occurrences dargestellt werden. Wenn Occurrences um ihrer Anwendung Willen hätten verwendet werden sollen, wäre dies im Rahmen der Definitionsbeschreibung und der Beispielssätze möglich gewesen. Die Definitionen der „Synsets“ und die exemplarischen Sätze hätten als Occurrence der „Synset“-Topics definiert werden können. Da diese Daten allerdings auch nur als kurze Schriftsätze vorhanden sind, wurde eine Implementierung im „Synset“-Topic vorgezogen.
Damit steht der WordNet-Topic Map nun noch ein Mittel bereit, welches eine Erweiterung der Topic Map möglich macht. Beispielsweise könnte die WordNet-Topic Map „über“ jeden beliebigen elektronisch vorhandenen englischen Text „gelegt werden“ und Wort-Topics mit Occurrences zu den betreffenden Wörtern im Text verbunden werden. Damit könnte beim Lesen des Textes direkt auf die WordNet-Topic Map zurückgegriffen werden, wenn es Unklarheiten bei der Bedeutung von Wörtern oder Ausdrücken gibt. Für weitere Überlegungen, inwieweit das Mittel der Occurrences zu einer Erweiterung führen kann, ist die WordNet- Topic Map offen.
V.2.3 Semantische Ergänzungen
Die WordNet-Ontologie, bzw. das Modell „WordNet“ beinhaltet theoretisch noch weitere Funktionen, welche jedoch noch nicht technisch umgesetzt wurden. WordNet, wie es im Moment online zur Verügung steht, mit seinen Funktionen im Anwendungsmodus, war die Basis für die WordNet-Topic Map. Allerdings sieht WordNet rein theoretisch noch weiteren semantischen Ausbaubedarf, welcher allerdings noch nicht realisiert ist. Zwei Beispiele sollen dies verdeutlichen. Zum einen
50
würden die WordNet-Autoren gerne für die Nomen weitere Unterscheidungsmerkmale charakterisieren (neben der Beschreibung der „Synsets“ mit ihrer Definition). 73 Dazu sollen die Funktion (function) eines Nomens, die Teile (part) eines Nomens und seine Eigenschaften (attribute) angegeben werden. Die Teile und Eigenschaften sind teilweise durch Meronym- und Attribute-Beziehungen umgesetzt, die Beschreibung der Funktion eines Nomens bedeutet jedoch eine Verbindung zu einem Verb, bzw. zu einem Verb-„Synset“. Diese neuen Verbindungen sind in einer Topic Map relativ einfach zu implementieren. Die bestehende Topic Map kann ohne weiteres zusätzlich um Associations zwischen Nomen und Verben ergänzt werden. Das zweite Beispiel für eine Erweiterung der bisher vorhandenen Topic Map betrifft wieder eine Verknüpfung zwischen Nomen und Verben. So ergeben viele Verben nur in Verbindung mit ganz konkreten Nomen einen Sinn. Diese Nomen sollen den entsprechenden Verben zugeordnet werden, durch einen sogenannten „labeled pointer“ 74 . Auch hier ist die Topic Map eine sehr gute Basis, um Erweiterungen dieser Art umzusetzen.
V.2.4 Anwendungssoftware
Als Bedienungsoberfläche dient WordNet ein WordNet-Browser, welcher die Treffer und vorhandenen Funktionen von WordNet anzeigt.
Der Topic Map Standard definiert keine Applikation für das semantische Netz, welches durch die WordNet-Topic Map gespannt wird. Diese zusätzliche Software zur Topic Map ist allerdings sehr wichtig, um die Informationen der Topic Map wirklich Benutzern zugänglich zu machen.
Eine pure Visualisierung der Topic Map durch ein reines Topic Map-Tool muss bei einer Anwendung kritisch betrachtet werden. Wie auch teilweise schon bei der Beschreibung der WordNet-Topic Map erwähnt 75 , müssen einzelne Funktionen von WordNet auf eine zusätzliche Software verschoben werden. Das reine Navigieren durch die WordNet-Topic Map setzt einige Kenntnisse des ontologischen Aufbaus voraus, welche von einem Anwender nicht erwartet werden können. Sucht dieser beispielsweise „Coordinated Terms“ eines bestimmten Wortes, so muss zuerst der Ausgangsbegriff gefunden werden. Besitzt der Ausgangsbegriff mehrere Bedeutungen (senses), so muss dies zunächst erkannt werden und das weitere Vorgehen separat für jede Bedeutung durchgeführt werden. Ist das entsprechende Wort-Topic gefunden,
73 Vgl. [Mil90], S.18f.
74 Vgl. [Fel98b], S.41
75 Siehe Kapitel IV.5.2.1 „Synset“-Topics
51
so besitzt dieses keinen Verweis mit dem Namen „Coordinated Term“, welcher dann auf die gewünschten Treffer zeigt. Vielmehr muss zum dazugehörigen „Synset“-Topic navigiert werden, von dort aus muss man über die „Hypernym“-Association zum nächsten „Synset“-Topic gelangen. Dieses „Hypernym“-„Synset“-Topic besitzt im Normalfall mehrere „Hyponym“-Associations, welche auf weitere „Synset“-Topics zeigen. Die Wort-Topics, welche diesen „Synset“-Topics zugeordnet sind, stellen dann die gesuchten „Coordinated Terms“ dar. Ein weiteres Beispiel ähnlicher Art ließe sich auch mit der Suche nach „Indirekten Antonymen“, etc. zeigen. Diese Beschreibung macht deutlich, dass eine Softwareunterstützung nötig ist, die das Navigieren durch das semantische Netz teilweise übernimmt und die gesuchten Treffer sammelt und präsentiert.
Die WordNet-Topic Map muss folglich in ihrer Reinform als anwendungsunfreundlich bezeichnet werden und benötigt, um tatsächlich die Funktionen von WordNet übernehmen zu können, eine intelligente und umfangreiche Anwendungssoftware.
V.3 Entwicklungsmöglichkeiten und Ausblick
Die kritischen Bemerkungen zum derzeitigen Standard für Topic Maps zeigten die Bereiche auf, wo noch Entwicklungsmöglichkeiten bestehen. Besonders in der Umsetzung in Topic Map Tools, bzw. in der Entwicklung von Software zur Umsetzung des Modells muss darauf geachtet werden, standardisierte Lösungen zu finden. Ein wichtiger Punkt, der eine standardisierte Software voraussetzt, ist ein relativ problemloses Zusammenführen unterschiedlicher Topic Maps. Um diese Probleme anzugehen, wurden im März bzw. April dieses Jahres weitere Standardisierungen, welche Topic Maps betreffen, von der „International Organization for Standardization“ veröffentlicht. 76
Die Anwendungsgebiete für Topic Maps sind sicherlich noch nicht komplett ausgelotet. In welchen Bereichen Topic Maps besonders erfolgreich sein werden, läßt sich im Moment noch nicht beurteilen. Es ist zu erwarten, dass Topic Maps vorerst begrenzt in einzelnen Bereichen des Wissensmanagements eingesetzt werden. Wenn einzelne Anwendungen konkret vorhanden sind und der zusätzliche software-technische Rahmen für die jeweiligen Topic Maps abgesteckt und erprobt ist, werden sich eher Perspektiven erkennen lassen.
Sehr vorteilhaft für die weitere Entwicklung des Standards ist sicherlich die Abwesenheit von anderen konkurrierenden Standards, die den gleichen Bereich abdecken, wobei Topic Maps natürlich in einzelnen Anwendungsbereichen ganz
76 Vgl. dazu [ISON0393] und [ISON0395].
52
konkret mit bestehenden Systemen konkurrieren. Aus diesem Grund wird der entscheidende Schritt des Topic Map Modells sein, übergreifende Verknüpfungen zwischen bisher getrennten Informationsressourcen herzustellen. Die Mächtigkeit gewinnt der Standard daraus, selbst sehr große Mengen an Informationen relativ leicht zugänglich machen zu können. Einen Erfolg wird es somit für Topic Maps nur geben, wenn eine gewisse kritische Masse an Daten, die mit Topic Maps strukturiert ist, erreicht wird und die beschriebenen Umsetzungsprobleme gelöst werden.
53
VI. Modellierung einer Literatur-Map mit K42
VI.1 K42-Tool
Die Umsetzung des Topic Map Standards in Anwendungsprogramme (Applikationen) haben sich einige Firmen zur Aufgabe gemacht. So befinden sich momentan eine Reihe von Tools in Entwicklung und zum Teil gibt es auch schon erste Versionen, welche eine Erstellung von Topic Maps möglich machen. Diese Tools stehen teilweise auch frei im Internet zum Download zur Verfügung. Eine Auflistung, welche keinen Anspruch auf Vollständigkeit besitzt, ist in Abbildung VI.1 vorhanden und fasst einige Softwareanbieter mit ihren Topic Map - Produkten zusammen.
Abb. VI.1: Topic Map - Companies mit den entsprechenden TM-Tools 77
Die Tools besitzen bis dato noch weiteren Entwicklungsbedarf. Die bereits vorhandenen Versionen decken zwar en gros die Elemente des Topic Map Standards ab, eine standardisierte Anwendung ist jedoch ebensowenig vorhanden wie ein Tool, welches sämtliche Aspekte des ISO-Standards beinhaltet.
77 Abb. Entlehnt von A. Sigel, Original veröffentlicht unter: http://index.bonn.iz-soz.de/~sigel/veroeff/ISI-2000/resources/companies.html
54
Für relativ überschaubare Anwendungen reichen die vorhandenen Tools jedoch schon aus.
Die folgende Abbildung gibt eine Auflistung einiger „offener“ Tools an, welche frei zur Verfügung stehen und nicht kommerziell von Unternehmen vertrieben werden. Die Auflistung der unterschiedlichen Tools in Abb. VI.1 und Abb. VI.2 soll einen Überblick über die verschiedenen Entwicklungsprojekte verschaffen. Aufgrund der Existenz verschiedener Tools mit unterschiedlichen Programmiersprachen muss hier eine weitergehende Homogenisierung stattfinden. Der Vorteil der Standardisierung von Topic Maps kann nur wirksam werden, wenn die einzelnen Topic Maps miteinander verbunden werden können. Dafür bedarf es weiterer Standards, welche die Applikationen betreffen.
Abb VI.2: Opentools von Topic Map-Applikationen78
78 Auflistung von A. Sigel: http://index.bonn.iz-soz.de/~sigel/veroeff/ISI-2000/resources/companies.html
55
Um die theoretischen Überlegungen zu Topic Maps in dieser Arbeit mit einer praktischen Umsetzung abzurunden, wird in diesem Kapitel eine Literaturdatenbank beschrieben, welche mit dem Anwendungstool empolis K42™ als Topic Map erstellt wurde.
Das Unternehmen ‚empolis’ ist im Bereich des Content und Knowledge Managements tätig und entwickelte empolis K42™. Dieser empolis Knowledge Server k42 wurde in der vorliegenden Anwendung als Testversion der Vollversion 1.1.1 verwendet und ist eine Java-Applikation. Die Testversion steht frei verfügbar auf den Internetseiten von empolis zur Verfügung. 79
Die Benutzeroberfläche von k42™ ist in zwei Versionen aufgeteilt. Zum einen gibt es eine WebAuthor-Version, in welcher die Topic Map erstellt und editiert werden kann. Zum Zweiten werden bereits vorhandene Topic Maps mit dem TopicMapViewer präsentiert und zugänglich gemacht. Diese Version erlaubt ein Navigieren in der Topic Map, ohne die Möglichkeit, diese zu modifizieren. Die Eingabemaske für das Erstellen von Topics ist in Abbildung VI.3 dargestellt. Occurrences werden bei K42 als Ressources bezeichnet und werden direkt beim Anlegen des Topics für dieses in der Eingabemaske mitangegeben.
79 Siehe [emp@].
56
Associations werden, bevor konkret zwei Topics in Verbindung miteinander gesetzt werden, als Template eingerichtet. Diese Templates können dann leicht für mehrere Associations gleichen Typs herangezogen werden.
Die Setzung von Scopes ist sowohl für Topics, als auch für Associations möglich, wobei zu beachten ist, dass mindestens eine Bezeichnung pro Topic existieren muss, die nicht durch einen Scope eingegrenzt wird.
In der K42-Applikation ist auch eine Suchfunktion eingebaut, mit welcher Topics, aber auch Associations nach ihrem Namen gesucht und angezeigt werden. Eine Darstellung der Topics, bezogen auf Scopes, ist auch möglich. Mit diesen Mitteln lassen sich ausgewählte Gruppen von Topics finden und anzeigen.
In Abbildung VI.4 wird beispielhaft die Präsentationsoberfläche des TopicMapViewers für ein bereits existierendes Topic gezeigt. Hier sind die unterschiedlichen Informationen, welche das Topic enthält, dargestellt. Dies reicht über den eigentlichen Namen und die vorhandenen Associations hin zu den angelegten Facets, welche als Properties bezeichnet werden.
Abb. VI.4: TopicMapViewer - Beispieltopic
Bei K42 gibt es für eine Relationsbildung zwischen den Topics nicht nur die Möglichkeit, Associations zu setzen, sondern es existieren schon vorgefertigte Felder,
57
welche den Topics Klassen (classes), Instanzen (Instances), Superklassen (Superclasses) und Unterklassen (Subclasses) zuordnen. Damit kann ohne die explizite Verwendung der Association-Funktion bereits eine Klassenhierarchie aufgebaut werden.
VI.2 Literatur-Map
Am Fachgebiet KOM Multimedia Communications 80 der Technischen Universität Darmstadt wurden in den Jahren 1998 bis 2003 über 350 Publikationen veröffentlicht. Um auf der Suche nach relevanten Publikationen schnell zum Ziel zu kommen, ist eine effiziente Strukturierung der Daten nötig. Für dieses Problemfeld bietet sich der Topic Map Standard sehr gut an.
Infolgedessen stellt die praktische Umsetzung des Topic Map Standards mit dem empolis K42™ Tool eine Literatur-Map dar. Dafür wurde exemplarisch aus den über 350 Publikationen 35 aus dem Bereich „Multimedia Semantics“ ausgewählt und in einer Topic Map umgesetzt.
Anhang A zeigt einen Auszug dieser Literatur-Map in der standardisierten XTM-Syntax. Die Topic Map ist so aufgebaut, dass das Finden von Publikationen über verschiedene Kriterien erfolgen kann. Wie auch bei vorhandenen Literaturdatenbanken lassen sich die Publikationen der Literatur-Map über die Merkmale Titel, Autor und Erscheinungsjahr finden.
Speziell ermöglicht die Literatur-Map auch eine Suche über inhaltliche Bezüge. Jede Publikation ist mindestens einem thematischen Gebiet zugeordnet. Diese thematischen Gebiete sind wiederum in einer Klassenhierarchie organisiert. Somit kann man sich sinnbildlich gesprochen an einem Baum von Ast zu Ast durchhangeln, immer an dem gewünschten Thema entlang, bis man zu den gesuchten Publikationen gelangt. Der eindeutige Vorteil gegenüber der Stichwortsuche bei herkömmlichen
Literaturdatenbanken liegt in der Tatsache, dass man keine Stichwörter kennen muss und sich so auch in einem fremden Terrain leichter zurecht finden kann. Die Literatur-Map besteht, wie jede Topic Map, in ihren Grundelementen aus Topics, Associations und Occurrences. So ist für jede Publikation, für jeden Autor und für jeden inhaltlichen Begriff ein eigenes Topic vorhanden. Diese Topics sind dann durch Associations miteinander verbunden. Durch diese Verknüpfungen wird einer Publikation dann das Erscheinungsjahr, die Autoren und die inhaltliche Zuordnung zugewiesen.
80 Siehe [KOM@].
58
Wenn im k42-Tool Associations eingerichtet werden sollen, muss man zuerst abstrakt sog. Association-Templates definieren. Erst mit diesen „Association-Mustern“ können dann konkret einzelne Topics verknüpft werden. In der vorliegenden Literatur-Map finden drei Association-Templates Anwendung: ? „erschienen“ ? „thematischer Bezug“ ? „Verfasser“
Die Association „erschienen“ verknüpft eine Publikation mit dem dazugehörigen Erscheinungsjahr.
Das Template „thematischer Bezug“ weist einer Publikation die entsprechenden Themengebiete zu, in welchen die Publikation thematisch eine Rolle spielen. Das Association-Template „Verfasser“ verbindet das Publikation-Topic mit den Autoren-Topics.
Den Publikations-Topics sind Occurrences zugeordnet, welche in K42 als „Ressources“ bezeichnet werden. Diese „Ressources“ können unterschiedliche Formen annehmen. So ist für sämtliche Publikationen ein Internet-Link angegeben, welcher auf die zu den Publikationen gehörende Internetadresse verweist. Dort findet sich dann entweder die komplette Publikation, oder ein beschreibender Auszug derselben. Die Verwendung des Links ist sehr einfach, da schon das K42-Tool als Java-Applikation auf dem Internet-Explorer läuft. Bei dem Abrufen des Links öffnet sich ein neues Browserfenster mit der entsprechenden WWW-Adresse. Weitere Ressources, neben dem Internet-Link, sind als Beschreibung der Veröffentlichungsdaten der Publikation vorhanden. So ist beispielsweise bei Büchern die ISBN-Nummer, Verlag und Verlagsort angegeben, bei Artikeln die Journalinformationen, bei „Conference Paper“ die Daten der Konferenz, etc..
Das Erstellen der Literatur-Map mit empolis K42™ funktionierte relativ problemlos. Für das Erstellen einer Topic Map als Literaturdatenbank werden jedoch auch nur ganz fundamentale Funktionen und Konzepte der Topic Map benötigt, welche im benutzen Tool auch alle zur Verfügung standen. Die Literatur-Map ist überschaubar und in ihrem strukturellen Aufbau nicht sehr komplex.
Die Bedienung des TopicMapViewer verlangt einen gewissen Grad an Einarbeitung. Für Anwender ohne jegliche Kenntnis des Tools kann die Benutzung der Literatur-Map problematisch werden. Die Auslegung des Tools beruht auch auf einer Eingliederung in ein komplettes Softwarepaket von empolis. Die separate Verwendung ist zwar möglich,
59
erfordert wie erwähnt jedoch tiefergehende Einarbeitung. Außerdem befindet sich auch die K42-Applikation noch in Weiterentwicklung, gerade was die Benutzeroberfläche und eine standardisierte TMQL 81 angehen.
Aufbauend auf die vorhandene Literatur-Map sind Erweiterungen denkbar, die noch stärker die Vorteile einer Topic Map gegenüber herkömmlichen Literatur-Datenbanken umsetzen.
In der vorliegenden Literatur-Map besteht das Topic, welches einen Autor darstellt, nur aus dem Namen des Autors. Hier wäre es leicht möglich, weitere Informationen über die Person zu integrieren, angefangen bei einem Lebenslauf, einem Link zur persönlichen Webpage oder zur Institution, für welche der Autor tätig ist. Außerdem könnten auch die Autoren-Topics mit Associations verbunden werden. So könnte man zum Beispiel Autoren, welche in einer Arbeitsgruppe arbeiten, miteinander verknüpfen. Dies würde dem Benutzer der Literatur-Map weitere Autoren zeigen, welche in ähnlichen Bereichen wie ein bereits bekannter Autor arbeiten. Eine weitere Möglichkeit würde darin bestehen, die Autoren mit den Konferenzen zu verknüpfen, an denen sie beteiligt waren. Durch diese Association könnte der Benutzer wieder auf potenzielle Kompetenzen der Autoren schließen. Weiteres Ausbaupotenzial liegt auch in den Publikations-Topics. So kann man neben der thematischen Zuordnung der Publikationen noch weitere Verknüpfungen vornehmen, die ein Navigieren in den Publikationen vereinfachen. So könnten konkrete Publikationen miteinander verknüpft werden. Stellt eine Publikation zum Beispiel eine Nachfolgepublikation, oder eine Gegenhypothese zu einer anderen dar, so könnte man die Publikationen durch einen Verweis in Verbindung setzen.
Auch die thematische Struktur der Literatur-Map ließe sich weiter verfeinern. Durch das Abstecken eines inhaltlichen Rahmens könnte so eine ganz bestimmte Auswahl an Publikationen angegeben werden. Dies wäre durch das Setzen von Scopes möglich.
Interessant wäre auch eine Einbindung der WordNet-Topic Map in die inhaltliche Suche. Wird vom Benutzer eine Stichwort-Suchanfrage, den inhaltlichen Bezug betreffend, gestellt, kann es leicht möglich sein, dass der entsprechende Begriff nicht in der vorhandenen Struktur auftaucht. In diesem Fall könnte man nach synonymen Begriffen, oder nach Oberbegriffen des vom Benutzer angegebenen Begriffs suchen. Diese Synonyme und Oberbegriffe könnten aus der WordNet-Topic Map gewonnen werden. Entsprechend werden dann die Publikationen angezeigt, die einen thematischen Bezug zu den Synonymen oder Oberbegriffen besitzen.
81 TMQL: Topic Map Query Language.
60
Dieses Beispiel zeigt die Mächtigkeit des Topic Map - Standards. Sind unterschiedliche Informationen oder Daten als Topic Map standardisiert vorhanden, kann leicht gegenseitig aufeinander zugegriffen werden, was neue
Anwendungsmöglichkeiten hervorbringt.
Die Informationen der Literatur-Map über die beschriebenen Autoren könnten dann beispielsweise wieder an anderer Stelle in einer Topic Map genutzt werden (auch in WordNet werden Autoren angegeben).
Somit besitzt eine Literatur-Map, welche durch Topic Maps in standardisierter Form vorliegt, große Vorteile gegenüber herkömmlichen Literaturdatenbanken.
61
VII. Zusammenfassung
Die Arbeit macht in groben Zügen die theoretischen Konzepte des Topic Maps Standards deutlich. Die WordNet-Ontologie wird eingehend beschrieben und für diese eine Topic Map, die WordNet-Topic Map, entwickelt. Applikationen von Topic Maps werden kurz vorgestellt und an dem praktischen Beispiel der Literatur-Map mit empolis K42™ angewendet.
Der Standard „ISO/IEC 13250 Topic Maps“ öffnet für den Bereich der semantischen Netze und des Wissensmanagements neue Wege. Diese müssen nun gegangen werden. Dafür sind weitere Spezifikationen des Standards nötig, insbesondere die konkrete Umsetzung mit einer TMQL. Schritte in diese Richtung wurden mit den neuen Veröffentlichungen [ISON0393] und [ISON035] gemacht. Wenn es gelingt, eine echte standardisierte Strukturierung von umfassenden Informationen durch Topic Maps zu schaffen, bestehen durch die semantischen Vernetzungen eine Vielzahl von Erleichterungen und neuen Möglichkeiten. Hervorzuheben ist die Bedeutung des Internets in diesem Bereich. Mit dem WWW steht eine „uferlose“ Informationsquelle zur Verfügung. Die Suche in diesem Netz bringt momentan nicht zufriedenstellende Ergebnisse, so dass ein strukturiertes Navigieren mit Topic Maps enorme Vorteile zur Folge hätte. Eine Herausforderung wird vor allem darin bestehen, die Webinhalte möglichst automatisch und semantisch korrekt in eine Topic Map einzugliedern. Das automatische Generieren von Topic Maps könnte folglich ein selbständiges Erweitern und Wachsen des Netzes ermöglichen. Die Vorraussetzung eines standardisierten Rahmens ist mit dem Topic Maps Modell geschaffen. Die Mächtigkeit gewinnt der ISO-Standard vornehmlich aus der Bildung von Inferenzen. Durch die assoziativen Verknüpfungen können intelligente
Schlussfolgerungen gezogen werden, welche wieder neue Informationen zur Verfügung stellen können. Neue Verknüpfungen könnten selbständig kreiert und das semantische Netz kann damit noch engmaschiger geknüpft werden. Dieser autonomen künstlichen Intelligenz der Topic Maps kann sicherlich eine hohe Bedeutung beigemessen werden, wobei bis zu einer praktischen Umsetzung noch einiger Entwicklungsbedarf vonnöten ist.
Die beschriebene WordNet-Topic Map gibt in der beschriebenen Fassung eine konzeptuelle Anleitung für eine praktische Umsetzung. Die Realisierung der WordNet-Topic Map steht noch an und stellt angesichts der Größe der WordNet-Ontologie eine sehr umfassende Aufgabe dar.
62
Die potenziellen Anwendungsmöglichkeiten der WordNet-Topic Map übersteigen sicherlich die, der vorhandenen Online-Version von WordNet. Allein die angestrebten Erweiterungen und Modifikationen von WordNet könnten einfach durchgeführt werden. Sämtliche englische textbasierte Informationen, die mit Topic Maps strukturiert sind, könnten mit der WordNet-Topic Map hinterlegt werden. Beim automatischen Generieren von Topic Maps könnte auf die WordNet-Topic Map zurückgegriffen werden, da diese enorme Informationen, gerade was Zusammenhänge in Ober/Unterklassen betrifft, beinhaltet. 82
Beim Erlernen des Englischen (insbesondere als Fremdsprache) kann die WordNet-Topic Map im Rahmen von telemedialen Lehrprodukten, welche idealerweise auch auf Topic Maps beruhen, zum Einsatz kommen. Weitere Spekulationen über eine Verwendung werden an dieser Stelle dem Einfallsreichtum und den Ideen der Leser überlassen.
Die Beschreibung und Verwendung des Tools empolis K42™ setzt zu den theoretischen Ausführungen dieser Arbeit ein praxisorientiertes Gegengewicht. Einer Weiterentwicklung der entworfenen Literatur-Map steht nichts im Weg. Aufbauend auf die vorhandene Struktur der Topic Map können weitere Publikationen eingefügt werden. Um ein praktisches Gefühl für die Funktionalitäten des Topic Maps Standards zu erlangen, ist es sicherlich förderlich ein konkretes Projekt wie die Literatur-Map in empolis K42™ zu betrachten und sich mit Applikationen des Standards zu beschäftigen.
82 Vgl. dazu Beispiel in Kapitel VI.2
63
Literaturverzeichnis
[Bec90] R. Beckwith, G. Miller, R. Tengi: Design and Implementation of
the WordNet Lexical Database and Searching Software. Revised
version of “Implementing a Lexical Network” in CSL Report #43,
prepared by R. Tengi, 1990.
[Ber01] T. Berners-Lee, J. Hendler, O.Lassila: The Semantic Web. In:
Scientific American, Mai 2001.
http://www.sciam.com/article.cfm?articleID=00048144-10D2-
1C70-84A9809EC588EF21
[Fel93] C. Fellbaum, D.Gross, K. Miller: Adjectives in WordNet. S. 26-39.
In: Miller, G. et al. : Five Papers on WordNet, Journal of
Lexicography, Bd 3(4), S. 235-312, (Revised Version), 1993.
[Fel98a] C. Fellbaum: Towards a Representation of Idioms in WordNet.
Proceedings of the Workshop on Usage of WordNet in Natural
Language Processing Systems, COLING/ACL, S. 52-57.
Montreal, Kanada, 1998.
[Fel98b] C. Fellbaum: A Semantic Network of English Verbs. In: WordNet:
An Electronic Lexical Database, MIT Press, Cambridge, USA,
1998.
[Fil65] S. Fillenbaum, L. Jones: Grammatical Contingencies in Word
Association. Journal of Verbal Learning and Verbal Behaviour
4.S. 248-255. 1965.
[Gro02] G. Gronmo: Creating semantically valid topic maps. Paper der
XML 2000 Conference, 12.-16. Juni 2000, Palais Des Congrès
De Paris, 2000.
http://www.gca.org/papers/xmleurope2000/pdf/s29-02.pdf
[Gru93] T. Gruber: A translation approach to portable ontology
specifications. In: Knowledge Acquisition, 5,199-220, 1993.
.
[Gru95] M. Gruninger, M. Fox: Methodology for the Design and
Evaluation of Ontologies. In: Proceedings of the Workshop on
Basic Ontological Issues in Knowledge Sharing, IJCAI-95,
Montreal, Kanada, 1995.
[Ham97] B. Hamp, H. Feldweg: GermaNet - a lexical-semantic net for
German. In: P. Vossen, N. Calzolari, G. Adriaens, A. Sanfilippo,
and Y. Wilks (Eds.), Proceedings of the ACL/EACL-97 workshop
Automatic Information Extraction and Building of Lexical
Semantic Resources for NLP Applications, pp. 915. Madrid,
1997.
[Hau02] M. Haun. Wissensmanagement, Grundlagen und Umsetzung,
System und Praxisbeispiele. Springer-Verlag, Heidelberg, 2002.
67
[Hef99] J. Heflin, J. Hendler, S. Luke: Applying Ontology to the Web: A
Case Study. In: J. Mira, J. Sanchez-Andres (Eds.), International
Work-Conference on Artificial and Natural Neural Networks,
IWANN'99. Proceedings, Volume II, S. 715-724. Springer-Verlag,
Berlin, 1999.
http://www.cs.umd.edu/projects/plus/SHOE/pubs/iwann99.pdf
[Hes02] W. Hesse: Ontologie(n). In: Informatik_Spektrum, 16, S. 477-480,
Dezember 2002.
[ISO10744] ISO/IEC 10744:1997. Hypermedia/Time-based Structuring
Language (HyTime) - 2d Edition. International Organization for
Standardization. Genf, Schweiz, 1997.
www.ornl.gov/sgml/wg8/docs/n1920/html/n1920.html
[ISO13250] ISO/IEC 13250:2002. Topic Maps, Information Technology,
Document Description and Processing Languages. International
Organization for Standardization, Genf, Schweiz, 2002.
[ISON0393] ISO/IEC N0393 Information Technology -- Document Description
and Processing Languages. International Organization for
Standardization, Genf, Schweiz, 2002.
http://www.isotopicmaps.org/tmmm/TMMM-
2.30/N0393.html#parid2235
[ISON0395] ISO/IEC N0395 Information Technology -- Document Description
and Processing Languages. International Organization for
Standardization, Genf, Schweiz, 2002.
http://www.isotopicmaps.org/sam/cxtm/
[Kar01] D.Karagiannis, R.Telesko. Handbuch Wissensmanagement,
Konzepte der Künstlichen Intelligenz und des Softcomputing.
Lehrbücher Wirtschaftsinformatik. Oldenburg-Verlag, München,
2001.
[Koo01] Hans J. Koop: Erfolgsfaktor Content Management. Vom Web
Content bis zum Knowledge Management. Vieweg Verlag. 2001.
[Ksi99] R. Ksiezyk: Trying not to get lost with a Topic Map. In:
Proceedings of XML Europe 1999 Conference, GCA, Granada,
Spanien, 1999.
www.infoloom.com/gcaconfs/WEB/granada99/ksi.html
[Lag01] Carl Lagoze, Jane Hunter: The ABC Ontology and Model. Cornell
University, UK, 2001.
http://jodi.ecs.soton.ac.uk/Articles/v02/i02/Lagoze/lagoze-final.pdf
[LeG02] B. Le Grand, M. Soto : Topic Maps et navigation intelligente sur
le Web Sémantique. Laboratoire d´Informatique de Paris 6,
AS2W - 11 octobre 2002, 2002.
http://www.lalic.paris4.sorbonne.fr/stic/octobre/octobre/apr/LeGra
nd.pdf
[Lob00] H. Lobin: Informationsmodellierung in XML und SGML. Springer-
Verlag, Heidelberg, 2000.
68
[Mil90] G. Miller: Nouns in WordNet : A Lexical Inheritance System.
International Journal of Lexicography, Vol. 3, No. 4, S. 245-264,
1990.
[Mil93] G. Miller, R. Beckwith, C. Fellbaum, D. Gross, K. Miller:
Introduction to WordNet: An On-line Lexical Database, (Revised
August 1993).
http://www.cogsci.princeton.edu/~wn/w3wn.html
[MIT99] R. Wilson: The MIT Encyclopaedia of the Cognitive Science.
S.432, MIT Press, Cambridge, USA, 1999.
[Noy03] Natalya F. Noy, Deborah L. McGuinness: Ontology Development
101: A Guide to Creating Your First Ontology, Stanford,USA.
http://protege.stanford.edu/publications/ontology_development/o
ntology101-noy-mcguinness.html, 12.07.2003.
[Obr03] L. Obrst, H. Liu: Knowledge Representation, Ontological
Engineering, and Topic Maps. In: J. Park, S. Hunter: XML Topic
Maps: Creating and Using Topic Maps for the Web. S. 103-148.
Addison-Wesley, Bosten USA, 2003.
[Pep99a] S. Pepper: Navigating haystacks and discovering needles. In:
Markup Languages: Theory & Practice 1.4. 1999.
[Pep99b] S. Pepper: Euler, Topic Maps, and Revolution. In: Proceedings
of XML Europe 1999 Conference, GCA, Granada, Spanien,
1999.
http://www.infoloom.com/gcaconfs/WEB/granada99/pep.HTMl
[Rat99a] H. Rath: Mit Topic Maps intelligente Informationsnetze aufbauen
- Mozart und Kugeln. In: iX Magazin , Dec. 1999, Heise Verlag,
Hannover, 1999.
[Rat99b] H. Rath, S. Pepper : Topic Maps : Knowledge navigation aids. In:
C. Goldfarb: XML Handbook, 2 nd edition, Prentice Hall, USA, 1999.
[Rat00] H. Rath : Making Topic Maps more colourful. In: Proceedings of
XML Europe 2000 Conference, GCA, Alexandria, VA, 2000.
http://citeseer.nj.nec.com/rath00making.html
[Rat01] H. Rath: Topic Maps and the business of knowledge. Vortrag: 21-
25 May 2001 Internationales Congress Centrum (ICC), Berlin,
2001.
http://www.gca.org/papers/xmleurope2001/papers/html/s04-
2.html
[See02] C. Seeberg: life-long-learning - modulare Wissensbasen für
elektronische Lernumgebungen. Springer-Verlag, Heidelberg.
2002.
[Sig02] A. Sigel: Topic maps in knowledge organizations. In: XML topic
maps: Creating and using Topic Maps for the web. J. Park,
Addison Wesley Longman. 2002.
69
[Sig03] A. Sigel: Topic Maps in Knowledge Organization. In: J. Park, S.
Hunter: XML Topic Maps: Creating and Using Topic Maps for the
Web. S. 383-476. Addison-Wesley, Bosten USA, 2003.
[Sow96] J. Sowa: Ontologies for Knowledge Sharing. Manuskript des
Invited Talks auf der TK´96. Wien, Österreich, 1996.
[Wid02] R. Widhalm, T. Mück: Topic Maps, Sematische Suche im
Internet. Springer-Verlag, Heidelberg, 2002.
[XTM1.0] S. Pepper, G. Moore et al.: XML Topic Maps (XTM) 1.0
Specification. Topic Maps Authoring Group, 2001.
http://www.topicmaps.org/xtm/1.0/xtm1-20010806.html
Internetadressen:
[Cyc@] Nähere Informationen zu Cyc: http://www.cyc.com
[eba@] http://pages.ebay.com/community/aboutebay/overview/index.html
[emp@] Homepage von empolis: http://www.empolis.co.uk
[Eur@] Nähere Informationen zu EuroWordNet:
http://www.illc.uva.nl/EuroWordNet/
[k-M@] Näheres zu k-Med siehe: http://www.k-med.org
[KOM@] Fachgebiet Multimedia Kommunikation, TU Darmstadt:
http://www.kom.tu-darmstadt.de
[RIP@] RIPE Network Coordination Network.
http://www.ripe.net/ripencc/pub-services/stats/hostcount/2003/05/index.html
[Wor@] Nähere Informationen zu WordNet:
http://www.cogsci.princeton.edu/~wn/
[Wie@] Datenbank der Wiener Zeitung verfügbar unter :
http://www.wienerzeitung.at/frameless/links.htm?ID=M4
70
Arbeit zitieren:
Andreas Rückriegel, 2003, ISO/IEC 13250 Topic Maps - Neue Wege des Wissensmanagements, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Einsatz von XML Topic Maps im Wissensmanagement - Definition und Visua...
Informationswissenschaften, Informationsmanagement
Seminararbeit, 23 Seiten
Ontologien für Multiagentensysteme
Informationswissenschaften, Informationsmanagement
Hausarbeit (Hauptseminar), 20 Seiten
Multivariate Analysemethoden. Faktoren-, Clusteranalyse und multidimen...
Medien / Kommunikation - Methoden und Forschungslogik
Hausarbeit (Hauptseminar), 41 Seiten
Wissensmanagement - Ordnungsysteme und Methoden zur Organisation mensc...
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 26 Seiten
Informatik - Internet, neue Technologien
Hausarbeit (Hauptseminar), 25 Seiten
Ansätze zur Clusterförderung durch die Politik und der Beitrag von Unt...
Seminararbeit, 33 Seiten
Knowledge Networks als Form des Wissensmanagements in transnationalen ...
BWL - Unternehmensführung, Management, Organisation
Hausarbeit, 13 Seiten
Bildung von Innovationsclustern anhand der Technologie Wind
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 28 Seiten
Begriffsbestimmung und Theorie...
Geowissenschaften / Geographie - Wirtschaftsgeographie
Essay, 15 Seiten
Von Marshall zu Porter: Cluster und regionale Wettbewerbsfähigkeit
Geowissenschaften / Geographie - Wirtschaftsgeographie
Seminararbeit, 16 Seiten
The analysis of scientific disciplines and their development using a S...
Collaborative Innovation Netwo...
Informationswissenschaften, Informationsmanagement
Essay, 22 Seiten
Personalrecruiting im Internet
Vorteile und Nachteile aus Sic...
BWL - Personal und Organisation
Hausarbeit, 15 Seiten
High-Tech Cluster in Nordamerika
Geowissenschaften / Geographie - Wirtschaftsgeographie
Hausarbeit, 20 Seiten
Aktuelle Bedeutung des Electronic Recruiting im Rahmen der externen Pe...
BWL - Personal und Organisation
Studienarbeit, 34 Seiten
Visualization of Hierarchical Clustering: Graph Types and Software Too...
Hausarbeit (Hauptseminar), 17 Seiten
Can we ever Hope to Measure and Control Software Quality?
Informatik - Wirtschaftsinformatik
Hausarbeit (Hauptseminar), 12 Seiten
Stellenmärkte im Internet: Bedrohung für Tageszeitungen?
Medien / Kommunikation - Multimedia, Internet, neue Technologien
Magisterarbeit, 135 Seiten
Elemente einer wissensbasierten Clustertheorie am Beispiel der Optisch...
Geowissenschaften / Geographie - Wirtschaftsgeographie
Hausarbeit (Hauptseminar), 27 Seiten
Andreas Rückriegel hat den Text ISO/IEC 13250 Topic Maps - Neue Wege des Wissensmanagements veröffentlicht
Andreas Rückriegel hat einen neuen Text hochgeladen
ISO/Iec 20000 Certification and Implementation Guide - Standard Introd...
Claire Engle, Jackie Brewster, Gerard Blokdijk
Leveraging the Semantics of Topics Maps
Second International Conferenc...
Lutz Maicher, Alexander Sigel, Lars Marius Garshol
Information Security Risk Management mit ISO/IEC 27005
Risikomanagement für ISO/IEC 2...
Sebastian Klipper
ISO/Iec 20000 Foundation Complete Certification Kit - Study Guide Book...
Ivanka Menken, Gerard Blokdijk
0 Kommentare