Inhaltsverzeichnis
1. Einleitung 2
2. Semantic Web
2.1 Vom World Wide Web zum Semantic Web 3
2.2 Semantic Web - Ebene 1 - RDF 6
2.3 Semantic Web - Ebene 2 - OWL 8
3. Semantic Web Suchmaschienen
3.1 Swoogle - Suche im semantischen Teil des Web 10
3.2 QuizRDF - Suche mit Hilfe des Semantic Web 13
4. Fazit 16
5. Anhang
5.1 Literaturverzeichnis 17
1
1. Einleitung
„The ultimate search engine would basically understand everything in the world, and it would always give you the right thing. And we're a long, long ways from that.“ 1
Dieses Zitat von Larry Page 2 , der mit dem von ihm entwickelten Page Rank Algorithmus nicht unerheblich zur Markt dominierenden Stellung von Google als Internet-Suchmaschine beigetragen hat, zeigt, dass auf dem Gebiet der Suchmaschinen noch viel zu tun ist. Davon, dass eine Suchmaschine wie Google „alles auf der Welt versteht“ und immer die richtigen Ergebnisse auf unsere Suchanfragen zurück liefert, sind wir mit Sicherheit noch sehr weit entfernt.
Gerade wenn es darum geht, die relevanten Informationen aus der riesigen Fülle an Webseiten aus denen das World Wide Web besteht herauszufiltern, gleicht dies „der Suche nach der Nadel in einem täglich wachsenden Heuhaufen“. 3
Dabei stehen die Suchmaschinenbetreiber vor allem vor dem Problem, den Inhalt dieser unzähligen Webseiten richtig zu „erkennen“. Das dabei die vor allem auf „Word-Matching“ 4 Verfahren ausgelegten Algorithmen nicht die besten Ergebnisse bringen, ist kaum verwunderlich und hat wohl jeder schon selber bei seiner Suche im Internet feststellen können. Und diese Probleme mit denen heutige Suchmaschinen zu kämpfen haben, werden nicht kleiner, sondern steigen Tag für Tag mit den neu im Web entstehenden Seiten. Um dieser Herausforderung zu begegnen, gibt es vor allem zwei verschiedene Möglichkeiten. Auf der einen Seite könnten die Betreiber von Suchmaschinen auf den massiven Einsatz von Verfahren aus dem Bereich der künstlichen Intelligenz bauen, mit deren Hilfe es vielleicht möglich wäre, aus bestimmten auf der Webseite vorhandenen Wortkombinationen oder dem Satzbau Rückschlüsse auf den Inhalt der Webseite zu ziehen. Hier wird also versuch im nachhinein die implizit im Seiteninhalt „verborgene“ Bedeutung zu ermitteln. Das nachträgliche Erschließen implizit vorhandener Informationen hat den Nachteil, dass die Last der Erkenntnisgewinnung ausschließlich auf Seite der Serviceanbieter (z.B. Suchmaschinen) liegt und das prinzipielle Problem besteht, dass sich vorhandene Daten auf sehr unterschiedliche Art und Weise interpretieren lassen. Auf der anderen Seite könnten man das Gerüst, aus dem sich die Webseiten zusammensetzen, erweitern und den Entwicklern der Webseiten auf diese Weise eine Möglichkeit an die Hand geben, selber den Inhalt ihrer Seite explizit zu beschreiben.
Genau um diesen zweiten Aspekt und seine Umsetzung in einem „Semanitc Web“ soll es in dieser Arbeit gehen. Dabei werde ich im ersten Teil der vorliegenden Arbeit, ausgehend von den Unzulänglichkeiten des bestehenden World Wide Web, die Idee und den Aufbau des Semantic Web näher beleuchten, um dann im zweiten Teil zwei Suchmaschinen vorzustellen, die zum einen beim Aufbau des Semantic Web helfen und zum anderen eine Suche auch im neuen semantischen Web ähnlich wie Google ermöglichen.
1 Page, Larry (2004): Interview, Business Week Magazin, http://www.businessweek.com/magazine/content/04_18/b3881010_mz001.htm .
2 Larry Page (*26.03.1973): US-Amerikanischer Informatiker und Mitbegründer von Google.
3 Vgl. Dostal, Wolfgang u.a. (2004): Semantic Web, Objektspektrum (5/2004), S. 30. 4 „Word matching“ meint hier die Schlüsselwortsuche, d.h. das gesuchte Wort wird Zeichen für Zeichen mit denen diverser HTML Seiten verglichen.
2
2. Semantic Web
2.1 Vom World Wide Web zum Semantic Web
Bevor man sich mit dem Konzept des Semantic Web, seinem Aufbau, seinen Vorteilen und seinen Auswirkungen beschäftigt, wird wahrscheinlich als erstes die Frage im Raum stehen, was genau denn das Problem mit dem World Wide Web der „ersten Generation“ 5 ist.
Wenn man das heutige auf SGML (HTML) bzw. XML (XHTML) basierende Internet betrachtet, wird man feststellen, dass es vor allem an erster Stelle repräsentationsorientiert ist.
Es geht vornehmlich darum, Informationen möglichst visuell ansprechend darzustellen, ein einfaches und übersichtliches Benutzerinterface zur Verfügung zu stellen und dadurch die Informationen leicht zugänglich und intuitiv erfassbar aufzubereiten. Dabei geht es natürlich um den Informationsfluss hin zum menschlichen Betrachter vor dem Bildschirm, der ließt, surft oder Formulare ausfällt.
Aus dieser Repräsentationsorientierung für menschliche Nutzer ergeben sich dann Probleme für die intermaschinelle Kommunikation, Such-Agenten, Informationsfilter und dergleichen. Ein menschlicher Nutzer kann aus den Texten, Bildern oder generell Inhalten einer Webseite ihr Bedeutung meist sehr einfach erfassen. Einer Maschine oder Software bleibt dieser Bedeutungsinhalt jedoch erst einmal verschlossen.
Dieses Problem des Nichterkennens der inhaltlichen Bedeutung einer Webseite ist, wie schon in der Einleitung beschrieben, eines der größten Probleme heutiger Suchmaschinen. Die Problem ergeben sich vor allem bei/aus den folgenden drei Aspekten:
● Homonyme (Wörter die gleich geschrieben werden aber mehrere Bedeutungen haben können)
Für einen menschlichen Betrachter ist es auf den ersten Blick ersichtlich, ob sich eine Webseite mit der Insel „Java“ beschäftigt oder es um die Programmierspache „Java“ geht. Eine Suchmaschine bräuchte schon weiterführende Verfahren um so eine Einschätzung geben zu können. ● Synonyme (verschiedene Wörter, die die gleiche Bedeutung haben) Eine Suchmaschine weiß nicht zwingend, dass, wenn nach „Fahrrad“ gesucht wird, auch Webseite mit „Drahtesel“ oder „Zweirad“ interessant sein könnten.
● Priorisierung (Was ist wichtig(er)? Welche Seite ist releavant(er)?) Woran soll eine Suchmaschine feststellen ob eine Webseite relevant für eine Suchanfrage ist? Daran, wie oft das Suchwort auf der Seite vorkommt? Anhand des Page Rank, der einfach gesagt angiebt, wie „gut“ eine Seite verlinkt ist? Das können mit Sicherheit Anhaltspunkte sein, sonst wäre die Ergebnisse heutiger Suchmaschinen viel schlechter, aber trotzdem stellen diese Anhaltspunkte nur einen Kompromiss dar.
Wörter und Begriffe, die auf einer Webseite auftauchen, müssten also im
5 Es gibt auch Literatur, die das heutige Web bereits als Web der „zweiten Generation“ bezeichnet - sie unterscheidet „handwritten HTML pages“ und „machine generated and often active HTML pages“ als erste bzw. zweite Generation.
3
Kontext ihres Auftretens durch die Suchmaschine interpretiert werden. 6 Ein Beispiel soll an dieser Stelle den oben beschriebene Sachverhalt verdeutlichen. Nehmen wir einmal an, wir möchten einem Bekannten einen iPod Mini schenken. Um nicht zuviel Geld auszugeben, möchten wir im Internet nach dem billigsten Anbieter suchen. Das scheint auf den ersten Blick keine schwere Aufgabe zu sein, eine Suche bei bekannten Hardwareversendern im Internet, ob sie den iPod Mini anbieten und wenn ja, zu welche Preis, sollte das Problem lösen. Das ist ein recht simple Aufgabe mit immer wiederkehrenden Handlungsschritten. Es liegt also nahe das ganze zu automatisieren. Als ersten Schritt könnte man vielleicht in Erwägung ziehen, eine Suchmaschine nach den Begriffen „iPod Mini“ und „Preis“ suchen zu lassen. In der Ergebnisliste werden sich dann wahrscheinlich viele Angebote zum iPod Mini finden, aber mit Sicherheit ebensoviele zu Tasche, Kopfhörer, Netzteil oder anderem Zubehör zum iPod Mini. Selbst wenn wir nur iPod Mini Angebot in der Ergebnisliste hätten, müssten wir immernoch jedes Angebot einzelnd aufrufen und nach dem Preis suchen.
Stellen wir uns nun einen Software Agenten vor, der für uns eine Preisliste zum iPod Mini erstellen soll und nehmen wir an, er weiß bereits auf welchen Seite er nach Angeboten suchen kann. Er wird also von den Anbietern (X)HTML Dokumente erhalten, auf denen irgendwo der Preis des iPod steht - so wie das WWW heute aufgebaut ist, müsste dem Agenten gesagt werden, welcher Händler in welcher Tabellenzelle den Preis stehen hat. Schlecht, wenn der Händler das ändert und Probleme wie Währung, Brutto- oder Nettopreis wurden noch gar nicht berücksichtigt.
Hier wird deutlich welche Problem eine eigentlich sehr einfach Aufgabe aufwirft, wenn keine verwertbaren Informationen über die inhaltliche Bedeutung einer Webseite vorhanden sind. Einen Teil des obigen Problems könnte man dadurch umgehen, dass man ausnutzt das XHTML auf XML basiert. Man kann sich z.B. einen Tag
Eine ausschließliche Bedeutungszuweisung für einzelne Teile einer Webseite ist also offensichtlich nicht ausreichend. Es ist zusätzlich nötig, Beziehungen und Zusammenhänge zwischen diesen Auszeichnungen herstellen und beschreiben zu können. Diese beiden Anforderungen erfüllt das Semantic Web und darüber hinaus hat es noch weitere Vorteile. Für die Idee des Semantic Web zeichnet sich niemand geringeres verantwortlich als Tim Berners-Lee 8 , der „Erfinder“ des Hypertext basierten Internets, der zusammen mit James Hendler und Ora Lassila im Jahr 2001 in dem visionären Artikel „The Semantic Web“ 9 die Grundbausteine für die weitere Entwicklung legte. Aus einer zentrale Aussage lassen sich bereits die Hauptziele des Semantic Web ableiten:
„The Semantic Web is an extension of the current web in which information is
6 Vgl. Dostal, Wolfgang u.a. (2004): Semantic Web, S. 31.
7 Vgl. Mintert, Stefan (2003): Abgehoben. Das semantische Web, iX (7/2003), S. 90f.
8 Tim Berners-Lee (*8.6.1955): Studierte an der Oxford University, zur Zeit Inhaber des 3com Founders-Lehrstuhls am MIT.
9 Berners-Lee, Tim u.a. (2001): The Semantic Web, Scientific American (5/2001).
4
Arbeit zitieren:
Samuel Greef, 2005, Semantic Web - Aufbau und Suchtechnologien, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Warum die israelisch-arabischen Friedensverhandlungen nach dem Sechsta...
Eine neorealistische und konst...
Politik - Internationale Politik - Region: Naher Osten, Vorderer Orient
Seminararbeit, 23 Seiten
Kommunikationsmodelle: Organonmodell von Bühler und Kommunikationsmo...
Sprachwissenschaft / Sprachforschung (fachübergreifend)
Seminararbeit, 9 Seiten
Deutsch - Pädagogik, Didaktik, Sprachwissenschaft
Referat (Ausarbeitung), 8 Seiten
La Revolución Cubana. Orígenes y desarrollo
Romanistik - Lateinamerikanische Sprachen, Literatur, Landeskunde
Hausarbeit (Hauptseminar), 19 Seiten
Was ist Semantik? Ein Einblick in das Gebiet der linguistischen Semant...
Germanistik - Semiotik, Pragmatik, Semantik
Seminararbeit, 25 Seiten
Phraseologismen in deutschen Wörterbüchern
Hausarbeit (Hauptseminar), 33 Seiten
Clustering und Evaluierung von Benutzerprofilen bei Web-Portalen
Informatik - Internet, neue Technologien
Diplomarbeit, 113 Seiten
Zu: Ferdinand de Saussure - "Cours de linguistique générale"
Romanistik - Französisch - Linguistik
Seminararbeit, 17 Seiten
Samuel Greef hat den Text Semantic Web - Aufbau und Suchtechnologien veröffentlicht
Samuel Greef hat einen neuen Text hochgeladen
Natural Language Processing as a Foundation of the Semantic Web
Yorick Wilks, Christopher Brewster
Reasoning Web. Semantic Technologies for the Web of Data
7th International Summer Schoo...
Axel Polleres, Claudia d'Amato, Marcelo Arenas, Siegfried Handschuh, Paula Kroner, Sascha Ossowski, Peter F. Patel-Schneider
Semantic-Web-Wissensbank für Planungsprozesse bei der Wiederverwendung...
Robert Harms, Günther Seliger
Einsatzszenarien von Web 2.0 Technologien im Kundenmanagement
Eine theoretisch und empirisch...
Sven W. Flätchen, Christian Scholz
0 Kommentare