„The ultimate search engine would basically understand everything in the world, and it would always give you the right thing. And we're a long, long ways from that.“
Dieses Zitat von Larry Page, der mit dem von ihm entwickelten Page Rank Algorithmus nicht unerheblich zur Markt dominierenden Stellung von Google als Internet-Suchmaschine beigetragen hat, zeigt, dass auf dem Gebiet der Suchmaschinen noch viel zu tun ist. Davon, dass eine Suchmaschine wie Google „alles auf der Welt versteht“ und immer die richtigen Ergebnisse auf unsere Suchanfragen zurück liefert, sind wir mit Sicherheit noch sehr weit entfernt.
Gerade wenn es darum geht, die relevanten Informationen aus der riesigen Fülle an Webseiten aus denen das World Wide Web besteht herauszufiltern, gleicht dies „der Suche nach der Nadel in einem täglich wachsenden Heuhaufen“.
Dabei stehen die Suchmaschinenbetreiber vor allem vor dem Problem, den Inhalt dieser unzähligen Webseiten richtig zu „erkennen“. Das dabei die vor allem auf „Word-Matching“ Verfahren ausgelegten Algorithmen nicht die besten Ergebnisse bringen, ist kaum verwunderlich und hat wohl jeder schon selber bei seiner Suche im Internet feststellen können. Und diese Probleme mit denen heutige Suchmaschinen zu kämpfen haben, werden nicht kleiner, sondern steigen Tag für Tag mit den neu im Web entstehenden Seiten. Um dieser Herausforderung zu begegnen, gibt es vor allem zwei verschiedene Möglichkeiten. Auf der einen Seite könnten die Betreiber von Suchmaschinen auf den massiven Einsatz von Verfahren aus dem Bereich der künstlichen Intelligenz bauen, mit deren Hilfe es vielleicht möglich wäre, aus bestimmten auf der Webseite vorhandenen Wortkombinationen oder dem Satzbau Rückschlüsse auf den Inhalt der Webseite zu ziehen. Hier wird also versuch im nachhinein die implizit im Seiteninhalt „verborgene“ Bedeutung zu ermitteln. Das nachträgliche Erschließen implizit vorhandener Informationen hat den Nachteil, dass die Last der Erkenntnisgewinnung ausschließlich auf Seite der Serviceanbieter (z.B. Suchmaschinen) liegt und das prinzipielle Problem besteht, dass sich vorhandene Daten auf sehr unterschiedliche Art und Weise interpretieren lassen. Auf der anderen Seite könnten man das Gerüst, aus dem sich die Webseiten zusammensetzen, erweitern und den Entwicklern der Webseiten auf diese Weise eine Möglichkeit an die Hand geben, selber den Inhalt ihrer Seite explizit zu beschreiben.

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Semantic Web

2.1 Vom World Wide Web zum Semantic Web

2.2 Semantic Web – Ebene 1 – RDF

2.3 Semantic Web – Ebene 2 – OWL

3. Semantic Web Suchmaschienen

3.1 Swoogle – Suche im semantischen Teil des Web

3.2 QuizRDF – Suche mit Hilfe des Semantic Web

4. Fazit

5. Anhang

5.1 Literaturverzeichnis

Zielsetzung & Themen

Die Arbeit untersucht die Defizite heutiger Suchmaschinen, die primär auf Word-Matching basieren, und analysiert das Konzept des Semantic Web als Lösungsansatz, um Webseiten durch maschinenlesbare Metadaten inhaltlich interpretierbar zu machen. Dabei steht die Frage im Zentrum, wie Suchtechnologien wie Swoogle und QuizRDF diese neuen semantischen Strukturen nutzen können, um die Relevanz und Präzision der Informationssuche zu verbessern.

Unzulänglichkeiten des traditionellen, repräsentationsorientierten World Wide Web
Aufbau des Semantic Web durch RDF als Bedeutungsebene
Die Rolle von Ontologien und der Ontology Web Language (OWL)
Swoogle als Suchmaschine für semantische Dokumente und Ontologien
QuizRDF als Ansatz zur Integration semantischer Daten in die Websuche

Auszug aus dem Buch

2.1 Vom World Wide Web zum Semantic Web

Bevor man sich mit dem Konzept des Semantic Web, seinem Aufbau, seinen Vorteilen und seinen Auswirkungen beschäftigt, wird wahrscheinlich als erstes die Frage im Raum stehen, was genau denn das Problem mit dem World Wide Web der „ersten Generation“ ist.

Wenn man das heutige auf SGML (HTML) bzw. XML (XHTML) basierende Internet betrachtet, wird man feststellen, dass es vor allem an erster Stelle repräsentationsorientiert ist. Es geht vornehmlich darum, Informationen möglichst visuell ansprechend darzustellen, ein einfaches und übersichtliches Benutzerinterface zur Verfügung zu stellen und dadurch die Informationen leicht zugänglich und intuitiv erfassbar aufzubereiten. Dabei geht es natürlich um den Informationsfluss hin zum menschlichen Betrachter vor dem Bildschirm, der ließt, surft oder Formulare ausfällt.

Aus dieser Repräsentationsorientierung für menschliche Nutzer ergeben sich dann Probleme für die intermaschinelle Kommunikation, Such-Agenten, Informationsfilter und dergleichen. Ein menschlicher Nutzer kann aus den Texten, Bildern oder generell Inhalten einer Webseite ihr Bedeutung meist sehr einfach erfassen. Einer Maschine oder Software bleibt dieser Bedeutungsinhalt jedoch erst einmal verschlossen.

Dieses Problem des Nichterkennens der inhaltlichen Bedeutung einer Webseite ist, wie schon in der Einleitung beschrieben, eines der größten Probleme heutiger Suchmaschinen. Die Problem ergeben sich vor allem bei/aus den folgenden drei Aspekten: Homonyme, Synonyme und Priorisierung.

Zusammenfassung der Kapitel

1. Einleitung: Die Arbeit führt in die Problematik heutiger Suchmaschinen ein, die aufgrund fehlender inhaltlicher Erschließung an ihre Grenzen stoßen, und stellt das Semantic Web als notwendige Erweiterung vor.

2. Semantic Web: Dieses Kapitel erläutert die konzeptionellen Grundlagen des Semantic Web, insbesondere die Bedeutungsebenen durch RDF zur Identifikation von Ressourcen und OWL zur Definition von Ontologien.

3. Semantic Web Suchmaschienen: Es werden zwei spezialisierte Suchmaschinen vorgestellt: Swoogle, das auf semantische Dokumente und Ontologien spezialisiert ist, sowie QuizRDF, das Metadaten und Webseiteninhalt kombiniert.

4. Fazit: Das Fazit resümiert, dass der Wandel zum Semantic Web zwar sinnvoll ist, aber sowohl Webseitenbetreiber vor Herausforderungen stellt als auch eine Anpassung der Nutzer bei der Suchanfrage erfordert.

5. Anhang: Enthält das Literaturverzeichnis der Arbeit.

Schlüsselwörter

Semantic Web, Suchmaschinen, RDF, OWL, Ontologien, Metadaten, Swoogle, QuizRDF, Informationssuche, Interoperabilität, World Wide Web, Wissensrepräsentation, PageRank, Web-Technologien, Semantik

Häufig gestellte Fragen

Worum geht es in dieser Hausarbeit grundsätzlich?

Die Arbeit behandelt das Konzept des Semantic Web als technologische Lösung für die inhaltliche Erschließung von Webseiten, um die Qualität der Internet-Suche über klassische Keyword-Verfahren hinaus zu verbessern.

Welche zentralen Themenfelder deckt der Text ab?

Die Arbeit deckt die Schwächen des aktuellen Web, die Architektur des Semantic Web (insb. RDF und OWL) sowie innovative Suchtechnologien ab, die semantische Metadaten indizieren können.

Was ist das primäre Ziel oder die Forschungsfrage?

Ziel ist es aufzuzeigen, wie das Semantic Web das Verständnis von Webinhalten für Maschinen ermöglicht und wie darauf aufbauende Suchmaschinen die Relevanz der Suchergebnisse steigern können.

Welche wissenschaftlichen Methoden werden verwendet?

Die Autorin/der Autor stützt sich auf eine theoretische Analyse der Architektur des Semantic Web sowie auf eine Fallstudien-artige Vorstellung von Swoogle und QuizRDF als konkrete technische Anwendungsbeispiele.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Fundierung (RDF/OWL) und die praktische Betrachtung von Suchmaschinen, die durch den Einsatz von "searching and browsing"-Ansätzen semantische Informationen nutzbar machen.

Durch welche Schlüsselwörter lässt sich die Arbeit charakterisieren?

Die Arbeit ist zentral durch Begriffe wie Semantic Web, Metadaten, Ontologien, RDF, OWL und semantische Suchtechnologien charakterisiert.

Wie unterscheidet sich der Ansatz von QuizRDF von herkömmlichen Suchmaschinen?

Im Gegensatz zu Google, das primär auf das Word-Matching von Textinhalten setzt, indiziert QuizRDF zusätzlich semantische Metadaten (RDF-Tripel), was eine klassenbasierte und strukturierte Suche ermöglicht.

Welche Rolle spielen "rational random surfer" bei Swoogle?

Swoogle nutzt ein modifiziertes PageRank-Modell, bei dem die Wahrscheinlichkeit, einem Link zu folgen, von der Art der semantischen Beziehung (z.B. importiert, erweitert) zwischen den Dokumenten abhängt.

Ende der Leseprobe aus 18 Seiten - nach oben

Details

Titel: Semantic Web - Aufbau und Suchtechnologien
Hochschule: Universität Kassel
Veranstaltung: Internetsuchmaschinen
Note: 2
Autor: Samuel Greef (Autor:in)
Erscheinungsjahr: 2005
Seiten: 18
Katalognummer: V44612
ISBN (eBook): 9783638421799
Sprache: Deutsch
Schlagworte: Semantic Aufbau Suchtechnologien Internetsuchmaschinen
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Samuel Greef (Autor:in), 2005, Semantic Web - Aufbau und Suchtechnologien, München, GRIN Verlag, https://www.grin.com/document/44612

Semantic Web - Aufbau und Suchtechnologien