Inhalt I
Inhalt:
1 EINLEITUNG : 1
1.1 MOTIVATION DER ARBEIT 1
1.2 AUFBAU DER STUDIENARBEIT 2
2 BEKANNTE SUCHMASCHINEN DES INTERNETS 3
2.1 HIERARCHIEBASIERENDE SUCHMASCHINEN 3
2.2 SUCHMASCHINEN MIT VOLLTEXTSUCHE 5
2.3 METASUCHMASCHINEN 6
3 SEMANTISCHE NETZE 7
3.1 WAS SIND SEMANTISCHE NETZE 7
3.2 ANWENDUNGSGEBIETE VON SEMANTISCHEN NETZEN 9
3.3 BEISPIELE VERSCHIEDENER MÖGLICHER AUSPRÄGUNGEN SEMANTISCHER NETZE 10
3.3.1 Weiterentwicklung des Internets zu einem Semantischen Netz ( BLHL01 ) 10
3.3.2 Das Semantische Netz der Dokumentensuche 13
3.4 ZUKUNFTSAUSBLICK FÜR SEMANTISCHE NETZE 13
4 KONZEPT DER DOKUMENTENSUCHE 15
5 IMPLEMENTIERUNG DER DOKUMENTENSUCHE 19
5.1 AUFBAU ABLAUF DER SUCHE 19
5.1.1 Start der Suche 19
5.1.2 Einstieg in die Suche 20
5.1.3 Ergebnisausgabe und Weitersuchen 22
5.1.4 Einordnen eines Dokuments oder Stichworts 29
5.2 ÜBERSICHT ÜBER DIE HILFSPROGRAMME DER SUCHMASCHINE 29
5.2.1 Eintragung eines Dokumentes in die Datenbank 30
5.2.2 Überprüfung des Status Einordnung eines Dokuments 31
5.2.3 Änderung eines Dokumenteintrags 31
5.2.4 Löschung von Dokumenten 32
5.3 AUFBAU DER DATENBANKSTRUKTUR UND DER TABELLEN 32
5.3.1 Die Tabelle tbDokument 32
5.3.2 Die Tabelle tbDokAutor 34
Inhalt II
5.3.3 Die Tabelle tbStichwort 35
5.3.4 Die Tabelle tbMenuOber 37
5.4 AUTOMATISCHER UPLOAD 39
5.4.1 Funktionsweise des Uploads 39
5.4.2 Automatische Benachrichtigung per E-Mail 41
6 ERLÄUTERUNGEN ZUR PROGRAMMIERUNG 43
6.1 ÜBERSICHT ÜBER DIE VERWENDETE SOFTWARE 43
6.1.1 Programmiersprache php 43
6.1.2 Das relationale Datenbank Management System MySQL 44
6.2 EINSTIEG IN DIE SUCHE: SCHLAG.HTML 45
6.3 SUCHALGORITHMUS: SCHLAG2 HTML 46
6.3.1 Die Funktion suchmenu ( stichwort) 46
6.3.2 Die Funktion suche stichworte ( liste) 47
6.3.3 Die Funktion Menuebeschreibung ( men id) 47
6.3.4 Die Funktion Beschreibung ( MenID) 47
6.3.5 Die Funktion Abfrage ende() 47
6.3.6 Die Funktion NeueAnfrage ( MenID SwID) 48
6.3.7 Die Funktion Zeige Menue 48
6.3.8 Die Funktion Unterteile ( gruppe total) 49
6.4 DIE SEITEN EINORD1 HTML DOK CH.HTM DELETE.HTM MULTIDEL.HTM 49
6.5 DIE SEITE DOK INS.HTM 49
7 LITERATURVERZEICHNIS 50
8 ABBILDUNGSVERZEICHNIS 51
9 ANHANG: QUELLTEXTE 52
9.1 QUELLTEXT SCHLAG2 HTML 52
9.2 QUELLTEXT SCHLAG.HTML 65
1 Einleitung 1
1 Einleitung :
1.1 Motivation der Arbeit
Die immer größer werdende Fülle von Dokumenten, die sich mit der Zeit im Lehrstuhlbetrieb, in Lehre, Forschung und Verwaltung angesammelt hat und immer noch ansammelt, macht es notwendig, eine Software zu entwickeln, mit deren Hilfe Dokumente komfortabel wiederzufinden sind, ohne genauere Kenntnis über deren Beschaffenheit zu besitzen. Das gilt sowohl für selbst erstellte Dokumente als auch für solche anderer Mitarbeiter. Da man Dokumente anderer mitbenutzen kann, entfällt damit die Notwendigkeit, Dokumente immer wieder selbst neu zu erstellen. Damit kann Zeit und Arbeitsaufwand eingespart werden. Bisher entstand eine solche Mehrfacherstellung von Dokumenten durch eine nicht vorhandene Organisation von Dokumenten am Lehrstuhl. Jeder Mitarbeiter organisierte seine Dokumente selber und war damit der einzige, der die Dokumente wiederfinden konnte. Darüber hinaus bestand auch nicht die Möglichkeit, auf Dokumente anderer Mitarbeiter zuzugreifen. Dazu mussten immer wieder Rücksprachen gehalten werden. Es existierte keine Plattform, auf der diese Dokumente untereinander ausgetauscht wurden. Abhilfe schafft die geführte Dokumentensuche.
Kern der Studienarbeit ist es, einen von Horst Werner für den Berliner Kreis entwickelten Suchalgorithmus den Gegebenheiten, die am Lehrstuhl für Konstruktionstechnik/CAD herrschen, anzupassen und die benötigten Datenbankstrukturen zu erstellen. Dabei wurde die ursprünglich auf Kompetenzen von Personal und Instituten ausgerichtete Suchmaschine für die Verwaltung von Dokumenten umgeschrieben. Da sich der „Begriff“ Dokument nicht nur auf Veröffentlichungen bezieht, lassen sich mit dieser so modifizierten Suchmaschine auch Vorlagen, Bilder und Notizen verwalten. Es besteht keine Einschränkung des Dateityps. Um die Akzeptanz zu steigern, wird ein besonderes Augenmerk darauf gelegt, den Aufwand für Datenpflege so gering wie möglich zu halten. Ein automatischer Upload der Dokumente mit anschließender automatischer Benachrichtigung per E-Mail nimmt dem Benutzer schon einen großen Teil der Arbeit ab und reduziert die Anzahl der möglichen Bedienfehler. Von den bekannten Suchmaschinen, die man in großer Fülle im Internet finden kann, unterscheidet sich die am Lehrstuhl für Konstruktionstechnik/CAD implementierte Dokumentensuche durch das neue Konzept des Semantischen Netzes. Die Arbeit mit diesem Semantischen Netz scheint dem Benutzer anfangs kompliziert und gewöhnungsbedürftig zu
1 Einleitung 2
sein, jedoch zeigt sich bereits nach kurzer Zeit, dass das zugrundeliegende Konzept leicht zu verstehen ist.
1.2 Aufbau der Studienarbeit
Die Arbeit beginnt mit einem Überblick über bereits im Internet vorhandene Suchmaschinen. Deren Vorteile und insbesondere Nachteile werden aufgezeigt, um einen Vergleich mit dem in dieser Arbeit verwendeten Konzept durchführen zu können. In diesem Zusammenhang wird nicht auf Suchmaschinen im Einzelnen eingegangen, sondern deren grundlegende Konzepte werden erläutert.
Darauf wird der Aufbau Semantischer Netze beschrieben, ihre Struktur als Graphen und die Besonderheiten, durch die sie sich von anderen, bereits vorhandenen Konzepten abgrenzen. Nach einer kurzer Beschreibung der Anwendungsgebiete von Semantischen Netzen erläutern Beispiele den Nutzen und die Funktionsweise Semantischer Netze.
Dieser Übersichtsdarstellung folgt eine umfassende und detaillierte Darstellung des Konzepts der implementierten Suchmaschine. Die Funktionsweise der zugrundeliegenden Menüs wird aufgezeigt und auch an Beispielen verdeutlicht. Zudem wird darauf hingewiesen, an welchen Stellen das hier verwendete Konzept nicht dem theoretischen Modell entspricht. Im nächsten Kapitel erfolgt eine Beschreibung der Implementierung der LKT-Dokumentensuche. Zunächst wird die Oberfläche beschrieben, und alle Optionen, die dem Benutzer dabei zur Verfügung stehen, werden erklärt.
Das darauf folgende Unterkapitel der Arbeit gibt eine Übersicht über die Zusatzprogramme, mit deren Hilfe die Datenbank manipuliert werden kann, z.B. Ändern der Dokumentdaten oder Einfügen eines Dokuments.
Danach wird eine Darstellung der Datenbankstrukturen und der Verknüpfungen der Tabellen untereinander gegeben. In den Datenbankstrukturen ist das Grundgerüst des Semantischen Netzes vollständig hinterlegt, während die Suchintelligenz in den php-Skripten liegt. Zusätzlich wird die Funktionsweise des Automatischen Uploads erklärt, der es ermöglicht, Dokumente automatisch in die Datenbank einzutragen. Möglichen Fehlbedienungen wird dadurch vorgegriffen und die Bedienfreundlichkeit für den Benutzer wird erhöht. Die Arbeit schließt mit einem Überblick über die verwendete Software und eine kurze Erläuterung der Quelltexte der einzelnen Programme. Damit sind die Programmstrukturen gemeint. Besondere Bedeutung wird den Seiten schlag.html und schlag2.html beigemessen; ihre Funktionsweisen werden explizit aufgeführt, da sie den Kern der Suche bilden.
2 Bekannte Suchmaschinen des Internets 3
2 Bekannte Suchmaschinen des Internets
Da eine stetig wachsende Datenmenge überschaubar bleiben soll, erfahren Suchmaschinen eine steigende Bedeutung. Im Internet handelt es sich dabei hauptsächlich um Suchmaschinen, die für den Benutzer Internetseiten nach Stichwörtern durchsuchen. Es werden Stichwörter eingegeben, die die Suchmaschinen mit Inhalten der Seiten vergleichen: entweder mit dem Inhalt sogenannter Meta-Tags, - das sind vom Programmierer der Seite angegebene Stichwörter, die den Inhalt der Seite wiedergeben sollen -, oder mit auf dem Bildschirm ausgegebenen Wörtern. Das hängt vom jeweiligen Konzept ab.
Darüber hinaus gibt es eine Vielzahl an Suchmaschinen, die nicht für das Internet konzipiert wurden. Sogar Betriebssysteme verfügen über eine Dateisuche, die z.B. die Festplatte nach Dateien durchsucht.
In dieser Arbeit werden jedoch nur die Suchmaschinen des Internets genauer betrachtet, da die Dokumentensuche auch für das Internet konzipiert ist, um unabhängig vom Terminal zu sein, von dem eine Suche beginnen soll.
Bekannte Suchmaschinen, wie sie in großer Zahl im Internet vorkommen, basieren bisher auf zwei verschiedenen Prinzipien. Zum einen gibt es die hierarchiebasierenden Suchmaschinen und zum anderen Suchmaschinen mit Volltextsuche. Beide Konzepte haben von Natur aus Vor- und Nachteile. Die Betreiber versuchen immer wieder Modifikationen, die die Nachteile ausgleichen sollen, um sich dadurch einen Vorteil gegenüber anderen in Konkurrenz stehenden Suchmaschinen zu verschaffen; aber von der Struktur her, auf der die jeweilige Suche aufbaut, handelt es sich um Suchmaschinen, die entweder auf einer Hierarchie aufgebaut sind oder auf Volltextsuche basieren.
2.1 Hierarchiebasierende Suchmaschinen
Hierarchiebasierende Suchmaschinen bauen auf einem Stichwortbaum auf, der einem Verzeichnisbaum eines Betriebssystems gleicht. Es gibt nur die Möglichkeit, sich im Baum von oben nach unten, bzw. von unten nach oben zu bewegen. Falsche Stichwörter oder Stichwörter, deren Inhalt ein anderer ist als angenommen, was gleichbedeutend mit einem falschen Abbiegen innerhalb des Baumes ist, führen somit in einen falschen Baumzweig, aus dem man nicht wieder herauskommt. Eine geführte Suche ist damit nicht möglich. Nur eine neue Suchanfrage kann diese Verirrung im Suchbaum beheben. Dies wirkt sich besonders nachteilig aus, wenn man über das zu suchende Objekt nicht allzu gut Bescheid weiß und deshalb geeignete, charakteristische Stichwörter unbekannt sind. Dies führt immer wieder zu
2 Bekannte Suchmaschinen des Internets 4
zahlreichen Fehlversuchen oder Ergebnissen, die nicht zum gesuchten Objekt führen. Ein „Sich-Herantasten“ an das zu suchende Objekt ist hier nicht möglich. Yahoo! gehört zum Beispiel zu den Suchmaschinen, die auf dieser Technologie aufgebaut sind.
Es gibt Bemühungen, den Nachteil der Eingleisigkeit hierarchiebasierender Suchalgorithmen zu kompensieren, was aber meist zu einer noch größeren und damit noch unübersichtlicheren Zahl an Suchergebnissen führt. Yahoo! versucht zusätzlich mit einem Kategoriebaum, Seiten sinnvoll zu gliedern. Die Zahl an Ergebnissen wird dadurch allerdings nicht eingeschränkt, sondern sie erhalten nur eine gewisse Ordnung, die ebenfalls Wissen über das zu suchende Objekt verlangt.
Abbildung 2.1 zeigt einen solchen einfachen, hierarchisch aufgebauten Stichwortbaum, den man der Dokumentensuche zu Grunde hätte legen können. Man erkennt jedoch schon bei diesem einfachen Stichwortbaum Doppeldeutigkeiten und Redundanzen. Das Stichwort „CAD“ wird z.B. in drei verschiedenen Baumzweigen aufgeführt. Findet ein Benutzer das Stichwort „CAD“, muss das nicht bedeuten, dass das darunter eingeordnete Dokument das ist, was er sucht. Es ist nicht eindeutig und auch redundant. Dieser Mangel nimmt bei großen Bäumen einen erheblichen Umfang an. Auffällig ist zudem, dass die gleichen Stichwörter (z.B. „CAD“) in verschiedenen Hierarchieebenen auftreten können. D.h. der Detaillierungsgrad der Stichwörter ist abhängig davon, in welchem Zweig man sich befindet. Damit ist es mehr oder weniger Zufall, ob man sich im richtigen Zweig oder in einem für die Suche falschen Zweig befindet. Zudem besteht keine Möglichkeit, von einem Zweig in den anderen zu gelangen, ohne dass man bis zu einem gemeinsamen, übergeordneten Knoten im Baum in der Hierarchie nach oben steigt. In Abbildung 2.1 wäre das der Ursprungsknoten mit dem Stichwort „Dokumente“.
2 Bekannte Suchmaschinen des Internets 5
Kommerzielle Suchmaschinen haben zudem ein weiteres Manko. Wenn ein Ranking, das ist eine Bewertung der Ergebnisse, vorgenommen wird, kommt es nicht selten vor, dass dieses Ranking stark durch wirtschaftliche Interessen beeinflusst wird (vgl. [goog01], [Test01]). Das heißt, dass Seiten, die einen kommerziellen Nutzen haben und Gebühren an die Suchmaschinen entrichten, hier immer ein höheres Ranking besitzen und damit immer als höherwertiger Treffer angezeigt werden. Dem Benutzer wird dabei nicht mitgeteilt, dass es sich bei solchen Treffern um kommerziell begründete Treffer handelt. Dies widerspricht dem eigentlichen Gedanken einer Suchmaschine, Seiten zu finden, deren Inhalt am besten mit den gesuchten Begriffen übereinstimmt.
2.2 Suchmaschinen mit Volltextsuche
Eine andere Technologie der Suche neben der mit hierarchiebasierenden Stichwortbäumen ist die der Volltextsuche. Suchmaschinen wie Google oder Altavista basieren darauf. Sie durchforsten Internetseiten nach den vom Benutzer vorher eingegebenen Stichwörtern. Dabei führen Stichwörter, die nicht ausschließlich in einem ganz besonderen und eingegrenzten Zusammenhang verwendet werden (z.B.: CAD, dies gilt aber nicht für die einzelnen Wörter Computer, Aided und Design), zwangsläufig zu einer großen und damit unüberschaubaren Zahl an Ergebnissen. Die Suchmaschine sucht einfach die vom Benutzer eingegebene Zeichenfolge, also nicht das Stichwort, sondern nur die aneinandergereihte Zeichenfolge. Das gesuchte Wort muss also nur in dem Dokument vorhanden sein. Die Suchmaschine ist also „dumm“, da ihr die bloße Anwesenheit eines Wortes als Selektionsmerkmal genügt. Es werden dadurch auch Wörter, die die Suchbegriffe nur enthalten oder ähnlich aussehen, als Treffer gewertet, was die Zahl der Ergebnisse noch erheblich steigert. So werden Teilstrings auch als Treffer gewertet, obwohl sie mit dem eigentlichen Begriff nur wenig oder nichts gemein haben. Zum Beispiel würde der eingegebene Begriff „Auto“ auch Ergebnisse liefern wie „Automatisierung“, „autonom“ oder „Grauton“, da jeweils „Auto“ bzw. „auto“ ein Teilstring ist. Um die Suche erfolgreich zu gestalten, bedarf es einigen Geschicks und Kenntnisse über Begriffe, die wirklich zu einer Eingrenzung der Ergebnisflut führen. Laien finden sich hiermit meist nicht zurecht.
Google versucht, die Anzahl an Ergebnissen einzuschränken, indem ausschließlich die Seiten als Ergebnis ausgegeben werden, die alle Suchbegriffe enthalten. Das heißt, alle Begriffe werden ausschließlich mit „und“ verknüpft. Seiten, die nur einen Teil der Suchbegriffe enthalten, werden ausgefiltert. Google verwendet zudem ein Ranking, das auf der lokalen Nähe der gesuchten Begriffe innerhalb einer Seite (vgl. [goog01]) und der Anzahl der Links,
2 Bekannte Suchmaschinen des Internets 6
die auf die Seite verweisen, basiert (laut [Test01]). Zudem gibt Google keine Teilstrings als Treffer zurück. Stichwörter müssen 1:1 in den durchsuchten Seiten auftreten. Damit ist eine relativ genaue Suche möglich. Jedoch wirkt sich dies negativ auf die Flexibilität der Suchmaschine aus. Die „oder“-Verknüpfung von Suchbegriffen ist damit nicht mehr möglich. Zudem führen Rechtschreibefehler zum Versagen der Suche. Trotzdem ist Google zur Zeit die beste Suchmaschine innerhalb des Internets (laut [Test01]).
Zusammenfassend ist zu sagen, dass der hauptsächliche Nachteil aller Suchmaschinen mit Volltextsuche darin besteht, dass der Ergebnisraum oft unüberschaubare Dimensionen annimmt.
2.3 Metasuchmaschinen
Es gibt Suchmaschinen, die im eigentlichen Sinne keine eigene Suche vornehmen, da sie zur Suche keine eigenen Datenbestände unterhalten. Sie übermitteln die vom Benutzer eingegebenen Suchbegriffe an andere Suchmaschinen wie Yahoo!, Altavista, Excite und Infoseek und verwenden dann die zurückgelieferten Ergebnisse als eigene Suchergebnisse. Die einzige Intelligenz, die in dieser Suche steckt, ist das Sortieren der zurückgelieferten Ergebnisse. Problematisch hierbei erweist sich, dass nur der kleinste gemeinsame Nenner der verwendeten Suchsprachen benutzt werden kann (vgl. [Test01]). Zudem hat jede Suchmaschine ihr eigenes Rankingsystem, das von Metasuchmaschinen zunächst verarbeitet und in ein eigenes Ranking übertragen werden muss. Dabei kann es sich nur um Näherungen handeln.
Suchmaschinen dieses Typs haben also keine eigene Technologie. Sie machen sich nur die Datenbanken und Kataloge anderer Suchmaschinen zu Nutzen (vgl. [Test01]). Der Vorteil der Metasuchmaschinen liegt darin, dass sie durch Verwendung der Datenbestände vieler Maschinen auf einen größeren Datenbestand zurückgreifen. Damit wird die Suche an sich nicht wesentlich verbessert, denn auch die Nachteile der einzelnen Suchmaschinen werden mit übernommen. Auch hier ist der Ergebnisraum sehr groß und zudem besonders unübersichtlich.
Vertreter dieser Kategorie sind z.B. Metacrawler.de, metaspinner.de, suchen.com oder nettz.de.
3 Semantische Netze 7
3 Semantische Netze
3.1 Was sind Semantische Netze?
Semantische Netze sind von der Grundstruktur her Netze, also Graphen, wie man sie im Zusammenhang mit der Informatik kennt. D.h. es gibt Knoten und Relationen zwischen diesen Knoten (vgl. Abbildung 3.1).
Ein Semantisches Netz ist ein Graph, dessen Knoten eine Bedeutung tragen und dessen Kanten Relationen darstellen, die die Knoten in verschiedene (insbesondere Abstraktions-) Hierarchien und andere Strukturen einordnen ([Wern01]).
Als Knoten kann alles dienen, was auf der Computerebene abgebildet werden kann und was eine Bedeutung darstellen kann; insbesondere Begriffe und Stichwörter. In Abbildung 3.2 sind das die Buchstaben A bis F, die stellvertretend für eine Bedeutung sein sollen. Knoten im Semantischen Netz tragen also eine Bedeutung. Die Bedeutungen, die solche Knoten tragen, hängen nur vom Kontext ab, in dem das Semantische Netz seine Anwendung findet. Die hervorzuhebende Eigenschaften Semantischer Netze gegenüber herkömmlichen Netzen ist die Beschaffenheit der Relationen. Sie stellen nicht nur allein eine Verbindung zwischen den Knoten her, sondern geben Auskunft über die Art des Zusammenhangs der Knoten. Dabei hängt diese Information von der Richtung der Betrachtungsweise ab. Relationen können Zusammenhänge wie „ist Urheber von“, „ist Oberbegriff von“ usw. tragen. Es kommt aber darauf an, welcher Knoten zu einem anderen in Beziehung steht. Diese Eigenschaft der
3 Semantische Netze 8
informationstragenden Relationen von Semantischen Netzen stellt einen unschätzbaren Vorteil dar, da Softwareanwendungen, speziell im Falle dieser Studienarbeit Suchmaschinen, die Relation verstehen und verarbeiten können. Insbesondere sind Abstraktionsrelationen möglich wie „ist Spezialfall von“ oder „ist Teil von“. Damit lassen sich Knoten speziell in Abstraktionshierarchien einordnen. Das ermöglicht ein riesiges Anwendungsspektrum für Semantische Netze. Sogar Vererbungsmechanismen wie beim objektorientierten Programmieren könnten damit abgebildet werden. Hier würde eine Relation z.B. „ist Unterklasse von“ oder, in der anderen Richtung betrachtet, „ist Oberklasse von“ lauten. Die Erweiterung des Netzes aus Abbildung 3.1 zu einem Semantischen Netz zeigt die Abbildung 3.2. Dabei wurden die zwei Richtungen der Relationen aus Platzgründen nicht berücksichtigt und einige mögliche Relationen vernachlässigt. Die Information der Relation AC z.B. ist das Komplementär zum Wert der Relation CA. Würde die Relation AC die Information „ist Obermenü von“ tragen, wäre der Wert der Relation CA „ist Untermenü von“. Die Richtung der Sicht spielt, wie oben beschrieben, eine Rolle.
In einem Semantischen Netz ist also nicht nur die Relation als solche zwischen zwei Knoten hinterlegt, sondern auch eine Beschreibung, wie diese Relation beschaffen ist. Sie trägt eine explizite Information.
Die Anzahl der Relationen wird nur durch die Anzahl der Knoten begrenzt. In einem
gewöhnlichen Netz kann es bei n Knoten bis zu
einem Semantischen Netz erhöht sich die Anzahl möglicher Relationen auf
3 Semantische Netze 9
1 n
¦ ) ( 2 i n 1 i Richtung der Betrachtungsweise abhängt.
In der Einfachheit des Aufbaus eines solchen Semantischen Netzes liegt die Universalität dieses Konzeptes. Eine Vielzahl der Anwendungsmöglichkeiten ist denkbar. Beispiele werden im Kapitel 3.3 aufgezeigt.
3.2 Anwendungsgebiete von Semantischen Netzen
Durch die Universalität ihres Konzeptes können Semantische Netze überall dort ihre Anwendung finden, wo eine Datenmenge mit gewerteten Relationen geordnet werden kann. Voraussetzung dafür ist, dass eine Netzstruktur für die Gegebenheiten sinnvoll und anwendbar ist.
Semantische Netze ermöglichen es, die Schnittstelle zwischen Computer und Mensch sehr viel intuitiver zu gestalten. Die Bedienfreundlichkeit eines Computers kann dadurch wesentlich gesteigert werden. Die Computer werden durch Semantische Netze „schlauer“, da sie selbstständig Verbindungen zwischen einzelnen Knoten herstellen können und diese Verbindungen auch verstehen können, was bisher nicht möglich war. Bisher muss der Benutzer solche Verbindungen selbst herstellen. Bei sehr vielen Informationen, bzw. bei großen Datenmengen ist der Mensch schnell überfordert. Dazu vergleiche man [BLHL01] oder Kapitel 3.3.1. Dort ist beschrieben, wie mit Hilfe eines Semantischen Netzes sogenannte Web-Agenten selbstständig diese Aufgaben erledigen können, ohne dass die Vorgehensweise explizit in einem Programmquelltext niedergelegt sein muss. Web-Agenten sind dabei Programme, die ohne ständige Überwachung und Kontrolle durch den Menschen arbeiten, um spezifische Aufgaben zu erledigen. Gewöhnlich sammeln, filtern und verarbeiten Agenten Informationen, die sie im Web finden, häufig mit Hilfe anderer Agenten ([BLHL01]). Durch Semantische Netze können Computer in gewisser Weise selber denken, Schlüsse ziehen und Aktionen selbständig starten, da sie die Relationen zwischen Knoten erfassen und verarbeiten können.
Speziell Suchen lassen sich durch Semantische Netze sehr effektiv und intuitiv gestalten, da sich Suchkriterien nach dem Menschen richten und nicht danach, wie es für den Rechner am besten ist. Damit ist gemeint, dass durch Semantische Netze Suchvorgänge möglich sind, die ein Mensch nachvollziehen kann, ohne viel Erfahrung im Umgang mit Computern haben zu müssen. Zudem können Rechner Informationen selbstständig ergänzen, so dass der Aufwand, den Rechner mit Informationen zu versorgen, gering gehalten werden kann. Ein Beispiel
3 Semantische Netze 10
hierfür wird im folgenden Kapitel 3.3.1 gegeben. Daran erkennt man, wie eine Anwendung eine Suche durchführen kann und dabei mit Hilfe der Relationen eines Semantischen Netzes Informationen verarbeiten kann, die ein Benutzer nicht eingegeben hat.
3.3 Beispiele verschiedener möglicher Ausprägungen Semantischer Netze
3.3.1 Weiterentwicklung des Internets zu einem Semantischen Netz ([BLHL01])
Die Technologie des Semantischen Netzes wird im Bereich der Künstlichen Intelligenz immer häufiger im Zusammenhang mit dem Internet diskutiert. Grundlegender Gedanke bei der Übertragung des Konzeptes des Semantischen Netzes auf das Internet ist, dass man das Internet weitgehend von einer „dummen“ Ansammlung von Informationen zu einem geordneten, sinntragenden Konstrukt umfunktionieren will, so dass die enorme Datenmenge des Internet auch sinnvoll genutzt werden kann.
Das Internet als solches hat sich zu einem Archiv für vom Menschen lesbare Dokumente entwickelt, d.h. der Mensch kann Informationen aus den Inhalten einzelner Seiten herauslesen. Deshalb kann das Verknüpfen einzelner Informationen nur vom Menschen durchgeführt werden. Weil die maschinelle Verarbeitung von Informationen bisher vernachlässigt wurde, ist eine automatisierte Verknüpfung von Informationen und damit eine effektivere Informationsverwaltung und -nutzung noch nicht möglich. Den Rechnern fehlt einfach das Wissen, das für die Lösung dieser Aufgabe nötig ist.
Abhilfe könnte hier das Semantische Netz („Semantic Web“) schaffen. Durch das Hinzufügen von computergerechten Informationen zu bestehenden Websites sowie speziell für den Computer maßgeschneiderter Dateien wird sich das Internet in ein semantisches Netz, das heißt ein bedeutungstragendes Netz, verwandeln. Softwareanwendungen selbst können dann Verbindungen zwischen den Inhalten einzelner Seiten erkennen und so die Suche für den Anwender oder eine andere Software so effektiv wie möglich gestalten. Dabei müsste auch eine äußerst hohe Trefferquote erreicht werden können, da die Software ja nach Inhalten und nicht nur wie bei der Volltextsuche nach einzelnen Wörtern oder Wortbestandteilen sucht, die vom eigentlichen Inhalt abweichen können. Damit würde die unüberschaubare Fülle an Informationen des Internets effektiv genutzt werden können, da sinnlose Informationen vorher herausgefiltert werden, eine Aufgabe, die dem Anwender damit abgenommen werden könnte.
3 Semantische Netze 11
Voraussetzung für das Semantische Netz sind die maschinenlesbaren Merkmale, die in den einzelnen Seiten vorhanden sein müssen. Hier geht das Konzept jedoch über das bereits Übliche hinaus. Bisher griffen Suchmaschinen auf sogenannte Meta-Tags zu, in denen Stichwörter zum Inhalt der Seite hinterlegt werden können. Das Semantische Netz benötigt darüber hinaus noch detailliertere Informationen.
Zum Verständnis dient folgendes Beispiel (vgl. [BLHL01]): Es wird nach dem Vornamen einer Person mit Nachnamen „Cook“ gesucht, von der man nur weiß, dass sie für eine bestimmte Firma arbeitet und dass ihr Kind an einer Universität in einer bestimmten Stadt studiert. Eine aktuelle Suchmaschine würde bei einer „oder“ –Verknüpfung der Stichwörter alles zum Thema Kochen (wegen „to cook“, engl. kochen), alles zur entsprechenden Firma, alles zu Universitäten und alles zur entsprechenden Stadt als Ergebnis ausgeben, ohne prüfen zu können, ob die Informationen untereinander die Verbindungen haben, mit der sie, wie oben beschrieben, verknüpft sind. Bei einer „und“ –Verknüpfungen gäbe es gar kein Ergebnis, da wohl keine Seite alle Stichwörter enthält.
Grund für dieses unbefriedigendes Suchergebnis ist das Fehlen von Relationen zwischen den bekannten Merkmalen, mit deren Hilfe der Ergebnisraum effektiv eingegrenzt werden könnte. Mit Hilfe des Semantischen Netzes ist das möglich. Dort ist hinterlegt, ob die Webseite von einer Person handelt oder Kochrezepte bereitstellt. Dass es sich um eine Person handelt, ist bereits die erste Relation („ist Person“). Damit werden die Treffer schon eingegrenzt, da alle Seiten, die das Thema Kochen zum Inhalt haben, wegfallen. Von den gefundenen Inhalten aus wird weitergesucht, ob die gefundenen Personen die entsprechende Firma als Arbeitgeber haben. Damit wurde die zweite Relation verwendet. Allein eine Relation wird in diesem Beispiel die Ergebnismenge stark einschränken, da es nicht allzu viele Angestellte der Firma gibt, die den Namen „Cook“ tragen. Werden jetzt noch die dritte Relation, nämlich dass das Kind an einer Universität studiert, und die vierte Relation, dass diese Universität in einer bestimmten Stadt liegt, verwendet, kann die Ergebnismenge nur noch sehr klein, wahrscheinlich ein Volltreffer sein.
An diesem Beispiel erkennt man die Netzstruktur. Dass die Universität in einer bestimmten Stadt liegt, ist keine direkte Relation zur gesuchten Person, sondern eine direkte Relation zwischen Universität und Stadt; die Universität liegt in der Stadt. Es besteht somit keine direkte Verbindung zwischen Kind oder der Person und der Stadt. An diesen Verknüpfungen der Relationen scheitert bisher jede Suchmaschine im Internet.
Bemerkenswert ist, dass sich das gleiche Ergebnis einstellt, unabhängig davon, wo man in das Semantische Netz einsteigt. Wird zuerst nach allen Universitäten in der Stadt gesucht, um
Quote paper:
Dipl.-Ing. Sören Wanke, 2001, Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Sören Wanke's text Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz is now available as a printed book
Sören Wanke has published the text Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz
Sören Wanke has uploaded a new text
Der Beitrag semantischer Netze für die Markenstärkeforschung
Eine Netzwerkanalytische Betra...
Markus Brunnthaler, Gerhard Wührer
0 comments