Register or log in at GRIN

Your e-mail-address or password is wrong
Register now
For new authors: free, easy and fast
This will be used as your user name, please specify a valid e-mail address

Lost password

Your e-mail-address or password is wrong

Request a new password
Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz close

Please wait

Please install the Adobe Flash Player if no e-book is displayed.

Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz

Scholarly Research Paper, 2001, 72 Pages
Author: Dipl.-Ing. Sören Wanke
Subject: Engineering

Details

Category: Scholarly Research Paper
Year: 2001
Pages: 72
Grade: 1,3
Bibliography: ~ 8  Entries
Language: German
Archive No.: V115919
ISBN (E-book): 978-3-640-18131-5
ISBN (Book): 978-3-640-18140-7
File size: 3026 KB
Notes :
8 Einträge im Literaturverzeichnis, davon 5 Internetquellen.


Abstract

Die Arbeit beginnt mit einem Überblick über bereits im Internet vorhandene Suchmaschinen. Deren Vorteile und insbesondere Nachteile werden aufgezeigt, um einen Vergleich mit dem in dieser Arbeit verwendeten Konzept durchführen zu können. In diesem Zusammenhang wird nicht auf Suchmaschinen im Einzelnen eingegangen, sondern deren grundlegende Konzepte werden erläutert. Darauf wird der Aufbau Semantischer Netze beschrieben, ihre Struktur als Graphen und die Besonderheiten, durch die sie sich von anderen, bereits vorhandenen Konzepten abgrenzen. Nach einer kurzer Beschreibung der Anwendungsgebiete von Semantischen Netzen erläutern Beispiele den Nutzen und die Funktionsweise Semantischer Netze. Dieser Übersichtsdarstellung folgt eine umfassende und detaillierte Darstellung des Konzepts der implementierten Suchmaschine. Die Funktionsweise der zugrundeliegenden Menüs wird aufgezeigt und auch an Beispielen verdeutlicht. Zudem wird darauf hingewiesen, an welchen Stellen das hier verwendete Konzept nicht dem theoretischen Modell entspricht. Im nächsten Kapitel erfolgt eine Beschreibung der Implementierung der LKT-Dokumentensuche. Zunächst wird die Oberfläche beschrieben, und alle Optionen, die dem Benutzer dabei zur Verfügung stehen, werden erklärt. Das darauf folgende Unterkapitel der Arbeit gibt eine Übersicht über die Zusatzprogramme, mit deren Hilfe die Datenbank manipuliert werden kann, z.B. Ändern der Dokumentdaten oder Einfügen eines Dokuments. Danach wird eine Darstellung der Datenbankstrukturen und der Verknüpfungen der Tabellen untereinander gegeben. In den Datenbankstrukturen ist das Grundgerüst des Semantischen Netzes vollständig hinterlegt, während die Suchintelligenz in den php-Skripten liegt. Zusätzlich wird die Funktionsweise des Automatischen Uploads erklärt, der es ermöglicht, Dokumente automatisch in die Datenbank einzutragen. Möglichen Fehlbedienungen wird dadurch vorgegriffen und die Bedienfreundlichkeit für den Benutzer wird erhöht. Die Arbeit schließt mit einem Überblick über die verwendete Software und eine kurze Erläuterung der Quelltexte der einzelnen Programme. Damit sind die Programmstrukturen gemeint. Besondere Bedeutung wird den Seiten schlag.html und schlag2.html beigemessen; ihre Funktionsweisen werden explizit aufgeführt, da sie den Kern der Suche bilden.


Excerpt (computer-generated)

Implementierung einer Dokumentensuche,
basierend auf einem Semantischen Netz

Studienarbeit von Sören Wanke

 


Inhalt:

1 EINLEITUNG : 1
1.1 MOTIVATION DER ARBEIT 1
1.2 AUFBAU DER STUDIENARBEIT 2
2 BEKANNTE SUCHMASCHINEN DES INTERNETS 3
2.1 HIERARCHIEBASIERENDE SUCHMASCHINEN 3
2.2 SUCHMASCHINEN MIT VOLLTEXTSUCHE 5
2.3 METASUCHMASCHINEN 6
3 SEMANTISCHE NETZE 7
3.1 WAS SIND SEMANTISCHE NETZE? 7
3.2 ANWENDUNGSGEBIETE VON SEMANTISCHEN NETZEN 9
3.3 BEISPIELE VERSCHIEDENER MÖGLICHER AUSPRÄGUNGEN SEMANTISCHER NETZE ... 10
3.3.1 Weiterentwicklung des Internets zu einem Semantischen Netz ([BLHL01]) 10
3.3.2 Das Semantische Netz der Dokumentensuche 13
3.4 ZUKUNFTSAUSBLICK FÜR SEMANTISCHE NETZE 13
4 KONZEPT DER DOKUMENTENSUCHE 15
5 IMPLEMENTIERUNG DER DOKUMENTENSUCHE 19
5.1 AUFBAU/ABLAUF DER SUCHE 19
5.1.1 Start der Suche 19
5.1.2 Einstieg in die Suche 20
5.1.3 Ergebnisausgabe und Weitersuchen 22
5.1.4 Einordnen eines Dokuments oder Stichworts 29
5.2 ÜBERSICHT ÜBER DIE HILFSPROGRAMME DER SUCHMASCHINE 29
5.2.1 Eintragung eines Dokumentes in die Datenbank 30
5.2.2 Überprüfung des Status, Einordnung eines Dokuments 31
5.2.3 Änderung eines Dokumenteintrags 31
5.2.4 Löschung von Dokumenten 32
5.3 AUFBAU DER DATENBANKSTRUKTUR UND DER TABELLEN 32
5.3.1 Die Tabelle tbDokument 32
5.3.2 Die Tabelle tbDokAutor 34

 


5.3.3 Die Tabelle tbStichwort 35

5.3.4 Die Tabelle tbMenuOber 37

5.4 AUTOMATISCHER UPLOAD 39

5.4.1 Funktionsweise des Uploads 39

5.4.2 Automatische Benachrichtigung per E-Mail 41

6 ERLÄUTERUNGEN ZUR PROGRAMMIERUNG 43

6.1 ÜBERSICHT ÜBER DIE VERWENDETE SOFTWARE 43

6.1.1 Programmiersprache php 43

6.1.2 Das relationale Datenbank Management System MySQL 44

6.2 EINSTIEG IN DIE SUCHE: SCHLAG.HTML 45

6.3 SUCHALGORITHMUS: SCHLAG2.HTML 46

6.3.1 Die Funktion suchmenu ($stichwort) 46

6.3.2 Die Funktion suche_stichworte ($liste) 47

6.3.3 Die Funktion Menuebeschreibung ($men_id) 47

6.3.4 Die Funktion Beschreibung ($MenID) 47

6.3.5 Die Funktion Abfrage_ende() 47

6.3.6 Die Funktion NeueAnfrage ($MenID, $SwID) 48

6.3.7 Die Funktion Zeige_Menue 48

6.3.8 Die Funktion Unterteile ($gruppe, $total) 49

6.4 DIE SEITEN EINORD1.HTML, DOK_CH.HTM, DELETE.HTM, MULTIDEL.HTM 49

6.5 DIE SEITE DOK_INS.HTM 49

7 LITERATURVERZEICHNIS 50

8 ABBILDUNGSVERZEICHNIS 51

9 ANHANG: QUELLTEXTE 52

9.1 QUELLTEXT SCHLAG2.HTML 52

9.2 QUELLTEXT SCHLAG.HTML 65

 


1 Einleitung
1.1 Motivation der Arbeit

Die immer größer werdende Fülle von Dokumenten, die sich mit der Zeit im Lehrstuhlbetrieb, in Lehre, Forschung und Verwaltung angesammelt hat und immer noch ansammelt, macht es notwendig, eine Software zu entwickeln, mit deren Hilfe Dokumente komfortabel wiederzufinden sind, ohne genauere Kenntnis über deren Beschaffenheit zu besitzen. Das gilt sowohl für selbst erstellte Dokumente als auch für solche anderer Mitarbeiter. Da man Dokumente anderer mitbenutzen kann, entfällt damit die Notwendigkeit, Dokumente immer wieder selbst neu zu erstellen. Damit kann Zeit und Arbeitsaufwand eingespart werden. Bisher entstand eine solche Mehrfacherstellung von Dokumenten durch eine nicht vorhandene Organisation von Dokumenten am Lehrstuhl. Jeder Mitarbeiter organisierte seine Dokumente selber und war damit der einzige, der die Dokumente wiederfinden konnte. Darüber hinaus bestand auch nicht die Möglichkeit, auf Dokumente anderer Mitarbeiter zuzugreifen. Dazu mussten immer wieder Rücksprachen gehalten werden. Es existierte keine Plattform, auf der diese Dokumente untereinander ausgetauscht wurden. Abhilfe schafft die geführte Dokumentensuche.

Kern der Studienarbeit ist es, einen von Horst Werner für den Berliner Kreis entwickelten Suchalgorithmus den Gegebenheiten, die am Lehrstuhl für Konstruktionstechnik/CAD herrschen, anzupassen und die benötigten Datenbankstrukturen zu erstellen. Dabei wurde die ursprünglich auf Kompetenzen von Personal und Instituten ausgerichtete Suchmaschine für die Verwaltung von Dokumenten umgeschrieben. Da sich der ,,Begriff" Dokument nicht nur auf Veröffentlichungen bezieht, lassen sich mit dieser so modifizierten Suchmaschine auch Vorlagen, Bilder und Notizen verwalten. Es besteht keine Einschränkung des Dateityps. Um die Akzeptanz zu steigern, wird ein besonderes Augenmerk darauf gelegt, den Aufwand für Datenpflege so gering wie möglich zu halten. Ein automatischer Upload der Dokumente mit anschließender automatischer Benachrichtigung per E-Mail nimmt dem Benutzer schon einen großen Teil der Arbeit ab und reduziert die Anzahl der möglichen Bedienfehler. Von den bekannten Suchmaschinen, die man in großer Fülle im Internet finden kann, unterscheidet sich die am Lehrstuhl für Konstruktionstechnik/CAD implementierte Dokumentensuche durch das neue Konzept des Semantischen Netzes. Die Arbeit mit diesem Semantischen Netz scheint dem Benutzer anfangs kompliziert und gewöhnungsbedürftig zu


sein, jedoch zeigt sich bereits nach kurzer Zeit, dass das zugrundeliegende Konzept leicht zu verstehen ist.

1.2 Aufbau der Studienarbeit

Die Arbeit beginnt mit einem Überblick über bereits im Internet vorhandene Suchmaschinen. Deren Vorteile und insbesondere Nachteile werden aufgezeigt, um einen Vergleich mit dem in dieser Arbeit verwendeten Konzept durchführen zu können. In diesem Zusammenhang wird nicht auf Suchmaschinen im Einzelnen eingegangen, sondern deren grundlegende Konzepte werden erläutert.

Darauf wird der Aufbau Semantischer Netze beschrieben, ihre Struktur als Graphen und die Besonderheiten, durch die sie sich von anderen, bereits vorhandenen Konzepten abgrenzen. Nach einer kurzer Beschreibung der Anwendungsgebiete von Semantischen Netzen erläutern Beispiele den Nutzen und die Funktionsweise Semantischer Netze. Dieser Übersichtsdarstellung folgt eine umfassende und detaillierte Darstellung des Konzepts der implementierten Suchmaschine. Die Funktionsweise der zugrundeliegenden Menüs wird aufgezeigt und auch an Beispielen verdeutlicht. Zudem wird darauf hingewiesen, an welchen Stellen das hier verwendete Konzept nicht dem theoretischen Modell entspricht.

Im nächsten Kapitel erfolgt eine Beschreibung der Implementierung der LKT-Dokumentensuche. Zunächst wird die Oberfläche beschrieben, und alle Optionen, die dem Benutzer dabei zur Verfügung stehen, werden erklärt. Das darauf folgende Unterkapitel der Arbeit gibt eine Übersicht über die Zusatzprogramme, mit deren Hilfe die Datenbank manipuliert werden kann, z.B. Ändern der Dokumentdaten oder Einfügen eines Dokuments.

Danach wird eine Darstellung der Datenbankstrukturen und der Verknüpfungen der Tabellen untereinander gegeben. In den Datenbankstrukturen ist das Grundgerüst des Semantischen Netzes vollständig hinterlegt, während die Suchintelligenz in den php-Skripten liegt. Zusätzlich wird die Funktionsweise des Automatischen Uploads erklärt, der es ermöglicht, Dokumente automatisch in die Datenbank einzutragen. Möglichen Fehlbedienungen wird dadurch vorgegriffen und die Bedienfreundlichkeit für den Benutzer wird erhöht.

Die Arbeit schließt mit einem Überblick über die verwendete Software und eine kurze Erläuterung der Quelltexte der einzelnen Programme. Damit sind die Programmstrukturen gemeint. Besondere Bedeutung wird den Seiten schlag.html und schlag2.html beigemessen; ihre Funktionsweisen werden explizit aufgeführt, da sie den Kern der Suche bilden.

 


2 Bekannte Suchmaschinen des Internets

Da eine stetig wachsende Datenmenge überschaubar bleiben soll, erfahren Suchmaschinen eine steigende Bedeutung. Im Internet handelt es sich dabei hauptsächlich um Suchmaschinen, die für den Benutzer Internetseiten nach Stichwörtern durchsuchen. Es werden Stichwörter eingegeben, die die Suchmaschinen mit Inhalten der Seiten vergleichen: entweder mit dem Inhalt sogenannter Meta-Tags, - das sind vom Programmierer der Seite angegebene Stichwörter, die den Inhalt der Seite wiedergeben sollen -, oder mit auf dem Bildschirm ausgegebenen Wörtern. Das hängt vom jeweiligen Konzept ab.

Darüber hinaus gibt es eine Vielzahl an Suchmaschinen, die nicht für das Internet konzipiert wurden. Sogar Betriebssysteme verfügen über eine Dateisuche, die z.B. die Festplatte nach Dateien durchsucht.

In dieser Arbeit werden jedoch nur die Suchmaschinen des Internets genauer betrachtet, da die Dokumentensuche auch für das Internet konzipiert ist, um unabhängig vom Terminal zu sein, von dem eine Suche beginnen soll. Bekannte Suchmaschinen, wie sie in großer Zahl im Internet vorkommen, basieren bisher auf zwei verschiedenen Prinzipien. Zum einen gibt es die hierarchiebasierenden Suchmaschinen und zum anderen Suchmaschinen mit Volltextsuche. Beide Konzepte haben von Natur aus Vor- und Nachteile. Die Betreiber versuchen immer wieder Modifikationen, die die Nachteile ausgleichen sollen, um sich dadurch einen Vorteil gegenüber anderen in Konkurrenz stehenden Suchmaschinen zu verschaffen; aber von der Struktur her, auf der die jeweilige Suche aufbaut, handelt es sich um Suchmaschinen, die entweder auf einer Hierarchie aufgebaut sind oder auf Volltextsuche basieren.

2.1 Hierarchiebasierende Suchmaschinen

Hierarchiebasierende Suchmaschinen bauen auf einem Stichwortbaum auf, der einem Verzeichnisbaum eines Betriebssystems gleicht. Es gibt nur die Möglichkeit, sich im Baum von oben nach unten, bzw. von unten nach oben zu bewegen. Falsche Stichwörter oder Stichwörter, deren Inhalt ein anderer ist als angenommen, was gleichbedeutend mit einem falschen Abbiegen innerhalb des Baumes ist, führen somit in einen falschen Baumzweig, aus dem man nicht wieder herauskommt. Eine geführte Suche ist damit nicht möglich. Nur eine neue Suchanfrage kann diese Verirrung im Suchbaum beheben. Dies wirkt sich besonders nachteilig aus, wenn man über das zu suchende Objekt nicht allzu gut Bescheid weiß und deshalb geeignete, charakteristische Stichwörter unbekannt sind. Dies führt immer wieder zu

 


zahlreichen Fehlversuchen oder Ergebnissen, die nicht zum gesuchten Objekt führen. Ein ,,Sich-Herantasten" an das zu suchende Objekt ist hier nicht möglich. Yahoo! gehört zum Beispiel zu den Suchmaschinen, die auf dieser Technologie aufgebaut sind. Es gibt Bemühungen, den Nachteil der Eingleisigkeit hierarchiebasierender Suchalgorithmen zu kompensieren, was aber meist zu einer noch größeren und damit noch unübersichtlicheren Zahl an Suchergebnissen führt. Yahoo! versucht zusätzlich mit einem Kategoriebaum, Seiten sinnvoll zu gliedern. Die Zahl an Ergebnissen wird dadurch allerdings nicht eingeschränkt, sondern sie erhalten nur eine gewisse Ordnung, die ebenfalls Wissen über das zu suchende Objekt verlangt.

<Abbildung>

Abbildung 2.1: Beispiel eines Hierarchie basierenden Stichwortbaumes

Abbildung 2.1 zeigt einen solchen einfachen, hierarchisch aufgebauten Stichwortbaum, den man der Dokumentensuche zu Grunde hätte legen können. Man erkennt jedoch schon bei diesem einfachen Stichwortbaum Doppeldeutigkeiten und Redundanzen. Das Stichwort ,,CAD" wird z.B. in drei verschiedenen Baumzweigen aufgeführt. Findet ein Benutzer das Stichwort ,,CAD", muss das nicht bedeuten, dass das darunter eingeordnete Dokument das ist, was er sucht. Es ist nicht eindeutig und auch redundant. Dieser Mangel nimmt bei großen Bäumen einen erheblichen Umfang an. Auffällig ist zudem, dass die gleichen Stichwörter (z.B. ,,CAD") in verschiedenen Hierarchieebenen auftreten können. D.h. der Detaillierungsgrad der Stichwörter ist abhängig davon, in welchem Zweig man sich befindet.
Damit ist es mehr oder weniger Zufall, ob man sich im richtigen Zweig oder in einem für die Suche falschen Zweig befindet. Zudem besteht keine Möglichkeit, von einem Zweig in den anderen zu gelangen, ohne dass man bis zu einem gemeinsamen, übergeordneten Knoten im Baum in der Hierarchie nach oben steigt. In Abbildung 2.1 wäre das der Ursprungsknoten mit dem Stichwort ,,Dokumente".

 


Kommerzielle Suchmaschinen haben zudem ein weiteres Manko. Wenn ein Ranking, das ist eine Bewertung der Ergebnisse, vorgenommen wird, kommt es nicht selten vor, dass dieses Ranking stark durch wirtschaftliche Interessen beeinflusst wird (vgl. [goog01], [Test01]). Das heißt, dass Seiten, die einen kommerziellen Nutzen haben und Gebühren an die Suchmaschinen entrichten, hier immer ein höheres Ranking besitzen und damit immer als höherwertiger Treffer angezeigt werden. Dem Benutzer wird dabei nicht mitgeteilt, dass es sich bei solchen Treffern um kommerziell begründete Treffer handelt. Dies widerspricht dem eigentlichen Gedanken einer Suchmaschine, Seiten zu finden, deren Inhalt am besten mit den gesuchten Begriffen übereinstimmt.

2.2 Suchmaschinen mit Volltextsuche

Eine andere Technologie der Suche neben der mit hierarchiebasierenden Stichwortbäumen ist die der Volltextsuche. Suchmaschinen wie Google oder Altavista basieren darauf. Sie durchforsten Internetseiten nach den vom Benutzer vorher eingegebenen Stichwörtern. Dabei führen Stichwörter, die nicht ausschließlich in einem ganz besonderen und eingegrenzten Zusammenhang verwendet werden (z.B.: CAD, dies gilt aber nicht für die einzelnen Wörter Computer, Aided und Design), zwangsläufig zu einer großen und damit unüberschaubaren Zahl an Ergebnissen. Die Suchmaschine sucht einfach die vom Benutzer eingegebene Zeichenfolge, also nicht das Stichwort, sondern nur die aneinandergereihte Zeichenfolge. Das gesuchte Wort muss also nur in dem Dokument vorhanden sein. Die Suchmaschine ist also ,,dumm", da ihr die bloße Anwesenheit eines Wortes als Selektionsmerkmal genügt. Es werden dadurch auch Wörter, die die Suchbegriffe nur enthalten oder ähnlich aussehen, als Treffer gewertet, was die Zahl der Ergebnisse noch erheblich steigert. So werden Teilstrings auch als Treffer gewertet, obwohl sie mit dem eigentlichen Begriff nur wenig oder nichts gemein haben. Zum Beispiel würde der eingegebene Begriff ,,Auto" auch Ergebnisse liefern wie ,,Automatisierung", ,,autonom" oder ,,Grauton", da jeweils ,,Auto" bzw. ,,auto" ein Teilstring ist. Um die Suche erfolgreich zu gestalten, bedarf es einigen Geschicks und Kenntnisse über Begriffe, die wirklich zu einer Eingrenzung der Ergebnisflut führen. Laien finden sich hiermit meist nicht zurecht.

Google versucht, die Anzahl an Ergebnissen einzuschränken, indem ausschließlich die Seiten als Ergebnis ausgegeben werden, die alle Suchbegriffe enthalten. Das heißt, alle Begriffe werden ausschließlich mit ,,und" verknüpft. Seiten, die nur einen Teil der Suchbegriffe enthalten, werden ausgefiltert. Google verwendet zudem ein Ranking, das auf der lokalen Nähe der gesuchten Begriffe innerhalb einer Seite (vgl. [goog01]) und der Anzahl der Links, [...]

 



Comments

No comments yet

Add Comment
Your comment is reviewed before being published

Other users also were interested in the following titles:

Erstellen einer schriftlichen Hausarbeit

Author: Claudia Nickel
Presentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR

Grundtechniken wissenschaftlichen Arbeitens

Author: Maik Philipp
Presentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR

This text can be quoted and accessed from this url:

http://www.grin.com/e-book/115919/implementierung-einer-dokumentensuche-basierend-auf-einem-semantischen
please wait Please wait