Suchdienste gehören zu den beliebtesten Applikationen im World Wide Web. Es gibt zahlreiche davon und ihre Zahl steigt beständig. Der Grund für die Beliebtheit liegt darin, daß im Internet sehr viele Informationen zur Verfügung gestellt werden, die aber in keiner Weise organisiert sind. Damit sind die vielen im Internet abrufbaren Daten für den Benutzer nur schwer zu überblicken. Um die richtigen Informationen finden zu können, bieten Suchdienste gute Hilfestellungen an. Der Großteil der Zeit bei der Suche wird dabei allerdings mit Durcharbeiten von irrelevanten Informationen verbraucht. Effektivere Suchmöglichkeiten sind unbedingt notwendig, um die Zeit einer Recherche zu verkürzen.
Metasuchmaschinen, welche die Suchergebnisse verschiedener individueller Suchdienste zusammenfassen, eignen sich aus verschiedenen Gründen besser für eine Suche als gewöhnliche Suchdienste. Sie liefern mehr und auch aktuellere Resultate. Insbesondere für eine Suche nach ganz speziellen Seiten und bei einer gründlichen Recherche eines bestimmten Themenbereichs sind Metasuchmaschinen also zu empfehlen.
Außerdem ist die Bedienung einer Metasuchmaschine für den Benutzer einfacher und komfortabler als die eines Suchdienstes. Er müßte sonst viele davon nacheinander verwenden, um die gleichen Resultate zu erhalten. Dazu wäre Wissen über jeden einzelnen dieser Dienste nötig. Der Benutzer müßte zunächst wissen, wo sich überhaupt die Suchdienste befinden, dann, welche Informationen in ihren Datenbanken zu finden sind und schließlich zu welcher Zeit sie mit zumindest akzeptabler Geschwindigkeit funktionieren. Weiterhin ist zu beachten, daß alle Suchdienste unterschiedliche Benutzeroberflächen aufweisen. Der Benutzer müßte sich daher zusätzlich mit deren Bedienung vertraut machen. Bei der Benutzung einer einzigen, übergreifenden Metasuchmaschine ist nur noch Wissen über diese nötig. Dadurch daß mehrere Suchdienste von ihr kontaktiert werden, ist außerdem gewährleistet, daß auch bei kurzen Suchzeiten fast immer Ergebnisse geliefert werden.
Metasuchmaschinen lassen sich aber auch noch für andere Zwecke einsetzen. Andere Computerprogramme können Metasuchmaschinen verwenden, um beispielsweise mit ihrer Hilfe automatisch neue Webseiten-Verzeichnisse aufzubauen oder um die Größe der Suchdienste zu vergleichen.
Inhaltsverzeichnis
1 Einleitung
1.1 Zweck von Metasuchmaschinen
1.2 Mittelpunkt dieser Arbeit
1.3 Überblick über diese Arbeit
2 Datenbanken und Metasuchmaschinen
2.1 Webdatenbanken
2.1.1 Funktionsweise
2.1.2 Vorgaben für die Suche
2.1.3 Anwendung auf WWW-Adressen
2.2 Metasuchmaschinen
2.2.1 Funktionsweise
2.2.2 Besondere Anforderungen
2.2.3 Client- und Serverapplikationen
2.2.4 Kriterien für Metasuchmaschinen
2.2.5 Anwendung auf WWW-Adressen
2.2.5.1 Unterstützte Datenbanktypen
2.2.5.2 Vergleich der Ausgabe mit der von Suchdiensten
2.2.5.3 Kommunikation mit den Suchdiensten
3 Objektorientierte Entwicklung
3.1 Planung
3.1.1 Webserver
3.1.2 Programmiersprache
3.1.3 Suchdienste
3.1.3.1 Crawler
3.1.3.2 Verzeichnisse
3.1.3.3 Andere Datenbanken
3.2 Analyse
3.3 Entwurf
3.4 Implementation
4 Weiterentwicklung einer bestehenden Metasuchmaschine
4.1 Aufbau der übernommenen Metasuchmaschine
4.2 Anpassung an internationale Suchdienste
4.3 Änderung der Programmarchitektur
4.3.1 Integration externer Programmteile
4.3.1.1 Phrasenerkennung
4.3.1.2 Doublettenerkennung
4.3.1.3 Existenzprüfung
4.3.1.4 Ausgabe
4.3.2 Parametrisierung der Suchdiensteigenschaften
4.4 Berechnung der Relevanz
4.5 Sicherheit
5 Performance
5.1 Performancemessungen
5.1.1 Benchmark
5.1.2 Profiling
5.2 Performanceverbesserungen
5.2.1 mod_perl
5.2.2 Compiler
6 Bedienung
6.1 Benutzung als Suchhilfe
6.2 Installation
6.3 Parametereinstellungen
6.4 Administration
6.4.1 Anpassen des Ausgabeformats
6.4.2 Ändern der Datenbankeigenschaften
6.4.3 Hinzufügen und Entfernen von Datenbanken
6.4.3.1 Ermitteln der Datenbankeigenschaften
6.4.3.2 Erstellen der Datenbankmodule
6.4.3.3 Test
6.4.4 Ändern der QuickTips
7 Ergebnisse
7.1 Vergleich mit bestehenden Metasuchmaschinen
7.1.1 Kriterien
7.1.2 Resultate
7.2 Weitere Verbessserungen
8 Zusammenfassung und Ausblick
Zielsetzung & Themen
Das Hauptziel dieser Arbeit ist die Entwicklung einer internationalen Metasuchmaschine namens MetaWorld, die aufbauend auf existierendem Programmcode skalierbar für eine hohe Anzahl an Zugriffen implementiert werden soll, während sie gleichzeitig alle Qualitäts- und Funktionalitätskriterien für moderne Metasuchmaschinen erfüllt.
- Methoden zur objektorientierten Entwicklung von Metasuchmaschinen
- Strategien zur Performance-Optimierung und Skalierbarkeit
- Vergleich und Analyse internationaler Web-Suchdienste
- Implementierung einer effizienten Relevanzberechnung
- Methoden zur Doublettenerkennung und Existenzprüfung
Auszug aus dem Buch
2.2.2 Besondere Anforderungen
Im Vergleich zu normalen Suchdiensten ergeben sich spezielle Anforderungen an Metasuchmaschinen. Diese finden sich insbesondere in den Bereichen der Suchmöglichkeiten, der Doublettenerkennung, der Relevanzfindung, des Ausgleichs von Unzulänglichkeiten der Suchdienste und der Ausgabe.
Die Suchmöglichkeiten der Metasuchmaschinen unterscheiden sich von den Suchmöglichkeiten der Web-Datenbanken in drei Punkten. Erstens können meist nur Optionen unterstützt werden, die auch von allen darunterliegenden Datenbanken angeboten werden. Sobald eine Datenbank eine bestimmte Art der Suche nicht versteht, würden unter Umständen auch Datensätze zurückgeliefert werden, die nicht mit der Anfrage übereinstimmen. Diese würden dann die Qualität des Suchergebnisses verschlechtern. Die einstellbare Anzahl der zurückgelieferten Datensätze ist bei jeder Datenbank verschieden. Dies wird bei einer Metasuchmaschine dadurch umgangen, daß die maximale Anzahl von Datensätzen pro Suchdienst vom Benutzer angegeben werden kann.
Eine zweite zusätzliche Suchoption bei Metasuchmaschinen besteht in der Festlegung, welche Suchdienste aktiviert werden sollen. Meist kann man diese direkt auswählen, manche Metasuchmaschinen haben jedoch einen eingebauten Algorithmus, der die geeignetsten Datenbanken aussucht. Das ist deshalb sinnvoll, weil manche Datenbanken sich auf spezielle Gebiete wie zum Beispiel Shareware beschränken. Die Metasuchmaschine ProFusion kontaktiert beispielsweise immer drei Suchdienste, die sie in Abhängigkeit von den Suchwörtern auswählt [13]. Die Auswahl geschieht mit Hilfe eines Wörterbuchs, daß zu jedem enthaltenen Wort die Suchmaschine mit den meisten Ergebnissen speichert. Die Metasuchmaschine SavvySearch dagegen bestimmt nach Analyse der Netz und der Arbeitslast, wie viele Suchdienste kontaktiert werden [10, 11]. Die Auswahl der Suchdienste erfolgt ebenfalls auf Grund eines Wörterbuchs, aber auch durch die Performance des Suchdienstes.
Zusammenfassung der Kapitel
1 Einleitung: Beschreibt die Motivation hinter Metasuchmaschinen und legt den Fokus dieser Diplomarbeit auf die Entwicklung von MetaWorld.
2 Datenbanken und Metasuchmaschinen: Erläutert die grundlegende Funktionsweise von Webdatenbanken und Metasuchmaschinen sowie die speziellen Anforderungen an letztere.
3 Objektorientierte Entwicklung: Dokumentiert den Versuch, eine neue Metasuchmaschine mittels objektorientierter Methoden in Perl zu entwerfen und zu implementieren.
4 Weiterentwicklung einer bestehenden Metasuchmaschine: Beschreibt die Anpassung des bestehenden MetaGer-Codes zur Erstellung der internationalen Suchmaschine MetaWorld.
5 Performance: Analysiert Messmethoden für Skripte und beschreibt Optimierungen zur Steigerung der Systemleistung.
6 Bedienung: Bietet detaillierte Anleitungen für die Nutzung und Administration der Software.
7 Ergebnisse: Vergleicht MetaWorld mit anderen Systemen und diskutiert potenzielle zukünftige Verbesserungen.
8 Zusammenfassung und Ausblick: Resümiert die Arbeit und gibt einen Ausblick auf die zukünftige Entwicklung von Metasuchmaschinen im E-Commerce-Bereich und für automatisierte Programmschnittstellen.
Schlüsselwörter
Metasuchmaschine, MetaWorld, Suchdienste, Webdatenbanken, Perl, Performance, Crawler, Verzeichnisse, Relevanz, Doublettenerkennung, Existenzprüfung, Internetsuche, Informatik, CGI, Softwareentwicklung.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Diplomarbeit behandelt die Entwicklung einer internationalen Metasuchmaschine, die Suchergebnisse verschiedener Suchdienste im World Wide Web bündelt, um dem Benutzer eine effizientere Recherche zu ermöglichen.
Was sind die zentralen Themenfelder?
Zu den zentralen Themen zählen die Architektur von Metasuchmaschinen, die Systemperformance, die Integration verschiedener Web-Datenbanken sowie Strategien zur Relevanzbewertung und Qualitätsverbesserung der Suchergebnisse.
Was ist das primäre Ziel der Arbeit?
Das Ziel ist die Erstellung einer skalierbaren internationalen Metasuchmaschine, die alle wissenschaftlichen Qualitätskriterien für solche Systeme erfüllt und gleichzeitig eine hohe Performance bietet.
Welche wissenschaftliche Methode wird verwendet?
Es werden sowohl objektorientierte Softwareentwicklungs-Methoden (OMT) zur Modellierung als auch klassische iterative Programmierverfahren zur Weiterentwicklung von bestehendem Programmcode in Perl eingesetzt.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretischen Grundlagen zu Suchmaschinen, den Entwurfsprozess (Analyse und Implementierung), die konkrete Weiterentwicklung des MetaWorld-Codes sowie detaillierte Messungen zur Performance.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit lässt sich primär mit Begriffen wie Metasuchmaschine, Perl, Web-Datenbanken, Information Retrieval, Performance-Optimierung und Suchdienst-Integration beschreiben.
Warum wurde von der objektorientierten Programmierung zur Weiterentwicklung des bestehenden Codes gewechselt?
Performancemessungen zeigten, dass der objektorientierte Ansatz in Perl aufgrund des höheren Speicherverbrauchs und der langsameren Zugriffe auf Objektattribute für ein hochfrequentiertes System wie MetaWorld ineffizient war.
Wie geht MetaWorld mit dem Problem von "Doubletten" um?
Das System nutzt einen speziellen Programmteil, der empfangene URLs und Beschreibungen vergleicht. Identische Ergebnisse werden ignoriert, während bei Inhalten mit unterschiedlichen Beschreibungen die Relevanz addiert und der Eintrag entsprechend in der Liste neu sortiert wird.
- Quote paper
- Peer Radlow (Author), 1999, Entwicklung einer Metasuchmaschine für internationale Suchdienste, Munich, GRIN Verlag, https://www.grin.com/document/12228