Die Geschichte vom Suchen und Finden in einer digitalen Welt

Ein Überblick und Vergleich von Konzepten zur Suche in und Informationsaufbereitung von strukturierten und unstrukturierten Datenbeständen


Bachelorarbeit, 2010

53 Seiten, Note: 1.3


Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Hintergrund und Forschungsfragen der Arbeit

2 Grundlegende Begriffe
2.1 Suchen oder Finden
2.2 Struktur von Datenbeständen
2.3 Unterschiedliche Arten der Relevanz
2.4 Information Retrieval

3 Suchen
3.1 Suchmaschinenarten
3.1.1 Suche in lokalen Datenbanken
3.1.2 Volltextsuchmaschinen
3.1.3 Metasuchmaschinen
3.1.4 Verzeichnisse
3.1.5 Spezielle Suchdienste
3.2 Suchmechanismen und Funktionsweisen
3.2.1 Webcrawler
3.2.2 Indexierung
3.2.3 Rangierungsprinzipien
3.3 Probleme der Suche und Lösungsansätze
3.3.1 Schwachstellen
3.3.2 Lösungsansätze

4 Finden
4.1 Personalisierte Internetsuche
4.1.1 Nutzerprofile als Basis der Personalisierung
4.1.2 Personalisierung der Suchanfrage
4.1.3 Personalisierung des Suchalgorithmus
4.1.4 Personalisierte Präsentation der Suchergebnisse
4.2 Kontextorientierte Konzepte
4.2.1 Semantic Web
4.2.2 Nutzenspotentiale
4.2.3 Problemfelder
4.2.4 Bisherige Umsetzung neuer Suchkonzepte

5 Vergleich verschiedener Suchmaschinen
5.1 Beschreibung des Vorgehens
5.2 Auswahl der Testobjekte
5.3 Ergebnisse und Auswertung

6 Zusammenhang und Ausblick

Literatur

A Suchbegriff “Positip VRZ 659” V

B Auswahl der zu testenden Maschinen - Teil 1

C Auswahl der zu testenden Maschinen - Teil 2

D Gefundene Antworten zur ersten Testfrage

E Gefundene Antworten zur zweiten Testfrage

F Gefundene Antworten zur dritten Testfrage

Abbildungsverzeichnis

Abbildung 1: Forschungsframework

Abbildung 2: The DIKW hierarchy

Abbildung 3: The wisdom hierarchy

Abbildung 4: Die Weisheitspyramide als Kontinuum zwischen Suchen und Finden

Abbildung 5: Relevanz

Abbildung 6: Typischer Suchprozess und Probleme des Suchenden

Abbildung 7: Ebenen des Semantic Web

Abbildung 8: Testcase 1

Abbildung 9: Ergebnis von Wolfram Alpha im Test Case 1

Abbildung 10: Testcase 2

Abbildung 11: Testcase 3

Abbildung 12: Fräsmaschine mit Steuerungseinheit “Positip VRZ 659”

Abbildung 13: http://answers.yahoo.com/question/index?qid=20070902161031AA4vKY5. .

Abbildung 14: http://wiki.answers.com/Q/How far is Mars from Pluto

Abbildung 15: http://www.care2.com/greenliving/11-most-popular-apple-varieties.html

Abbildung 16: http://wiki.answers.com/Q/Which apple is the most popular

Abbildung 17: http://www.milesfaster.co.uk/postcodes/london-eye-hotels.htm

Abbildung 18: http://www.hotelplanner.com/Hotels/2315-NEAR-London-Eye

Abbildung 19: http://maps.google.com/

Abbildung 20: http://www.tvtrip.com/hotels-near-Other-landscape+35-geo/London-Eye

Tabellenverzeichnis

Tabelle 1: Steigerung der Wortanzahl bei Suchanfragen

Tabelle 2: Listen der besten Suchmaschinen

Tabelle 3: Maschinenstatistik

1 Hintergrund und Forschungsfragen der Arbeit

Das rasante Wachstum des Internets hält kontinuierlich an und verknüpft eine unvorstellbar große Menge an Daten. Schon lange ist es auf eine Größe angewachsen, bei der eine sinnvolle Nutzung ohne automatisierte Hilfsmittel nicht mehr möglich ist. Zwar ist aufgrund der dezentralen Struktur des Internets eine genaue Berechnung des existenten Datenumfangs kaum möglich, erhobene Schätzungen versuchen aber einen Eindruck davon zu vermitteln. So besagt eine Studie der IDC, dass sich die digitalen Informationen bereits 2006 auf 161 Exabyte belief. Vorhersagen über die weitere Entwicklung gehen davon aus, dass diese Masse sich bis 2010 von 161 auf 988 Exabytes mehr als versechsfacht hat. Außerdem ergab die Studie, dass ca. 95% der Daten im Internet in unstrukturierter Form vorliegen. Diese nutzbringend zu verarbeiten, stellt eine große Herausforderung dar (Gantz, 2007). Eine effektive Suche nach relevanten Informationen in dieser digitalen Welt bildet den Grundstein der Informationsgewinnung.

Kurz nach der Erfindung des World Wide Webs galt in den Jahren 1991 bis 1994 das “Browsen” als die dominierende Fortbewegungsmethode in diesen Netz. Parallel dazu entwickelten sich die ersten Webcrawler, welche die Dokumente des Internets automatisch durchsuchen und in Datenbanken indexierten. Die automatische Volltextsuche wurde möglich. Mit dieser neuen Option wandelte sich das Suchverhalten der Nutzer. Anstatt zu erraten, welche Listeneinträge am passendsten sind, konnten nun Suchbegriffe eingegeben und die Relevanz einzelner Treffer einer Ergebnisliste überprüft werden. Die Geschwindigkeit des Suchens wurde durch dieses neue Konzept erheblich erhöht, nicht aber die Geschwindigkeit des Findens. Denn auch die Anzahl der potentiell relevanten Ergebnisse stieg deutlich an (Buzinkay, 2006, S. 177).

So durchsuchen Webcrawler stetig das Netz nach relevanten Informationen. Doch bleibt ihnen der größte Teil des World Wide Webs verborgen und nur ein Teil der tatsächlich vorhandenen Dokumente kann gefunden werden. Darüber hinaus liefert eine konkrete Suchabfrage eine so un- fassbar große Menge an Treffern, dass die Wahrscheinlichkeit eines Fundes beim ersten Ergebnis der Wahrscheinlichkeit eines Lottogewinns nahe kommt. Durch Mehrdeutigkeiten im Text, die Komplexität und die schiere Masse des WWW stoßen traditionelle Suchmaschinen schnell an ihre Grenzen (Sack, 2010, S. 14).

Im Verlauf dieser Arbeit wird der Unterschied zwischen “Suchen” und “Finden” anhand einer Ca- se Study dargestellt. Dabei wird die Sucheffizienz verschiedener Onlinesuchmaschinen mithilfe der notwendigen Klickanzahl bis Fund nach Eingabe einer Suchabfrage überprüft. Die dabei ge- wonnenen Erkenntnisse bilden die Basis für eine Übersicht der verschiedenen Maschinen sowie ihrer Funktionsweisen und Eigenschaften. Abschließend werden die wichtigsten Zusammenhänge in einem Fazit kumuliert aufgezeigt und es wird ein Ausblick auf die weitere Entwicklung gege- ben.

Es sollen folgende Forschungsfragen in dieser Arbeit beantwortet werden.

1. Inwieweit sind bestehende Suchkonzepte für das Internet geeignet?
2. Welche Suchkonzepte existieren derzeit und welche Trends werden verfolgt?
3. Welche Suchmaschinen erweisen sich bei einer Fallstudie mit multiplen Cases menschlicher Suchanfragen am geeignetsten?

Die folgenden Hypothesen werden durch die Antworten auf die Forschungsfragen bestätigt oder widerlegt. Zur ersten Frage ist anzunehmen, dass die bisher bestehenden Suchkonzepte eher un- geeignet sind. Für die zweite Frage wird angenommen, dass die meisten Maschinen immer noch auf dem klassischen Information Retrieval der Suche in strukturierten Datenbeständen basiert und nur wenige der neuen Konzepte einer semantischen Suche implementieren. Bezüglich der dritten Forschungsfrage wird vermutet, dass die neueren Suchkonzepte besser geeignet sind, um präzise Suchanfragen zu beantworten. In Abbildung 1 ist visualisiert, wie sich die Forschungsfragen und Hypothesen in den Forschungsrahmen dieser Arbeit eingliedern. Forschungsfragen wurden mit einem “F” veranschaulicht und Hypothesen durch ein “H” in der Darstellung gekennzeichnet

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Forschungsframework (eigene Darstellung)

Das Ziel dieser Arbeit ist es, einen Überblick bereits bestehender oder noch in Entwicklung befindlicher Konzepte zur Suche in strukturierten und unstrukturierten Datenbeständen zu geben. Zu diesem Zweck werden diese Konzepte im ersten Teil der Arbeit ausführlich betrachtet und erklärt, während im zweiten Teil ein Vergleich derzeit bestehender und populärer Suchdienste mit Hilfe einer Case Study durchgeführt wird. Die Motivation dieser Vorgehens besteht darin, vorhandene wichtige Literaturquellen aus diesem Bereich zusammenzuführen, zu strukturieren und anschließend den Testergebnissen gegenüber zu stellen.

Eine relevante Literaturquelle dieser Arbeit ist insbesondere Rowley, 2007, welche den Zusam- menhang von Daten, Informationen, Wissen und Weisheit illustriert und somit eine Art der Dif- ferenzierung von Suchen und Finden ermöglicht. Ein umfassender Vergleich von Lewandowski, 2005 dient der Unterscheidung der Stukturen von Datenbeständen in Kap 2.2. Hartmann, Näf & Schäuble, 2000 unterschieden in ihrem Buch zwischen verschiedenen Arten der Relevanz, was für die Beurteilung der Treffenqualität von Suchmaschinen von großer Bedeutung ist. In vielen Quel- len sind die unterschiedlichen Arten von Suchmaschinen und ihre Funktionsweisen beschrieben. Stellvertretend sollen hier Bischopinck & Ceyp, 2009 und Erlhofer, 2008 als besonders wichtige Werke genannt werden. Eine in Riemer & Brüggemann, 2007 gegebene Zusammenfassung der personalisierten Suchkonzepte, bildet das Grundgerüst des ersten Teils des vierten Kapitels. Für den zweiten Teil, welcher sich dem Semantic Web widmet, sind unter anderem Schmaltz, 2004, und Sack, 2010 wichtige Quellen.

Zu Beginn der Arbeit werden die grundlegenden Begriffe Information Retrieval, Relevanz, Suchen und Finden betrachtet. Außerdem wird auf den Unterschied zwischen einer Suche in strukturierten und unstrukturierten Datenbeständen eingegangen. Dieses Kapitel bildet die Basis dieser Arbeit und erklärt Begriffe und Konzepte, die im weiteren Verlauf eine entscheidente Rolle spielen.

Die weiteren Ausführungen gliedern sich in die Abschnitte “Suchen” und “Finden”. Der erste Teil der Arbeit beschreibt die verschiedenen Konzepte der klassischen Suchmaschinen. Zunächst werden der Aufbau, die Funktionsweise und die Suchmechanismen der klassischen Volltextsuchmaschinen beleuchtet. Anschließend werden die Schwachstellen dieser Technik näher betrachtet und Lösungsansätze vorgestellt.

Der zweite Teil der Arbeit widmet sich neueren Suchkonzepten. Dieser Abschnitt der Arbeit trägt den Titel “Finden”, da er die technischen Neuerungen einiger Suchdienste vorstellt. Diese haben das Ziel, die Suche möglichst schnell und effizient mit einem Fund zu beenden. Zuerst werden personalisierte Suchkonzepte vorgestellt. Hierbei wird die Suche durch Informationen über den suchenden Nutzer unterstützt. Ist der Kontext, in welchen die Suche durchgeführt wird bekannt, zum Beispiel durch Nutzerprofile, so können relevante Webseiten leichter gefunden werden.Später in diesen Kapitel wird auf die Entwicklungen des “Semantic Webs” eingegangen. Dieses hat zum Ziel, Zusammenhänge der Daten untereinander und die Semantik der Suchanfrage zu erkennen und die Qualität der Ergebnisse somit wesentlich zu verbessern.

Nachdem im dritten und vierten Kapitel die wesentlichen Konzepte einer Suche in strukturierten und unstrukturierten Datenbeständen vorgestellt und ausführlich erläutert wurden, folgt im Kapitel fünf eine Case Study. Diese vergleicht die Antworten ausgewählter Suchmaschinen mit Hilfe von drei verschiedenen Testfragen. Dieser Vergleich verdeutlicht die Unterschiede zwischen den einzelnen Suchdiensten und ihren Technologien.

Das abschließende Kapitel zeigt grundlegende Zusammenhänge auf und gibt einen Ausblick auf die weitere Entwicklung von Suchmaschinen und ihren Technologien.

2 Grundlegende Begriffe

2.1 Suchen oder Finden

Der Titel dieser Arbeit ”Die Geschichte von Suchen und Finden in einer digitalen Welt” wirft die Frage nach dem Unterschied zwischen klassischen Suchmaschinen und modernen, kontextorien- tierten Suchkonzepten auf. Prinzipiell wäre eine Maschine in dem Moment eine Findemaschine, wenn sie die Frage des Nutzers so beantwortet, dass dies die Suche beendet. Bisherige Suchma- schinen liefern auf eine Suchanfrage hingegen nur Unmengen an Daten und können dennoch nicht garantieren, dass die Anfrage damit vollständig beantwortet wird. Es existieren aber bereits kon- textorientierte Konzepte, welche einer Findemaschine näher kommen als bisherige Systeme. Im Folgenden wird der Unterschied zwischen Suchen und Finden mit Hilfe der Data-Information- Knowledge-Wisdom (DIKW) Hierarchie erklärt. In diesem Rahmen können verschiedene Bei- spielmaschinen geordnet werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: The DIKW hierarchy (Rowley, 2007, S. 2)

Die DIKW Hierarchie visualisiert den Zusammenhang von Daten, Informationen, Wissen und Weisheit. Daten bilden die Basis dieser Pyramide. Aus ihnen können später Informationen gene- riert werden, welche die Grundlage für Wissen bilden. Die Spitze der Pyramide, die Weisheit, kann wiederum nur über Wissen erreicht werden (Rowley, 2007, S. 2 ff). Um verschiedene Suchkon- zepte in diese Hierarchie einordnen zu können, werden die einzelnen Stufen (Daten, Information, Wissen und Weisheit) und die Übergänge zwischen ihnen im Folgenden näher betrachtet.

Daten sind das Produkt von Beobachtungen. Sie sind nicht nutzbar, bevor sie nicht in eine sinn- volle Struktur gebracht werden. Es fehlt ihnen sowohl an Wert als auch an Bedeutung, wenn sie ohne Kontext oder Interpretation vorliegen (Vgl.Ackoff, 1989; Groff & Jones, 2003). Beispiels- weise beinhaltet eine Kundendatenbank Daten. Alle Fakten, die über Kunden bekannt sind, zum Beispiel Name, Adresse und gekaufte Produkte, werden darin eingetragen. Die Tabelle als Ge- samtheit betrachtet, bringt Menschen keine Informationen, da diese nicht alle Einträge auf einmal überblicken können.

Informationen sind aggregierte Daten, die eine Bedeutung, Relevanz oder ein Ziel haben. Diese entstehen durch Klassifizierung, Sortierung, Aggregation, Berechnung oder Selektion. Dabei ent- scheidet jedoch der Mensch als Konsument, ob konkrete, einzelne Dokumente für ihn Daten oder Information sind. Um von Bedeutung zu sein, müssen diese mit seinen bereits gesammelten Er- fahrungen oder anderen Daten in Beziehung stehen (Vgl.Curtis & Cobham, 2005; Groff & Jones, 2003). Aus der bereits erwähnten Kundendatenbank können beispielsweise Informationen gewon- nen werden, indem man sich alle Kunden einer bestimmten Stadt ausgeben lässt. Die Information für den Menschen wäre in diesem Falle die Anzahl der Kunden in dieser Stadt.

Wissen entsteht aus Daten und Informationen. Während Daten Objekten zugehörig sind, tragen Menschen das Wissen in sich. Es ist das Verständnis für ein spezielles Themengebiet, welches durch Lernen und Erfahrung gewonnen wurde und Menschen in die Lage versetzt, Entscheidungen besser fällen zu können (Vgl.Chaffey & Wood, 2005; Boddy, Boonstra & Kennedy, 2005; Awad & Ghaziri, 2004a). Es kann dabei zwischen explizitem Wissen, welches in schriftlicher Form vorliegt oder welches artikulierbar ist und implizitem Wissen, welches in Form von Erfahrungen jedem Menschen zu eigen ist, unterschieden werden (Vgl.Awad & Ghaziri, 2004b; Laudon & Laudon, 2006). Computer sind nicht in der Lage implizites Wissen auszugeben, da dies auschließ- lich einem konkreten Menschen zugehörig sein kann. Explizites Wissen ist jedoch generierbar. Wenn implizites Wissen durch Verschriftlichung durch Menschen einmal urbar gemacht wurde, so kann dies von Computern gespeichert und verknüpft werden. Dadurch kann unter Umständen neues Wissen generiert werden. Beispielsweise hat der Geschäftsführer eines Unternehmens die Möglichkeit mit Hilfe besagter Kundendatenbank, Veränderungen im Kaufverhalten der Kunden einer Region über mehrere Jahre hinweg zu verfolgen. Die Datenbank gerneriert dieses Wissen intern durch die Kombination verschiedener Datensätze.

Weisheit ist gesammeltes Wissen, welches das Verständnis dafür bringt, Konzepte einer Wissens- domaine auf Situationen oder Probleme, die in einem anderen Kontext stehen, zu übertragen. Weisheit hat einen starken Bezug zur menschlichen Intuition, Interpretation und dem Verständnis der Dinge (Vgl.Jessup & Valacich, 2003; Jashapara, 2005). Sie gehört nach Auffassung der Auto- rin exklusiv dem Menschen. Durch seine gesammelten Erfahrungen und dem, aus der Datenbank gewonnenem Wissen, ist ein Geschäftsführer in der Lage, Entscheidungen über die weitere Unter- nehmensstrategie zu fällen. Einer rein computergestützten Entscheidung ist abzuraten.

Einige Eigenschaften der Ebenen der Hierachie ändern sich von Stufe zu Stufe. Wie in Abbildung 3 dargestellt, steigen zum Beispiel Wert, Struktur und Bedeutung in jedem Level. Auf der anderen Seite verringert sich die technische Umsetzbarkeit gegenläufig.

Die Resultate von Suchmaschinen bewegen sich zwischen Daten und Weisheit. Nach der Defini- tion der Encyclopaedia Britannica ist eine Suchmaschine ein Computerprogramm, das Antworten auf Anfragen in einer Sammlung von Informationen finden soll. Die Sammlung kann ein Biblio- thekskatalog, eine Datenbank oder das World Wide Web sein. Eine Suchmaschine für das Web generiert eine Liste von Seiten, also Dokumenten im Web, die die Terme der Anfrage enthalten (Vgl.Encyclopaedia Britannica, 2009). Die Herausforderung einer jeden Suchmaschine besteht nun darin, Suchergebnisse zu liefern, die einem möglichst hohen Level der DIKW Hierarchie ge- recht werden, um auch wirklich eine Antwort zu liefern und nicht nur eine Ergebnissammlung.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: The wisdom hierarchy (Rowley, 2007, S. 14)

Es muss angemerkt werden, dass in der Literatur sowohl uneinheitliche Definitionen der Stufen der DIKW-Hierachie zu finden sind, als auch verschiedene Ansichten über die Übergänge zwischen ihnen (Vgl. (Rowley, 2007, S.13)). Im Rahmen dieser Arbeit wird davon ausgegangen, dass Daten, Informationen, Wissen und Weisheit auf einem Kontinuum liegen. In dessen Verlauf nehmen Strukturiertheit und Bedeutung stetig zu.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Die Weisheitspyramiede als Kontinuum zwischen Suchen und Finden (eigene Darstellung)

Mit Hilfe dieses Konzeptes sollen nun verschiedene Suchmaschinen nach der Qualität ihrer Doku- mentenaufbereitung differenziert werden. In der Literatur besteht der Konsens, dass strukturierte Daten Informationen darstellen. Daher können Informationen nicht nur im menschlichen Geist, sondern auch in Informationssystemen gespeichert werden (Rowley, 2007, S. 12 ff). Eine Suchab- frage liefert nach einem suchmaschineninternen Ranking sortierte Dokumente. Da die Daten somit in einem Kontext stehen und strukturiert wurden, kann davon ausgegangen werden, dass es sich bei den Ergebnissen mindestens um Informationen handelt. Jedoch können durch die Probleme der Volltextsuche (Vgl. Kapitel 3.3.1) auch irrelevante Dokumente geliefert werden. Ungeklärt bleibt daher aber, ob die Ergebnisse für einen konkreten Suchmaschinennutzer informativ sind oder nur Daten darstellen. Die an der gegenüberliegenden Seite des Kontinuums liegende Weisheit kann nicht von Informationssystemem geliefert werden. Es ist allerdings möglich, explizites, in schrift- licher Form vorliegendes Wissen zu finden und den Zugang zu impliziten Wissen zu erleichtern.

2.2 Struktur von Datenbest änden

Daten können in dem Grad ihrer Strukturiertheit differieren. Prinzipiell kann zwischen strukturierten und unstrukturierten Daten unterschieden werden. Dabei können strukturierte Daten in Datenbanken gespeichert werden. Sie liegen in Textform vor und besitzen Metadaten, mit deren Hilfe sie wieder auffindbar sind. Unstrukturierte Daten hingegen können potenziell in jedem möglichen Dateiformat vorliegen und lassen sich daher auch nicht direkt in ein Datenbankensystem einordnen, es sei denn, ihnen werden Metadaten zugeschrieben (Vgl. Kapitel 4.1.1). Unstrukturierte Daten können als E-Mails, Präsentationen, Grafiken, Videoformaten oder Audiodateien in jeglicher Variante vorliegen (Blumberg & Atre, 2003, S. 42).

Die Struktur der Daten im World Wide Web unterscheidet sich substanziell von denen, welche in klassischen Datenbanken vorherrschen. Der Umfang der in Internet vorhandenen Dokumente kann nicht erfasst werden und es ist für keine Suchmaschine möglich, auch nur annähernd alle Webseiten zu indexieren. Allein die Tatsache, dass neue jeden Tag hinzukommen, macht dieses Unterfangen unmöglich (Broder et al., 2004, S. 1). Bei der Suche in klassischen Datenbeständen besteht dieses Problem nicht. Schon bei der Planung dieser wird die Datenmenge beschränkt, wes- halb das Auffinden neu eingepflegter Dokumente hier unproblematisch verläuft (Lewandowski, 2005, S. 5).

Erschwerend für die Suche im Netz sind die unterschiedlichen Strukturen, Sprachen und Da- teigrößen. Die Dokumente des Internets können prinzipiell in jeder Sprache verfasst sein, was eine inhaltliche Erschließung über Sprachgrenzen hinweg mit Volltextsuche schwierig macht. Auf der anderen Seite herrscht in lokalen Datenbeständen meist nur eine Sprache vor. Davon abweichende Dokumente werden mit einheitlichem Vokabular durch die Datenbank indexiert und angespro- chen. Auch sind die Dateigrößen und Längen der Dokumente einer Datenbank determiniert. Im Web hingegen sind Dokumente mit stark variierender Textlänge die Regel. Es existieren Websei- ten mit nur ein paar Wörtern neben Dokumenten, welche ganze Bücher beinhalten (Lewandowski, 2005, S. 6). Obwohl der HTML-Standard über eine vorgegebene Struktur verfügt, gelten Inhalte von Webseiten als typische unstrukturierte Dateien. Dies ist damit zu begründen, dass Websei- ten Links und Verweise zu externem, oft unstrukturiertem Inhalt, wie Bildern oder Animationen, beinhalten (Blumberg & Atre, 2003, S. 43).

Das stark differierende Suchverhalten der Benutzer ist ebenso ein entscheidender Fakt. Anfra- gen an Datenbanken beziehen sich in der Regel auf ein spezifisches Themengebiet. Die Anfra- gesyntax in Datenbanken sind komplizierter, weshalb die Nutzer eine Schulung der Abfragesprache benötigen. Dafür sind komplexere Eingaben möglich, da dem Nutzer zahlreiche Modifikationsmöglichkeiten zur Verfügung stehen. Dem Suchenden im Internet stehen nur wenige Suchoptionen zur Verfügung, dafür erfolgt die Eingabe im Suchfeld intuitiv und benötigt keine Schulung. Die Fragestellungen im Netz variieren stark. Oft kommt es zu fehlerhaften Eingaben, so dass das Finden zusätzlich erschwert wird. (Lewandowski, 2005, S. 5ff).

Auch der Zweifel an der Qualität der gefundenen Dokumente besteht in Datenbanken nicht, da alle Dokumente vor ihrer Aufnahme geprüft werden können. Suchmaschinen des Internets hingegen versuchen die Relevanz der Dokumente durch Algorithmen zu bestimmen und somit Qualität zu liefern. Trotzdem werden die Ergebnislisten von unerwünschten Inhalten und doppelten Einträgen dominiert. In Datenbanken können Dupletten durch Kontrolle beim Erfassen verhindert werden (Lewandowski, 2005, S. 6ff).

2.3 Unterschiedliche Arten der Relevanz

Häufig arbeiten Suchmaschinen nicht zufriedenstellend für den Nutzer. Denn auf eine Anfrage liefern sie eine sehr große Menge an Informationen. Ob es sich dabei aber um für den Nutzer relevante Informationen handelt, bleibt unbeachtet.

In diesem Kontext soll ein Dokument als relevant bezeichnet werden, wenn es bei einer Recherche gefunden werden soll. Dabei gilt es, drei unterschiedliche Arten der Relevanz zu unterscheiden. Die subjektive Relevanz wird vom Ersteller der Suchabfrage direkt wahrgenommen. Dieser ver- sucht ein Informationsbedürfnis zu stillen. Je besser dies mit Hilfe der gefundenen Dokumente gelingt, desto höher ist die Relevanz für den Nutzer. Dabei ist es allerdings fast nicht möglich eine Suchabfrage zu formulieren, welche das Informationsbedürfnis exakt repräsentiert. Die ob- jektive Relevanz stellt die Stärke der Verknüpfung zwischen Abfrage und Dokument dar. Sie kann beispielsweise von Experten eines Fachgebietes bestimmt werden. Eine Information ist objektiv relevant, wenn sie tatsächlich zur Schließung einer Wissenslücke beiträgt. Die gesch ä tzte Rele- vanz wird von Suchmaschinen genutzt, um die gefundenen Ergebnisse einer Abfrage zu sortieren. ÄhnlichderobjektivenRelevanz,stelltsieeineBeziehungzwischenDokumentundSuchabfrage dar und wird mit verschiedenen Algorithmen durch das Suchsystem berechnet (Hartmann et al., 2000, S.35).

Die Suchmaschinen der Zukunft müssen daher lernen, sich an Bedürfnissen ihrer Nutzer zu ori- entieren und so die subjektive Relevanz in das Zentrum der Suche zu rücken. Das sogenannte ”Stewardship-Modell” soll umgesetzt werden. Dieses Modell besagt, dass die Suchmaschine nicht nur die offen geäußerten Bedürfnisse des Anfragenstellers bearbeiten soll, sondern auch die impli- ziten, versteckten Wünsche. Anstelle einer riesigen Menge von Informationen, sollen bedarfsge- rechte Portionen geliefert werden. Dies kann sowohl der Steward als auch die Suchmaschine nur dadurch erreichen, indem sie sich im Vorfeld Informationen über den Nutzer einholt. Menschen

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Relevanz von Dokumenten (Hartmann et al., 2000)

zeigen unterschiedliche Vorgehensweisen bei der Informationssuche. Beispielsweise kumulieren manche Personen Informationen, indem sie immer mehr der selben Art suchen. Andere bevorzu- gen es zu differenzieren, was bedeutet, dass sie nach Abweichungen und Alternativen suchen. Es ist die Aufgabe einer guten Maschine, Neigungen wie diese zu analysieren und die Suchergebnisse mit den gewonnenen Erkenntnissen zu verfeinern (Eberspächer & Holtel, 2006, S.3ff).

2.4 Information Retrieval

Obwohl die Idee des Information Retrieval relativ alt ist, schon 1975 wurden erste Versuche in Richtung der automatischen Indexierung unternommen, nahm dessen Bedeutung jedoch erst mit dem Wachstum des World Wide Web und dem Bedarf nach ausgereiften Suchmaschinen zu (Hotho, Nürnberger & Paaß, 2005, S.23ff). Das klassische Information Retrieval findet Doku- mente in Datenbanken aufgrund von Stichwörtern, die als Metadaten zu den jedem Dokument gespeichert wurden, wieder. Dieses, an das Karteikartensystem in Bibliotheken angelehnte Vor- gehen sollte es später auch ermöglichen, Dokumente im Internet zu finden. Die Möglichkeit, die Stichwortvergabe den Web-Autoren zu überlassen, erwies sich allerdings als unzuverlässig und nicht valide. Dies ist der Grund weshalb sich heutige Suchmaschinen auf automatische Indexie- rung stützen (Brooks, 2003, S. 1).

Information Retrieval erschließt Informationen, indem es Dokumente findet, welche Antworten auf gestellte Fragen beinhalten. Somit gewährleistet es missverständlicher Weise nicht das Wie- derfinden von Informationen. Es findet nur Dokumente, von denen angenommen werden kann, dass sie die gewünschten Informationen enthalten (Haruechaiyasak, 2007, S.15). Diese werden in der Regel in Form einer Liste dargestellt, aus welcher der Nutzer dann selbstständig für ihn interessante Dokumente auswählen kann. Genau genommen handelt es sich also um ein ”docu- ment retrieval”(Hotho et al., 2005, S.23ff). Das Information Retrieval ist daher nicht unmittelbar geeignet, gezielte Suchanfragen in unstrukturierten Datenbeständen, wie dem Internet, einfach zu beantworten, da keine präzisen Informationen über die Internetdokumente vorliegen. Somit wird es auch dem Anspruch einer strukturierten und effizienten Informationserschließung nicht gerecht.

Besonders im Hinblick auf die, durch das Web 2.0 geschaffene Menge an Informationen, sind die Möglichkeiten des Information Retrieval enorm begrenzt (Mehler & Wolff, 2005, S.1ff).

Um dennoch die Güte von Information-Retrival-Systemen zu messen, können objektive Maße wie Precision und Recall genutzt werden. Dabei wird die Precision, welche die Genauigkeit einer Suche angibt, durch das Verhältnis aller relevanten Dokumente zur Anzahl der von einer Such- maschine ausgegebenen Ergebnisse bestimmt. Dies entsteht, da Suchmaschinen derzeitig noch nicht in der Lage sind, die Anfrage des Nutzers genau zu verarbeiten, da aufgrund der fehlen- den Struktur der Daten eine exakt passende Antwort nicht gefunden werden kann. Deshalb gibt die Suchmaschine zusätzliche Treffer mit einer geringeren Passgenauigkeit aus. Einen anderen Aspekt bewertet der Recall. Dieser ist das Verhältnis der gefundenen und bedeutenden Dokumen- te zur Gesamtheit aller Dokumente, die für die Suchanfrage ebenfalls relevant gewesen wären, aber nicht gefunden wurden. Der Recall bestimmt somit die Vollständigkeit der erzielten Sucher- gebnisse (Lewandowski & Höchstötter, 2007, S.3).

Seit seinen Anfängen hat das Information Retrieval nur wenige methodische Innovationen her- vorgebracht. Diese erlauben mittlerweile allerdings eine Suche nach jeder im Text vorkommender Wortform. Eine Recherche nach dem Wort “Haus” kann daher auch Dokumente finden welche nur die Mehrzahl “Häuser” beinhalten. Auch kann eine phonetische Recherche unterstützt wer- den. Hier liefert das Suchsystem auch gleichlautende und änhlich klingende Wörter. Dies kann den Suchenden besonders dann behilflich sein, wenn er sich über die exakte Schreibweise des Suchbegriffs unsicher ist. Weiterhin kann eine mehrsprachige Suche ermöglicht werden. Auf die- se Weise können Schlagwörter und Maßeinheiten sprachunabhängig gefunden werden (Studer, Schnurr & Nierlich, 2001, S. 5).

3 Suchen

3.1 Suchmaschinenarten

3.1.1 Suche in lokalen Datenbanken

Das Konzept des Information Retrieval wurde ursprünglich für die Suche in strukturierten Da- tenbeständen, wie beispielsweise in lokalen Datenbanken, entwickelt. Die Ergebnisqualität einer Suchanfrage ist daher als besonders hoch einzuschätzen. Jeder Eintrag einer Datenbank hat einen eindeutigen Identifikator, welcher Dupletten in der Ergebnisliste vermeidet. Alle Einträge, auch von großen Datenbanken können problemlos durchsucht werden. Somit ist sichergestellt, dass die Ergebnisliste vollständig ist und keine Datenbankeinträge vernachlässigt wurden.

3.1.2 Volltextsuchmaschinen

Wie bereits zu Beginn der Arbeit veranschaulicht wurde, beinhaltet das Internet große Mengen an Dokumenten und Daten, sodass die manuelle Erfassung der Inhalte unmöglich ist. Erst eine Abfrage in einer Suchmaschine ermöglicht den gezielten Zugriff auf benötigte Informationen. Eine Volltextsuchmaschine ist ein vollautomatisierter Suchdienst, der nach jedem Wort im Text ihrer indexierten Dokumente suchen kann (Babiak, 1997, S.55ff). Bei einer Suche gleicht der Computer die Übereinstimmungen der Anfrage, mit den in einzelnen Dokumenten vorkommenden Termen ab. Anschließend werden die Ergebnisse mittels eines Algorithmus sortiert (Beall, 2008, S. 438). Typisch für eine solche Suchmaschinen-Oberfläche ist ein zentral platziertes Feld zur Suchbegriffeingabe. Daneben wird zumeist auf erweiterte Suchoptionen, wie beispielsweise die Suche nach bestimmten Dateiformaten oder andere eingrenzende Operatoren, verwiesen. Somit können spezifischere Anfragen schneller und besser beantwortet werden (Bischopinck & Ceyp, 2009, S. 22). Die konkrete Funktionsweise dieser Maschinen wird im Kapitel 3.2 näher erklärt.

3.1.3 Metasuchmaschinen

Auf den ersten Blick scheinen die Ergebnisse der Metasuchdienste denen der Volltextsuchmaschi- nen sehr ähnlich. In Wirklichkeit ist der Mechanismus aber ein komplett anderer. Metasuchma- schinen verfügen über keinen eigenen Index, sondern nutzen parasitenartig die Angebote anderer Suchdienste und kummulieren deren Ergebnisse, um ihre eigenen Suchanfragen zu beantworten. Dazu werden die in der Benutzerschnittstelle eingefügten Daten an eine Reihe anderer Such- oder Katalogdienste weitergeleitet und in das jeweils geforderte Format übersetzt. Nun wartet die Me- tasuchmaschine auf die entsprechenden Antworten und sammelt die ankommenden Ranglisten. Diese werden schließlich miteinander kombiniert und dem Benutzer präsentiert (Hartmann et al., 2000, S. 74ff).

[...]

Ende der Leseprobe aus 53 Seiten

Details

Titel
Die Geschichte vom Suchen und Finden in einer digitalen Welt
Untertitel
Ein Überblick und Vergleich von Konzepten zur Suche in und Informationsaufbereitung von strukturierten und unstrukturierten Datenbeständen
Hochschule
Technische Universität Dresden
Note
1.3
Autor
Jahr
2010
Seiten
53
Katalognummer
V179440
ISBN (eBook)
9783656018360
ISBN (Buch)
9783656019145
Dateigröße
20211 KB
Sprache
Deutsch
Schlagworte
geschichte, suchen, finden, welt, überblick, vergleich, konzepten, suche, informationsaufbereitung, datenbeständen
Arbeit zitieren
Sara Haupt (Autor), 2010, Die Geschichte vom Suchen und Finden in einer digitalen Welt, München, GRIN Verlag, https://www.grin.com/document/179440

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Die Geschichte vom Suchen und Finden in einer digitalen Welt



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden