Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web. Ein Experiment


Magisterarbeit, 2000

71 Seiten, Note: 1,0


Leseprobe


Inhalt

0 Vorbemerkungen

1 Suchmaschinen und Informationsüberlastung im Web
1.1 Das Web als strukturell und inhaltlich komplexer Informationsraum
1.1.1 Dimensionen der Online-Forschung
1.1.2 Das Web als Informationsraum
1.1.3 Inhaltliche Komplexität im Web
1.2 Meta-Medienanwendungen
1.2.1 Begriffsdefinition und Aufgaben von Meta-Medienanwendungen
1.2.2 Typen von Meta-Medienanwendungen
1.2.3 Komponenten von Suchmaschinen
1.2.4 Herausforderungen und Lösungsstrategien in der Entwicklung von Suchmaschinen

2 Web-Nutzung als dynamischer Selektions- und Entscheidungsprozeß
2.1 Navigation per Hyperlink und Meta-Medienanwendung
2.2 Hunting, Grazing, Browsing: Drei Typen der Web-Suche
2.3 Selektion im Web als Entscheidungssequenz
2.4 Rahmenmodell der Suchmaschinen-Interaktion von Shneiderman
2.5 Vorschlag eines dynamischen Modells der Web-Informationssuche mit Suchmaschinen
2.6 Erforderliche Eigenschaften der Nutzer in den Interaktionsphasen
2.7 Sprache als Interaktionsproblem

3 Forschungsleitende Annahmen

4 Untersuchungsdesign
4.1 Logdateien als Erhebungswerkzeug in Web-Experimenten
4.1.1 Verdeckte Beobachtung mit Logdateien
4.1.2 Störfaktoren in Web-Experimenten
4.2 Auswahl und Hintergrund des verwendeten Suchdienstes
4.2.1 Eine Suchmaschine, nicht viele
4.2.2 Gründe für Altavista.de
4.2.3 Geschichte und Marktposition von Altavista
4.3 Konzeption der Recherchefragen und Fragebögen
4.3.1 Auswahl der Recherche-Fragen
4.3.2 Fragebogen zu Demographie, Web- und Suchmaschinennutzung
4.3.3 Fragebogen zur Beurteilung der vorangegangenen Recherche
4.3.4 Multiple-Choice-Test zum Suchmaschinenwissen
4.4 Ablauf des Experiments
4.4.1 Vorversuche
4.4.2 Rekrutierung der Versuchspersonen
4.4.3 Vorbereitung des Experiments
4.4.4 Durchführung des Experiments
4.4.5 Nachbereitung des Experiments
4.4.6 Störung während des Experiments

5 Ergebnisse
5.1 Charakterisierung der Versuchspersonen-Gruppen
5.1.1 Demographische Daten im Vergleich
5.1.2 Web-Erfahrung im Vergleich
5.1.3 Suchmaschinen-Nutzung im Vergleich
5.1.4 Suchmaschinen-Wissen im Vergleich
5.2 Beurteilung des Rechercheerfolges anhand abgelegter Lesezeichen
5.2.1 Vorgehen bei der Bewertung der Lesezeichen
5.2.2 Ergebnisse für Aufgabe eins
5.2.3 Ergebnisse für Aufgabe zwei
5.2.4 Erfolgreiche Spitzengruppe identifiziert
5.2.5 Nutzer und ihr Rechercheerfolg
5.3 Kommentare der Versuchspersonen zu den Aufgaben
5.3.1 Kategoriensystem der Kommentare
5.3.2 Zusammenfassung der sortierten Kommentare
5.4 Bewertungen der Aufgaben durch die Versuchspersonen
5.4.1 Bewertungen zu Aufgabe eins
5.4.2 Bewertungen zu Aufgabe zwei
5.4.3 Zusammenfassung der Bewertungen
5.5 Nutzereingaben in der Formulierungs- und Verfeinerungsphase
5.5.1 Kenndaten der Suchphrasen
5.5.2 Wortwahl bei den Suchbegriffen
5.5.3 Rechtschreibung der Suchbegriffe
5.5.4 Nutzung der Suchoptionen
5.5.5 Anwendung der Suchsyntax
5.5.6 Abwandlung von Suchphrasen
5.5.7 Nutzung der Ergebnislisten
5.5.8 Merkmale erfahrener und unerfahrener Nutzer in den Formulierungs- und Verfeinerungsphasen
5.6 Suchmuster
5.6.1 Logdateien und Suchmuster
5.6.2 Kategorisierung der Aktionen in Suchmustern
5.6.3 Lineare Visualisierung von Suchmustern
5.6.4 Visuelle Identifizierung globaler, charakteristischer Suchmuster
5.6.5 Visueller Vergleich gruppenspezifischer Suchmuster
5.6.6 Automatische Auszählung von Aktionsabfolgen
5.6.7 Auszählung globaler, charakteristischer Suchmuster
5.6.8 Auszählung charakteristischer Suchmuster nach Aufgaben
5.6.9 Auszählung charakteristischer Suchmuster nach Versuchspersonen-Gruppe
5.6.10 Auszählung charakteristischer Suchmuster bei den Top5
5.6.11 Die Suchmuster erfahrener, unerfahrener und erfolgreicher Versuchspersonen
5.6.12 Vorschläge für erweiterte Suchmuster-Auswertungen

6 Vorschläge und Ausblick

7 Anhang
7.1 Literatur
7.2 Beispiel-Websites
7.3 Glossar
7.4 Versuchsanweisungen und Fragebögen
7.5 Visualisierte Suchmuster
7.6 Ausgezählte Suchmuster

0 Vorbemerkungen

- Das Thema der Arbeit bringt es mit sich, daß einige der Zitate und Bei­spiele direkt auf Dokumente im World Wide Web verweisen. Daher nenne ich bei Bedarf Gliederungs­punkte oder charakteristische Überschriften des Web-Dokumen­tes, da Seitenangaben dort ver­ständlicherweise fehlen. Der voll­ständige URL für diese Texte steht bei abgeschlossenen Online-Arti- keln im Literaturverzeichnis, bei illustrativen Beispielen direkt in Fußnoten und in einer alphabeti­schen Liste der Beispiel-Websites.

Es ist anzunehmen, daß einige Links durch die Dynamik des Netzes bald nicht mehr gültig sein werden (Stand: 24.7.2000).

- Es liegt in der Natur des Gegenstan­des, daß sich IT-Fachsprache an einigen Stellen der Arbeit nicht ver­meiden läßt. Zwar führe ich Begriffe meist auch im Haupttext ein; soll­ten trotzdem Fragen offen bleiben, besteht eine gute Chance, daß sie im Glossar beantwortet werden, das der Leser im Anhang der Arbeit findet.
- Ich verwende der Einfachheit hal­ber die männliche Form einiger Begriffe, wie z. B.„Nutzer" oder „Anwender". Weibliche Nutzerin­nen oder Anwenderinnen sind mit eingeschlossen, schließlich stellen sie momentan ca. 26% der deut­schen Nutzerschaft.[1]
- Mein Dank geht an Henning Emm- rich, der nach meinen Wünschen ein Filter-Skript programmierte - ohne es wäre die Proxy-Logfile­Untersuchung nicht in diesem Umfang möglich gewesen.
- Ich bedanke mich ebenfalls bei Ste­phan Noller vom Lehrstuhl zwei der psychologischen Fakultät der Uni­versität Köln: Er erlaubte mir, sein Web-basiertes Logfile-Musterana- lyse-Programm zu verwenden. Es wurde dort im Rahmen des von der Deutschen Forschungsgemein­schaft eingerichteten Schwer­punktprogrammes „Lesesozialisa­tion in der Mediengesellschaft: Vergleich von Verarbeitungsstrate­gien von linearen und Hyper-Tex­ten" entwickelt.

1 Suchmaschinen und Informationsüber­lastung im Web

Web-Nutzung ist häufig auch Such- maschinen-Nutzung. Das legen die Er­kenntnisse aus der W3B-Studie von Fitt- kau und Maaß nahe. 73,5% aller Befragten in der zehntenWelle[2] antwor­teten auf die Frage: „Wie machen Sie WWW-Adressen bzw. -Seiten ausfindig, die Sie vorher noch nicht kannten? (Mehrfachnennungen möglich)“ mit der Antwort „Ich suche gezielt danach“, knapp drei Prozentpunkte weniger er­hielt die Antwort „durch Suchmaschinen / Navigationshilfen / Webkataloge“.

Suchmaschinen liegen auf Platz zwei im Ranking nach täglichen Nutzungsmi­nuten, hinter der Kategorie „News/Infor­mationen/Unterhaltung“. Das ergab die Auswertung von MediaMetrix für den Mai 2000[3]. Diese Ergebnisse zeigen, daß Meta-Medienanwendungen in derWeb- nutzung stark etabliert sind. Gezieltes Suchen ist die häufigste Aktivität, das Mittel der Wahl dazu sind Suchdienste.

Ein interessanter Kontrast ergibt sich, wenn man das mit Abstand am größten wahrgenommene Problem der Befrag­ten dagegenstellt: Auf die Frage: „Was sind für sie persönlich die größten Schwierigkeiten, wenn sie das World Wide Web bzw. Internet nutzen?“ nann­ten in der zehntenWelle der W 3B-Befra- gung 56,6% den Grund „Daß die Infor­mationsmenge im WWW zu groß ist, um schnell das Gesuchte zu finden“. Da­bei waren sich Internet-Neulinge (dort definiert über eine Nutzungsdauer von unter zwei Jahren) und Internet-Erfahre­ne (Nutzungsdauer: zwei Jahre und mehr) einig, ihre Bewertungen unter­scheiden sich nur in wenigen Zehntel­prozentpunkten. (Fittkau, Maaß 2000a, „Was sind für Sie persönlich die größten Schwierigkeiten, wenn Sie das World Wide Web bzw. Internet nutzen?“). Viele Webnutzer setzen also Suchdienste ein, um gezielt zu suchen - gleichzeitig fühlt sich die Mehrheit von der Informations­menge des Web überwältigt.

Der Wahrnehmung, das Web sei komplex und unvorstellbar umfangreich, kann niemand widersprechen: Angebo- te und Darstellungsformen differenzie­ren sich weiter aus, während das quanti­tative Wachstum sich beschleunigt (vgl. Lawrence, Giles 1999, 107 und Cyveil- lance 2000, „Internet Exceeds 2 Billion Pages“).

Damit wird für den Nutzer die Wahl immer mehr zur Qual, möchte er ausge­tretene Online-Pfade zu bekannten und bewährten „Content-Providern“ verlas­sen, um von der lockenden Angebots­Vielfalt zu profitieren. Suchdienste sind angetreten, diese Wahl zu unterstützen - sie machen das Unsichtbare sichtbar und bieten Anschlußoptionen, wo der Über­blick fehlt. Ohne eine automatische Vor­sortierung der Interaktions-Möglichkei­ten ist die vielseitige und zielgerichtete Selektion von Netzquellen nicht mehr denkbar.

Der Preis der Unterstützung: Die Mit­telsmänner der Webnutzung bringen ihre eigenen Regeln und blinden Flecken mit. Wer sich nicht auf ihre Sprache ein­läßt und sich nicht penibel genau auszu­drücken weiß, wird mit ungenauen Vor­schlägen überschwemmt. Jede Frage nach Ordnung verhallt dann ungehört in einer Black Box aus Firmengeheimnissen und Statistik-Arkana. Trotzdem gehö­ren Suchdienste zu den Angeboten im Netz, die am meisten frequentiert wer­den (für Deutschland siehe Fittkau, Maaß 1999; 33).

Aus dieser Spannung ergibt sich die grundlegende Frage, der diese Arbeit nachgeht: Wie gehen Web-Sucher vor? Wie interagieren die Menschen mit den Meta-Medienanwendungen imWeb?

1.1 Das Web als strukturell und inhaltlich komplexer Informationsraum

1.1.1 Dimensionen der Online­Forschung

Online-Forschung, die sich auf das WWW konzentriert, kann verschiedene Perspektiven einnehmen, analog zum Aufbau des Gegenstandes.

Die technische Infrastruktur bildet das Fundament für alle Internet-Medien­anwendungen. Ihre Architektur ist ver­teilt und heterogen. Grundlegende Da­tenübertragungsprotokolle und Dokumentenformate sind standardisiert und global etabliert. Der Rahmen für mögliche Dienste ist damit vorgegeben; viele einzelne Anbieter machen sich das Fundament zunutze. Unter diesem Blick­winkel besteht das Web aus Netzwerk- Hard- und - Software, Netzwerk-Proto­kollen und standardisierten Austausch­formaten. Räumlich getrennte Maschi­nen transferieren strukturierte Daten.

Das WWW als Informationsraum wird auf einer anderen Ebene konstitu­iert: durch die Struktur von Relationen innerhalb von Dokumenten und Doku- mentenclustern. Hyperlinks erschließen den Raum: Ihre Anordnung prägt seinen Charakter. Variabel breite und tiefe, schwache und starke Hierarchien, viel­fältige und sparsame Link-Geflechte strukturieren die Grenzen, machen den Zugriff auf andere Knoten im Netzwerk wahrscheinlicher oder weniger wahr­scheinlich. Dabei wandelt sich der Raum in unterschiedlichen, überlagernden In­tervallen: Manche Relationen bleiben über Jahre stabil, manche ändern sich in bekannten Abständen, manche entste­hen angesichts eines bestimmten Ereig­nisses für den Bruchteil einer Sekunde und sind daraufhin verschwunden.

Die technische Bereitstellung und Be­schaffenheit der Relationen bestimmt die Modalität der Vernetzung: Ohne Hard­ware-Netz kein Protokoll, ohne Protokoll keine Dokumenten-Übertragung, ohne Dokumenten-Übertragung kein kom­plexes Netz aus Links. Was ein Link ist und wie er funktioniert, ist technisch festgelegt. Unter diesen Voraussetzungen bildet sich ein neues, komplexes Geflecht von Optionen, die gleichzeitig zur Verfü­gung stehen - es ist nicht zeitlich oder räumlich, sondern ein Netz in der Er­wartung potentieller Nutzung.

Die Nutzer Web-basierter Dienste realisieren diese Optionen in ihrer eigen­tümlichen Weise. Sie wählen Alternati­ven innerhalb eines Dokumentes und über Dokumentengrenzen hinweg aus, weisen den Inhalten Bedeutungen zu und spekulieren, welche Inhalte sich hin­ter Dargestelltem verbergen. Diese Selek­tionsleistungen geschehen unter den in­dividuellen Vorbedingungen der Nutzer: ihrem Wissen, ihren Erfahrungen, ihren Gewohnheiten, ihrer Motivation und ih­rer Zeit.

Der Frage, was die Menschen mit den Netz-Anwendungen machen, muß mei­ner Meinung nach vor dem Hintergrund nachgegangen werden, daß Technik, In­halte und ihre Strukturierung den Rah­men für die Nutzung bilden. Daher möchte ich zunächst einen genaueren Blick auf verschiedene Aspekte der Kom­plexität des Web als Informationsraum werfen.

1.1.2 Das Web als Informationsraum

Das charakteristische Merkmal des World Wide Web ist die Möglichkeit, darin per Hyperlink von einem Seiten­Element auf ein anderes Dokument zu verweisen. Diese Funktion ist in der Hy­pertext Markup Language (HTML) an­gelegt - der derzeitigen Grundlage des überwiegenden Anteils aller Web-Doku­mente.

Was in kleinen oder hoch strukturier­ten Dokumentensammlungen noch nachvollziehbar gestaltet werden kann, bringt Probleme mit sich, wenn die An­zahl von Dokumenten und ihre Relatio­nen auf hohem Niveau rapide steigen: Im Juni 2000 wurden Größenordnungen von ca. 2,1 Mrd. Dokumenten im inter­nationalen Web erreicht (siehe Grafik „Growth of the Internet“ in Cyveillance 2000). Bei einem Mittel von 5,6 externen Links pro Dokument ergibt sich eine Ge­samtzahl von 11,2 Mrd. Links im gesam­ten Web. Steigt die Anzahl an Web-Do­kumenten mit der prognostizierten Rate von 7 Mio. Dokumenten pro Tag, ist zu erwarten, daß sich die Gesamtanzahl im Januar 2001 verdoppelt haben wird (ebd.).

Detaillierte Analysen des indexier- baren Web ergaben, daß die Wahrschein­lichkeit, durch einfaches Browsen zu ei­ner bestimmten Zielseite zu gelangen, je nach Ausgangspunkt sehr unterschied­lich ist. In einer Momentaufnahme per Suchmaschinen-Crawler ließen sich 1999 vier Regionen im WWW identifizieren (prozentualer Anteil an der Stichproben­Gesamtanzahl der Dokumente jeweils in Klammern): Erstens ein Kern miteinan­der eng per Hyperlink verknüpfter Sei­ten (ca. 30%), zweitens eine Gruppe von Seiten, die zu diesem Kern hin führte, je­doch nicht von ihm aus erreichbar war (ca. 24%), drittens eine Gruppe, die von Kernseiten verlinkt war, jedoch keinen Weg zurück bot (ca. 24%), und viertens einige lange Hyperlink-Ketten, die gar nicht mit dem Kern verbunden waren (ca. 22%) (Basisdaten siehe Broder, Ku­mar, Maghoul u.a. 2000, „Experimental Data“).

Solche quantitativen Studien mögen fehlerbehaftete Schätzungen sein, da sie auf Daten basieren, die technisch bedingt weder komplett noch aktuell sein kön­nen. Sie beruhen nämlich auf automa­tisch gezogenen Stichproben, die durch Suchmaschinen-ähnliche Crawling­Techniken gewonnen werden (siehe Ka­pitel 1.2.3). Einen grundlegenden Hin­weis bieten sie jedoch: Web-Nutzung sieht sich überkomplexen Dokumenten- clustern gegenüber. Teile des Netzes sind Nutzern unzugänglich oder mit vertret­barem Zeitaufwand nicht aufzufinden, solange Browsing-Strategien entlang be­stehender Link-Strukturen das Mittel zur Navigation sind (vgl. Abb. 9 in Bro­der, Kumar, Maghoul u.a. 2000).

1.1.3 Inhaltliche Komplexität im Web

Während die globale Verlinkungsstruk­tur sicher das augenfälligste Merkmal des WWW darstellt, besitzt es noch wei­tere Komplexitäts-Ebenen: Die Netz­Nutzer sehen sich einem inhaltlich viel­gestaltigen, dynamischen Komplex ge­genüber.

So haben sich in der kurzen Evoluti­onsgeschichte des WWW weiche Genres herausgebildet. Es lassen sich zum Bei­spiel News-Sites, Chat-Sites, Online- Email-Sites, Business-to-Business-, Busi- ness-to-Customer- und Customer-to- Customer-eCommerce-Websites und Auktions-Sites, Firmenpräsentationen, Wissenschafts-Sites, private Homepages sowie die Metadienste Kataloge und Suchmaschinen ausmachen. An jedes dieser Genres - die Liste ist nicht er­schöpfend - knüpfen sich Erwartungen der Nutzer, die mit Hilfe der konkreten Websites erfüllt werden sollen. Der Grad der Konventionalisierung ist unter­schiedlich hoch: Eine private Homepage kann experimenteller daherkommen als eine Business-to-Business eCommerce- Shopping-Mall, die die Erwartungen ih­rer Nutzer mit Blick auf die Effizienz der Interaktionen genauer im Blick haben muß. Mischformen bilden sogenannte Portale, die unter anderem News-, Email-, Shopping- und Metadienste bündeln, um die Nutzer kontinuierlicher und gezielter zum Ziel von Online-Wer- bung machen zu können.

Neben den Genres variieren auch Themen und ihre Darstellungsformen (z. B. aktuelle Nachrichten, Meinungs­beiträge, Dokumentation technischer Spezifikationen, Chatbeiträge), die Dis­kursformen (one-to-one per Web-Email, one-to-many und many-to-many per Website, Messageboard und Chat), die Sprache und der Grad der Multimodali­tät.

Auch ist das Web recht arm an Nut- zer-Interface-Konventionen, trotz Kon­kurrenzkämpfen in einigen Genres, die zu Konsonanz führen - Designs stark frequentierter und erfolgreicher Web­sites werden häufig binnen kurzer Zeit kopiert.

Schließlich darf nicht vergessen wer­den, daß sich sämtliche genannten Ebe­nen im Fluß befinden. Die Halbwertszeit jeder Analyse ist angesichts des Zuwach­ses an Netzangeboten gering.

Zum Orientierungs-Problem für die Nutzer wird die universelle Vielgestaltig­keit dadurch, daß sie nicht an Bahnen ge­bunden sind, die Diensteanbieter bereit­stellen: Die nächste Website ist nur einen Link, einen Eintrag in der persönlichen Lesezeichen-Liste oder auch eine Emp­fehlung des persönlichen Informations­Agenten entfernt[4] - das Web wird im Querschnitt genutzt, die Websites sind jedoch bestenfalls auf innere Konsistenz hin konzipiert. Da der Grad der Struktu- riertheit der Dokumente und der Aus­zeichnung funktionaler Einheiten in Websites variiert, stellt dies ein funda­mentales Interaktionsproblem dar.

Erschwert wird die Orientierung da­durch, daß das Netz sich selbst gegen­über semantisch intransparent ist. Zwar bildeten sich schon früh selbstreflexive Strukturen heraus, und zwar in Form von Linklisten, Katalogen und Such­maschinen - erste Web-Suchdienste gab es schon 1993 (siehe Kapitel 4.2.3). Der Zugriff auf den Sinn von Inhalten ist da­mit jedoch nur entweder unvollständig und unflexibel durch eine feste Begriffs­Taxonomie gegeben wie bei Katalogen oder implizit-unscharf durch statistische Schätzungen auf der Wortebene durch Suchmaschinen.

Visionen des World Wide Web-Kon­sortiums, ein übergreifendes, semanti­sches Web zu erschaffen (vgl. den Beitrag „Semantic Web Road map“ von Berners- Lee 1998), haben sich bis zum Juli 2000 noch nicht in umfassenden Implementa­tion niedergeschlagen. Strukturierte Me­tadaten auf Website- oder sogar Doku­menten- und Seitenelementebene wurden Mitte 1999 nur für einen ver­schwindend kleinen Teil des Web ange­boten (Nur auf 0,3% der untersuchten Websites wurden Metadaten nach dem Dublin Core-Standard eingesetzt. La­wrence, Giles 1999, 108). Damit ist das Netz weiterhin eingeschränkt, was seine Fähigkeit anbelangt, Nutzer bei ihren Se­lektionsvorgängen inhaltsbezogen und Website-übergreifend zu unterstützen.

1.2 Meta-Medien­anwendungen

1.2.1 Begriffsdefinition und Aufga­ben von Meta-Medienanwen­dungen

Angesichts der großen Vielzahl und der Vielgestaltigkeit von Netzquellen spielen Wegweiser eine große Rolle, die die Komplexität des Netzes für seine Nutzer handhabbar zu machen versuchen. Im folgenden soll daher der Begriff „Meta­Medienanwendung“ definiert und dar­aufhin am Beispiel von Suchmaschinen illustriert werden. Die Entscheidung, hier den vermeintlich naheliegenderen Begriff „Meta-Medium“ für Suchdienste zu vermeiden, liegt in verschiedenen Un­terscheidungen begründet.

Erstens wird vielfach auf das Internet insgesamt als Medium Bezug genom­men. Angesichts der im vorigen Kapitel beschriebenen Variationsbreite von Diensten und Anwendungen scheint mir diese Vereinheitlichung fehl am Platze. Sinnvoller läßt sich mit den medialen Phänomenen im Netz umgehen, wenn die konkrete Anwendung genannt wird, die dem jeweils zu Beschreibenden zu­grunde liegt. Damit sind auch nicht die Basisdienste und Subnetze des Internet wie World Wide Web, FTP oder Usenet gemeint - deren Grenzen verschwimmen stetig durch Integration ins Web. Viel­mehr rückt der Begriff „Anwendung“ die Funktion in denVordergrund, welche ein Netz-Dienst für seine Nutzer erfüllt. Wenn schon berechtigte Zweifel beste­hen, das Internet vereinfachend als Me­dium zu bezeichnen, ist der Begriff des Meta-Mediums noch irreführender, da er einen übergreifenden Charakter im­pliziert, der faktisch nicht existiert.

Zweitens sind Suchdienste in immer mehr andere Angebote integriert: als Kern- oder Zusatzangebot in Portal­Websites oder als kleine Navigationshil­fe auf der Ebene von Websites. Daher ist der Begriff „Meta-Medienanwendung“ besser geeignet, kleinere Implementatio­nen miteinzubeziehen.

Drittens ist der Begriff Meta-Medi­um schon in anderen, jedoch verwand­ten Kontexten mit Bedeutung belegt. Rötzer nennt in seinem Artikel „Auf­merksamkeit und die Medien. Weitere Überlegungen zur primären Ressource der Informationsgesellschaft.“ die Auf­merksamkeit als Meta-Medium der Me­diennutzung (Rötzer 1996, erster Absatz) andere Autoren verweisen auf den inte­grierenden Charakter der digitalen Me­dien, indem sie den Computer als Meta­Medium bezeichnen.

Als Meta-Medienanwendung im Web verstehe ich Dienste, die über eine große Zahl von veränderlichen Dokumenten hinweg zielgerichtete Selektion ermögli­chen. Sie sind keine statischen Doku­mente, die auf andere statische Doku­mente verweisen, analog zu Karteikarten über Bücher in Bibliotheken, sondern dynamische Selektions-Strukturen für eine heterogene, unüberschaubare, dy­namische Datenbasis. Auch Metadienste zweiter Ordnung, also zum Beispiel Suchmaschinen für Suchmaschinen, fal­len unter diesen Begriff.

Meta-Medienanwendungen dienen der Verringerung von Komplexität, in­dem sie Navigations-Alternativen für ein Nutzer-spezifiziertes Gebiet ihrer ge­schätzten Relevanz nach in einer hand­habbaren Anzahl präsentieren. Damit strukturieren sie den Informationsraum ihrer Logik gemäß vor und präsentieren dem Nutzer einen Aus- und Querschnitt von Selektions-Optionen. Diese zeitwei­se Neustrukturierung macht die Realisie­rung einer Untermenge von Optionen durch den Nutzer wahrscheinlicher.

Meta-Medienanwendungen dienen auch der Verringerung von Ungewißheit, indem sie eine Antwort darauf geben, ob - und wenn ja - in welcher Anzahl Do­kumente im Web vorliegen, auf die ein bestimmtes Auswahlkriterium paßt. Da die Eigenlogik vieler Meta-Medienan­wendungen in einer „black box“ verbor­gen ist, ihre Beobachtungskriterien also nicht offenliegen, erhöhen sie parado­xerweise auch die Ungewißheit: Die Fra­ge, warum sie welche Anschlußmöglich­keiten bereitstellen, bleibt für Spekulationen offen. Die nicht-vermit- telte Eigenkomplexität hindert sie also letztlich daran, dem Nutzer Gewißheit zu geben. In Kapitel 1.2.3 werde ich einen Blick in die Mechanismen von Such­maschinen werfen.

1.2.2 Typen von Meta­Medienanwendungen

Auf der Basis der genannten Definition sind verschiedene Ausprägungen denk­bar. Aktuell lassen sich im Netz folgende Haupttypen ausmachen, die ich in der Reihenfolge ihrer Komplexität darstelle.

Die einfachste Form von Meta-Medi­enanwendung ist eine im World Wide Web veröffentlichte Liste an Hyperlinks, die unter einem bestimmten Kriterium von Hand sortiert ist. Je nachdem, wie spezifisch das Sortierungskriterium, wie umfangreich das Gebiet sowie der An­spruch auf Konsistenz, Vollständigkeit und Aktualität ist, kann eine solche Liste Hilfestellungen beim Auffinden unbe­kannter Websites bieten. Je stringenter und transparenter das Sortierungskrite­rium, und je häufiger die (manuelle) Ak­tualisierung, desto nützlicher die Liste.

In den Anfangstagen des World Wide Web ließ sich auf diese Weise der An­spruch auf Vollständigkeit wahren. Unter den Bedingungen, wie sie in Kapitel 1.1.2 geschildert sind, können diese Empfeh­lungslisten heute nur noch in aller Ausschnitthaftigkeit nützlich sein; kaum ein thematischer Bereich läßt sich noch in überschaubarer Weise so darstellen. Um Empfehlungen und persönliche Prä­ferenzen auszudrücken, kann eine Link­liste jedoch noch ihre Dienste leisten - wenn sie ihren eingeschränkten Fokus verdeutlicht.

Kataloge[5] sind hierarchisch geglie­derte, redaktionell ausgewählte, aktuali­sierte und beschriebene Verweise. Ver­glichen mit den reinen Linklisten repräsentieren sie einen Schritt hin zur Formalisierung der Sortierungskriterien. Jeder Universal-Katalog besitzt eine Be­griffs-Taxonomie, die mit dem Anspruch gepflegt und erweitert wird, alle denkba­ren Themen umfassen zu können und den Nutzern möglichst adäquate Hilfe­stellungen zu liefern. Dadurch, daß die Einordnung der Websites in die Hierar­chie vorwiegend von Hand geschieht, decken die Angebote zahlenmäßig nur einen geringen Umfang des Netzes ab und werden voraussichtlich hinter dem stürmischen Netzwachstum immer stär­ker zurückbleiben. Ein weiterer Kritik­punkt ist die Taxonomie: Das gesamte veröffentlichte Wissen stringent zu ord­nen ist ein Unterfangen, das m. E. schei­tern muß. Ein schönes, praktisches Bei­spiel zu den Problemen, die auftauchen, findet sich bei Winkler (1997; 189). Nichtsdestotrotz ist Yahoo das bekannte­ste und meistgenutzte Such-Angebot im deutschsprachigen Web (siehe Fittkau, Maaß 1999; 68).

Suchmaschinen zeichnen sich da­durch aus, daß sie das Web ohne direkte menschliche Intervention inventarisie­ren. Sie umgehen das Taxonomieprob­lem der Kataloge, indem sie nur Worte, aber keine vorkategorisierten Bedeutun­gen in einen Index einstellen. Dieser ver­zeichnet Zeichenfolgen und ihre Position auf Webpages und -sites. Mit einer Such­maske kann der Nutzer auf den Index zugreifen und so Stichwortsuchen durchführen. Gegenüber den Katalogen können Suchmaschinen größere Teile des WWW abdecken: Der im Mai Juli 2000 größte Index von Google umfaßte ca. 50% aller Webpages, andere Angebo­te lagen zum Teil deutlich darunter (siehe Sullivan 2000, Abb. „Millions of web pa­ges indexed“). Innerhalb der Gruppe der Suchmaschinen gibt es solche, die an­streben, das gesamte Web zu indexieren, solche, die nur Websites zu bestimmten Themen beachten, und solche, die sich auf eine einzelne Website beschränken. Die begriffliche Übersichtlichkeit leidet darunter, daß der Katalog Yahoo eine Suchmaschine einsetzt, um den einfa­chen Zugriff auf Kategorien und Ergeb­nisse innerhalb seiner tiefen Hierarchie zu ermöglichen. Anders herum komple­mentieren viele ursprüngliche Such­maschinen ihre Suchdienste, indem sie lizensierte Kataloge einbinden.

Meta-Suchmaschinen erhielten Auf­merksamkeit, als bekannt wurde, daß selbst die größten einzelnen Such­maschinen nur Teile des Web indexieren (vgl. Lawrence, Giles 1998; 100). Der Grundgedanke hinter Meta-Such­maschinen ist, verschiedene Basis-Such­maschinen unter einem einheitlichen In­terface zusammenzufassen und ihre Ausgaben zu integrieren - dadurch wird die relative Netzabdeckung erhöht. Es entstehen Suchmaschinen zweiter Ord­nung. Da Basis-Suchmaschinenindizes sich jedoch teilweise überlappen, gelingt es auch den umfassendsten Meta-Su­chern nicht, das gesamte indexierbare Web abzudecken. Prinzipielle Probleme bei der Integration unterschiedlicher Suchsyntaxen und Ergebnismengen ha­ben dazu geführt, daß Meta-Such­maschinen nicht erfolgreicher geworden sind als Suchmaschinen ersten Grades. Diese vier Haupttypen von Meta-Medi­enanwendungen im World Wide Web stehen den Nutzern zur Verfügung, da­neben viele Mischformen und Spezialan­gebote.

Eine genaue Beschreibung der Such- maschinen-Grundlagen schließt sich an, um die Rahmenbedingungen für den Nutzer klar herauszustellen.

1.2.3 Komponenten von Suchmaschinen

Suchmaschinen bestehen aus verschiede­nen Einzel-Komponenten, die unter dem Dach einer einheitlichen Nutzeroberflä­che ineinandergreifen. Zwar ist es für die Suchenden nicht nötig, die genauen De­tails der Implementation zu kennen. Ein grobes Verständnis der Eigenheiten ist jedoch nützlich: Unterschiede zwischen verschiedenen Suchdiensten zu verste­hen und die Suchstrategien darauf abzu­stimmen erhöht die Chancen auf Erfolg.

Im folgenden sollen die wesentlichen Bestandteile einer klassischen Such­maschine umrissen werden.[6] Die einzel­nen Bausteine sind hier nur angedeutet, denn sie variieren von Dienst zu Dienst. Dazu kommt, daß kaum ein Suchdienst­betreiber gewillt ist, seine Geschäftsge­heimnisse offenzulegen - er öffnete sonst Konkurrenten und Betrügern Tür und Tor, die sich dem Angebot gegenüber am Markt positionieren oder dessen Be­schaffenheit für ihre eigenen Werbe­zwecke ausnutzen wollen.

Der Index bildet den Kern jeder ei­genständigen Suchmaschine - dazu ge­hören in Deutschland neben Altavista unter anderem auch Infoseek, Fireball und Lycos. Dort werden die Worte aufge­nommener Seiten effizient abgelegt; nicht im Volltext, sondern in Tabellen zusammen mit ihrer Position, Promi­nenz und Häufigkeit auf der indexierten Webpage. Nur informationell selektive Worte gelangen in diesen Index, häufig verwendete Begriffe - zum Beispiel Prä­positionen und Konjunktionen - sind in Stopwort-Listen vermerkt und werden ignoriert.

Schon auf dieser grundlegenden Ebe­ne zeigt sich, wie die technische Realisie­rung der Indizes die spätere Nutzung be­stimmt: Sie enthalten in der Regel keine Bild-, Video- oder Tondaten oder auch nur strukturierte Verweise auf sie, son­dern Zeichenfolgen ohne jegliche se­mantische Repräsentation. Jeder Sucher kann nur auf diese strukturarmen Daten zugreifen - es sei denn, Suchmaschinen­betreiber fügen weitere Dimensionen hinzu (siehe Kapitel 1.2.4).

Die Indizes sind als Abbild des sich ständig wandelnden WWW nie komplett und nie vollständig aktuell - sie auf- und auszubauen sowie auf Veränderungen abzutesten ist die Aufgabe der sogenann­ten Crawler, Spider oder Robots. Das sind autonome Programme, die über Hyperlinks durch das Web navigieren und gefundene Seiten zum Index-Server übertragen, der sie daraufhin analysiert und ihre Bestandteile nach verschiede­nen Vorgaben in den Datenbestand inte­griert. Anti-Spam-Algorithmen versu­chen zum Beispiel an dieser Stelle, offensichtliche Täuschungsversuche der Inhalteanbieter zu blockieren.

Bei großen Suchdiensten suchen viele Crawler das Netz parallel ab; trotzdem können sie derzeit die Menge an fortlau­fend neu bereitgestellten Seiten nicht komplett erfassen. Auf diese Weise er­neuert sich der Index in Intervallen von mehreren Wochen[7] und neue Angebote finden ihrenWeg hinein.

Diese Suchmaschinen-Komponente ist auch dafür verantwortlich, daß der Nutzer einige Daten nicht im Index vor­findet: unter anderem Texte, die sich in Bildern verbergen, andere Dokumente als reine HTML-Seiten, Dokumente, die sich erst nach Formulareingaben öffnen, dynamische Dokumente aus Datenban­ken, Dokumente, die der Autor vom In- dexieren ausschließen wollte, Dokumen­te, die in einer tiefen Navigationshierarchie verborgen sind und Dokumente auf langsamen Servern. Die Auswahl der Crawler und damit die Zusammensetzung des zentralen Indexes ist also durch technische Hindernisse eingeschränkt und für den Nutzer voll­kommen intransparent. Neben dem in- dexierten Web gibt es einen großen Teil von Dokumenten, der für Suchmaschin­en unsichtbar ist, da ihre Crawler nicht auf sie zugreifen können (Lawrence, Gi­les 1999; 107). Um diese Datenbestände ebenfalls zugänglich zu machen, gibt es spezialisierte Suchdienste.

Den dritten Baustein bildet Retrieval- Software. Sie ermöglicht es den Nutzern, mit Suchoperatoren und Suchworten Suchphrasen zusammenzustellen, die die Suchmaschine verwendet, um Zielseiten in ihrem Index identifizieren zu können (zur Terminologie siehe das Glossar im Anhang, Kapitel 7.3 ). Diese Software stellt also eine Grammatik zur Verfü­gung, mit Hilfe derer die Suchenden ihr Informationsbedürfnis ausdrücken kön­nen. Dazu gehören neben einfachen booleschen Operatoren wie UND, ODER oder NICHT, Plus- und Minuszeichen auch fortgeschrittene Techniken der au­tomatischen Erkennung zusammenge­höriger Worte oder standardmäßige Ver­bindungsvorschriften (z. B. die Annahme, daß zwei hintereinander ein­gegebene Begriffe alternativ gemeint sei­en, wie in der Standardsuche von AltaVi­sta). Diese Such-Grammatiken variieren von Angebot zu Angebot in Konzept und Umsetzung, so daß Intensiv-Nutzer mehrerer Suchmaschinen dazu gezwun­gen sind, jeweils die Eigenheiten zu er­lernen.

Viertens verwendet jede klassische Suchmaschine einen Relevanz-Sor- tierungs-Algorithmus für die Ergebnisli­sten. Das ist eine statistische Software, die identifizierte Zielseiten aus dem In­dex nach verschiedenen Kriterien ge­wichtet und sie in eine Reihenfolge bringt. Was „Relevanz“ in diesem Zu­sammenhang genau bedeutet, ist schwer zu beurteilen, Suchmaschinen-Anbieter veröffentlichen in der Regel ihre Algo­rithmen nicht. Zu vermuten ist jedoch, daß im allgemeinen neben einfachen Worthäufigkeits-Auszählungen auch Ti­tel, Überschriften, Meta-Tags und das Text-Umfeld der Suchworte auf den Ziel­seiten Gewicht erhalten.

Dieser Teil der Suchmaschine ist ent­scheidend für die Nutzer, denn häufig er­halten sie auf ihre Anfragen eine große Zahl von Ergebnissen, die sie nicht er­schöpfend auswerten können. Sie greifen meist nur auf die ersten 10-20 Ergebnisse zurück (Jansen, Spink, Bateman u.a. 1998; 15), überfliegen diese und wählen daraus etwas Vielversprechendes aus.

Um diesen ersten Eindruck einer Ergeb­nismenge möglich zu machen, stellen Suchmaschinen in den Ergebnislisten Überschriften und knappe Auszüge der Zielseiten bereit.

Eine Nutzeroberfläche ermöglicht schließlich fünftens die Interaktion der Nutzer mit der Suchmaschine. Sie kön­nen Suchphrasen formulieren, Optionen auswählen und durch Ergebnislisten blättern. Erfahrene Nutzer können in ei­nem speziell auf sie zugeschnittenen Be­reich differenzierte Anfragen stellen und die vielschichtigen Angebote des Such­dienstes flexibel ausloten, während der breiten Masse an Suchern in der Stan­dardansicht nur eine Untermenge der Funktionen an die Hand gegeben wird.

1.2.4 Herausforderungen und

Lösungsstrategien in der Ent­wicklung von Suchmaschinen

Das rapide Wachstum des World Wide Web in Breite, Tiefe, Anwendungen und Nutzerschaft zwingt die Suchdienste zur ständigen Anpassung ihrer Angebote. In der folgenden knappen Darstellung wer­den verschiedene Entwicklungen deut­lich, die dazu beitragen sollen, daß Such­maschinen trotz der genannten Schwierigkeiten wertvolle Selektions-In­strumente bleiben. Kurze Innovations­Intervalle in diesem Markt können je­doch dazu führen, daß die aufgeführten Zahlen und Beispiele zum Zeitpunkt der Lektüre bereits überholt sind.

Den Diensten fällt es schwer, mit dem quantitativen Zuwachs des Netzes Schritt zu halten. Der Index-Anbieter Inktomi schätzte im Januar 2000 allein das index- ierbare Web auf eine Milliarde Seiten (Inktomi 2000) und nahm für sich in Anspruch, all diese Seiten analysiert zu haben, um die 500 Mio. nützlichsten daraus zur Verfügung stellen zu können. Eine frühere Studie kam zu einem gerin­geren Ergebnis (800 Mio. Dokumente im Februar 1999, Lawrence, Giles 1999; 107), während die aktuellste im Juli 2000 ver­fügbare von über 2,1 Mrd. ausgeht (vgl. Cyveillance 2000, „Internet Exceeds 2 Billion Pages“). Daß nicht einfach alle Dokumente in einem Index verfügbar sind, liegt am technischen Aufwand und Abwägungen wirtschaftlicher Art. Es fin­det derzeit ein Konkurrenzkampf zwi­schen den Anbietern statt: Nachdem in einer Studie veröffentlicht wurde, daß gängige Indizes mit dem rapiden Netz­wachstum nicht mithalten konnten (vgl. Lawrence, Giles 1998; 98), rüsteten die großen Betreiber kontinuierlich ihre In­dex-Kapazitäten auf. Dieser Trend hält derzeit an (siehe Sullivan 2000; Grafik: „Search Engine Sizes Over Time“).

Kaum ein großer Suchdienst be­schränkt sich zudem nur auf einen Index als Quelle. Nicht allein explizite Meta­Suchmaschinen greifen auf fremdes Ma­terial zurück - Suchmaschinen integrie­ren unter anderem redaktionell erstellte Kataloge[8].

Skalierbarkeit der Indizes ist für Suchmaschinenbetreiber ein zentrales Thema (vgl. Kirsch 1998, 5: „Living in a world of an infinite number of docu­ments“). Wann Nutzer davon ausgehen können, sicher alle indexierbaren Doku­mente mit einer Anfrage zu erfassen, ist noch nicht absehbar.

Neben verstärktem Crawlen in die Breite gibt es aber auch Spezialisierungsstrategien: Ein inhalt­lich kohärenter Index, der auf einem the­matischen Teilgebiet umfassend ist, kann thematisch auch zielgenauere und inhalt­lich relevantere Suchergebnisse bereit­stellen. Mischformen haben sich eben­falls etabliert: Meta-Suchmaschinen für spezialisierte Suchdienste versuchen, thematische Einzel-Indizes wieder unter einer Oberfläche zu integrieren.

Damit zusammenhängend verhindert die Dynamik der Webdaten eine Beob­achtung in Echtzeit. Die Indizes haben nicht nur blinde Flecken: Je mehr Doku­mente sie beobachten, desto größer wird auch das Aktualitätsproblem, denn Be­obachtungen finden überschneidend von mehreren Crawlern zu unterschied­lichen Zeiten und in unterschiedlichen Intervallen statt. Weder werden alle In­dexierungen zur gleichen Zeit vorge­nommen, noch sind zum Zeitpunkt des späteren Zugriffes darauf notwendiger­weise Inhalte und Verweise noch aktuell.

Änderungen im Web werden nicht sofort in den Index übernommen, son­dern mit einer Verzögerung von Tagen bis zu mehreren Wochen. Die Such­maschine ist also ständig veraltet, und zwar für jedes Dokument in einem ande­ren Maße. Links aus den Ergebnislisten heraus führen ins Leere, da die Ur­sprungs-Website aktuell nicht mehr an dem Ort zu finden ist, wo der Crawler sie vorfand - das Resultat wäre eine Fehler­seite. Ein anderes, nicht minder irritie­rendes Ergebnis der Asynchronität wäre, daß zwar der Verweis auf ein Dokument noch funktioniert, dessen Inhalt sich je­doch geändert hat, seitdem das Doku­ment indexiert wurde - auf der Zielseite gibt es unter Umständen keine Möglich­keit mehr, an den gewünschten Inhalt zu gelangen.

Dieser technischen Herausforderung begegnen die Betreiber derzeit mit kür­zeren Crawling-Intervallen. Angesichts dynamischer Webpages ist es jedoch ab­zusehen, daß solche Bestrebungen das Problem nur abschwächen, jedoch nicht lösen können. Jeder zentrale Ansatz ist hier m. E. langfristig zum Scheitern ver­urteilt. Mangelnder Index-Dynamik kann unter Umständen durch Dezentra­lisierung begegnet werden (vgl. den Vor­schlag von Kirsch 1998; 5).

Weiterhin tritt bei einer stetigen Ver­größerung des Web und geringer Fru­strationstoleranz der Nutzer auch das Problem stärker zu Tage, daß die rein quantitativ-statistische Sortierung der Ergebnislisten auf Wortebene keine Si­cherheit bietet, eine ausreichende Anzahl inhaltlich relevanter Verweise auf den er­sten zwei Ergebnisseiten präsentieren zu können. Hier können neueWege in der Relevanzsortierung abhilfe schaffen. In­novative Dienste verwenden dazu zu­sätzliche, Dokumenten-externe Infor­mationen. Drei Beispiele zeigen Alternativen auf: Google[9], DirectHit[10] und Goto[11].

Google nutzt die Linkstruktur des WWW in seinem sog. „PageRank“-Ver- fahren und betrachtet den Verweis auf ein Dokument als Votum dafür. Das funktioniert auch rekursiv: Eine Web­page, auf die Seiten mit hohen Vota ver­weisen, bekommt bei Google Gewicht. Etablierte und vielfältig eingebundene Angebote steigen also auf die vorderen Plätze der Ergebnisliste. Zusammen mit dem Kontext der Zielseite ist es so mög­lich, über reineWorthäufigkeiten und - abstände als Sortierungskriterium hin­auszugehen.

Direct Hit verwendet die Ergebnisli­sten selbst als Instrument, um die Popu­larität von Angeboten zu messen. Im Sinne einer selbsterfüllenden Vorhersa­ge gelten dort angeklickte Links auf An­gebote in der Ergebnisliste als Votum für dieses Angebot; es wandert in den Er­gebnislisten auf einen vorderen Platz.

Goto versteigert die wertvollen ersten Plätze der Ergebnislisten für bestimmte Suchworte meistbietend. Diese Strategie erscheint im Vergleich nur auf den ersten Blick moralisch zweifelhaft: Professio­nelle Dienstleister manipulieren schon seit langer Zeit im Auftrag von eCommerce-Firmen deren Ranking in Suchmaschinen - vergleicht man mehre­re Suchmaschinen bei bestimmten Such­begriffen, so zeigt sich eine Konvergenz in den Ergebnissen (vgl. Jacobson 2000, „Ironically...“). Bei Goto wird die Käuf­lichkeit guter Rankings nur offen zur Ge­schäftsidee gemacht.

In diesen drei Beispielen wird deut­lich, daß unterschiedliche Mechanismen eingesetzt werden, um den Begriff der „Relevanz“ im Relevanzranking inhalt­lich neu zu definieren, abseits vom rein Statistisch-Mathematischen.

Schließlich sehen sich die Suchdienste heute einer veränderten Situation gegen­über, was ihre Nutzer angeht: verglichen mit den Anfangstagen der breiten Web­Nutzung haben sich die demographi­schen Merkmale geändert. Die Dienste müssen einer heterogeneren Gruppe von Menschen gerecht werden als in den aka­demisch geprägten Anfangstagen. Weder überdurchschnittliches Abstraktionsver­mögen noch hohe sprachliche Kompe­tenz oder Motivation können vorausge­setzt werden. Daher müssen Suchdienste Alternativen und Hilfestellungen bei der Eingabe und Verfeinerung von Sucha­nfragen zur Verfügung stellen.

Ein Hauptproblem sind Suchanfra­gen, die zu wenig Trennschärfe besitzen, um aus dem vieldeutigen Index sinnvolle Ergebnisse filtern zu können. Ein Groß­teil der Suchen besteht aus ca. zwei Wor- ten.[12] Die unzureichenden Nutzereinga­ben müssen also in einen Kontext gestellt werden.

Linguistische Begriffs- Ontologien helfen dabei, Doppeldeutigkeiten zu be­seitigen, indem automatisch alternative Bedeutungen zur Auswahl gestellt wer­den: Zielt beispielsweise die Ein-Wort- Suchanfrage „Java“ auf den Kaffee, die Insel oder die Programmiersprache glei­chen Namens?[13]. Ähnlichkeiten zwi­schen anzugebenden Textpassagen und Mustern in der Datenbank der Such­maschine ziehen diese zum Vergleich heran[14]. Sogar die Abkehr vom üblichen Suchmaschinen-Eingabeinterface, ein Agenten-artiger, automatischer Bera­tungsdienst[15] oder ein Instant-Lexikon[16] sind schon in konkreten Produkten ver­fügbar.

2 Web-Nutzung als dynamischer Selektions- und Ent­scheidungsprozeß

2.1 Navigation per Hyperlink und Meta-Medien­anwendung

Navigation per Hyperlink im Web ist die aktive, diskontinuierliche Aktualisierung asymmetrischer Relationen durch Nut­zer in einem heterarchischen Informati­onsraum:

Nutzer navigieren aktiv über die Grenzen von Webpages und Websites hinweg. Daher ändert sich der Bezugs­rahmen je nach Zielseite. Der Kontext von Hyperlinks, ihr Text selbst, beschrei­bende Zusammenfassungen, Überschrif­ten oder grafische Elemente bilden die Grundlage für spekulative Selektionsent­scheidungen. Das verweisende Element und das Ziel, auf welches verwiesen wird, sind sehr unterschiedlich - damit gibt es Raum für (Fehl-)Interpretationen.

Nutzer springen also in Dokumente, deren Beschaffenheit sie kaum vorherse­hen können. Der Weg zurück in bekann­te Dokumente steht jedoch immer offen, zum Beispiel per „Zurück“- oder „Start- seite“-Knopf, Lesezeichen-Liste oder Di­rekteingabe eines URLs. Desorientie­rung im Web ist ein fundamentales Problem, denn verschiedene Arten von Hierarchien überlagern sich dort in komplexer Weise, so daß die Verortung des Handelns auf Webpage- oder Web­site-Ebene schwer fällt.

Meta-Medienanwendungen zu nut­zen heißt, zielgerichtet eine Untermenge an Anschlußoptionen erzeugen zu las- sen.[17] Nutzer treten mit der Intention an Suchdienste heran, ein Informationsde­fizit auszugleichen. Ihre Aufgabe ist es zunächst, dieses derart zu formulieren, daß Suchdienste daraus problem-ange­messene Anschlüsse generieren können. Daraufhin wählen die Nutzer Verweise auf Zielseiten, die sie im folgenden Schritt auswerten können. Das Desori­entierungs-Problem tritt an dieser Stelle deutlich zu Tage: Suchdienste verweisen auf einzelne Webpages. Der Kontext der Ziel-Website geht verloren, wenn ihre In­formations-Architekten dort keine Hin­weise auf die Struktur der Website pla­ziert haben (vgl. Nielsen 1999; i88ff. und Rosenfeld, Morville 1998; 47IL).

Vor dem Hintergrund dieser allge­meinen Definitionen ergeben sich für die Nutzer verschiedene Herangehenswei­sen, im Web Informationen ausfindig zu machen.

2.2 Hunting, Grazing,

Browsing: Drei Typen der Web-Suche

Hawkins schlug in seinem Artikel „Hunting, Grazing and Browsing: A mo­del for online information retrieval“ (Hawkins 1996) vor, Web-Informations­suche in drei verschiedene Typen zu glie­dern.

Unter „Hunting“ versteht dieser Au­tor eine gezielte Suche in einem Daten­satz mit einer traditionellen, stichwort­basierten Text-Suchmaschine. Der Nutzer verfolge ein Ziel, gebe Stichworte ins System ein, werte die möglichen Ant­worten aus und modifiziere seine Anga­ben je nach Feedback (ebd., „The Mo­del“, „Hunting“). Nutzer können zum „Hunting“ neben traditionellen Biblio­thekskatalogen und kostenpflichtigen proprietären Datenbanken auchWeb­Suchmaschinen, ihre Meta-Varianten so­wie Kataloge mit Suchmaschinen-Inter- face einsetzen.

„Grazing“ bezeichnet nach Hawkins die Konsumtion vorgefertigter, persona­lisiert versandter Informationen. Nach­dem der Nutzer die Präferenzen für die­sen Service einmal festgelegt habe, kämen diese bis auf Widerruf automa­tisch zu ihm (ebd., „The Model“, „Graz­ing“). Solche „Push“-Dienste werden heute vor allem in Form von Email­Newsletters und personalisierten Web­Diensten angeboten, die auf spezielle Ge­schehnisse hin oder in einem voreinge­stellten Rhythmus Inhalte bereitstellen.

„Browsing“ dagegen sieht Hawkins als visuell-automatisiertes Herumstö­bern ohne Ziel, wobei die Ablenkung zur Methode wird. Er nennt Browsing „in­formation impulse buying“ (ebd., „The Model“, „Browsing“), also unreflektier­ten Zugriff auf Informationen.

Was in Hawkins Rahmendefinitio­nen nicht vorkommt, ist die zielgerichte­te Nutzung hypertextuell organisierter Dokumente ohne Verwendung einer Suchmaschine. Dem Nutzer erlaubt es der Link-Text, ggf. eine explizite Be­schreibung des Link-Zieles und der im­plizite Kontext des Link-Umfeldes, über das Ziel-Dokument zu spekulieren. Inso­fern ist ein Link nicht so informations­arm, daß er nicht auch den intentionalen Zugriff auf den verbundenen Inhalt er­laubte. Explizit gemachte Informations­hierarchien verhelfen dem Online-Nut- zer dazu, Navigation innerhalb der Website-Struktur zu verorten. Ich ver­wende den Begriff „Browsing“ daher ab­weichend von Hawkins Definition so, daß er potentiell auch intentionales Ver­folgen von Hyperlinks umfaßt. Das ent­spricht eher der Definition von Ellis, der Browsing als „semi-directed or semi- structured searching“ versteht. (Ellis 1989; 187)

„Hunting“ und - potentiell intentio­nales - „Browsing“ sind anschlußfähig. Eine Such-orientierte Nutzungs-Episode kann zum Beispiel in Browsing münden. Auf diese Übergänge und Verbindungen gehe ich in Kapitel 2.5 ein.

2.3 Selektion im Web als Entscheidungssequenz

Wirth und Schweiger beschreiben in ih­rem Überblicksartikel „Selektion neu be­trachtet: Auswahlentscheidungen im In­ternet“ (Wirth, Schweiger 1999) im Rückgriff auf Basis-Definitionen von Jungermann u.a. (Jungermann, Pfister, Fischer 1998, 25-36) Selektion im Inter­net als eine bestimmte Form der Ent­scheidung.

Die Rezeptionssituation sei gekenn­zeichnet durch geringe Transparenz, hohe Unsicherheit, hohe Kontrolle, ge­ringen Verhaltensauswand und hohe Reversibilität. Lange Entscheidungswege bei hoher Optionsdichte führten zu gro­ßem Selektionsdruck (Wirth, Schweiger 1999; 62).

Intransparenz und Unsicherheit ha­ben m. E. zur Folge, daß Entscheidungen für oder gegen die Aktualisierung be­stimmter Optionen nur selten stereotyp oder routiniert ablaufen können. Viel­mehr ist der Nutzer gefordert, sich Ent­scheidungen bewußt zu machen, große Aufmerksamkeit auf das Ziel zu richten und hohe Flexibilität an den Tag zu le­gen. Diese Eigenschaften von Selektions- bzw. Entscheidungsstrategien korre­spondieren mit der Darstellung reflek­tierter Entscheidungsprozesse bei Jun­germann (Jungermann, Pfister, Fischer 1998; 32f.).

Ich teile Wirth und Schweigers Ein­schätzung nicht, daß Selektion imWeb zumeist stereotype Entscheidungen mit sich bringe, da Websites bis hin zu den Link-Betitelungen stark konventionalisi- ert seien (Wirth, Schweiger 1999; 66). Stereotype Entscheidungen setzten vor­aus, daß die Nutzer einfach bestehende kognitive Skripte aktivieren könnten, deren Vorstrukturiertheit häufig zu den aktuell verwendeten Web-Konventionen paßte. Auf diese Weise sei auf Seiten der Nutzer nur geringe Aufmerksamkeit nö­tig (vgl. Jungermann, Pfister, Fischer 1998; 36). Meiner Meinung nach müßte diese Aussage zumindest nach dem Er­fahrungsgrad der Nutzer differenziert werden; Neulinge können diese Konven­tionen gar nicht gut kennen, so daß eine Stereotypisierung fraglich ist. Bei quer­schnittartiger Nutzung vieler Websites gibt es nur wenige, sehr basale Konven­tionen wie zum Beispiel die Auszeich­nung eines Links durch Unterstreichung, Plazierung der Navigationsleisten auf der linken Seite oder Startseiten-Links über ein Logo in der linken oberen Ecke des Bildschirmes. In unterschiedlichen Web­site-Genres, durch schnell fluktuierende Design-Trends und Zuschnitt auf unter­schiedliche Zielgruppen variieren Infor­mationsdesign und Gestaltung stark. In einem anderen Artikel stimmen Wirth und Brecht dieser Beobachtung zu: „Auch kann angenommen werden, daß Nutzer mit hoher WWW-Erfahrung eher über routinisierte oder stereotype Entscheidungsmuster verfügen (und die­se einsetzen) als WWW-Novizen.“ (Wirth, Brecht 1998; 158) Reflektierte Entscheidungen nach Jungermanns Definition setzen voraus, daß Optionen vorgegeben sind, zwi­schen denen entschieden werden soll.

Bei der Selektion auf langen Entschei­dungswegen imWeb werden jedoch auch Situationen auftreten, in denen nur indirekte Optionen bestehen, die dem Nutzer verborgen bleiben. Man denke dabei an die Beschreibung der heteroge­nen Linkstruktur des Web aus Kapitel (siehe Kapitel 1.1.2) und die inhaltlichen Komplexitätsebenen von Webdoku­menten (siehe Kapitel 1.1.3). Auch das ei­gentliche Ziel der Webnutzung kennen Web-Nutzer nicht immer derart präzise, daß es als sicheres, leitendes Kriterium dienen könnte. Insofern ist zielgerichtete Navigation imWeb rein auf der Basis re­flektierter Entscheidungen unwahr­scheinlich.

Offenere, schwächer vorstrukturierte Aufgaben in einer unterschiedlich stark strukturierten Umgebung wie dem Web erfordern bei ihrer Bewältigung also ein vielschichtigeres Vorgehen. Jungermann definiert einen weiteren allgemeinen Entscheidungstyp: den konstruktiven. Darunter versteht er Entscheidungen, bei der Personen zunächst unter unklaren Zielvorstellungen und Optionen agie­ren. Diese zu konstruieren erfordere sehr hohe Aufmerksamkeit und Flexibilität sowie viel Zeit. Während des Entschei­dungsprozesses ergäben sich vorläufige

Wahlen, die als Zwischenstation dien­ten. Neue Konsequenzen würden gene­riert, die letztlich zu einem unvorherge­sehenen Ergebnis führen könnten (Jungermann, Pfister, Fischer 1998; 33IÏ.). Damit gibt es im konstruktiven Ent­scheidungsprozeß eine Schleife, die seine Leistungsfähigkeit erhöhen kann - vor­ausgesetzt der Nutzer bringt die genann­ten Voraussetzungen mit. Mit Leistungs­fähigkeit meine ich, daß potentiell zwei Faktoren kompensiert werden: die gerin­ge direkte Anschlußfähigkeit von Optio­nen aufgrund der Komplexität der me­dialen Voraussetzungen (s.o.) und eine zunächst schwächere Vorstrukturierung der Zielvorstellung. Der Analyse-Blick­winkel erweitert sich zu einer prozeßhaf­ten Sicht: von der Bewertung einer un­mittelbaren Situation - wie bei routinisierten und stereotypen Entschei­dungen - zur Generierung neuer Infor­mationen, die wiederum zur Basis er­neuter Anschluß-Wahlen werden.

Betrachtet man Studien der Web-Na­vigation, so zeigen sich Parallelen. Vor­läufige Entscheidungen, die kurz danach wieder verworfen werden, korrespondie­ren mit Nabe-Speiche-Mustern, die bei Nutzern festgestellt wurden (vgl. die Stu­die zu wiederkehrenden Navigationsmu­stern von Tauscher, Greenberg 1997). Sie selektierten eine Option (und daraufhin eine eingeschränkte Zahl von Anschluß­optionen), werteten den Wert der resul­tierenden Zielseite für die Aufgabe aus und benutzen den Zurück-Knopf oder die Verlaufsliste dafür, zu einem bekann­ten Punkt zurückzugelangen. Von einer zentralen Seite (in einem kreisförmig or­ganisierten Bild die „Nabe“) gingen ein­zelne Pfade ab, die nacheinander verfolg­ten Optionen oder Optionsketten entsprechen (die radialen „Speichen“).

Die Nutzung von Meta-Medienan­wendungen - beispielsweise einer stich­wortbasierten Suchmaschine - setzt die Formulierung von Suchworten oder Suchphrasen voraus. Auf deren Eingabe hin stellt das System eine Reihe von Op­tionen bereit; es strukturiert also die Möglichkeiten für Anschluß-Entschei­dungen in direkt aktualisierbar und un­sichtbar. Der konstruktive Aspekt aus dem obigen Entscheidungstyp wird auf die Suchphrase reduziert: Die eigentliche Generierung von Optionen daraus nimmt die Suchmaschine als „black box“ vor. Ihre inneren Selektions-Mechanis­men bestimmen also direkt, welche An­schluß-Selektionen Nutzer vornehmen können. Es wäre folglich nicht abwegig, von einer Ko-Selektion zwischen Mensch und Suchmaschine zu sprechen. Dabei ist der Nutzer aber nicht so macht­los, wie es zunächst erscheinen mag:

Erstens bestimmt zwar eine Such­maschine durch ihre Datenbasis und das Relevanzranking, welche Zielseiten inde- xiert und besonders sichtbar gemacht werden, jedoch sind auch die geführten Seiten ihrerseitsTeil des Netzes, verwei­sen also nach ihrer eigenen Logik auf weitere Zielseiten. An dieser Stelle ver­liert die Suchmaschinen-Vorstrukturie- rung an Einfluß auf die Nutzung von An­schlußoptionen.

Zweitens kann der Suchende seine Wahl als vorläufig erkennen, zur Such­maschine zurückkehren und eine andere Zielseite wählen, die ihm andere Optio­nen eröffnet.

Drittens kann der Suchende die Un­termenge an Anschlußoptionen auf der Ergebnisliste als ungenügend beurteilen und mit einer modifizierten Anfrage er­neut starten. Damit wäre eine neuer Startpunkt der Ko-Selektion gegeben, die neue Anschlüsse eröffnet.

Viertens kann der Suchende die Er­gebnislisten der Suchmaschine insge­samt als ungenügend beurteilen und eine andere Meta-Medienanwendung hinzu­ziehen.

2.4 Rahmenmodell der Such- maschinen-Interaktion von Shneiderman

In ihrem Artikel „Clarifying Search. A User-Interface Framework for Text Sear­ches“ (Shneiderman, Byrd, Croft 1997) stellen die Autoren ein vierstufiges Rah­menmodell der Suchmaschinen-Nut- zung vor. Sie führten es zur Strukturie­rung der Diskussion über User Interface­Eigenschaften ein. Daher hat es nicht den Anspruch, einen kompletten Informa­tions-Suchprozeß abzubilden, sondern nur den Teil, der eine Interaktion mit der Suchmaschine selbst beinhaltet. Die Se­quenz der Phasen entspricht jedoch der linearen Abfolge von Aktionen im Such­prozeß. Zu beachten ist auch, daß die Autoren über Textsuchen sprechen, nicht ausschließlich über Web-Suchmaschin­en. Im folgenden beschreibe ich nur das Web-Relevante. Im Vorgriff auf spätere Kapitel nenne ich Altavista.de hier häufi­ger, weil der Suchdienst in dieser Studie zur Untersuchung eingesetzt wurde (sie­he Kapitel 4.2.2).

Phase eins ist die Formulierung der Suchanfrage (Shneiderman, Byrd, Croft 1997; „The four-phase framework for se­arch“, „1. Formulation“). Sie umfasse verschiedene Einzelentscheidungen, die jede für sich komplex seien. Bei Such­maschinen, die ihre Ergebnisse aus ver­schiedenen Quellen beziehen (zum Bei­spiel Meta-Suchmaschinen), müßten die

Nutzer zunächst entscheiden, welche da­von sie durchsuchen wollten (ebd., „ia. Sources“). Implizit gilt das auch für in­ternationale Suchmaschinen mit natio­nalen Ablegern, wie auch Altavista.de: Schon im Standard-Interface ist es mög­lich, zwischen dem deutschsprachigen und gesamten Web als Ziel zu wählen. Das entspricht einer Quellenauswahl, da die Indizes getrennt sind.

Die Eingrenzung von Feldern erlaube es, bestimmte Aspekte der gesuchten Dokumente einzugrenzen (ebd., „ib. Fields“). In der Standard-Suche von Al­tavista entspricht das der Auswahl, in welcher Sprache der gewünschte Text verfaßt sein soll. Gleichzeitig stehen dort den Nutzern Felder zur Verfügung, die in die Suchphrase integriert werden: Sie er­lauben es zum Beispiel, Suchen auf eine bestimmte Website zu beschränken oder nur Worte im Titel der Zielseiten zu be- achten.[18]

Das Wichtigste an der Formulie­rungsphase ist es für den Nutzer jedoch, zu spezifizieren, wonach gesucht werden soll. Shneiderman und Kollegen nennen drei Möglichkeiten: unstrukturierten Text, Text mit eingebetteten Suchopera­toren und Text mit separat spezifizierten Suchoperatoren (ebd. „ic. What to se­arch for“). Die meisten aktuellenWeb- Suchmaschinen - unter anderem auch Altavista - erlauben die erste und zweite Alternative, Hotbot z .B. auch getrennte Operatoren.[19]

Die Autoren stellen in diesem Zusam­menhang eine zentrale Frage: „Does the program interpret the query the way the user intended it, and - even if it does - does the user know that the program in­terprets it that way?“ (Shneiderman, Byrd, Croft 1997; „ic. What to search for“ ). Erwartungskonformität ist deshalb ein wichtiges Ziel, weil in der vielfältig strukturierten Web-Umgebung die Ge­fahr besteht, daß unterschiedliche Stan­dards für die Formulierung von Sucha­nfragen zu Überforderung und Fehlern bei den Nutzern führen. Auch mangeln­des Wissen der Suchmaschinen-Nutzer über die Retrieval-Sprache kann zu un­vorhergesehenen Ergebnissen führen: Das betrifft zum Beispiel das Mißver­ständnis, Suchmaschinen verstünden vollständige Sätze sinngemäß. Da dem nicht so ist, können Ergebnisse dieser unstrukturierten Textsuchen verwirrend sein.

Phase zwei nennen die Autoren Akti­on (Shneiderman, Byrd, Croft 1997; „The four-phase framework for search“, „2. Action“), also den Start der Suche durch das Betätigen des Suche-Knopfes. Hin­zugefügt sei hier, daß es in vielen Web­Suchmaschinen heute möglich ist, ein­fach die Eingabetaste zu drücken, um die Suche zu starten - das gilt auch für Al- tavista.de. Das Browser-Interface ermög­licht es, eine laufende Suche abzubre­chen, und zwar mit dem universellen „Abbrechen“-Knopf.

In Phase drei beurteilt der Nutzer die Ergebnisse. (Shneiderman, Byrd, Croft 1997; „The four-phase framework for se­arch“, „3. Review of Results“)

Die Autoren sprechen hier über Mög­lichkeiten, Nutzer die Ergebnislisten nach eigenen Kriterien sortieren und auswerten zu lassen. Darunter fallen zum Beispiel die Anzahl von Items in einer Teil-Ergebnisliste, die Anordnung nach bestimmten Feldern der Zielseiten, chro­nologische, alphabetische oder Rele­vanz-Sortierung.

Im Juli 2000 bietet der Mainstream an Web-Suchmaschinen nur wenige Aus­wahlmöglichkeiten an. In den erweiter­ten Suchen ist es zumTeil möglich, die Anzahl von Items in Teil-Ergebnislisten zu bestimmen.

Darüber hinaus erlauben nur einzelne die Steuerung der Gewichtungen im Rel- evanzranking[20] oder ordnen Ergebnisse automatisch in vorgefertigte Kategorien ein.[21] Altavista.de erlaubt keine Modifi­kation der Ergebnislisten-Sortierung nach den Präferenzen der Nutzer.

Phase vier dreht sich um die Verfeine­rung und Modifikation der Suchphrasen und Suchergebnisse (Shneiderman, Byrd, Croft 1997; „The four-phase frame­work for search“, „4. Refinement“). Ein Mittel der Wahl dazu ist Relevanz-Feed­back. Das sind Links, die der Nutzer ver­folgt, wenn ihm das nebenstehende Er­gebnis zusagt.[22]

Weiterhin schlagen Shneiderman und Kollegen die Funktion vor, Anfragen ab­speichern zu können, um es den Nutzern zu erleichtern, später darauf zurückzu­greifen und iterativ Verbesserungen vor­zunehmen (Shneiderman, Byrd, Croft 1997; a.a.O.).

Diese Anregung haben nur wenige Suchdienste im Web aufgenommen, ob­wohl Studien darauf hindeuten, daß die einzelnen Nutzer häufig Ähnliches su­chen (vgl. dazu den Artikel „Modeling Users’ Successive Searches in Digital En­vironments.“ von Spink, Wilson, Ellis u.a. 1998; dort „7. Conclusion“). Altavis- ta.de bietet direkt keine Suchepisoden­übergreifende Speicherung der Sucha­nfragen oder Ergebnisse an. Allerdings steht die aktuelle Suchphrase immer di­rekt über der Teil-Ergebnisliste, so daß es möglich ist, dort zusätzliche Begriffe zu ergänzen, bestehende zu entfernen oder die Suchoptionen zu verändern, um die Anschlußoptionen im Sinne der Such­intention zu formen.

2.5 Vorschlag eines dynamischen Modells der Web-Informationssuche mit Suchmaschinen

Mir erscheint dieses praxisnahe Modell geeignet, die grundlegenden Interaktio­nen mit einer stichwortbasierten Web­Suchmaschine abzubilden. Es beschreibt für die „Jagd“ nach Informationen im Web (siehe Kapitel 2.2) sowohl, welche Komponenten der Suchmaschine betei­ligt sind, als auch welche Interaktions­phasen die Nutzer durchlaufen. Da das Modell nie dazu gedacht war, einen ge­samten Informationssucheprozeß abzu­bilden, möchte ich es vor dem Hinter­grund anderer Modelle dahingehend erweitern.

Weber und Groner haben als Ergebnis ihrer Studie „Suchstrategien im WWW bei Experten und Laien“ das Suchen im Web als TOTE-Einheit (Test, Operate, Test, Exit) nach Miller, Galanter und Probram 1960 beschrieben (zitiert nach Weber, Groner 1999; 189). Das ist eine schleifenförmige Darstellung des Such­vorganges als Problemlösungsstrategie - die Schleife wird erst verlassen (Exit), wenn nach einer Sequenz abwechseln­der Handlungen (Operate) und Tests (Test) ein erwünschter Zustand erreicht ist.

Vor diesem Hintergrund schlage ich vor, die beschriebene Verfeinerungspha­se als Reformulierungsphase in einem TOTE-artigen Gesamt-Prozeß zu begrei­fen, wobei der Suchmaschinennutzer ad­aptiv im Sinne Wirth und Brechts vor­geht:

Sie entwickelten das „Clickstream“- Modell, welches Selektionshandlungen im Web beschreibt. Vor dem Hinter­grund eines Selektionszieles fände eine Transaktion zwischen Selektionsorien­tierung in einem wahrgenommenen Merkmalsraum und Navigationshand­lung in einem wahrgenommenen Akti­onsraum statt, deren Ergebnis per Ziel­evaluation beurteilt würde. Die Zielevaluation wirke gleichermaßen auf Selektionsziel, Selektionsorientierung und Navigationshandlung zurück. (vgl. Abb. i in Wirth, Brecht 1998; 158) Damit konstruieren die Autoren einen adapti­ven Nutzer, dessen Selektionen und Eva­luationen die wahrgenommenen Merk­male und Navigationsoptionen beeinflußt.

Im Shneidermanschen Modell kommt kein Browsen durch und kein Auswerten von Zielseiten vor. Für den Suchprozeß sind diese aber zentral, schließlich tragen sie die indexierten bzw. referenzierten Informationen. Ich führe daher eine Browsing-Phase ein, die auf die Beurteilung der Ergebnislisten­Items folgt; sie kann auch mehrere Schritte umfassen.

Verschiedene Anschlüsse ermögli­chen es nun, diese Phasen in unter­schiedlichen Sequenzen zu durchlaufen, so daß sich charakteristische Muster her­ausbilden. Abb. 2-1 verbildlicht das. „En­de“ entspricht grundsätzlich dem TOTE- „Exit“ und hat zwei Bedeutungen: Ent­weder schließt der Nutzer den Suchpro­zeß erfolgreich ab oder gibt ihn auf. Ein erfolgreich abgeschlossener Suchprozeß hätte in dem Experiment, das ab Kapitel 4 detailliert beschrieben wird, zur Folge, daß die Vpn[23] ein passendes Lesezeichen ablegt.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2-1 : Dynamisches Modell der Web­Informationssuche mit Suchmaschinen

2.6 Erforderliche Eigen­schaften der Nutzer in den Interaktionsphasen

Das beschriebene, dynamische Modell der Informationssuche im Web mit Hilfe einer Suchmaschine stellt einen prinzipi­ellen Ablauf von Interaktions-Möglich­keiten dar. Die Nutzer greifen darauf vor dem Hintergrund ihrer persönlichen Kompetenzen und Defizite zu. Sie wen­den der Problemlösung ihre Aufmerk­samkeit zu und setzen vor allem kogniti­ve Ressourcen, aber auch Zeit und Geld ein. Als Nutzen erwarten sie umfassende und präzise Ergebnisse, die ihnen weitere Anschlußhandlungen ermöglichen.

Über die Fortführung dieser Abwä­gung oder den Abbruch entscheiden der bewußt oder unbewußt eingeschätzte Wert der Auflösung des Informationsde­fizits, die Qualität der vorgefundenen (Teil-)Ergebnisse sowie die Motivation: niedrige Motivation bei der Suche im Web kann zur Folge haben, daß Suchvorgänge vorschnell abgebrochen werden oder sich zu ungerichteten Browsing-Episoden entwickeln.

Sind andere mediale Angebote im­stande, die gewünschte Information mit geringeren Kosten bereitzustellen, so ist es wahrscheinlicher, daß diese genutzt werden. Marchionini meint dazu in sei­nem Aufsatz „Information seeking Strat­egies of Novices Using a Full-Text Elec­tronic Encyclopedia“ plakativ: „Just as water and electricity seek paths of least resistance, so humans seek the path of least cognitive load“ (Marchionini 1989; 56).

Setzt man ausreichende Motivation und hohe Aufmerksamkeit voraus, so er­warte ich von den folgenden Konzept­Kategorien, daß sie über Erfolg oder Mißerfolg bei zielgerichtetem Web-Su­chen entscheiden.

Eine Vorstellung davon, welche Ange­bote das Web generell bereithält, bildet die Grundlage dafür, bestimmte Lösun­gen zu erwarten; ein Erfahrungsschatz medialer Web-Darstellungsformen hilft den Nutzern dabei, sich schnell in Ziel­Websites zurechtzufinden. Diese beiden Aspekte bezeichne ich im folgenden als „Web-Erfahrung“.

Ein Konzept der Datenbasis von Suchmaschinen erlaubt Nutzern, An­schlußoptionen richtig einzuschätzen. Zum Beispiel kann das Wissen über die geringe relative Netzabdeckung eines be­stimmten Suchdienstes dazu führen, daß bei wenigen oder ungeeigneten Ergeb­nissen zu einem Spezialthema auch an­deren Meta-Medienanwendungen be­achtet werden. Das Wissen darüber, das Suchmaschinen bei seltenen, speziellen

Begriffen mit hoher thematischer Trenn­schärfe verläßlichere Ergebnisse liefern können, erlaubt effizienteres Suchen: In einem stichwortbasierten Index steigt die Trennschärfe eines Suchwortes mit seiner Seltenheit.

Wissen über die Bedienung der Such­maschine hilft dabei, Suchanfragen trennscharf zu formulieren, indem Nut­zer beispielsweise Phrasen eingeben oder Suchbegriffe explizit ausschließen kön­nen. Diese Aspekte fasse ich unter der Bezeichnung „Suchmaschinenwissen“ zusammen. (vgl. Marchionini 1995; 61)

Thematisches Fachwissen erlaubt es den Suchenden, eine detaillierte Vorstel­lung des Suchzieles zu entwickeln und Ergebnisse effizient auszuwerten. Da fachliche Details trennscharfe Such­worte ergeben, haben Insider einen kla­ren Vorteil bei der Suche. (ebd.)

Sprachkompetenz äußert sich darin, daß Rechtschreibungsfehler in den Such­worten vermieden und Synonyme flexi­bel eingesetzt werden. Damit wird der ungewünschten Selektivität von Such­worten entgegengewirkt, die die Anzahl möglicher Treffer einschränkt. (vgl. Ka­pitel 2.7)

In jeder der vier vorgeschlagenen Phasen des dynamischen Modelles kom­men dabei unterschiedliche Faktoren zum Tragen.

In der Formulierungsphase ist eine vielschichtige Transferleistung gefragt, bei der der Nutzer Fachwissen und Such­maschinenwissen integriert und auf Ba­sis seiner Sprachkompetenz umsetzt. Um potentielle Angebote vorhersehen zu können, ist Web-Erfahrung nützlich.

Bei der Beurteilung der Ergebnisliste hilft ebenfalls das Suchmaschinenwissen weiter, um das Ranking der Liste zu in­terpretieren. Fachwissen kann nützlich sein, um aus den angebotenen Zusam­menfassungen schnell Hinweise auf die Zielseiten zu gewinnen. Web-Erfahrung unterstützt die Dekodierung der angege­benen URLs, die ebenfalls Spekulationen über die Zielseiten erlauben.

Während derVerfeinerungsphase spielen vor allem Suchmaschinenwissen, Fachwissen und Sprachkompetenz zu­sammen: Gefragt ist eine syntaktisch korrekte Modifikation der bestehenden Suchphrase, die deren Selektivität im Sinne des Recherchezieles steuert.

In der Browsing-Phase profitiert der Nutzer vor allem von seiner Web-Erfah­rung. Ist er dahingehend routiniert, kann er mehr Aufmerksamkeit auf Hinweise richten, die das Rechercheziel betreffen. Kennt er Web-Genres und Konventio­nen, so ist die Navigation erleichtert, eine flüssigere Interaktion mit den Web­sites wahrscheinlich.

2.7 Sprache als

Interaktionsproblem

Für den Nutzer ist besonders die Formu­lierungsphase in der Interaktion mit ei­ner textbasierten Web-Suchmaschine kritisch. Sie hat großen Einfluß auf die Generierung von Anschlußoptionen, da­her wirken sich Fehler hier besonders schwerwiegend aus. Ich möchte aus die­sem Grund noch etwas genauer ausfüh­ren, welche Rolle Sprache in dieser Phase spielt. Dabei stütze ich mich vor allem auf die Artikel von Jansen, Spink, Spiff 2000 (darin besonders: „Linguistic Ana­lysis“, „Lexical Analysis“, „Discussion“) und Feldman 1999 (darin besonders: „Some common problems in informati­on retrieval“).

Alle Suchen beginnen mit einem In­formationsdefizit, das als vage Zielvor­stellung oder als Verständnis einer expli­zit formulierten Aufgabe beim Nutzer repräsentiert ist. Im Verlaufe des Such­vorganges bemüht sich der Suchende, das Informationsdefizit durch die Rezep­tion von Netzquellen auszugleichen. Bei diesen Nutzungsvorgängen verschrän­ken sich zwei Probleme: das Sachpro- blem - Wie ist das Problem beschaffen, das ich lösen will? - und das Interakti­onsproblem - Wie löse ich mein Problem unter den Bedingungen des Werkzeuges, das ich verwende? (vgl. Balzert, Hoppe, Opperman u.a. 1988; 7)

Alle gezielten Suchvorgänge bei stich­wortbasierten Suchmaschinen im Web beginnen mit einer Suchphrase. Als sol­ches verstehe ich Suchworte, die unter den Regeln einer Suchdienst-spezifi­schen Syntax zusammengefügt wurden; diese Bezeichnung umfaßt auch Ein­Wort-Suchen und Kombinationen mit Such-Modifikatoren, die der Nutzer im Interface des Suchdienstes auswählt oder als Voreinstellung vorfindet. Durch die­se Beschränkung auf Worte und logische Operatoren als Ausdruck einer Such-In­tention ergeben sich für jeden Suchen­den Einschränkungen, die nicht offen­sichtlich sind.

Ein Sachproblem soll gelöst werden, indem ein Informationsdefizit in system­adäquater Weise formuliert wird - damit wird ein unzureichend geklärtes Sach- problem gleichzeitig zu einem Interakti­onsproblem, wenn die Selektivität der gewählten Worte nicht mit der Repräsen­tation von Sinn in der Logik der Such­maschine übereinstimmt.

Nutzer suchen Dokumente, die sie in bezug auf ihr Sachproblem weiterbrin­gen; also Texte, die ihnen durch ihre Aus­sage helfen. Suchmaschinen indexieren und präsentieren Dokumente aber nicht auf der Bedeutungsebene, sondern pri­mär auf der Ebene statistischer Berech­nungen der Worthäufigkeiten. Die Wort­häufigkeiten eines Dokumentes beschreiben nicht seinen Sinn - die Lo­gik hinter Suchmaschinen ist jedoch, daß auf der Wortebene ähnliche Texte auch Ähnliches bezeichnen und diese Schät­zungen ein hinreichendes Suchergebnis liefern. Kennt der Nutzer diese Bedin­gungen nicht oder hat er eine falsche Vorstellung von ihnen, so wird die Inter­aktion mit der Suchmaschine subopti­mal ablaufen.

Bei vagen Vorstellungen des Informa- tionsdefizites kommt ein weiteres sprachliches Problem hinzu: Die Be­schreibung des Defizits führt nicht auto­matisch zu seiner Lösung. Da Schlüssel- wort-basierte Suchmaschinen nur Zeichenfolgen auf Ergebnisseiten in ih­ren Index aufnehmen, ist es für eine er­folgreiche Suche erforderlich, Elemente des Ergebnisses oder seines textuellen Umfeldes schon vorab zu kennen. Vom Nutzer wird also für effektive Suchen er­wartet, eine Einschätzung über die Selek­tivität bestimmter Suchworte und Such­phrasen treffen zu können.

Diese Anforderungen setzen ein gro­ßes Maß an Abstraktionsfähigkeit und Erfahrung voraus. Es ist also wahr­scheinlich, daß Suchen mit statistischen Suchdiensten nicht auf Anhieb zum Er­folg führen.

Zwischengeschaltete Browsing-Episo- den in Ergebnislisten und potentiellen Zielseiten können dabei helfen, die Un­gewißheit über die Selektivität von Such­worten zu reduzieren. Daraus ergibt sich ein rekursiver Prozeß der Verfeinerung von Suchphrasen, der als Lernprozeß voranschreitet.

Sprache ist doppeldeutig, redundant und kontextabhängig. Das läßt sich mit der Logik von Suchmaschinen nicht ver­einbaren. Obwohl ein Wort in der Ziel­seite verneint verwendet wird, wird es eine Suchmaschine als Volltreffer werten, sobald der Nutzer nach dem einfachen Suchwort fahndet. Ob ein Wort zum Bei­spiel als Markenname oder in seiner Ur­sprungsbedeutung gemeint ist, ist grundsätzlich für das Suchergebnis nicht entscheidend.

Der Ausschluß unerwünschter Ne­benbedeutungen in einer Suche verlangt also vom Suchenden die Kenntnis über die Mehrdeutigkeit, also mangelnde Se­lektivität der Suchanfrage. Fügt ein Nut­zer der Suchphrase ein Ausschlußkriteri­um hinzu, unterliegt auch dieses dem Problem der sprachlichen Indifferenz.

Nicht vergessen werden darf, daß die vorwiegende Sprache im World Wide Web das Englische ist. Nutzer, die Such­anfragen nicht in ihrer Muttersprache formulieren können, haben also noch ein zusätzliches Problem: Genaue Ein­schätzungen über die Selektivität von Worten in einem sehr heterogenen Do- kumentenpool zu treffen ist nur mit gro­ßer Sprachkompetenz möglich. Weber und Groner nennen in ihrer Studie „Suchstrategien im WWW bei Experten und Laien“ ebenfalls den starken Einfluß von Englischkenntnissen für eine effizi­ente Websuche (Weber, Groner 1999; 194). Deshalb soll sich die hier vorliegen­de Untersuchung auf das deutschsprachi­ge World Wide Web und Muttersprachler als Vpn beschränken.

Aber auch Muttersprachler können sich in der Sprachkompetenz unterschei­den: Rechtschreibungsfehler führen zu kleinen oder leeren Ergebnismengen, und Synonymbildungs-Schwächen ha­ben zur Folge, daß Nutzer nicht alle Be­griffe verwenden, die thematisch rele­vant wären.

Schließlich ist zu bedenken, daß das World Wide Web nicht nur aus Text be­steht: Standbilder, Videos und Tondoku­mente machen einen großen Teil seines Reizes aus. Sprache ist jedoch nicht opti­mal für das Suchen nach solchen Ele­menten geeignet (vgl. den Artikel „Sear- ching for Multimedia. An Analysis of Audio, Video, and Image Web Queries.“ von Jansen, Goodrum, Spink 2000). Die Schere zwischen dem bezeichnenden Wort und dem bezeichneten Element geht noch weiter auseinander als bei ei­ner rein textuellen Suche.

3 Forschungsleitende Annahmen

Im folgenden möchte ich die Darstellun­gen aus dem vorigen Kapitel auf be­stimmte Aspekte zuspitzen und zu über­greifenden Fragen und Annahmen verdichten. Anschließend wird das Un­tersuchungsdesign für ein Experiment beschrieben - es eignet sich über die Be­handlung der Forschungsfragen hinaus auch zum Explorieren. Die Ergebnisse formuliere ich in Kapitel fünf, Interpre­tationen folgen in Kapitel sechs.

Als „erfahrene Nutzer“ bezeichne ich solche Vpn, die große Erfahrung in der Recherche mit Suchmaschinen besitzen. Als „unerfahrene Nutzer“ bezeichne ich solche Vpn, die geringe Erfahrung in der Recherche mit Suchmaschinen besitzen. Gleichzeitig nehme ich an, daß hohes Wissen über Web-Suchmaschinen vor allem solche Nutzer besitzen, die auch generell große Weberfahrung mitbrin­gen. Ich stelle erfahrene und unerfahrene Nutzergruppen unter der Annahme ge­geneinander, daß das unterschiedliche Vorwissen und die unterschiedlich inten­sive Vorerfahrung fruchtbar für Kon­trasteffekte im Vorgehen der Nutzer sind.

Frage 1

Welche Merkmale zeigen erfahrene und unerfahrene Nutzer in den Formuli- erungs- und Verfeinerungsphasen?

Frage 1, Annahme 1

Erfahrene Nutzer verwenden mehr fort­geschrittene Suchtechniken als unerfah­rene.

a) Ich erwarte, daß die erfahrenen Nut­zer ihr Suchmaschinenwissen einsetzen, indem sie die höhere Selektivität von Ausschluß-, Phrasen-, und booleschen Operatoren nutzen.
b) Ich erwarte, daß die unerfahrenen Nutzer aufgrund mangelnden Wissens über die spezifischen Suchoperatoren der Suchmaschine Suchworte ohne explizite Verbindungsvorschriften ver­wenden.

Frage 1, Annahme 2

Erfahrene Nutzer verwenden mehr Suchworte als unerfahrene.

a) Ich erwarte, daß die erfahrenen Nut­zer ihr Suchmaschinenwissen nutzen, indem sie die Selektivität der Suchphrase mit Suchwort-Kombinationen steuern.
b) Ich erwarte, daß die unerfahrenen Nutzer aufgrund mangelnden Such­maschinenwissens kurze Suchphrasen bilden.

Frage 1, Annahme 3

Erfahrene Nutzer wandeln ihre Such­phrasen häufiger ab als unerfahrene.

a) Ich erwarte, daß die erfahrenen Nut­zer ihr Suchmaschinenwissen nutzen, indem sie häufiger ihre Suchphrasen abändern und an die Erkenntnisse aus Zwischenschritten anpassen. Sie profi­tieren dabei auch von größerer Web­Erfahrung, da sie in einer vorgegebenen Zeitspanne mehr Zwischenergebnisse in Ergebnislisten und Zielseiten auswerten können.
b) Ich erwarte, daß die unerfahrenen Nutzer aufgrund mangelnden Such­maschinenwissens Suchphrasen weni­ger häufig abändern. Sie werten auf­grund mangelnder Weberfahrung innerhalb einer vorgegebenen Zeitspan­ne weniger Zwischenergebnisse in Ergebnislisten und Zielseiten aus.

Frage 2

Sind erfahrene Nutzer auch erfolgreicher in der Bewältigung von Rechercheaufga­ben als unerfahrene?

Frage 2, Annahme 1

Erfahrene Nutzer kommen innerhalb einer vorgegebenen Zeitspanne und bei einer fachunspezifischen Aufgabe zu mehr korrekten Ergebnissen als uner­fahrene.

a) Ich erwarte, daß die erfahrenen Nut­zer durch das Zusammenspiel hohen Suchmaschinenwissens und großer Weberfahrung in allen vier Phasen des vorgestellten Modells effektiv vorgehen und daher mehr korrekte Ergebnisse erzielen.
b) Ich erwarte, daß die unerfahrenen Nutzer durch mangelndes Such­maschinenwissen und geringe Weber­fahrung daran gehindert werden, effekti­ve Suchanfragen zu formulieren, die Ergebnisse schnell zu beurteilen, sie gegebenenfalls zielgenau zu verfeinern und die Zielseiten schnell auszuwerten; daher erzielen sie weniger korrekte Ergebnisse.

Frage 3

Welche Merkmale zeigen die Nutzer in den Suchmustern?

Frage 3, Annahme 1

Die Nutzer nähern sich dem Suchziel rekursiv, in einer Kette von Interaktio­nen mit Suchmaschine und Zielseiten im Web analog dem vorgestellten Modell. Ich erwarte, daß sich in den Suchmus­tern aneinander anschließende Interak­tionsphasen aufzeigen lassen, die mit den vier Phasen aus dem vorgestellten Modell korrespondieren (siehe Kapitel 2.5). Welche Sequenzen bevorzugt wer­den, wird der Versuch zeigen. Diese Beobachtungen haben das Potential, Anschlußfragen zu generieren.

4 Untersuchungs­design

Um den geschilderten Fragen und An­nahmen nachzugehen, wählte ich ein Untersuchungsdesign, das verdeckte Be­obachtung und Befragung per Fragebo­gen verbindet. Dabei stand im Zentrum des Interesses, in welchen Sequenzen die Nutzer mit einer realen Suchmaschine und Webdokumenten interagieren, wenn sie online Aufgaben lösen - und mit wel­chem Erfolg.

Die Suchvorgänge pro Nutzer sollten vollständig und in Echtzeit erfaßt wer­den: einschließlich der Browsing-Pha- sen, im Sinne des erarbeiteten Modells. Gleichzeitig benötigte ich Angaben der Vpn zu Demographie, Weberfahrung und Suchmaschinenwissen; ebenso ihre

Rechercheergebnisse und Bewertungen derselben. Alle Angaben der Vpn muß­ten sich problemlos ihren Suchmustern zuordnen lassen. Die Untersuchung konnte daher nicht anonym im Web ge­schehen - ein Labor-Experiment dage­gen erlaubte diesen Detailgrad der Be­trachtung.

Für die verdeckte und lückenlose Be­obachtung der Nutzer-Interaktionen ka­men technisch erzeugte Protokolle zum Einsatz: Ein Proxy, der den Datenstrom zwischen Browser und Web vermittelt, lieferte den geeigneten Ansatzpunkt da­zu. Für genauere Definitionen der Ter­minologie verweise ich auf das Glossar; eine detaillierte Diskussion dieser Beob­achtungsmethode findet sich in Kapitel 4-1-1.

Wie in den Forschungsfragen formu­liert, erwartete ich einen deutlichen Ein­fluß des Suchmaschinenwissens und der

Weberfahrung auf den Erfolg bei der Web-Recherche. Daher rekrutierte ich besonders Such-erfahrene und beson­ders Such-unerfahrene Vpn, um Ergeb­nisse und Suchmuster kontrastieren zu können.

Im folgenden werden die einzelnen Bestandteile dieses Experimentes genau­er beschrieben:

Zunächst folgen zwei Tabellen, die unabhängige und abhängige Variablen zeigen. Daraufhin werden die speziellen Charakteristika von Logdateien als Erhe­bungswerkzeug und Webexperimenten im allgemeinen thematisiert. Im An­schluß daran stelle ich den Suchdienst vor, der den Vpn zur Verfügung stand und erläutere das Design der Materialien sowie den genauen Ablauf des Versuches.

Abbildung in dieser Leseprobe nicht enthalten

Tab. 4-2: abhängige Variablen im vorgestellten Labor-Experiment

4.1 Logdateien als Erhebungswerkzeug in Web-Experimenten

4.1.1 Verdeckte Beobachtung mit Logdateien

Logdateien sind automatische, stark strukturierte Protokolle technischer Ab­läufe. In IT-Umgebungen werden sie auf verschiedenen Ebenen eingesetzt: Zum Beispiel können Browser alle Seiten pro­tokollieren, die sie dargestellt haben, Proxies alle Dateien, die durch sie geleitet wurden, Server alle Dateien, die von ih­nen abgerufen wurden oder Systemzu­stände, die sie durchlaufen haben.

Diese Protokolle sind standardisiert und folgen strikten Konventionen. Es können im Laufe der Zeit große Daten­mengen anfallen, die gefiltert, zusam­mengefaßt und visualisiert werden müs­sen, um Aussagen über bestimmte Transaktionen im Zeitverlauf oder in der Summe treffen zu können.

Eine Anwendung von Logdateien ist es zum Beispiel, die Popularität von ge­samten Webangeboten näherungsweise zu messen und die Nutzung einzelner Teile von Websites zu dokumentieren, um eine einfache Form der Erfolgskon­trolle bereitzustellen.

Die Beobachtung eines Nutzers mit Hilfe von Logdateien in einer kontrol­lierten Experimentalumgebung hat ver­schiedene Vorteile, denn das Protokoll bildet die Nutzungsvorgänge auf einer abstrakten Ebene zusammenhängend und genau ab.

Die Gründe, warum Logdateien im vorliegenden Versuch verwendet wur­den, sind

- vollständige Nichtreaktivität durch Unsichtbarkeit für die Versuchsper­son,
- komplette Abbildung der Seitenab­rufe (bei entsprechender Konfigu­ration des Browsers),
- exakte Dokumentation der Such­terme (Worte, Suchoperatoren) und eines Teiles der genutzten Inter­faces (z. B. einfache Suche, Exper­tensuche).

Nicht verschwiegen werden sollen al­lerdings auch die spezifischen Probleme, die mit der Analyse von Logdateien ein­hergehen:

Die Standard-Protokolle sind zwar präzise und vollständig, jedoch nicht im Sinne der untersuchten Fragestellung spezifizierbar. Da zuviele und redundan­te Daten erhoben werden, bedürfen sie also einer aufwendigen Filterung, Um­formung und Interpretation, um der Be­antwortung konkreter Fragestellungen dienlich zu sein. Im Gegensatz zu Me­thoden, die die Nutzung per Bildschirm­Video aufzeichnen, schlagen sich Inter­aktionen der Nutzer mit der Nutzerober­fläche des Browsers in den Logdateien nicht nieder. Weiterhin können be­stimmte Nutzungsvorgänge, die auf der Ebene der Webpage stattfinden (zum Beispiel das Umformulieren von Such­begriffen ohne das Abschicken der An­frage) nicht erfaßt werden. Im Rahmen dieser Studie sind die Nachteile jedoch zu vernachlässigen, denn der Schwer­punkt liegt auf größeren Navigation- und Interaktions-Vorgängen: Wege, die die Nutzer in einer bestimmten Reihen­folge nahmen und Suchphrasen, die sie verwendet haben. Diese werden in den Logfiles ausreichend verzeichnet.

Es gibt auf dem Markt eine große Auswahl an Software, die aus Logdateien Maßzahlen ableitet und veranschaulicht. Diese Software ist meist an den Bedürf­nissen quantitativer Fragestellungen ori­entiert. Typische Fragen, die mit Hilfe solcher Software beantwortet werden können, wären zum Beispiel: Wie viele Objekte wurden im letzten Monat vom Webserver X abgerufen? Welche Wege nehmen Besucher einer Website im all­gemeinen? Von welchen anderen We­bangeboten haben Besucher auf die Website der Firma Y gefunden? Welche Suchworte haben die Besucher eingegeben, bevor sie mit einer Suchmaschine auf die Seiten des Webangebotes gelang­ten?

Für einen Versuchsaufbau wie in die­ser Studie sind diese Software-Pakete je­doch nicht brauchbar, orientieren sie sich doch an den Bedürfnissen von Web­site-Betreibern, die summierte Nut­zungsvorgänge untersuchen möchten, auf einer kleinen Zahl von Websites durch eine große Zahl von Besuchern. Detaillierte Nutzungsvorgänge einzelner Vpn bei einer großen, unkontrollierten Anzahl von Web-Angeboten können da­mit nicht sinnvoll analysiert werden. Aus diesem Grund mußten in dieser Studie die Logdateien für die intensive Beob­achtung einzelner Vpn mit speziell pro­grammierten Filtern umgeformt und in Handarbeit analysiert werden.

Als Programm, das die rohen Logda­teien anfertigte, wurde „WebWasher“ ausgewählt, eine für Privatanwender ko­stenlose Proxy-Software. Sie schaltet sich in den Datenstrom zwischen Web und Browser ein und filtert gewöhnlich Wer­bebanner, Pop-up-Fenster sowie Skripte aus Webseiten - für diesen Versuch wur­den die Haupt-Funktionen jedoch abge­schaltet.[24]

WebWasher liegt in einer stabilen Version vor, hat sich in anderen, ähnlich gelagerten Untersuchungen bewährt und das Format der Logdateien folgt einem offenen, dokumentierten Standard (Combined Log Format, CLF). Zur Filte­rung und Umwandlung der rohen Log­dateien setzte ich ein Programm ein, das nach meinen Vorgaben erstellt wurde.

4.1.2 Störfaktoren in Web-Experimenten

Versuche, die im World Wide Web durchgeführt werden, unterliegen eini­gen Störfaktoren, selbst wenn die techni- sehen Bedingungen des Zugriffes auf den ersten Bliek konstant erscheinen. Im vor­liegenden Fall waren zwar unter anderem die potentielle Bandbreite des Netzzu­ganges, die Gesehwindigkeit des zugrei­fenden PCs, Größe und Auflösung des Bildsehirmes, der Browser und die Um­gebung der Vpn standardisiert. Ein be­deutender Teil konnte jedoeh nieht so einfach kontrolliert werden: Die Beschaf­fenheit des Web selbst und die Umstände des Zugriffes darauf beeinflussen prinzi­piell die Güte der Daten, die mit einem Web-Experiment gewonnen werden können. Einige der Störgrößen sollen im folgenden kurz vorgestellt werden, um die Datenqualität einschätzen zu kön­nen.

Greift ein Nutzer auf ein Dokument im Web zu, so handelt die Netzwerk-In­frastruktur einen zeitweilig gültigen Weg für die Datenübertragung aus. Diese Fle­xibilität hilft dabei, eventuelle Störungen in Teilen des Netzes zu umgehen, schlägt sich aber in der Zugriffsgeschwindigkeit nieder. Betrachtet man die Zeitdauer von Nutzungsvorgängen in einemWebexper- iment unter einem Zeitlimit für die Vpn, so muß die hohe Variabilität der Zu­griffsgeschwindigkeiten bedacht wer­den: Von einer Sekunde auf die nächste kann der Zugriff sich verlangsamen oder wieder beschleunigen, je nach dem Zu­stand der Datenübertragungskette. Sprunghaft ansteigende Nutzerzahlen zu bestimmten Tageszeiten in bestimmten Zeitzonen, technische Pannen oder mut­willige Angriffe auf die Infrastruktur können spürbare Fluktuationen hervor­rufen oder im Extremfall die Nutzung ei­nes Angebotes komplett verhindern.

Dieser Faktor ist besonders schwer­wiegend, wenn eine bestimmte Website im Zentrum des Interesses steht und von den Vpn schwerpunktmäßig genutzt wird, in diesem Falle Altavista.de (siehe folgendes Kapitel). Die Vergleichbarkeit der unterschiedlichen Versuchstage un­tereinander ist also eingeschränkt.

Dokumente werden nicht nur unter veränderlichen Bedingungen übertra­gen, ihre Beziehung zueinander ist eben­falls ständig im Wandel. Die Dynamik äußert sich darin, daß von einem Mo­ment zum nächsten gleicheWege zum gleichen, einem unterschiedlichen Ziel oder in eine Sackgasse führen können. Dokumente werden absichtlich gelöscht oder durch einen Defekt unzugänglich, neue kommen hinzu. Dynamische, Da- tenbank-gestützte Websites schneiden Dokumente auf den Nutzer automatisch zu. Es ist daher nicht auszuschließen, daß die verschiedenen Vpn imVerlaufe des hier beschriebenen Versuches unter­schiedliche Rahmenbedingungen für die Nutzung vorgefunden haben.

Eine weitere Störgröße ist die Such­maschine selbst: Ihre innere Logik wird im Einflußfeld von Nutzeranforderun­gen, Betrugsabwehr, Dokumenten-Zu- wachs-Management, Werbeeignung und Konkurrenzdruck ständig modifiziert, und zwar uneinsehbar für den außenste­henden Beobachter. Daher kann nicht ausgeschlossen werden, daß den Vpn in verschiedenen Versuchs-Sitzungen qua­litativ und quantitativ unterschiedliche Ergebnislisten auf Basis unterschiedli­cher Indizes präsentiert wurden.

All diese Einschränkungen liegen in der Natur der Sache begründet: Das Web ähnelt in seiner komplexen Struktur ei­nem biologischen Organismus. Möchte man jedoch reale Nutzer in ihrer Interak­tion mit einem realen Suchdienst beob­achten, gibt es jedoch m. E. keine Alter­native zu einem Web-basierten Experiment, daher nahm ich die geschil­derten Nachteile in Kauf.

4.2 Auswahl und Hinter­grund des verwendeten Suchdienstes

4.2.1 Eine Suchmaschine, nicht viele

Die Entscheidung, nur einen Suchdienst - Altavista.de - zum Versuch zuzulassen, wurde nach gründlicher Abwägung der Vor- und Nachteile getroffen.

Unbestritten ist, daß die Auswahl ei­nes geeigneten Suchdienstes für eine be­stimmte Aufgabe zu den Kompetenzen gehört, die ein Web-Sucher einsetzen kann, um seiner Erfahrung nach die Effi­zienz des Rechercheprozesses zu steuern. Würde man den Vpn erlauben, eine be­liebige Suchmaschine für ihre Recherche auszuwählen, so könnte diese Wahl als Selektionshandlung mit in die Analyse aufgenommen werden. Im Rahmen die­ses Versuches wäre solch ein Vorgehen allerdings ungünstig: Während erfahre­ne Sucher ihr Vorwissen optimal aus­spielten, wären die unerfahrenen mit ei­ner zusätzlichen, potentiell überfordernden Einschätzung konfron­tiert.

Dazu kommt, daß beim angestrebten Umfang der Untersuchung die Interakti­on der einzelnen Sucher mit unter­schiedlichen und wechselnden Such­diensten ins Zentrum der Analyse gerückt wäre, anstelle der Beziehung zwischen genereller Suchmaschinener­fahrung und dem Sucherfolg, sowie dem Wege dorthin. Ich entschied mich daher gegen eine weitere Fragmentierung der Versuchsgruppen und für die Kontrolle des Suchdienstes. Die Variation findet sich innerhalb des Suchdienstes: Altavis­ta integriert verschiedene Interfaces und Zugriffsmöglichkeiten, unter anderem einen Verzeichnisdienst, der vom Kata­log Web.de bereitgestellt wird. Den Nut­zern stand es frei, aus diesen Möglichkei­ten eine Herangehensweise zu wählen.

Auf diese Weise wurden erfahrene Suchmaschinennutzer, die Altavista nicht kannten, zwar potentiell in der Re­cherche behindert; ich erwartete jedoch, daß sie diesen Nachteil aufgrund ihres Grundlagenwissens kompensieren konn­ten. Zugute kam ihnen, daß Altavista Konventionen folgt, die sich als de-facto- Standards etabliert haben. Nutzer mit wenig Erfahrung, die Altavista noch nicht kannten, standen vor einem größe­ren Problem, da ihnen unter Umständen der Hintergrund fehlte, um schnell mit einem unbekannten Suchdienst umge­hen zu können. Ihre Suchen würden da­her suboptimal ausfallen.

Zusammenfassend erwartete ich als Auswirkung der Beschränkung auf einen Suchdienst eine leichte Polarisierung der Suchergebnisse mit einer Tendenz zu­gunsten der erfahrenen Sucher.

4.2.2 Gründe für Altavista.de

Die Wahl fiel aus verschiedenen Grün­den auf die deutsche Website von Al­tavista.

Altavista besaß zum Zeitpunkt des Versuches den umfangreichsten Index auf dem deutschen Markt: Nach eigenen Angaben lag die Anzahl der indexierten Dokumente zum Zeitpunkt des Versu­ches bei 25 Mio.[25], mehr als dreimal so­viel wie beim nächsten Konkurrenten Fireball mit 8,2 Mio.[26]

Zwar waren die Nutzerzahlen in Page Impressions etwas geringer als die der IVW (Informationsgemeinschaft zur Feststellung der Verbreitung von Werbe­trägern e.V.)-gezählten Konkurrenten Fireball und Infoseek, Altavista kann je­doch ebenso als etabliertes deutsches Angebot gelten.[27]

[...]


[1] Daten aus der zehnten Welle der W3B- Umfrage von Fittkau und Maaß, Erhe­bungszeitraum: Anfang April bis Mitte Mai 2000, Stichprobe: ca. 30.000 Web­Nutzer, siehe Fittkau, Maaß 2000; „Demographie I"

[2] über 30.000 deutsche Befragte, Erhe­bungszeitraum vom April/Mai 2000, vgl. Fittkau, Maaß 2000a

[3] Datenbasis: geloggte Nutzung eines repräsentativen Samples von US-Nut- zern, die mindestens einmal im Monat auf das Web zugegriffen hatten, Media- metrix 2000, siehe die Grafik „Average Minutes Spent Per Usage Day”

[4] für Beispiele automatischer, Kontext­sensitiver Empfehlungsdienste siehe „Alexa", Online unter: http://www.alexa.com/support/ (am 24.7.2000), oder „Kenjin", Online unter: http://www.kenjin.com/kenjin/ info.html (am 24.7.2000)

[5] zum Beispiel Yahoo [Online unter http://www.yahoo.de (am 24.7.2000)] oder das Open Directory Project [Online unter: http://www.dmoz.org (am 24.7.2000)].

[6] Die folgenden Ausführungen basieren auf den Ausführungen von Seltzer, Ray, Ray 1997; 84ff. in bezug auf Altavista als stichwortbasierte Suchmaschine.

[7] Altavista Deutschland: mindestens 14- tägig, vgl. dazu die Pressemeldung, Online unter: http://www.vibrio.de/ service/altavist/texte/170400.htm (am 24.7.2000)

[8] z. B. präsentiert Altavista.de [Online unter: http://www.altavista.de (am 24.7.2000) ] Katalog-Ergebnisse von Web.de [Online unter: http:// www.web.de (am 24.7.2000)], Altavista.com [Online unter: http:// www.altavista.com (am 24.7.2000)] und Google [Online unter: http:// www.google.com (am 24.7.2000)] nutzt die Daten des Open Directory Project [Online unter: http://www.dmoz.org (am 24.7.2000)] und Namensdatenban­ken - Altavista zeigt Ergebnisse von RealNames [Online unter: http://www.realnames.com (am 24.7.2000)].

[9] Online unter: http://www.google.com (am 24.7.2000)

[10] Online unter: http://www.directhit.com (am 24.7.2000)

[11] Online unter: http://www.goto.com (am 24.7.2000)

[12] für einen Vergleich der Basisdaten verschiedener Studien siehe Jansen, Pooch 2000; „Table 1. Comparison of Web User Studies”

[13] eine Implementation dieser Techniken zeigen Simpli.com [Online unter: http:// www.simpli.com (am 24.7.2000) und Oingo (Online unter: http:// www.oingo.com (am 24.7.2000)]

[14] ein Beispiel dafür liefert Webtop [Online unter: http://www.webtop.com (am 24.7.2000)]

[15] z. B. Autonomy Kenjin [Online unter http://www.kenjin.com/kenj in/info.html (am 24.7.2000)]

[16] z. B. Guru.net [Online unter http:// www.guru.net/ (am 24.7.2000)]

[17] Zum Begriff der Option als Komponente von Entscheidungsproblemen siehe Jungermann, Pfister, Fischerl 998; 17f. „Anschlußoption" verwende ich hier, um der Dynamik in der Generierung von Optionen Rechnung zu tragen: Die Selektion einer Option bestimmt, wel­che weitere Untermenge an Optionen zur Verfügung stehen wird.

[18] 18. für genauere Angaben siehe die Hilfs­funktion von Altavista, „Spezielle Suchmöglichkeiten", Online unter: http://www.altavista.de/ doc/help/h_se_search_help_000.html (am 24.7.2000)

[19] für genauere Angaben siehe „Advanced Search", Online unter: http://hotbot.lycos.com (am 24.7.2000)

[20] z. B. in der Profi-Suche von Lycos, Online unter: http://www.lycos.de/help/ powerpanel.html (am 24.7.2000)

[21] vgl. die sog. „custom search folders" bei Northern Light. Online unter: http://www.northernlight.com/docs/ search_help_folders.html (am 24.7.2000)

[22] vgl. „ähnliche sites“ bei Excite [(Online unter: http://www.excite.de/info/ how_to.dcg#morelikethis (am 24.7.2000)] oder die „similar pages“ bei Google [Online unter: http://www.google.com/help.html#M (am 24.7.2000)].

[23] Im folgenden kürze ich das Wort „Ver­suchspersonen" mit „Vpn" ab, den Sin­gular mit „Vp".

[24] für detailliertere Informationen zu die­sem Produkt siehe die WebWasher- Homepage. Online unter: http:// www.webwasher.com/ (am 24.7.2000)

[25] siehe die betreffende Pressemitteilung, online unter: http://www.vibrio.de/ service/altavist/texte/170400.htm (am 24.7.2000)

[26] ebenfalls eine Selbstauskunft zum Stand im Januar 2000, Online unter: http://www.fireball.de/ technik.html (am 24.7.2000)

[27] in Forster 2000;16 wurden die IVW-Zah- len für den März 2000 festgehalten: Fire­ball mit ca. 56,7 Mio Page-Impressions, Infoseek mit 48,7 Page-Impressions, Altavista (nach Zählung des Betreibers) 45 Mio. Page-Impressions.

Ende der Leseprobe aus 71 Seiten

Details

Titel
Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web. Ein Experiment
Hochschule
Universität Münster  (Institut für Kommunikationswissenschaft)
Note
1,0
Autor
Jahr
2000
Seiten
71
Katalognummer
V27
ISBN (eBook)
9783638100144
Dateigröße
2317 KB
Sprache
Deutsch
Anmerkungen
Ein Labor-Experiment zum Suchverhalten erfahrener und unerfahrener Suchmaschinennutzer. Es kombiniert die verdeckte Beobachtung per Proxy-Logfile mit Fragebogenauswertungen.
Schlagworte
Suchmaschine, Suchmaschinen, Information Seeking, Online-Forschung, Nutzungsforschung, Nutzungsstudie, Nutzungsstudien, Selektion, Selektionsforschung, Logfile, Logfiles, Proxy-Logfile, Logfile-Analys
Arbeit zitieren
Sven Körber (Autor:in), 2000, Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web. Ein Experiment, München, GRIN Verlag, https://www.grin.com/document/27

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Suchmuster erfahrener und unerfahrener Suchmaschinennutzer im deutschsprachigen World Wide Web. Ein Experiment



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden