Dieses Buch liefert einen Beitrag zur Steigerung der Effizienz von Eye-Tracking als Methodik für die Usability-Evaluation durch die Entwicklung empirisch validierter Eye-Tracking-Parameter. Die statistische Analyse in dieser Studie wird durch das Mapping von objektiven Performanzdaten (Blickmuster) und subjektiven Nutzerdaten (aus Fragenbögen und Interviews) einer Testgruppe während der Interaktion mit einer Webapplikation realisiert. Insgesamt werden sechs Blickbewegungsparamter mit vier konkreten Nutzungsproblemen verknüpft und auf ihre Indikatorstärke hin überprüft. Die Ergebnisse zeigen, dass Eye-Tracking-Parameter prinzipiell das Potential haben, spezifische, subjektiv erlebte Nutzungsprobleme zu identifizieren. Für weiterführende Studien stellt dieses Buch eine Übersicht wichtiger Modelle von Nutzungsproblemen sowie einen Pool aus interpretierten Eye-Tracking-Parametern bereit. Darüber hinaus beschreibt dieses Buch ausführlich die Besonderheiten der Mensch-Computer-Interaktion, die Bedeutung und Durchführung der Evaluation von Usability sowie ein modernes, integratives Usability-Qualitätsmodell und charakterisiert die Besonderheiten der visuellen Wahrnehmung ebenso wie technische Aspekte der Erfassung von Blickbewegungen.
This book contributes to making eye tracking as a method for usability-evaluation more efficient by developing empirically validated eye-tracking-parameters. The statistical analysis in this study is based on mapping a test group´s subjective user data (via questionaires and interviews) on objective performance data (gaze-patterns) while interacting with a webapplication. Four specific problems which users face during computer interaction are mapped on six eye-tracking-parameters and tested for quality of problem indication. The findings of this study point out that eye-tracking-parameters do generally have the potential to indicate specific usage problems. This book also paves the way for future studies by giving both an overview of important models of usage problems and providing a pool of interpreted eye-tracking-parameters. Furthermore, this study provides a detailed description of the features of Human-Computer-Interaction, outlines the importance and procedure of evaluating usability and gives insight into a modern quality-model of usability, the features of visual perception and current eye-tracking-technology.
Inhaltsverzeichnis
1. Einleitung.
1.1 Motivation & Problemstellung.
1.2 Zielstellung.
1.3 Inhalt
Teil A – Theoretische Grundlagen.
2. Evaluation der Mensch-Computer-Interaktion.
2.1 Interaktion zwischen Mensch & Computer (MCI)
2.1.1 Menschliche Kommunikation/Interaktion.
2.1.2 MCI als ergonomische Disziplin.
2.1.3 Aufgabe-Benutzer-Computer-Relation in der MCI.
2.2 Usability.
2.2.1 Begriff und Qualitätsmodell
2.2.2 Usability-Evaluation.
2.2.3 Usability-Engineering.
3. Nutzungsprobleme in der MCI.
3.1 Nutzungsprobleme als Handlungsfehler
3.2 Nutzungsprobleme als Transformationsprobleme.
3.3 Nutzungsprobleme als Syntheseprobleme.
4. Charakteristika von Blickbewegungen.
4.1 Typen von Augenbewegungen.
4.2 Registrierung von Augenbewegungen.
4.3 Blickbewegungen und kognitive Prozesse.
4.3.1 Visuelle Aufmerksamkeit
4.3.2 Blickbewegungen und visuelle Aufmerksamkeit
4.3.3 Fixationen/Sakkaden und kognitive Prozesse.
5. Gaze-Tracking Parameter & Nutzungsprobleme.
5.1 Parameter-Pool
5.2 Gaze-Tracking Parameter zur Identifizierung von Nutzungsproblemen.
5.2.1 Erwartungsabweichung.
5.2.2 Nicht-Erkennen.
5.2.3 Nicht-Verstehen.
5.2.4 Schlechte Orientierung.
Teil B – Empirische Bearbeitung.
6. Methodik.
7. Messinstrumente.
7.1 Eye-Tracking-System..
7.2 Videokonfrontation.
7.3 Fragebögen.
8. Datenerhebung.
8.1 Testsetting.
8.2 Testapplikation.
8.3 Testpersonen (Stichprobe)
8.4 Vortests.
8.5 Versuchsablauf
8.5.1 Instruktion & Wiederholung.
8.5.2 Übung zur Kennzeichnung von Nutzungsproblemen.
8.5.3 Kalibrierung der Technik.
8.5.4 Aufgabenbearbeitung und Eye-Tracker
8.5.5 Videokonfrontation.
8.5.6 Fragebogen.
9. Hypothesen.
10. Ergebnisdarstellung.
10.1 Problemphase vs. Nicht-Problemphase.
10.1.1 PA Backtracks.
10.1.2 PA Suchzeit
10.1.3 PA Durchschn. Sakkadenweite.
10.1.4 PA Wiederkehrende semantische Fixationen.
10.1.5 PA Pfadlänge.
10.1.6 PA Übergangshäufigkeiten.
10.2 Zusammenhangsanalyse.
10.2.1 PA Backtracks / NP Erwartungsabweichung.
10.2.2 PA Suchzeit; PA Sakkadenweite / NP Nicht-Erkennen.
10.2.3 PA Wiederk. semantische Fixationen / NP Nicht-Verstehen.
10.2.4 PA Blickpfadlänge - Übergangshäufigkeit / NP Schl. Orientierung.
11. Diskussion.
11.1 Ergebnisse.
11.2 Methodische Aspekte.
11.2.1 Subjektive Daten aus Videokonfrontation.
11.2.2 Statistische Verfahren.
12. Schlussbetrachtung.
13. Glossar.
14. Abkürzungsverzeichnis.
15. Abbildungsverzeichnis.
16. Tabellenverzeichnis.
17. Literaturverzeichnis.
18. Anhang.
1. Einleitung
1.1 Motivation & Problemstellung
Usability steht für eine konsequente Ausrichtung und Anpassung von Softwareprodukten auf die Bedürfnisse, Probleme und Wünsche ihrer Zielanwender. Das Usability-Labor ermöglicht eine Überprüfung der Softwarequalität und bietet einen Einblick in den Praxisfall. In Nutzertests bearbeiten Testanwender prototypische Aufgaben der zu evaluierenden Software. Dabei können durch die Messtechnik im Labor objektive Verhaltensdaten der Testanwender aufgezeichnet, sowie deren subjektive Erfahrungen im Umgang mit der Testsoftware über verschiedene Befragungstechniken (Fragebögen, Interviews etc.) erfasst werden. Das erhobene Datenmaterial dient als Grundlage der Usability-Evaluation zur schrittweisen Optimierung der Software.
Durch den Fortschritt bei Mess- und Informationstechnik verfügen heutzutage immer mehr Usability-Labore über die Möglichkeit, eine große Menge objektiver Daten unterschiedlichen Typs aus Nutzertests zu erfassen. Mit einer entsprechenden Laborausstattung können z.B. Blickbewegungen, Klickverhalten, Mausverhalten, Tastaturevents und psychophysiologische Daten einer Nutzergruppe aufgezeichnet werden. Damit kann das Nutzerverhalten während eines Tests objektiviert werden, d.h. dieses kann direkt, ohne die Gefahr subjektiver Verzerrungen aufgezeichnet werden (Schiessl, Duda et al., 2003).
Die Laborpraxis zeigt jedoch, dass der Fülle objektiver Nutzerdaten eine verhältnismäßig kleine Menge an Interpretationsansätzen zur Auswertung gegenüber steht (Dzida 2004, zitiert nach Riebeck, 2006; S. 108). Einem Großteil der Daten fehlt es so an Bedeutungsgehalt und kann nicht effektiv für die Usability-Evaluation genutzt werden. Denn: Neben der aktuellen Gebrauchsqualität eines Produktes ist der Auftraggeber einer Usability-Evaluation meist noch stärker an konkreten Optimierungsmöglichkeiten interessiert. Schließlich soll eine Verbesserung der Usability die Kundenzufriedenheit und damit den Absatz des Produktes entscheidend verstärken. Demzufolge muss eine Software-Evaluation über die reine Datenbeschreibung, auf welche man beim Fehlen geeigneter Interpretationsansätze beschränkt wäre, hinausgehen, um konkrete Optimierungsmöglichkeiten eines Testsystems aufzuzeigen. Der Mangel fehlender Auswertungsstandards wiegt umso schwerer, wenn man in Betracht zieht, welch hoher Aufwand an Technik betrieben und wie viel Laborzeit investiert wird, um relativ wenige Usability-Probleme aus dem gewonnenen Datenmaterial zu extrahieren. In der Verwertung und Analyse von Messergebnissen scheint daher noch viel Potential zu liegen.
Diesen Mangel objektiver Messdaten zur Nutzung für die Usability-Evaluation bestätigt auch die Laborpraxis im Fraunhofer-Institut für Graphische Datenverarbeitung in Rostock (IGD-R). Das RealEYES-Testsystem, welches seit Ende der 90er Jahre am Fraunhofer IGD-R aufgebaut wird, ermöglicht insbesondere die Analyse objektiver Daten im Usability-Test. Das RealEYES-Testsystem ist Teil eines Konzeptes zur computerunterstützten Usability-Evaluation im Rahmen eines nutzerzentrierten Software-Entwicklungsprozesses. Das System stellt Werkzeuge zur Erhebung, Verarbeitung und Präsentation verschiedener Interaktionsdaten zur Verfügung (Oertel & Schultz, 2003). Damit können Resultate subjektiver Daten sinnvoll ergänzt und verifiziert werden. Testeraussagen können z.B. konkret überprüft und Indikatoren für bestimmte Usability-Probleme gefunden werden. So leistet das RealEYES-Testsystem auch einen wichtigen Beitrag zur Teil-Automatisierung von Evaluierungsprozessen. Wie die Systembezeichnung nahe legt, ist eine Hauptfunktion des RealEYES-Testsystems die Erfassung und Auswertung von Blickbewegungsdaten (Oertel & Schultz, 2003).
Blickbewegungsdaten scheinen generell geeignet zu sein, um das Interaktionverhalten eines Nutzers abzubilden. Nach Rötting (2001; S. 2) sind Augen– und Blickbewegungen Zeugen der menschlichen Aktivität; dies sowohl auf bewusster Ebene (bewusst regulierte Handlungen) sowie auf unbewusster Ebene (sensumotorische Automatismen). Für eine effiziente Nutzung dieser Verhaltensmuster zur Bestimmung der Gebrauchsqualität muss jedoch herausgefunden werden, wie das Datenmaterial mit Nutzungsproblemen, die der Nutzer während der Interaktion mit dem System erfährt (z.B. Verständnisprobleme bzgl. der Bedienelemente oder schlechte Orientierung), in Verbindung gebracht werden kann. Daraus können Interpretationsansätze abgeleitet werden, die es ermöglichen, konkrete Nutzungsprobleme mittels Blickbewegungsdaten zu identifizieren, Hinweise für deren Ursache zu erhalten und entsprechende Lösungsansätze zu entwickeln.
1.2 Zielstellung
Seit Anfang der 90er Jahre ist eine verstärkte Publikation – vor allem aus dem englischsprachigen Raum - von Eye-Tracking-Studien festzustellen, die sich auf die Suche nach aussagekräftigen Blickbewegungsparametern konzentrieren, die zur Überprüfung der Usability einer Software eingesetzt werden können (z.B. Yamamoto & Kuto, 1992; Goldberg & Kotval, 1998; 1999; Crowe & Narayanan, 2000; Cowen, 2001; Goldberg, Stimson et al., 2002). Einen wichtigen Baustein zum praktischen Einsatz der Blickbewegungsregistrierung liefert besonders Rötting (2001), indem er in Form einer ausführlichen Systematik eine Vielzahl von Eye-Tracking-Parameter definiert, operationalisiert sowie deren üblichen Wertebereiche angibt.
Beim Großteil der Studien zum Einsatz von Blickbewegungen für die Usability-Evaluation ist allerdings eines sehr auffällig: Es werden keine Aussagen über den Zusammenhang zwischen den in den Blickdaten zu findenden Interaktionsmustern und der subjektiv (durch die Nutzer selbst) erlebten Gebrauchsqualität getroffen. Diese Tatsache erscheint ein geeigneter Angriffspunkt dieser Arbeit zu sein, ausgehend von folgenden Überlegungen:
Usability als ergonomisches Konzept betont das Ziel, Computersysteme den menschlichen Fähigkeiten, Schwächen und Bedürfnissen einer bestimmten Nutzergruppe anzupassen (Bräutigam, 1998). Aus dieser Perspektive kann Usability als subjektives Qualitätsmaß begriffen werden. So sei die Zufriedenstellung der Benutzer letztlich darüber entscheidend, ob die Abweichung von einem spezifischen Usability-Kriterium (z.B. die ISO-Norm 9241-12 zur ergonomischen Darstellung von Informationen, siehe Abschnitt 2.2) innerhalb eines zu evaluierenden Systems als Usability-Problem zu werten ist oder nicht (DATech, 2004; S. 18). Über eine direkte Befragung von Nutzern lassen sich hauptsächlich Schlussfolgerungen über die Akzeptanz des Systems, den Grad der Zufriedenstellung und Problembereiche der Schnittstelle ziehen (Oppermann, 1988). Aus diesem Grund erscheint es zunächst sinnvoll, zur Identifizierung von Usability-Problemen die subjektiven Erfahrungen von Nutzern (subjektive Methoden) gegenüber mittels Messtechnik erfassten Verhaltensdaten zu bevorzugen (objektive Methoden).
Der in der modernen Usability-Forschung eingeschlagene Weg ist allerdings ein anderer. Objektive und subjektive Evaluationsmethoden stehen sich nicht konkurrierend gegenüber, sondern ergänzen sich gegenseitig. Durch diese als Mapping (Kawalek, 2003) bezeichnete Vorgehensweise der Verknüpfung subjektiver und objektiver Nutzerdaten, können die Nachteile beider Datenerhebungsmethoden kompensiert werden. In dieser Hinsicht machen Schweibenz und Thissen (2003) deutlich, dass „(…) zwischen dem, was Testpersonen sagen, und dem, wie sie sich tatsächlich verhalten, ein gravierender Unterschied bestehen kann“ (S. 77).
Diese Beobachtung zeigt, dass es sehr schwer ist, allein von Testeraussagen auf tatsächliche Nutzungsprobleme zu schließen. Das grundsätzliche Problem subjektiver Daten setzt sich aus zwei Teilen zusammen. Zum einen kann ein Teil des Verhaltens, das eine Person während der Interaktion mit einem Computersystem vollzieht, von dieser nicht bewusst verarbeitet und damit nicht verbalisiert werden, was vor allem für Augen- und Blickbewegungen gilt (Rötting, 2001; S. 4). Zum anderen muss immer damit gerechnet werden, dass Testeraussagen Verzerrungseffekte beinhalten. So sind z.B. die Antworten eines Testers von seinen Vermutungen über das Untersuchungsziel geleitet und entsprechen nicht seinen eigentlichen Erfahrungen (Sponsorship-Bias) (Bortz & Döring, 2002).
Im Gegensatz dazu schließen objektive Daten wie Blickbewegungen oder Logfiles (Maus- und Tastaturevents) subjektive Einflüsse aus und bilden das Interaktionsverhalten des Nutzers direkt ab. Der bereits erwähnte Nachteil besteht nun darin, dass der Bedeutungsinhalt der Daten nicht erfasst wird. Dieser gravierende Mangel kann allerdings durch die Kombination mit dazugehörigen subjektiven Daten ausgeglichen werden (Witt, 2001). Schon 1994 forderten Oppermann und Reiterer daher die Kombination software-ergonomischer Evaluierungsmethoden, um ganzheitliche Qualitätsurteile über eine Benutzungsschnittstelle zu erhalten. Diese Forderung motiviert besonders die Verknüpfung von subjektiven und objektiven Daten zur Evaluation einer Benutzungsschnittstelle.
Als Konsequenz der vorausgegangenen Überlegungen ergibt sich für die vorliegende Arbeit die Aufgabe, den Zusammenhang zwischen Eye-Tracking-Daten und subjektiv erlebten Nutzungsproblemen einer Testergruppe zu untersuchen, um auf diesem Weg einen Beitrag zur Validierung von Eye-Tracking-Daten zum effizienteren Einsatz in der Usability-Evaluation zu leisten.
1.3 Inhalt
Die Arbeit untereilt sich in einen Theorieteil A (Kap. 2-5) und einen empirischen Teil B (Kap. 6-11). Im theoretischen Teil werden die wichtigsten wissenschaftlichen Aspekte zur Mensch-Computer-Interaktion, zur Usability-Evaluation, zur Konzeptualisierung von Nutzungsproblemen und zur Anwendung von Eye-Tracking (-Parametern) umfassend erörtert. Diese münden im empirischen Teil in eine statistische Analyse des Zusammenhangs zwischen objektiven Blickbewegungsdaten und subjektiv erlebten Nutzungsproblemen.
Ausgehend von der Charakterisierung menschlicher Kommunikation werden im Kapitel 2 zum einen die Besonderheiten und Beziehungen in der Interaktion zwischen Mensch und Computer dargestellt. Zum anderen soll die Bedeutung und Durchführung von Usability-Evaluationsprozessen für die Softwareentwicklung aufgezeigt werden. Dabei wird im Besonderen ein spezielles Usability-Qualitätsmodell vorgestellt, welches die Grundlage eines modularen Vorgehens zur Überprüfung und Sicherung von Usability bildet. Hier wird auch die Nutzung von Eye-Tracking für die Usability-Evaluation anderen wichtigen Methoden gegenübergestellt. Das dritte Kapitel stellt drei unterschiedliche Konzepte zur Beschreibung von Nutzungsproblemen vor, wovon sich eines speziell auf Eye-Tracking-Parameter bezieht. Kapitel 4 beschreibt die wichtigsten Eigenschaften von Blickbewegungen und der visuellen Wahrnehmung im Hinblick auf deren Nutzen für die Identifizierung von Nutzungsproblemen. Im fünften und letzten Kapitel wird der erstellte Pool an Eye-Tracking-Parametern vorgestellt, woraus ausgewählte Parameter konkreten Nutzungsproblemen zugeordnet werden.
Im Empirie-Teil werden das methodische Vorgehen und die Ergebnisse der statistischen Überprüfung des Zusammenhangs zwischen sechs ausgewählten Parametern und vier konkreten Nutzungsproblemen ausführlich erörtert.
Teil A – Theoretische Grundlagen
2. Evaluation der Mensch-Computer-Interaktion
2.1 Interaktion zwischen Mensch & Computer (MCI)
Die Interaktion zwischen Mensch und Computer kann in erster Linie durch den Austausch von Informationen charakterisiert werden. Auf diesen Informationsaustausch ist ein Computernutzer angewiesen, will er seine intendierten Ziele (bestimmte Aufgaben) im Computersystem erreichen. So werden Mensch und Computer als informationsverarbeitende Systeme betrachtet, die sich aber in grundlegenden Aspekten der Informationsverarbeitung unterscheiden. Die Interaktion zwischen Mensch und Computer wird über eine entsprechende Schnittstelle realisiert, welche unter Berücksichtigung zentraler System-, Aufgaben- und Benutzermerkmale gestaltet ist (User Interface Design) (Cooper & Robert, 2003).
Eine derartige Beschreibung der Mensch-Computer-Interaktion (MCI) referiert vornehmlich auf ihre Funktion zur Unterstützung von zweckbestimmten Arbeitstätigkeiten. Daneben finden sich auch zweckfreie Tätigkeiten wie Computerspiele als weitere Haupt-Kategorie der MCI. Diese Studie konzentriert sich ausschließlich auf erstere Funktion.
2.1.1 Menschliche Kommunikation/Interaktion
Generell gilt die Kommunikation zwischen Menschen als Vorbild und Orientierung für die Mensch-Computer-Interaktion (Hüwel, 2001). Die Erforschung der zwischenmenschlichen Kommunikation1 stellt eine Reihe unterschiedlicher Kommunikationsmodelle zur Verfügung, welche geeignet sind, zur Charakterisierung der Mensch-Computer-Interaktion beizutragen.
Einer der frühesten Beiträge stammt von Shannon & Weaver (1949). Das Informations-Transformationsmodell stellt den technischen Aspekt der Kommunikation in den Vordergrund und legte auch den Grundstein für die heute geläufige sprachliche Orientierung, bei der Betrachtung kommunikativer Prozesse von Kommunikationskanälen zu sprechen (Kanalmetapher). Über einen Kanal2 würden verschiedenartige Informationen (z.B. verbal vs. non-verbal oder verschiedene Sinnesmodalitäten wie Sehen, Hören etc.) ausgetauscht.
Das Informations-Transfomationsmodell von Shannon & Weaver erweist sich nun allerdings zur Erklärung menschlicher Kommunikation als denkbar ungeeignet. Dies liegt im Wesentlichen in der Tatsache begründet, dass das Modell gemäß der zugrunde liegenden Informationstheorie Bedeutungsinhalte als Bestandteile einer Information ausklammert. So werden semantische Differenzen (Bedeutungsunterschiede) zwischen Sender und Empfänger im Modell nicht erfasst. Das Phänomen der Kommunikation hängt jedoch nicht von dem ab, was an Informationen übermittelt wird, sondern von dem, was im Empfänger geschieht. Die Frage ist, ob der Empfänger etwas mit der empfangenen Information anfangen kann, ob er über die notwendigen Kompetenzen verfügt, die Information zu dekodieren, zu entschlüsseln. Neben der syntaktischen Ebene, die im Transformationsmodell betrachtet wird, muss demnach auch die semantische Ebene der Kommunikation als potentiell störanfällig erachtet werden (Sperka, 1996). Die Beachtung der semantischen Ebene fordert die Erweiterung des bisherigen Kommunikationsmodells durch ein Kompetenzmodell, welches die Kodierung und Dekodierung von Bedeutungssequenzen ins Zentrum stellt.
Im so genannten klassischen Kommunikationsmodell (Herrmann, 1994) wird das Transformationsmodell durch ein semantisches Code-Konzept erweitert (siehe Abb. 2-1). Sender und Empfänger verfügen über einen Vorrat an Bedeutungen und Zeichen, durch deren geregelte Verknüpfung eine Verständigung möglich wird. Dabei läuft eine versendete Nachricht auch immer Gefahr, auf ihrem Weg vom Sender zum Empfänger durch (technische) Störquellen verfälscht zu werden. Viel wesentlicher ist aber die Tatsache, dass für eine erfolgreiche Kommunikation beide am Signalaustausch beteiligten Personen über denselben Bedeutungs- bzw. Zeichenvorrat verfügen müssen. Das klassische Kommunikationsmodell postuliert also einen spiegelbildlichen Prozesscharakter der Kommunikation. Kommunikationsstörungen sind in diesem Modell als Kompetenzdefizite in der Kodierung bzw. Dekodierung von Sender und Empfänger definiert.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-1: Das klassische Kommunikationsmodell (Herrmann, 1992; S. 317)
In der Mensch-Computer-Interaktion kann es ebenfalls zu Störungen auf der Bedeutungsebene (Verständnisprobleme) z.B. bei der Verwendung von bildlichen Zeichen kommen (Icons, Piktogramme). Für den Benutzer ist es wichtig, dass er die Bedeutung des Icons allein aus dem Bild heraus versteht (Prinzip Function Follows Form). Kann er die vom System in Form einer Grafik enkodierte (verschlüsselte) Information nicht dekodieren, so ergibt diese für ihn keinen Sinn und die Kommunikation ist gestört (Dahm, 2006).
Eine Verknüpfung der beiden bisher angesprochenen Ebenen (syntaktisch vs. semantisch) gelingt für die MCI nun unter der Betrachtung des linguistischen Modells von Marcus & van Dam (1991). Gleichzeitig liefert das Modell eine Unterscheidung zwischen Interaktion und Kommunikation. In Bezug auf die graphische Benutzungsoberfläche eines Computerprogramms definiert die Syntax die Art der Gestaltung von Daten, z.B. deren Farbe oder Größe, das Informationsdesign des User-Interface. Die Kommunikation zwischen Benutzer und System auf der reinen Formebene entspricht nach dem linguistischen Modell der Interaktion. Auf Basis der Syntax kann der Benutzer die Daten zu Informationen transformieren, den Daten also eine Bedeutung geben. Die Kommunikation zwischen Benutzer und System auf der Bedeutungsebene wird als Dialog bezeichnet Aus diesen Definitionen geht hervor, dass die Interaktion immer implizit im Dialog vorhanden ist. Ohne Syntax ist auch keine semantische Verarbeitung möglich (Schimpfky, 2003; S. 7).
Neben der syntaktischen (Zeichen und Regeln) und semantischen Ebene (Bedeutung der Zeichen) spielt in der menschlichen Kommunikation noch eine dritte, die pragmatische Ebene eine Rolle. Die Pragmatik ist die Ebene des sprachlichen Handelns, welche unverzichtbar für eine erfolgreiche Kommunikation ist. Auf ihr können Fehler und Probleme, die in der syntaktischen oder semantischen Ebene entstehen, behoben werden. Einfach gesagt: Wenn man seinen Gesprächspartner nicht verstanden hat, fragt man nach. Auch hier lässt sich eine Brücke zur MCI schlagen. Anwendungsprogramme müssen auf das menschliche Verhalten des Nachfragens hin angelegt und programmiert sein, um die Lösung von Kommunikationsproblemen zu ermöglichen. Aufgrund des hohen Aufwands zur Klärung von Missverständnissen ist es optimal, Probleme durch geeignete Software-Dialoge erst gar nicht entstehen zu lassen. Damit sind software-ergonomische Anforderungen3 wie Feedback oder die Selbstbeschreibungsfähigkeit seitens des Systems angesprochen. Wie beim so genannten Paraphrasieren in der zwischenmenschlichen Kommunikation, wo ein Partner dem anderen zur Absicherung dessen Äußerungen in einer Frage zusammengefasst wiedergibt, fragt das System über ein Dialogfenster ab, ob der Nutzer die angestoßene Aktion, etwa das Löschen einer Datei, wirklich ausführen will. Durch diese Systemnachfrage können eventuelle Verluste wichtiger Daten verhindert werden (Dahm, 2006).
2.1.2 MCI als ergonomische Disziplin
Die Mensch-Computer-Interaktion lässt sich als eine ergonomische Disziplin verstehen. So dominierte im deutschen Sprachgebrauch bis in die 80er Jahre hinein der Begriff Software-Ergonomie gegenüber dem umfassenderen Begriff Mensch-Computer-Interaktion (Hüwel, 2001). Die Mensch-Computer-Interaktion ist wie die Ergonomie4 einem allgemeineren Ziel untergeordnet: Die Gestaltung menschlicher Tätigkeiten und die Anpassung der Arbeitsbedingungen an die Bedürfnisse und Fähigkeiten des Menschen.
Zu den Arbeitsbedingungen gehören die Arbeitsmittel einschließlich der Werkzeuge, die Aufgaben, die Qualifikationen der Benutzer, insbesondere Benutzerwissen, organisatorische und andere Rahmenbedingungen wie Unterstützung der Benutzer, Möglichkeiten der Kooperation, Selbständigkeit oder Entscheidungsfreiheit bei der Aufgabenbearbeitung sowie Qualifikationsmöglichkeiten (Wandmacher, 1993).
In der Mensch-Computer-Interaktion als wissenschaftliche Disziplin geht es im Speziellen um die Optimierung des Zusammenspiels aller Komponenten, die die Arbeitssituation von Computernutzern ausmachen: Mensch, Aufgabe, Technik und organisatorischer Rahmen. Damit erfüllt die MCI die Forderung nach einer ganzheitlichen Betrachtung menschlicher Interaktion. Sie ist keineswegs – wie oft fälschlich angenommen – auf die Analyse graphischer Benutzungsoberflächen beschränkt. Ziel ist es vielmehr, die Eigenschaften z.B. einer Software an die psychischen Dispositionen (z.B. Persönlichkeit) und physischen Vorlieben und Gewohnheiten einer speziellen Benutzergruppe (=Zielgruppe) anzupassen.
Im Mittelpunkt stehen demnach zum einen deren kognitive und sensumotorische Fähigkeiten, d.h. die Stärken und Schwächen menschlicher Informationsverarbeitung (z.B. hoch entwickelte Wahrnehmungsfähigkeiten vs. Eingeschränktheit des menschlichen Bewusstseins). Zum anderen müssen als Einflussgrößen auf die Interaktionsqualität mit einem Computer kognitive, soziale und emotionale Bedürfnisse der Benutzer berücksichtigt werden; z.B. das Bedürfnis, effektiv und effizient arbeiten zu wollen, erworbenes Wissen und Fertigkeiten einzusetzen sowie das Bedürfnis nach Kooperation und nach Austausch mit anderen Personen in belastenden Situationen (Bräutigam, 1998).
2.1.3 Aufgabe-Benutzer-Computer-Relation in der MCI
Zur Charakterisierung der Beziehungen zwischen den Variablen der MCI eignet sich das A-B-C-Modell von Oppermann und Reiterer (1994).5 Das Modell (siehe Abb. 2-2) wird als ganzheitlich bezeichnet, da es alle für software-ergonomische Fragestellungen relevanten Elemente und Beziehungen umfasst. Mit dem Verhältnis Benutzer-Aufgabe (1) werden human- und arbeitswissenschaftliche Aspekte der Aufgabengestaltung6 thematisiert.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-2: A-B-C-Modell von Oppermann & Reiterer (in Anlehnung an Oppermann & Reiterer, 1994; S. 337). Das Modell bildet alle für software-ergonomische Fragestellungen relevanten Elemente und Beziehungen ab und ist Grundlage einer ganzheitlichen Betrachtungsweise der MCI.
Die Benutzer-Computer-Relation (2) bezieht sich auf die Qualität der Benutzerunterstützung des Anwenders durch den Computer (Benutzbarkeit), während die Beziehung zwischen Computer und Aufgabe (3) Fragen der Unterstützung des Nutzers durch den Computer bei der Aufgabenbewältigung (Funktionalität) behandelt. Diese Relationen sind von Kontextfaktoren beeinflusst. Diese sind sowohl physischer (Zeit, Ort, Raum) als auch psychosozialer (Organisationsstruktur, Einzel vs. Gruppenarbeit) Natur (Oppermann & Reiterer, 1994). Zwischen den Elementen Aufgabe, Benutzer und Computer können folgende Beziehungen näher beschrieben werden:
Aufgaben-Benutzer-Relation
Durch die Art, wie die Beziehung zwischen Benutzer und Aufgabe7 gestaltet ist, entscheidet sich, inwieweit der Benutzer in der Lage ist, die ihm übertragenen Aufgaben zu erfüllen und ob er diese als belastend erlebt. Vor allem die Arbeits- und Humanwissenschaften haben für diesen Bereich eine Reihe von Kriterien festgelegt, die die ergonomische Qualität der Aufgabenbewältigung bestimmt. Als wichtigste Faktoren sind zu nennen: Persönlichkeitsförderlichkeit, Selbstkontrolle, Kommunikationsförderlichkeit, Transparenz der Aufgabenstruktur, Rückmeldung über Aufgabenerfüllung und Ganzheitlichkeit der Aufgabe (ausführlicher siehe z.B. Ulich, 1998). Die Gestaltung des physischen und psychosozialen Kontextes wird durch die Aufgaben-Benutzer-Beziehung ebenfalls erfasst (Oppermann & Reiterer, 1994).
Benutzer-Computer-Relation
Die Beziehung zwischen Benutzer und Computer ist der unmittelbare Gegenstand der Mensch-Computer-Interaktion. Prinzipien menschlicher Aktivitäten und Informationsverarbeitung (Wahrnehmung, Gedächtnis, Emotionen, Motivation und Handeln) werden mit Aspekten der technologischen Informationsverarbeitung (Algorithmen, formale Logik) konfrontiert. Aus dieser Konfrontation lässt sich die ergonomische Gebrauchsqualität (Usability) ableiten. Diese ist - vereinfacht ausgedrückt - umso höher, je geringer der Interaktionsaufwand für den Nutzer bei der Bedienung des Computersystems ist8. Der Interaktionsaufwand bestimmt sich etwa darin, welchen Anpassungsgrad das System dem Nutzer abverlangt oder welchen Lernaufwand der Nutzer zur Bedienung des Systems aufbringen muss. In der Benutzer-Computer-Relation kommt also zum Ausdruck, inwiefern der Benutzer durch die Schnittstelle (User Interface) in seinem Ziel, eine bestimmte Aufgabe auszuführen, unterstützt wird, oder ob die periphere Aufgabe (Computerbenutzung), in der Interaktion überwiegt (Oppermann & Reiterer, 1994). Der damit angesprochene Konflikt zwischen der Usability eines Computersystems und dessen durch den Funktionsumfang bedingte Komplexität stellt die Herausforderung für User Interface Designer dar (Cooper, 2004). Dabei geht es um die Frage, welche Anzahl an Einzelfunktionen für eine Aufgabe im Hinblick auf die davon beeinflusste Benutzungsqualität noch angemessen ist.
Computer-Aufgaben-Relation
In dieser Dimension wird ein sehr wichtiger Aspekt deutlich. Jenseits ergonomischer Überlegungen zur Qualität eines Computersystems, kommt diesem ein grundsätzlicher Auftrag zu: Funktionalität. Es gilt immer zu prüfen, inwieweit das System die vorgegebenen Aufgaben tatsächlich mit hinreichender Genauigkeit und Vollständigkeit unter Verwendung der bereitgestellten Funktionen lösen kann (Oppermann & Reiterer, 1994). Die Funktionalität (functionality) ist damit eine zentrale Einflussgröße auf die Gebrauchstauglichkeit (Usability) einer Computerapplikation (Schweibenz & Thissen, 2003). Daher muss im Vorfeld einer Usability-Evaluation geprüft werden, inwieweit das System die spezifischen Funktionsanforderungen überhaupt erfüllt.
2.2 Usability
In den vorherigen Abschnitten wurde deutlich gemacht, welche Prozessebenen in der Interaktion zwischen Mensch und Computer grundsätzlich betrachtet werden können und welche Elemente (Aufgabe, Benutzer, Computer) dabei in Beziehung zu setzen sind.
Um die Benutzungsschnittstelle in Bezug auf die Bedürfnisse und Fähigkeiten des Menschen optimieren zu können, was erklärtes Ziel einer ergonomischen Interaktionsgestaltung ist, müssen die Produkte der Interaktion zwischen Mensch und Computer als messbare Größen erfasst werden. In den folgenden Abschnitten sollen daher die Begriffe Usability, Usability-Evaluation und Usability-Engineering erörtert werden.
2.2.1 Begriff und Qualitätsmodell
Begriffsbestimmung
Der Begriff Usability kennzeichnet die Nutzungsqualität von Software. Neben software-ergonomischen Merkmalen sind in dieser Bewertung auch rein software-technische Merkmale (Funktionalität) eingeschlossen, vorausgesetzt diese haben Auswirkungen auf die Softwarenutzung. Es steht folglich nicht die technische Güte im Vordergrund, sondern die Nutzungsqualität ergibt sich daraus, wie gut das Softwareprodukt den Nutzer beim Erreichen seiner Ziele unterstützt (DATech, 2004).
Die Bezeichnung Usability geht auf die internationale Norm ISO 92419 zurück, die in einem 17-teiligen Katalog ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten festlegt. Die Teile 2, 3, 8 sowie 10-17 können dabei für software-ergonomische Belange verwendet werden (siehe Abb. 2-3). Teil 11 der ISO 9241 Anforderungen an die Gebrauchstauglichkeit definiert Usability (in der deutschen Übersetzung Gebrauchstauglichkeit genannt) als Qualitätsfaktor von Software-Produkten:
Gebrauchstauglichkeit: Das Ausmaß, in dem ein Produkt durch bestimmte Benutzer in einem bestimmten Nutzungskontext10 genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufriedenstellend zu erreichen (DIN EN ISO 9241-10, 1998; S. 4).
Effektivität meint dabei die Genauigkeit und Vollständigkeit, mit der ein Computerbenutzer sein Ziel erreichen kann. Der damit ins Verhältnis gesetzte Aufwand bestimmt die Effizienz. Zufriedenheit definiert sich über das Fehlen von Beeinträchtigungen und einer positiven Einstellung gegenüber der Produktnutzung. Dabei werden diese Faktoren der Gebrauchstauglichkeit an den Eigenschaften der Benutzer, deren Zielen, Aufgaben, Ausrüstung (Hardware, Software und Materialien) sowie an der psychischen und sozialen Umgebung relativiert (DIN EN ISO 9241-11, 1998). Entscheidend für das Verständnis von Usability ist der Bezug auf einen Nutzer, der in einem spezifischen Nutzungskontext mit dem System interagiert. Denn „the usability of a product is not an attribute of the product alone, it is an attribute of interaction with a product in a context of use” (Karat, 1997; S. 692).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-3: Software-ergonomische Teile der Norm ISO 9241. Prinzipielle Anforderungen: Teile 10-12, spezielle Anforderungen: Teile 13 -17. Zusätzliche Anforderungen: Teile 2, 3 und 8 (in Anlehnung an Dzida, 1994; S. 381).
Die Effektivität der Computernutzung kann in einem Usability-Test auf Basis objektiver Nutzugsdaten (z.B. Zeit zur Aufgabenbearbeitung) erfasst werden. Dagegen sind Maße für Effizienz zusätzlich und Zufriedenstellung ausschließlich über subjektive Daten zu erreichen, z.B. über Testerkommentare während oder nach der System-Interaktion in Form von Interviews oder Fragebögen.
Im Umgang mit Fragestellungen zur Usability eines Computer-Interfaces wird mehrheitlich auf obige Minimaldefinition verwiesen. Dies auch im Kontext neuerer Bereiche der MCI wie etwa die Usability von Intnet-Applikationen:
Ein Web-Angebot mit einer hohen Usability erlaubt dem Besucher einen erwartungskonformen und transparenten Informationszugang, so dass eine effektive, effiziente und subjektiv zufriedenstellende Suche nach Informationen und Produkten, sowie ggf. die Durchführung von Transaktionen möglich ist (Yom & Wilhelm, 2004a; S. 19).
Neben den allgemeinen Usability-Maßen Effizienz, Effektivität und Zufriedenstellung werden im Teil 10 (Dialoggrundsätze) und 12 (Informationsdarstellung) grundsätzliche Gestaltungsprinzipien für ein gebrauchstaugliches User Interface spezifiziert. In den Teilen 13 -17 werden vertiefend Kriterien für spezielle Dialogtechniken definiert. Zusätzlich können aus den Teilen 3 (visuelle Anzeigen) und 8 (Farbdarstellungen) weitere Anforderungen einer graphischen Benutzungsschnittstelle abgeleitet werden. Teil 2 (Anforderung an die Aufgabe) der ISO 9241 liefert Qualitätskriterien für die Aufgaben-Benutzer-Relation (siehe Abschnitt 2.1.3), indem Aufgabencharakteristika wie Anforderungsvielfalt und Rückmeldungen über die Aufgabenerfüllung gefordert werden. Die Berücksichtigung der ISO 9241-Teil 2 wird einer ganzheitlichen Betrachtungsweise der MCI gerecht (siehe Abb. 2-2).
Neben Gebrauchstauglichkeit findet man in der Literatur häufig auch den Begriff Benutzbarkeit. Dieser geht auf die internationale Norm ISO 912611 zurück. Die Norm definiert Qualitätskriterien von Software-Produkten und stellt dem Software-Entwickler einen entsprechenden Anwendungsleitfaden zur Verfügung. Nach ISO 9126/DIN 66272 ist Benutzbarkeit wie folgt definiert:
Benutzbarkeit: Eine Menge von Merkmalen, die sich beziehen auf (a) den Aufwand, der zur Benutzung erforderlich ist und (b) die individuelle Bewertung einer solchen Benutzung durch eine festgelegte oder vorausgesetzte Gruppe von Benutzern (DIN 66272, 1994).
Benutzbarkeit ist dabei eine von sechs gleichwertigen Software-Qualitätseigenschaften. Zusätzlich werden in der Norm benannt: Funktionalität (functionality), Zuverlässigkeit (reliability), Effizienz (efficiency), Änderbarkeit (maintainability) und Übertragbarkeit (portability). Im Gegensatz zur ISO 9241 werden diese Gestaltungsanforderungen nicht auf der Ebene konkreter Kenngrößen vertiefend beschrieben, so dass ein Einsatz zur praktischen Umsetzung software-ergonomischer Belange schwierig ist. Das gebrauchsbezogene Qualitätsverständnis, welches sich in den sechs Kriterien der ISO 9126 wiederfindet, motiviert die Bezeichnung Gebrauchsqualität (quality in use) (Bevan, 1997, zitiert nach Oertel, 2003)12.
Dzida (2001) schlägt eine begriffliche Differenzierung zwischen Gebrauchstauglichkeit und Benutzbarkeit vor. Letztere definiert sich dabei eher über eine Merkmalssicht. Benutzbarkeit umfasst danach die Produktmerkmale, welche zu einer einfacheren Benutzung führen. Jene Produktattribute sind weniger kontextabhängig und können vom Software-Hersteller mit Blick auf eine Benutzerzielgruppe entwickelt werden. Im Sinne der ISO 9241-11 definiert sich Gebrauchstauglichkeit über eine Nutzungssicht: der effektive, effiziente und zufrieden stellende Gebrauch einer Software gemäß den Erfordernissen des Nutzungskontexts.
In vielen meist journalistischen Beiträgen zum Thema Usability findet sich der Begriff Benutzerfreundlichkeit wieder. Aufgrund einer fehlenden konzeptionellen Verankerung und einer doch inflationären Verwendung dieses Begriffs, scheint es nicht angemessen zu sein, Usability mit Benutzerfreundlichkeit zu „übersetzen“.
Normen, Styleguides und Heuristiken
Neben den bisher genannten Usability-Normen existieren noch weitere Regelwerke, die software-ergonomische Anforderungen beinhalten (siehe Abb. 2-4). Unter dem Begriff Regelwerk sollen dabei Normen (international und national) sowie herstellerspezifische und produktspezifische Richtlinien, so genannte Styleguides zusammengefasst sein. Styleguides stellen eine Ergänzung der eher allgemein gehaltenen Normen dar und beinhalten meist konkrete Gestaltungsvorschriften (operationale Hinweise).
Styleguides regeln z.B.:
≡ Design und Anordnung einzelner Interaktionselemente
≡ Verwendung von Begriffen und bildhaften Beschreibungen
≡ Ablauf einzelner Dialogschritte
≡ Aufteilung von Inhalt, Gestaltung und Funktionalität (z.B. bei Websites)
Es ist festzustellen, dass es teils große Überschneidungen zwischen einschlägigen Normen und herstellerspezifischen Styleguides gibt. Dies unterstreicht die Bedeutung der Normentexte für die Praxis. Oberstes Ziel bei der Erstellung eines Styleguides ist, mit dessen Verwendung die Konsistenz einer zu entwickelnden komplexen Anwendung oder Website zu sichern. Um dies zu erreichen, müssen alle Beteiligten (Designer, Programmierer, Marketing etc.) des Softwareentwicklungsprozesses den festgelegten Styleguide kennen und anwenden. Die bekanntesten Styleguides stammen von großen Software-Anbietern wie Apple, Microsoft, SAP oder Sun. Daneben finden sich als Reaktion auf die rasanten Entwicklungen im Internetsektor vermehrt Styleguides für Webapplikationen und Internetpräsenzen (Dahm, 2006).
Unter einer Usability-Heuristik13 ist eine Sammlung an Gestaltungsprinzipien zu verstehen, die weniger theoretisch begründet als vielmehr auf langjähriger Erfahrung bekannter Fachleute gegründet ist. Heuristiken beinhalten im Wesentlichen operationale Anfor-derungen, d.h. die in einer Heuristik aufgestellten Prinzipien können direkt bei der Gestaltung angewandt oder bei einer Bewertung abgeprüft werden. Die beiden bekanntesten Usability-Heuristiken stammen von Ben Shneiderman und Jakob Nielsen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-4: Auswahl an wichtigen software-ergonomischen Regelwerken, unterteilt in nationale/internationale Normen, hersteller- und produktspezifische Styleguides sowie Heuristiken bekannter Usability-Fachleute (in Anlehnung an Dahm, 2006; Kap. 7 & 8).
Usability-Qualitäts-Modell
Durch die zahlreichen Zugänge zum Verständnis des Usability-Begriffs und dessen unterschiedlicher Operationalisierung ergibt sich ein Problem. Es mangelt an verständlichen und hinreichend spezifizierten Komponenten von Usability. Dies hat zur Folge, dass die Zielgrößen für den Entwicklungs- und Bewertungsprozess von Usability nicht eindeutig gegeben sind (Zuordnungsproblem). Zudem wird dadurch die Kommunikation unter den Beteiligten eines Softwareentwicklungsprozesses (z.B. UI-Designer und Programmierer) erschwert (Verständnisproblem) (Oertel, 2004).
Einen Lösungsansatz hierfür bietet das Modulare Vorgehensmodell für die Usability Evaluation (MOVE) nach Oertel (2003; 2004). Durch das darin enthaltene Usability-Qualitätsmodell wird zum einen das Verständnisproblem gelöst, indem in einer Sicht alle Usability-Aspekte untergebracht sind, wodurch diese auf ihre Schnittmengen hin überprüft werden können, und zum anderen das Zuordnungsproblem, indem aufgezeigt wird, durch welche Indikatoren welche Usability-Merkmale bestimmt sind. Das Modell schlägt auf Grundlage einer Analyse zahlreicher Regelwerke folgende Hauptmerkmale der Usability-Qualität für interaktive Systeme vor (Oertel, 2004; S. 303):
≡ Anwenderunterstützung: Qualität der Auswirkung des Systemverhaltens auf den Zielanwender bzw. die Ausführung dessen Zielaufgaben.
≡ Dialogverhalten: Qualität des Systemverhaltens, das sich im Dialog mit einem Anwender bei der Ausübung von Zielaufgaben zeigt.
≡ Interfacegestaltung: Qualität des Designs der Benutzungsschnittstelle (User Interface), über die der Anwender mit dem System interagiert.
Diese drei Qualitätsmerkmale werden entsprechend dem Modularen Vorgehensmodell in Form von Teilmerkmalen und Indikatoren spezifiziert, welche sich anhand ausgewählter Regelwerke ableiten lassen (siehe Abb. 2-5).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-5: Usability-Qualitätsmodell nach Oertel (2004; S. 304). Die drei Hauptmerkmale der Usability-Qualität werden durch Teilmerkmale und Indikatoren spezifiziert, welche sich anhand ausgewählter Usability-Regelwerke ableiten lassen. Das Modell bietet einen integrativen Lösungsansatz für den Mangel an verständlichen und hinreichend spezifizierten Merkmalen von Usability.
2.2.2 Usability-Evaluation
Evaluationsprozess
Wie in Abschnitt 2.2.1 dargestellt, sind die ergonomischen Anforderungen an Software bzw. an die Gestaltung der MCI in Form von Qualitätseigenschaften festgehalten, die in Normen, Styleguides und anderen Regelwerken definiert sind und eine mehr oder weniger verbindliche Grundlage für den Entwicklungs- und Bewertungsprozess von Softwareprodukten darstellen.
Eine Evaluation ist grundlegend dadurch charakterisiert, dass „there are an object being evaluated (...) and a process through which one or more attributes are judged or given a value (...) finally, we should consider that evaluations have a purpose” (Karat, 1997; S. 689). Der Bewertungsprozess eines Objekts kann dabei subjektiv oder objektiv erfolgen. Im ersten Fall gründet die Evaluation auf der Erfahrung einer Person im Umgang mit dem Objekt. Bei einer objektiven Evaluation werden die Objektattribute direkt gemessen, ohne auf den Erfahrungsschatz einer Person zurückzugreifen (Karat, 1997). Wottawa & Thierau (1998) kennzeichnen eine Evaluation weiterhin wie folgt:
≡ E. ist Planungs- und Entscheidungshilfe auf Basis von Bewertungsprozessen.
≡ E. ist orientiert an einem bestimmten Ziel und einem bestimmten Zweck. Primärziel ist die Überprüfung und Verbesserung.
≡ E. dient zur Kontrolle der Zielerreichung.
In Berücksichtigung der allgemeinen Kennzeichen einer Evaluation kann die Usability-Evaluation als der Prozess zur Prüfung und Bewertung der Usability von Softwareprodukten bezeichnet werden. Softwareentwicklern soll eine Evaluation Ergebnisse liefern, auf deren Basis es sich überprüfen lässt, ob das entwickelte Produkt festgelegte Qualitätsanforderungen erfüllt. Zur Usability-Evaluation werden verschiedenartige Methoden angewandt, die ein gemeinsames Kennzeichen aufweisen. Es soll festgestellt werden, ob ein System adäquat auf die Nutzerbedürfnisse abgestimmt ist. Der Einsatz verschiedener Techniken im Usability-Evaluationsprozess erklärt sich aus der Tatsache, dass Usability eine komplexe Qualitätseigenschaft ist (Karat, 1997).
Die Auswahl der Evaluationsmethode ist von der Zielstellung abhängig. Nach Hilbert & Redmiles (2000; S. 389) sind folgende Ziele einer Usability-Evaluation zu unterscheiden:
≡ Understanding user behavior and performance
≡ Understanding user thoughts and experience
≡ Comparing design alternatives
≡ Computing usability metrics14
≡ Certifying conformance with standards
Die Auswahl der Usability-Methoden wird weiterhin von folgenden Fragestellungen beeinflusst (Karat, 1997; S. 693):
≡ Wer führt die Evaluation aus? – Ist es besser, das zu untersuchende System von einem Usability-Experten oder einem potentiellen Nutzer bewerten zu lassen?
≡ Welche Informationen sollen gesammelt werden? – Sollen eher Problemstellen identifiziert oder die Interaktionsqualität gemessen werden (Nutzer-Performanz).
≡ Wer ist der Auftraggeber? – Zielt die Evaluation darauf ab, Softwareentwickler zu beeinflussen oder werden die Ergebnisse zu Marketingzwecken verwendet?
≡ Wie viele Ressourcen stehen zur Verfügung? – Wie hoch ist das Zeit- und Finanzbudget zur Durchführung der Evaluation?
Mit Blick auf diese Einflussdimension wird deutlich, dass der Kern einer Software-Evaluation, die durch eine spezifische Zielstellung initiiert wird, darin besteht, die in einem Bewertungsprozess erzielten Ergebnisse (Ist-Zustand) mit einem gewünschten Ergebnisprofil (Soll-Zustand) zu vergleichen. Der Bewertungsprozess erfordert demnach das Aggregieren und Analysieren zahlreicher Informationen, anhand derer die relevanten Systemkomponenten verglichen werden können. Die Vorgehensweise hierbei beschreibt z.B. das Vorgehensschema zur Software-Evaluation von Holz auf der Heide (1993) (siehe Abb. 2-6). Danach bildet die Zielformulierung den ersten Handlungsschritt. Erst wenn festgelegt ist, wozu evaluiert werden soll, können die Evaluationskriterien (Systemmerkmale) und Evaluationsmittel (Methoden und Verfahren) definiert werden.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-7: Vorgehensschema zur Software-Evaluation in Anlehnung an Holz auf der Heide (1993).
Unter Rückgriff auf das in Abschnitt 2.2.1 vorgestellte Usability-Qualitätsmodell (siehe Abb. 2-5) lässt sich am Beispiel des Modularen Vorgehensmodells für die Usability Evaluation (MOVE) nach Oertel (2003) verdeutlichen, wie sich im Evaluationsprozess Ziele, Kriterien und Mittel ausprägen und gegenseitig bedingen.
Modulares Vorgehensmodell zur Usability Evaluation (MOVE)
In Berücksichtigung verschiedenartiger Einflüsse auf die Durchführung einer Evaluation, wie sie z.B. von Holz auf der Heide und Karat beschrieben sind15, geht das Modell zusammenfassend von folgenden Fragestellungen bzw. Evaluationszielen aus (Oertel, 2003):
A Ist das Design anforderungsgemäß? Das Untersuchungsziel ist die Überprüfung der Qualität der Benutzungsschnittstelle anhand zu definierender Zielkriterien (Soll-Merkmale).
B Verhält sich das Produkt anforderungsgemäß? Der Fokus liegt auf der Qualität des Systemverhaltens in der Interaktion mit einem Anwender. Vergleichsgrundlage sind zu bestimmende Soll-Dialogqualitäten.
C Können die Anwender erfolgreich interagieren? Hier gilt es zu überprüfen, inwieweit die zu untersuchende Applikation potentielle Anwender bei der effektiven und effizienten Bewältigung ihrer Arbeitsaufgaben unterstützt und wie hoch die Zufriedenstellung ist.
Abb. 2-8: MOVE: Übersicht über die Modellstruktur (Oertel, 2003; S. 64)
Die aus den jeweiligen Fragestellungen resultierenden Untersuchungsziele A, B und C beziehen sich auf unterschiedliche Teilqualitäten von Usability: Interfacegestaltung, Dialogverhalten und Anwenderunterstützung 16 (vgl. Abb. 2-5). In Orientierung an das Vorgehensschema nach Holz auf der Heide (siehe Abb. 2-7) werden den drei Untersuchungszielen jeweils ein Modul zugeordnet, das seinerseits die Evaluationskriterien und – mittel je nach zu untersuchender Teilqualität spezifiziert (siehe Abb. 2-8). Das Evaluationsmodell ist so anzuwenden, dass je nach Zielformulierung das entsprechende Modul aktiviert wird, welches konkrete Methoden und Verfahren zur Qualitätserfassung definierter Produktmerkmale bereitstellt. Die Module können unabhängig voneinander angewandt werden und führen zu eigenständigen Ergebnissen. Ist eine Auswahl auf Basis des Evaluationsauftrags nicht möglich, empfiehlt sich aus inhaltlichen und wirtschaftlichen Gründen eine Abfolge von A nach C (Oertel, 2003). Als Output eines jeden Moduls steht ein Usability-Bericht, der die Ergebnisse interpretierend zusammenfasst und gegebenenfalls einen Maßnahmenkatalog zur Optimierung der Usability beinhaltet.
Usability-Methoden in Bezug auf die Module nach MOVE
Mit der Beschreibung der für die Module A, B und C nach MOVE empfohlenen Evaluationsmitteln kann ein Einblick in die aktuelle Bandbreite an Methoden und Verfahren für die Usability-Evaluation gegeben werden.
A Interfacegestaltung: Das Modul A ist auf eine Analyse der Benutzungsschnittstelle ausgerichtet, die feststellt, ob die zur Herstellung der Gebrauchstauglichkeit notwendigen Designelemente des Graphical User Interface (GUI) ausgewählten Anforderungen entsprechen. Eine Operationalisierung erhalten diese Anforderungen etwa durch die Teile 3, 8 und 12 der ISO 9241 oder durch Styleguides (siehe Abschnitt 2.2.1). Für den analytischen Vergleich zwischen Ist-Zustand der Interfacegestaltung und den Anforderungen werden gewöhnlich ein oder mehrere Experten17 eingesetzt (Oertel, 2003). Der Usability-Experte tritt dabei als Ersatz für den Zielanwender auf und versucht potentielle Usability-Probleme zu identifizieren. Das hierbei benötigte Wissen gründet auf die Erfahrung des Experten bzgl. anderer Systeme und dazugehöriger Nutzer. Der Experte führt die Bewertung des Systems häufig auf Grundlage gegebener Regelwerke (guidelines) und einer Beschreibung der prototypischen Interaktion zwischen Nutzer und System (use szenario) aus (Virzi, 1997). Die für die Evaluation der Interfacegestaltung relevanten Zielkriterien (Systemmerkmale) sind z.B. die Qualität der Informationsdarstellung (Komposition von Inhalt, Form und Farbe), die Art des Medieneinsatzes sowie die Gestaltung von Navigation und Seitenstruktur speziell bei Web-Anwendungen. Im Rahmen des Moduls A kommen zur Generierung von Indikatoren der genannten Systemmerkmale nur expertenbasierte Methoden in Frage. Exemplarisch können hier folgende Methoden mit dazugehörigen Verfahren genannt werden:
Heuristische Analyse. Die heuristische Analyse zählt zu den so genannten Inspektionsmethoden, welche sich im Allgemeinen dadurch auszeichnen, dass ein System auf Grundlage einer Liste genereller Prinzipien (Heuristiken) oder einer Theorie Schritt für Schritt „durchwandert“ wird (walking-through), um Abweichungen zur Vergleichsgrundlage festzustellen. Als Werkzeug zur Erhebung der notwendigen Daten kommen häufig so genannte Checklisten zum Einsatz. Checklisten bestehen aus einer Liste konkreter Produktmerkmalen (z.B. Suchfunktion bei Web-Applikationen), deren Implementierung im System meist durch eine Gruppe aus Usability-Experten überprüft wird. Bekannte Verfahren für heuristische Analysen sind z.B. die Checkliste nach Ravden & Johnson, die auf Checklisten basierenden Evaluationsverfahren EVADIS II und MEDA oder die 10 Usability-Heuristicts von Nielsen. Letztere umfassen zehn einfach definierte Dialogprinzipien und stellen im Vergleich zu Usability-Checklisten geringere Anforderungen an die Vorerfahrung des Evaluators. Mit heuristischen Analysen lassen sich hauptsächlich allgemeine Aussagen über die Vollständigkeit zentraler Systemmerkmale treffen (Karat, 1997; Oertel, 2003).
Cognitive Walkthrough (Kognitiver Durchlauf). Ausschließlich Usability-Experten durchlaufen bei dieser Methode meist in einem Gruppensetting unabhängig voneinander eine zu bewertende Anwendung und schätzen dabei ein, ob eine zuvor spezifizierte Nutzergruppe in einem vorgegebenen Nutzungskontext bestimmte Arbeitsaufgaben mit dem System erfolgreich ausführen kann. Dazu ist es notwendig, die Anwendung anhand vordefinierter Arbeitsaufgaben (use szenarios) zu durchlaufen. Die Methode des Cognitive Walkthrough zielt hauptsächlich darauf ab, den Grad des Lernaufwandes einzuschätzen, den potentielle Nutzer für das Kennenlernen der (neuen) Systemfunktionen und damit für die erfolgreiche Arbeit mit der Anwendung betreiben müssen. Das effiziente Explorieren neuer Systemstrukturen hängt zuvorderst von der Qualität der Interfacegestaltung ab. Die Methode eignet sich prinzipiell für die Evaluation von Softwaresystemen aller Entwicklungsstufen, besonders aber für einfache Prototypen18 (Low-Fidelity-Prototypes) (Virzi, 1997; Oertel, 2003).
Rankings Erweiterte Checklisten bieten dem Usability-Experten hier die Möglichkeit zu freitextlichen Angaben über Problemstellen einer Anwendung, welche durch ein mehrstufiges Ranking19 gewichtet werden, womit sich der Verbesserungsbedarf quantifizieren lässt (Oertel, 2003).
Zur Qualitätsbestimmung der Interfacegestaltung stellt Modul A expertenbasierte Verfahren zur Auswahl, die (bewertete) Merkmalslisten liefern, auf deren Basis Optimierungsmaßnahmen von Design und Struktur der Benutzungsoberfläche abgeleitet werden und Interpretationshilfen für aufgetretene Probleme auf anderen Qualitätsebenen (Dialogverhalten und Anwenderunterstützung) liefern können (Oertel, 2003).
B Dialogverhalten: Das Modul B beinhaltet die Analyse des Dialogverhaltens eines Systems auf Grundlage vorgeschriebener Dialoggrundsätzen, welche zum Großteil innerhalb verschiedener software-ergonomischer Industrienormen (siehe Abb. 2-4) beschrieben sind. Eine sehr geläufige Bewertungsgrundlage ist etwa die in Abschnitt 2.2.1 beschriebene Norm 9241-Teil 10, die Dialogkriterien wie Aufgabenangemessenheit, Fehlertoleranz, Steuerbarkeit etc. operationalisiert. Aufgrund der an Normen abgeleiteten Zielkriterien verfolgt Modul B das Ziel, Ergebnisse zur Konformität des Systems mit ausgewählten Normen zu liefern. Im Vergleich zu Modul A ist Modul B damit im stärkeren Maße kontextabhängig, denn die in den Normen enthaltenen Systemanforderungen sind definitionsgemäß im Zusammenhang mit den Erfordernissen eines konkreten Nutzungskontextes (Besonderheiten von Nutzer und Aufgaben) zu interpretieren (Oertel, 2003). Zur Evaluation des Dialogverhaltens sind neben rein expertenbasierten Methoden auch Tests mit Zielanwendern relevant. In einem Usability-Test bearbeiten potentielle Nutzer in der Interaktion mit dem zu überprüfenden Computersystem typische Aufgaben unter kontrollierten Bedingungen20 (Oertel, 2003). Tests mit Nutzern finden daher häufig in speziell eingerichteten Usability-Laboren statt (siehe Modul C). Usability-Tests gelten als wichtigste Informationsquelle zur Usability-Evaluation, weil „only if we study real workers doing real jobs in real environments, can we be sure that what we learn is truly relevant to design (Nickerson & Landauer, 1997; S. 17). Zur Evaluation des Dialogverhaltens einer Computeranwendung können hier exemplarisch folgende Methoden und Verfahren genannt werden.
Fragebogen Generell gilt die schriftliche Befragung mittels Fragebogen als die bekannteste Technik zur Erhebung personenbezogener Daten (z.B. Einstellung einer Person zu einer Sache). Im Modul B ist der Fragebogen die dominante Datenerhebungsmethode. Zur Abfrage der Erfahrungen von potentiellen Anwendern kommt ein Fragebogen direkt im Anschluss an die Bearbeitung typischer Systemaufgaben zum Einsatz. Eine Prüfung des Dialogverhaltens leistet z.B. der Fragebogen ISONORM, mit welchem die Möglichkeit besteht über die Befragung von Anwendern ein System auf die Normkonformität mit ISO 9241-Teil 10 zu prüfen. Der Hauptteil des Fragebogens umfasst 35 Fragen zu den sieben Dialogprinzipien der Norm, die von einem Anwender anhand einer 7-stufigen Skala beantwortet werden können (siehe Abb. 2-9).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-9: Items zur Erwartungskonformität (Auszug) aus dem Benutzer-Fragebogen ISONORM 9241/10 zur Evaluation des Dialogverhaltens eines interaktiven Systems (modifiziert übernommen aus Prümper, 1997).
Der Benutzerfragebogen ErgoNorm referiert ebenfalls auf den Teil 10 der ISO 9241, wobei er im Vergleich zum vorherigen Fragebogen weniger auf die Konformitätsprüfung angelegt ist als vielmehr auf das Auffinden von Problembereichen, welche Nutzern einer häufig verwendeten Anwendung bekannt sind und von diesen als störend empfunden werden. Dabei sind die Fragen nach den Dialogprinzipien der ISO 9241-10 kategorisiert. In dieser Funktion ist ErgoNorm eine Ergänzung zum expertenbasierten Prüfverfahren zur Normenkonformität interaktiver Systeme von DATech21 (DATech, 2004).
Prüfverfahren Das DATech Prüfhandbuch Gebrauchstauglichkeit beinhaltet einen umfangreichen Leitfaden zur Durchführung von Konformitätsprüfungen mit der Norm ISO 9241-10. Das Prüfverfahren ist für die Ausführung von Usability-Experten entwickelt worden und ist anwendbar für jede interaktive Software, insbesondere für interaktive Systeme an Büroarbeitsplätzen. Es dient zur Identifikation von Abweichungen eines Produktmerkmals oder einer Benutzertätigkeit von aus der Norm abgeleiteten Mindestanforderungen (Prüfkriterien) (DATech, 2004). Damit schließt es sowohl die Prüfung der Interfacegestaltung (Produktmerkmale) als auch das Dialogverhalten sowie die Anwenderunterstützung ein und ist damit zum Teil auch für Modul A und C relevant. Zur Konformitätsprüfung wird das Leistungsvermögen zahlreicher Evaluationsmethoden und -verfahren genutzt, die in einem klar strukturierten Ablauf arrangiert sind (siehe Abb. 2-10).22
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-10: Komponenten des Prüfverfahrens für die ergonomische Evaluierung von interaktiven Softwaresystemen auf Grundlage der ISO 9241, Teile 10 und 11 nach DATech (2004; S. 12).
C Anwenderunterstützung: Modul C verfolgt das Ziel, die Qualität der Anwenderunterstützung als einen wesentlichen Teilaspekt der Usability zu bestimmen. Die Zielkriterien der Evaluation sind hier in Anlehnung an Teil 11 der ISO 9241 (siehe Abschnitt 2.2.1) die Effizienz und Effektivität der Systemanwendung sowie die Zufriedenstellung des Anwenders. Diese drei Faktoren geben im Wesentlichen darüber Auskunft, ob die Mensch-Computer-Interaktion erfolgreich verläuft und erfordern für eine Quantifizierung der Faktkoren verschiedene Methoden zur Handlungsregistrierung und Anwenderbefragung. Zur Erhebung entsprechender Performanz- und Präferenzdaten23 ist die Ausführung eines Usability-Tests notwendig. Wie bereits erwähnt, bearbeiten in einem Usability-Test (auch Nutzertest) potentielle Nutzer in der Interaktion mit dem zu überprüfenden Computersystem typische Aufgaben unter kontrollierten Bedingungen (Oertel, 2003). Die Arbeitsumgebung zur Durchführung von Nutzertests ist das Usability-Labor (auch Usability-Lab).
Usability-Labor Generell kann das Usability-Lab(or) als die Umgebung beschrieben werden, in der mit einer bestimmten Laborausstattung ein optimales Setting (Umgebungsstruktur) geschaffen wird, um ein möglichst authentisches Nutzerverhalten beobachten und entsprechende Daten für eine tiefer gehende Analyse aufzeichnen zu können. Die Ausstattung eines Usability-Labs ist von konkreten Anforderungen abhängig. Beispielsweise stellt sich die Frage, ob das Lab hauptsächlich funktional sein oder es auch repräsentativ sprich geeignet für Kundenverkehr sein soll, wie häufig oder welche Art von Softwaresystemen hauptsächlich getestet wird etc. Hieraus ergeben sich unterschiedlichste Ausstattungsvarianten. Die Minimalanforderung ist das Vorhandensein eines ungestörten Arbeitsplatzes in einem abgetrennten Raum, um eine Verfälschung der Testergebnisse zu verhindern. Großer technischer Aufwand ist per se für ein Usability-Lab aber nicht notwendig, denn für die Evaluation eines Paper-Prototpyen24 beispielsweise sind als Arbeitsmittel lediglich Papier und Schreibutensilien notwendig (Sommer, 2003).
Dennoch zeichnet sich ein Usability-Lab vor allem durch die technische Möglichkeit aus, Performanzdaten von Nutzern direkt zu erfassen und für eine Analyse aufzubereiten. Mit einer entsprechenden Laborausstattung können im Speziellen Blickbewegungen, Klickverhalten, Mausverhalten, Tastaturevents und psychophysiologische Daten einer Nutzergruppe aufgezeichnet werden.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-11: Beispiel für ein Setting im Usability-Labor mit Vollausstattung (in Anlehnung an Sommer, 2003; S. 211). Das Labor ist zweigeteilt. Im Testbereich können Tester (Endnutzer) mit Unterstützung eines Untersuchungsleiters an einem Computer-Testplatz Aufgaben mit einem zu evaluierenden Softwareprodukt bearbeiten. Das Nutzerverhalten wird dabei auf verschiedene Weise getrackt (aufgezeichnet). Kameras und Mikrofone ermöglichen Video- und Tonaufzeichnungen. Über einen Datenhandschuh, welchen ein Nutzer während der Interaktion mit der Anwendung trägt, können Puls und Hautleitwiderstand als Indikator für Stress gemessen werden. Ein Eye-Tracking-System nimmt die Bewegungen der Augen auf und visualisiert die Blickverläufe auf einem Beobachtungsmonitor. Zusätzlich steht ein Auswertungsplatz zur Verfügung, welcher für die Durchführung von Tester-Befragungen (Interview und/oder Fragebogen) geeignet ist und zudem die Möglichkeit bietet, gemeinsam mit dem Tester diverses Videomaterial (z.B. Bildschirmvideo, Mimik u. Gestik des Testers während der Interaktion etc.) auszuwerten. Vom zweiten Raum aus kann das Geschehen im Testbereich indirekt über Monitore oder direkt über einen so genannten Einwegspiegel, welcher die Durchsicht in nur eine Richtung zulässt, beobachtet werden, ohne dass der Tester gestört wird. Je nach eingesetzter Methode befindet sich der Testleiter zusammen in einem Raum mit dem Tester oder beobachtet das Nutzerverhalten vom Beobachtungsraum aus.
Zur Datengewinnung für die im Rahmen des Moduls C zu evaluierenden Usabilitymerkmale Effizienz, Effektivität und Zufriedenstellung, können im Usability-Labor verschiedene Methoden und Verfahren zum Einsatz kommen, welche bestimmte Anforderungen an das Laborsetting stellen (siehe Abb. 2-11). Folgende Methoden und Verfahren können exemplarisch beschrieben werden:
Lautes Denken Das Laute Denken (thinking aloud) ist die populärste Datenerhebungsmethode zur Verwendung im Usability-Test (Nielsen, Clemmensen et al., 2002). Die Methode dient der Erfassung bewusster handlungsbegleitender Kognitionen und Emotionen, die Nutzer während der Benutzung einer Software verbal äußern. Tester verbalisieren während der aufgabenbasierten Nutzung eines Computersystems ihre Gedanken laut, welche vom Testleiter entweder handschriftlich oder per Tonaufzeichnung erfasst werden. Auf Basis des verbalen Datenmaterials kann auf Problembereiche der Software geschlossen werden (Hamborg, 2002). Zudem vermittelt das Laute Denken einen Einblick in den Praxisfall und lässt Aussagen über die Zufriedenstellung der Tester zu (Oertel, 2003).
Videokonfrontation Wie das Laute Denken ist die so genannte Videokonfrontation den Verbalisationsverfahren zuzuordnen. Die Methode der Videokonfrontation sieht vor, dass zunächst das Nutzungsverhalten eines Testers im Umgang mit dem zu evaluierenden System per Videotechnik aufgezeichnet wird, wobei meist die auf der Benutzungsoberfläche sichtbar werdende Interaktion als auch Mimik, Gestik und Kommentare des Testers erfasst werden. Im Anschluss wertet der Untersuchungsleiter in einem (halb-) standardisierten Interview25 mit dem Tester das audiovisuelle Datenmaterial aus, um Probleme bei der Interaktion mit der Software zu identifizieren und festzuhalten (Hamborg, 2002). Mittels Videokonfrontation erhält man so zu interpretationsbedürftigen Interaktionssituationen umfassende und aufschlussreiche Kommentare seitens der Tester (Oertel, 2003). Die Methode der Videokonfrontation scheint gerade bei anspruchsvollen Testaufgaben gegenüber dem Lauten Denken im Vorteil zu sein, da bei Synchronizität von Aufgabenbearbeitung und Verbalisierungsleistung die kognitive Belastung des Testers (cognitive load) so groß sein könnte, dass die Konzentration auf die Aufgabenbearbeitung eingeschränkt würde (Nielsen et al., 2002). Auf der anderen Seite birgt eine Videoauswertung im Nachgang des Tests, wie alle so genannten Post-Test-Befragungen, die Gefahr, dass die Tester dazu tendieren, ihr Verhalten zu rationalisieren, was die Reliabilität26 der Ergebnisse erheblich schmälern kann (Cowen, 2001).
Logfile Recording Die Nutzung moderner auf Dialogfenstertechnik basierenden Benutzungsschnittstellen (window-based user interfaces), erzeugt verschiedene Arten so genannter User Interface Events, die durch Rechnerunterstützung automatisch erfasst werden können. Systemereignisse wie etwa Mausklicks, Mausbewegungen, Tastatureingaben etc. spiegeln das Verhalten des Nutzers auf der Benutzungsoberfläche der Applikation wider (Hilbert & Redmiles, 2000). Als Logfile wird das automatisch generierte Protokoll zur Registrierung von User Interface Events bezeichnet. Somit ist die Aufzeichnung eines Logfiles eine spezielle Methode der Verhaltensbeobachtung in einem Usability-Test. Zum Logfile-Recording im Usability-Labor wird am Testrechner ein spezielles Programm installiert, welches festgelegte Events in einer Liste chronologisch abspeichert (Hom, 1998). Mittels Logfile Recording können unter Ausschluss menschlicher Beobachtungsfehler objektive Informationen über das Nutzerverhalten gesammelt werden.
Eye Tracking Augen- und Blickbewegungen27 stellen die schnellsten Events in der Mensch-Computer-Interaktion dar und können daher nur mit speziellen Apparaturen, so genannten Eye-Trackern zu Zwecken einer weiterführenden Analyse aufgezeichnet werden (Hilbert & Redmiles, 2000). In einem Usability-Test werden mittels Eye-Tracking Performanzdaten registriert, welche sowohl bewusste als auch unbewusste Aktivitäten des Testers beschreiben können. Dafür werden hauptsächlich die Blickverläufe und Blickfixationen des Testers auf dem GUI eines Testsystems erfasst. Das mittels Eye-Tracking erzeugte Datenmaterial bietet im Allgemeinen ein großes Potential für die Extrahierung von Usability-Qualitätsmerkmalen. Aus den Blickdaten abgeleitete Eye-Tracking-Parameter erlauben besonders Rückschlüsse auf die örtlich-räumliche Gestaltung der Mensch-Computer-Interaktion (Design und Struktur der Informationselemente), die Effektivität von Suchprozessen auf der Benutzungsoberfläche und etwaige Probleme bei der visuellen Informationsverarbeitung während der Systembenutzung (Rötting, 2001). Die Nutzung von Eye-Tracking als Methode zur Evaluation von interaktiven Systemen ist in der Usability-Forschung noch relativ jung. Neben technischen Hürden (reliable Messtechnik) und finanziellen Faktoren (Anschaffungskosten) ist als Grund für die schleichende Etablierung von Eye-Tracking vor allem das Fehlen von Standards in der Interpretation des Datenmaterials zu nennen (Jacob & Karn, 2003).
Zur Prüfung der im Modul C fokussierten Zielkriterien kann z.B. wie folgt vorgegangen werden:
Über einen Vergleich der Anzahl der erfüllten Aufgaben mit der Gesamtanzahl der Aufgaben ließe sich ein Quotient berechnen, der eine Aussage zur Effektivität der Anwenderunterstützung liefert. Adäquat kann ein Effizienzquotient aus Problem- und Gesamtzeit gebildet werden. Die durch Experteninspektion erstellten Problemlisten (Checklisten) aus Modul A lassen erste Eingrenzungen von Problembereichen zu. Vertiefend lassen sich mit Methoden wie dem Lauten Denken oder der Videokonfrontation Probleme bei der Nutzung einer Anwendung quantifizieren und gewichten, um Aussagen über die Effizienz der Benutzungsschnittstelle zu erhalten (Oertel, 2003). Logfile Recording und Eye Tracking bieten ebenso die Möglichkeit zur Ermittlung von Problemphasen in der Interaktion des Nutzers mit dem Computersystem. So kann in einem Logfile z.B. die überhäufige Nutzung von „Rückgängig-Befehlen“ (Cancel, Undo etc.) als allgemeiner Problemindikator erfasst oder durch Eye-Tracking Blickbewegungsdaten als Indikatoren für ineffiziente visuelle Suchprozesse beim Nutzer generiert werden (Hilbert & Redmiles, 2000).
Allerdings gestaltet sich eine eindeutige Lokalisierung und Interpretation von objektiv gemessenen Usability-Daten wie Logfiles und Blickbewegungsdaten schwierig, da „for many interesting objects the relationship between the properties of the object we can measure objectively and the human experience of the object are not known” (Karat, 1997; S. 690).
Zur Erhebung der Zufriedenstellung kann auf einige speziell entwickelte Fragebögen zurückgegriffen werden, die dem Nutzer im Usability-Test meist nach der Systembenutzung zur Beantwortung vorgelegt werden. Beispielhaft seien hier das Befragungsinstrument WAMMI28 zur Evaluation von Webseiten und der - auch in dieser Studie verwendete - Fragebogen SUS (System Usability Scale) genannt. Letzterer misst eine kontextunabhängige allgemeine Usability, was eine Verwendung als Messinstrument der Zufriedenstellung eines Testers im Umgang mit einer Softwareanwendung motiviert. Schließlich kann zur Erfassung der Zufriedenstellung auch auf Testerkommentare zurückgegriffen werden, die mittels der Methoden Lautes Denken und Videokonfrontation generiert werden (Oertel, 2003).
Zusammenfassung: Systematik der Usability-Methoden
Unabhängig von dem hier vorgestellten modularen Modell zur Usability-Evaluation MOVE lassen sich die bisher benannten Methoden und Verfahren in einer Systematik zusammenstellen. Zu beachten gilt, dass sich aufgrund der Vorteile und Beschränkungen der unterschiedlichen Methoden in der Usability-Praxis im Allgemeinen und im Usability-Test im Besonderen die Kombination einzelner Methoden etabliert hat: „There is an understanding within the field [of usability, d. Verf.] that testing, using only one technique, is insufficient. Therefore many of the techniques (…) are combinded” (Nielsen et al., 2002; S. 101).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-12: Systematik wichtiger Datenerhebungs-Methoden zur Verwendung in der Usability-Evaluation. Jede Methode lässt sich zunächst einem Datenquellentyp (method source, Karat, 1997; S. 694) zuordnen. Die Methoden erfahren eine weitere Spezifikation durch die Angabe der Phasen im Software-Entwicklungsprozess, in welchem ihr Einsatz effizient ist. Bei der Auswahl der Methoden gilt es zudem stets zwischen verschiedenen Vor- und Nachteilen abzuwägen (Oertel, 2003; Kap. 3). Zudem ist es aus praktischen Gesichtpunkten sinnvoll, die vorgestellten Usability- Methoden zusätzlich zwei Dimensionen zuzuordnen. Sind menschliche Erfahrungen, Einstellungen, Einschätzungen etc. Grundlage des Datenmaterials, handelt es sich um subjektive Daten. Werden hingegen diese subjektiven Einflüsse weitgehend ausgeschaltet, indem z.B. spezielle Messtechnik das Datenmaterial generiert, so erhält man objektive Daten. Eine Mittelposition zwischen diesen beiden Polen nehmen heuristische Analysen ein. Anhand von Checklisten und Leitfäden werden zwar subjektive Daten erhoben, die allerdings durch die Verwendung von allgemein anerkannten Grundsätzen und eindeutigen Testvorschriften eine gewisse Objektivität erhalten (Schweibenz & Thissen, 2003). Von Interesse ist auch, ob die jeweilige Methode von einem Usability-Experten (E) angewandt wird oder zur Evaluation Endanwender als Tester (T) das Softwaresystem prüfen. Für den Einsatz von Experten spricht deren Erfahrungen und Fachwissen zu vielfältigen Usability-Belangen. Dennoch sind direkte Rückmeldungen und Einschätzungen realer Nutzer unumgänglich, da die Gebrauchsqualität eines Systems - wie in Abschnitt 2.2.1 gezeigt – von den Anforderungen bestimmter Nutzer in einem bestimmten Nutzungskontext abhängig ist (Schweibenz & Thissen, 2003).
2.2.3 Usability-Engineering
In Abschnitt 2.2.2 wird Usability-Evaluation als eine Methodik zur Prüfung und Bewertung der Usability von Softwareprodukten beschrieben, die Softwareentwicklern Ergebnisse liefern soll, ob ein Softwareprodukt vorher definierte Anforderungen an die Usability-Qualität erfüllt.
Der Begriff Software-Engineering repräsentiert nun das an standardisierten Modellen und Methoden orientierte Vorgehen zur kontrollierten Entwicklung von Softwareprodukten. So wie ein Haus nicht ohne Entwurf, Planung und Bauanleitung gebaut werden kann, kann auch ein funktionsfähiges Softwareprodukt nicht ohne einen in Phasen und Teilzielen untergliederten Entwicklungszyklus produziert werden. Die im klassischen Software-Engineering definierten Zielgrößen für das zu entwickelnde Produkt sind quantitativer Art, im Sinne von messbaren Größen der programmierten Software-Architektur. Qualitätseigenschaften sind dabei z.B. die erfolgreiche Implementierung aller geforderten Funktionen, die Schnelligkeit der Rechenprozesse oder die Unanfälligkeit für Systemabstürze (Dahm, 2006).
Das so genannte Wasserfallmodell stellt gegenwärtig das immer noch am häufigsten eingesetzte Vorgehensmodell in der Software-Entwicklung dar. Die Aktivitäten im Entwicklungsprozess sind dabei über acht linear verknüpfte Phasen geregelt, die nacheinander durchlaufen werden und über einfache Rückkopplungsprozesse verfügen (siehe Abb. 2-13).
Abb. 2-13: Phasen eines Software-Projekts im rückgekoppelten Wasserfall-Modell (in Anlehnung an Dahm, 2006; S. 311). Durch Rückkopplung fließen die Ergebnisse aus jeder Phase jeweils (ausschließlich) in die direkt vorausgegangene Phase zurück, um eventuell Anpassungen vorzunehmen.
Nachteilig an diesem sequenziell ausgerichteten Entwicklungsgang ist das Fehlen eines frühzeitigen Abgleichs zwischen Ist-Zustand des Softwareprodukts und den Anforderungen und Wünschen des Kunden. Von der Konzeption bis zum ersten Test vergeht unter Umständen sehr viel Zeit, was sich dahingehend negativ auswirkt, dass der Kunde um die Chance gebracht ist, in einem frühen Produktstadium etwaige Fehlentwicklungen in Bezug auf seine Anforderungen verhindern zu können. Auf Seiten des Programmierers bieten frühe Tests den Vorteil, schnell über eine Entscheidungsgrundlage zu Fragen über die technische Machbarkeit definierter Anforderungen zu verfügen.
Zum Wasserfall-Modell der Software-Entwicklung existieren zahlreiche Weiterentwicklungen, welche meist durch eine wesentliche Verbesserung der Feedbackprozesse im gesamten Entwicklungszyklus charakterisiert sind. Im so genannten Spiralmodell wird das gesamte Projekt nicht in einem einzigen Durchlauf realisiert, sondern die Phasen von Analyse, Design, Implementierung und Test werden nacheinander mehrmals durchlaufen, um so eine sukzessive Optimierung des Produkts zu erreichen (Dahm, 2006). Durch diese wiederholende Phasenabfolge beschreibt das Spiral-Modell ein iteratives Vorgehen. Trotz der Einbindung iterativer Prozesse vernachlässigen auch die Weiterentwicklungen des Wasserfall-Modells im Wesentlichen die Grundsätze des Usability-Konzepts, wie etwa die klare Ausrichtung eines Softwareprodukts an den Besonderheiten der Zielanwender.
So repräsentiert der Begriff Usability-Engineering im Gegensatz zum klassischen Software-Engineering einen Software-Entwicklungsprozess, der stark an den Zielen der Gebrauchsqualität und der Integration von Evaluationsprozessen ausgerichtet ist. Die hier angewandten Modelle und Methoden zielen vordergründig darauf ab, die Anforderungen und Fähigkeiten potentieller Nutzer im gesamten Software-Entwicklungsprozess zu berücksichtigen (Nielsen, 1993). Die Vielfalt der dafür zur Verfügung stehenden Modelle und Konzeptionen kommt in der Vielfalt der verwendeten Begriffe zum Ausdruck: User Centered Design, Human Centered Design, Human Factors Engineering, Participatory Design, Software Ergonomics etc. (Oertel, 2003; S. 22).
Einer der frühesten Beiträge zur Ausrichtung des Software-Entwicklungsprozesses auf die Verbesserung der Usability-Qualität stammt von Gloud & Lewis (1985). Sie definieren vier Prinzipien für einen Designprozess, welcher alle Aspekte der Gebrauchsqualität umfassen soll:
1. Frühzeitiger und kontinuierlicher Fokus auf den Nutzer: Durch geeignete Methoden (z.B. Interviews, Beobachtung, Aufgabenanalyse30 ) soll Zielgruppe und Nutzungszweck der Software analysiert werden. Das Vorliegen mehrerer Zielgruppen kann die Arbeit mit verschiedenen Designalternativen notwendig machen. Die Ziele des zu entwickelten Systems müssen überprüfbar und verhaltensorientiert sein.
2. Evaluation am Nutzer: Durch Nutzertests mit Simulationen und Prototypen sollen frühzeitig qualitative Daten (Nutzer-Feedback) und quantitative Daten (Verhaltensdaten) erhoben und ausgewertet werden.
3. Iteratives Design: Die auf Basis von kontinuierlichen Tests gewonnenen Verbesserungsmöglichkeiten fließen als Veränderungsgrößen ständig in den Designprozess zurück, um eine sukzessive Optimierung der Usability zu erreichen.
4. Integriertes Design: Im gesamten Entwicklungsprozess sollen alle Usability-Aspekte gleichzeitig Berücksichtigung finden.
Die von Gloud & Lewis aufgestellten Designprinzipien leiten einen eng an den Anforderungen der Zielgruppe ausgerichteten iterativen Verbesserungsprozess der Usability an. Diese starke Benutzer-Orientierung findet sich auch in den Richtlinien der internationalen Norm ISO 13407 Benutzer-orientierte Gestaltung interaktiver Systeme wieder. Im Gegensatz zu den in Abschnitt 2.2.1 vorgestellten ergonomischen Normen definiert die ISO 13407 keine Zielkriterien einer gebrauchstauglichen Benutzungsschnittstelle, sondern gibt vielmehr Vorgehensweisen zur Integrierung des Usability-Konzepts in den Software-Entwicklungsprozess vor. Im Mittelpunkt steht dabei die aktive und frühzeitige Beteiligung späterer Nutzer (Dahm, 2006).
Im benutzerorientierten Entwicklungszyklus nach ISO 13407 (siehe Abb. 2-14) erfolgt zunächst eine Analyse und Definition des Nutzungskontexts des zu entwickelnden Software-Systems. Danach werden die so eingegrenzten Benutzerbelange31 und organisatorische Anforderungen (Bedeutung der durch das Softwaresystem unterstützten Arbeitstätigkeit für die Organisationsziele) verfeinert. Auf Basis dieser Spezifikationen können Gestaltungslösungen entwickelt werden, die mittels Nutzerfeedback danach beurteilt werden, ob die zuvor festgelegten Anforderungen an Funktion, Organisation und Benutzerbelangen erfüllt sind. Für die Implementierung und anschließende Beurteilung des gestalteten Softwareprodukts gibt die ISO 13407 ein iteratives Vorgehen vor. Es werden solange Änderungen an der Gestaltung vorgenommen, bis die Rückmeldungen der Benutzer hinreichend positiv sind (Dahm, 2006).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-14: Benutzerorientierter Entwicklungszyklus nach ISO 13407- Benutzer-orientierte Gestaltung interaktiver Systeme (in Anlehnung an Dahm, 2006; S. 144).
Mayhew’s (1999) deutlich komplexeres Vorgehensmodell zum Usability Entwicklungsprozess integriert sowohl die Designprinzipien von Gloud & Lewis (1985) als auch die Vorgaben der ISO 13407. Das Modell beschreibt den Usability Engineering Lifecycle in zahlreichen Stufen, Rückkopplungsprozessen und Teilzielen (siehe Abb. 2-15). Dabei umfasst das Modell alle Aktivitäten, die das Usability Engineering im Wesentlichen charakterisieren und spezifizieren. In die erste Phase fällt die Durchführung einer Anforderungsanalyse, auf deren Basis die im gesamten Entwicklungsprozess abzugleichenden Usability-Ziele bestimmt werden. Die zentralen Bestandteile der zweiten Phase sind die auf drei Ebenen sich wiederholenden Aktivitäten aus Designentwicklung, Durchführung von Nutzertests anhand von Systemprototypen sowie Überprüfung und Verbesserung deren Usability mittels iterativer Evaluation. Die dritte und letzte Phase konzentriert sich auf die Erhebung und Auswertung von Nutzerfeedback zum Endprodukt.
In der Anforderungsanalyse werden die spezifischen Eigenschaften der Benutzer-Zielgruppe zusammengestellt, eine Aufgabenanalyse ausgeführt, die technischen Restriktionen durch die produkt- und kundenspezifischen Hard- und Software erfasst, sowie die für das Produkt bzw. Anwendungsplattform relevanten Richtlinien identifiziert und ausgewertet.
Unter Berücksichtigung der wichtigsten Geschäftsziele können aus den Ergebnissen der Anforderungsanalyse qualitative und quantitative Usability-Ziele abgeleitet werden, an welchen alle im Prozess folgenden Aktivitäten ausgerichtet werden.
Bevor das erste Systemkonzept erstellt wird, wird zunächst überprüft, ob die durch das zu entwickelnde Softwaresystem umgesetzten Arbeitsabläufe Optimierungsbedarf besitzen. Im so genannten Work Reengineering werden diese Arbeitsabläufe gegebenenfalls dahingehend verbessert, dass sie die Businessziele effektiv und effizient unterstützen und den Lernaufwand für den Umgang mit dem neuen System minimieren.
Daran schließt sich die Erstellung eines Systemskonzepts als erste Designaktivität im Entwicklungszyklus an. So ist das Conceptual Model Design ein erstes regelbasiertes Grobkonzept für das User Interface, welches auf die Erfüllung der Nutzererwartungen und konsistenter Systemstrukturen ausgerichtet ist. Im Grobkonzept werden auf hohem Abstraktionsniveau grundlegende Präsentations- und Interaktionsregeln sowie die wichtigsten Bildschirmelemente und Navigationspfade festgelegt. Zur Evaluierung des konzeptionellen Modells der Anwendung werden auf Grundlage der zuvor festgelegten Regeln einfache Prototypen gebaut, die bereits alle zentralen Funktionen des Endprodukts enthalten. In diesem Anfangsstadium kommen oft auch so genannte Paper-Prototypes zum Einsatz, anhand derer bereits Nutzertest durchführbar sind. So wird unter Einbeziehung späterer Anwender das erstellte Designkonzept mittels iterativer Evaluation sukzessive verbessert, bis es den Usability-Anforderungen genügt.
Sind auf diese Weise alle Ziele auf erstem Level erreicht, erfolgt auf nächster Ebene der Dreischritt aus Designkonzeption, Prototyping und iterativer Evaluation erneut. Das zweite Level des Entwicklungsprozesses konzentriert sich dabei auf die Anpassung vorhandener Styleguides des Softwareproduzenten an die Anforderungen des neuen Systems. Die Einbindung so genannter Screen Design Standards in das Grobkonzept führt zu einer Detaillierung des angestrebten User-Interface-Designs.
Sind die Usability-Qualitätseigenschaften hinreichend in den Systemprototypen aus Level 1 und 2 eingebunden, wird dieser auf nächster Ebene im Detail ausgebaut. Es werden detailliert alle Elemente zu jeder Bildschirmmaske entworfen. Auch dieses so genannte Detailed User Interface Design wird iterativ verfeinert, indem die wichtigsten Bereiche mit Endanwendern getestet und durch die entstandenen Testergebnisse verbessert werden. Generell ist die Auswahl der angewandten Evaluationsmethoden im Entwicklungszyklus flexibel und eng an den für das neue Produkt definierten Usability-Zielen ausgerichtet (Karat, 1997). Es gilt zwischen den Vor- und Nachteilen einzelner Usability-Methoden und deren Effizienz in Abhängigkeit von der Entwicklungsstufe abzuwägen (vgl. Abb. 2-12).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2-15: Der Usability Engineering Lifecycle nach Mayhew (in Anlehnung an Mayhew, 1999).
Kann nach dieser dritten Phase eine ausreichende Erfüllung Usability-relevanter Vorgaben sowie Anforderungen an den Funktionsumfang festgestellt werden, so sieht das Vergehensmodell nach Mayhew die Erhebung und Auswertung konkreter Nutzungserfahrungen im realen Nutzungskontext vor. Dies bedeutet, dass z.B. in einer Testphase direkt im Unternehmen des Kunden oder allgemein nach der Verbreitung des Produkts gezielt Benutzerfeedback eingeholt wird, um zu entscheiden, ob bei auftretenden Problemen noch nachgebessert werden muss. Nur wenn auf Basis von realen Nutzungserfahrungen keine Probleme mehr mit dem System festzustellen sind, endet der Usability-Engineering-Lifecycle (Mayhew, 1999).
Im gesamten Entwicklungszyklus wird der Styleguide des neuen Softwareprodukts kontinuierlich weiterentwickelt. Dieser liegt in Form eines Dokumentes vor, in welchem die Ergebnisse aller Phasen schrittweise zusammengefasst und regelmäßig aktualisiert werden. Der Produkt-Styleguide erfüllt im Entwicklungsprozess der Software eine sehr wichtige Funktion. Er macht die Ergebnisse und Anforderungen aus den Evaluationsprozessen für das gesamte Entwicklungsteam transparent und dient gegebenenfalls als Richtlinie für die Kommunikation nach Außen (Mayhew, 1999).
In einem Software-Entwicklungsprojekt gilt es im Wesentlichen den Austausch zwischen fünf am Entwicklungsprozess beteiligten Parteien zu koordinieren. Usability-Experten haben vor allem die Aufgabe, die Perspektive des Anwenders im Entwicklungsprozess zu vertreten. Dieser Rolle müssen sie besonders gegenüber Software-Entwicklern gerecht werden, die das eigentliche System in Form von Programmcode umsetzen. Die Marketingabteilung fokussiert primär auf die Herstellung eines Software-Produkts, welches sich von Konkurrenzprodukten in Funktionsneuerungen und – umfang abhebt. Usability ist aus der Marketing-Perspektive oftmals nur sekundäres Ziel und dadurch als eine Produkteigenschaft unter vielen unterrepräsentiert.
Als koordinierende Instanz fungiert im Software-Entwicklungsprozess das Produktmanagement. Es überprüft in jeder Phase des Software-Engineerings, ob das mit allen Beteiligten erstellte Produkt-Konzept noch erfüllt wird. Usability-Experten stehen in enger Beziehung zum Produktmanagement, da sie den gesamten Entwicklungsprozess begleiten und alle Aktivitäten auf deren Vereinbarkeit mit den definierten Nutzeranforderungen überprüfen. Auf oberster Ebene nimmt das Upper-Management32 Einfluss auf das neue Software-Produkt. Dabei besteht die Gefahr, dass dessen Vorgaben im Widerspruch zu den Anforderungen einer benutzerzentrierten Softwaregestaltung steht (Sommer, 2003; Kap. 4).
3. Nutzungsprobleme in der MCI
In den vorausgegangenen Kapiteln wurde bereits auf Probleme mit der Nutzung eines Computersystems und deren Identifizierung mittels Evaluation Bezug genommen. In Kapitel 2.1 wurden verschiedene Ebenen der Mensch-Computer-Interaktion in Form von unterschiedlichen Prozessen der Informationsverarbeitung beschrieben, die bei Störungen zu Problemen für den Nutzer führen können. Die Verdeutlichung der Konzeption des Usability-Begriffs und die Vorstellung eines ausgewählten Qualitätsmodells sowie eines modularen Vorgehensmodells zur Usability-Evaluation in Kapitel 2.2 hat gezeigt, welche Eigenschaften eines interaktiven Systems auf welche Weise einer Problemanalyse unterzogen werden können.
Im folgenden Kapitel sollen drei Ansätze bzw. Modelle vorgestellt werden, anhand derer unterschiedliche Typen von Nutzungsproblemen in der MCI näher beschrieben werden. Aus dieser Sammlung können im empirischen Teil geeignete Problemtypen zur Verknüpfung mit Blickbewegungs-Parametern ausgewählt werden.
3.1 Nutzungsprobleme als Handlungsfehler
In Abschnitt 2.1.3 wurden die wichtigsten Elemente der Mensch-Computer-Interaktion (Aufgabe, Benutzer, Computer) und deren Relationen untereinander beschrieben. Wie dargestellt, steht aus einer ergonomischen bzw. benutzerorientierten Perspektive innerhalb der Softwareentwicklung die Relation zwischen Benutzer und Computer im Mittelpunkt. Hier stellt sich die Frage, wie gut der Nutzer durch das User Interface des Computersystems in seinem Ziel, eine bestimmte Arbeitsaufgabe effektiv, effizient und zufrieden stellend auszuführen, unterstützt wird. Aus dieser Sicht erscheint das interaktive System als Werkzeug für zielgerichtete Handlungen des Nutzers.
Grundlegend ist eine menschliche Handlung durch ihre Bewusstheit beim handelnden Individuum und ihre Ausrichtung auf ein Ziel charakterisiert. Eine Handlung beschreibt die kleinste psychologisch relevante Einheit willentlich gesteuerter Tätigkeiten, welche zeitlich und inhaltlich in sich geschlossen und gegliedert ist. Das Vorhandensein eines bewussten Ziels hebt die Handlung qualitativ von jenen menschlichen Aktivitäten ab, die nicht bewusstseinspflichtig sind, sondern höchstens bewusstseinsfähig (z.B. automatisierte Bewegungsfolgen). Jede Handlung umfasst neben Zielen und Motiven (Handlungsimpulse) auch kognitive Prozesse wie Wahrnehmen, Urteilen, Behalten und Reproduzieren (Hacker, 2000).
Nach Frese & Zapf (1992) entstehen Probleme in der Mensch-Computer-Interaktion, wenn es aufgrund einer Nicht-Passung (mismatch) innerhalb der Beziehungen zwischen Aufgabe, Benutzer und Computer (vgl. Abb. 2-2) zu Handlungsfehlern kommt. Entsprechend dieser Konzeption führt ein Mismatch zwischen Aufgabe und Benutzer (Aufgabengestaltung) zu Qualifikationsproblemen, ein Mismatch zwischen Aufgabe und Computer (Funktionalität) zu Funktionsproblemen sowie ein Mismatch zwischen Benutzer und Computer (Benutzerunterstützung) zu Nutzungsproblemen (siehe Abb. 3-1). Qualifikationsanforderungen sind zentraler Forschungsgegenstand der Arbeitspsychologie. Die fehlende Übereinstimmung resultiert aus Fehlern bei der Aufgabengestaltung33 und aus fehlender Qualifikation34 für die Arbeitsaufgabe beim Benutzer. Funktionsprobleme entstehen, wenn der Funktionsumfang der benutzten Anwendung zur Erledigung der Zielaufgabe unzureichend ist. Davon sind Nutzungsprobleme abzugrenzen, welche auftreten, wenn die Systemfunktionen eine effektive Aufgabenerledigung zwar zulassen, der Benutzer aber Schwierigkeiten bei der Nutzung dieser in die Programmoberfläche eingebundenen Funktionselemente hat und er sein Ziel nicht bzw. nur unvollständig erreichen kann (Frese & Zapf, 1992). Der Mismatch liegt somit im für den Benutzer sichtbaren GUI und seinen Erwartungen bzgl. der Struktur und des Interaktionsverhaltens des Systems.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3-1: Kategorisierung von Problemen in der Mensch-Computer-Interaktion in Anlehnung an Frese et al. (1992).
Mit dem Mismatch-Konzept von Frese et al. liegt damit ein Ansatz vor, Nutzungsprobleme in der Mensch-Computer-Interaktion inhaltlich abzugrenzen. Für Nutzungsprobleme sind verschiedenartige Handlungsfehler ursächlich, wobei zu beachten gilt, dass diese - obwohl das der Begriff vermuten ließe – nicht per se auf das „System“ Mensch attribuiert werden, sondern vor allem auch das Computersystem Quelle von Fehlern sein kann, indem dieses nicht auf die Fähigkeiten und Schwächen des Nutzers angepasst ist, sprich unergonomisch ist. Diese Neutralität unterstreicht das Fehlerkonzept von Frese et al., indem Nutzungsprobleme als Nicht-Passung zwischen Benutzer und System konzeptualisiert sind. Zum anderen sind Fehler dort als die potentiell vermeidbare Nichterreichung eines Ziels definiert, was die Frage offen lässt, von welchem System (Mensch vs. Computer) die Zielblockierung ausgeht (Frese & Zapf, 1992). Zusammenfassend setzt die Entstehung eines Handlungsfehlers in der MCI voraus, dass a) ein Nutzer zielorientiert interagiert, b) das Ziel bzw. ein Teilziel nicht erreicht, was c) potentiell vermeidbar wäre.
In ihrem Fehlerkonzept grenzen Frese et al. zusätzlich Fehler von Ineffizienzen ab. Letztere sind im Gegensatz zu Fehlern dadurch gekennzeichnet, dass eine Zielerreichung prinzipiell stattfindet, allerdings nur über Umwege (Frese & Zapf, 1992). Für die vorliegende Arbeit soll abweichend von Frese et al. auch von Nutzungsproblemen gesprochen werden, wenn das Ziel entweder nicht oder auf ineffizienten Umwegen erreicht wurde.
Zur Kategorisierung verschiedener Handlungsfehler und deren Ursachen gelangen Frese et al., indem sie diese den verschiedenen Ebenen der sequentiellen-hierarchischen Handlungsregulation (Hacker, 1998) zuordnen.
Die Handlungsregulation kann in mehrere Sequenzen unterteilt werden. Der Handlungsprozess besteht aus a) der Phase des Richtens, in welcher die Aufgabe übernommen bzw. gestellt wird (speziell bei Arbeitstätigkeiten) und als motiviertes Ergebnis ein entsprechendes Ziel vom Handelnden antizipiert wird, b) der Orientierungsphase, in welcher die Ziele/Teilziele aufgestellt und dazugehörige Mittel aktualisiert werden, c) der Entwurfsphase, in welcher auf Grundlage eines Ist-Soll-Vergleichs und unter Berücksichtigung vorhandener Mittel Aktionsprogramme geplant werden, d) der Entscheidungsphase, in welcher zwischen den Handlungsvarianten zur Zielerreichung ausgewählt wird, um schließlich e) die Handlung auszuführen, welche durch wiederholte Vergleiche des erreichten Ist-Zustands mit dem gespeicherten Ziel als Soll-Zustand kontrolliert wird.
Vereinfacht lässt sich also eine Handlung damit in die Phasen Zielsetzung, Planung, Ausführung und Rückkopplung unterteilen. Durch die rückkoppelnde Kontrolle zwischen Zielsetzung und erreichtem Ziel ergibt sich eine zyklische (sequentielle) Struktur der Handlungsregulation (Hacker, 2000).
Die entscheidende Funktion für die Effektivität (Zielerreichung) einer Handlung haben mentale Modelle35, in welchen die Ziele und Teilziele (Soll-Werte) der Handlung gedanklich präsent sind, um einen kontinuierlichen Abgleich mit ausgeführten Aktionen zu ermöglichen. Der stetige Wechsel von Vergleich, Veränderung (Aktion) und abermaligen Vergleich im Sinne einer Rückkopplung ist als VVR-Einheit oder TOTE-Einheit (test-operate-test-exit) beschrieben. Eine Handlung besteht dadurch aus theoretisch unbegrenzt vielen solcher Einheiten aus Handlungsvorbereitung, Handlungsausführung und Rückmeldung, welche hierarchisch organisiert sind. Das bedeutet, dass übergeordnete Regulationseinheiten stärker bewusst und weniger automatisiert sind als untergeordnete Einheiten (Hacker, 2000).
Entsprechend können bei der sequentiellen-hierarchischen Handlungsregulation verschiedene Ebenen unterschieden werden, welche Frese et. al zur Erstellung einer Taxonomie von Handlungsfehlern nutzen. Zu unterscheiden sind (Frese & Zapf, 1992; Dahm, 2006):
≡ Sensumotorische Ebene Auf sensumotorischer Ebene laufen stereotypische, stark begrenzt bewusstseinsfähige Bewegungsprogramme ab. Auf dieser Ebene können Handlungen als vollständig automatisiert und als vorprogrammierte Bewegungsabfolgen beschrieben werden. Beispiele für Handlungsfehler sind hier das Drücken falscher Tasten oder das Anklicken falscher Objekte auf der graphischen Benutzungsoberfläche.
≡ Ebene der flexiblen Handlungsmuster Auf dieser Ebene werden geübte Routinehandlungen durch bereits im Gedächtnis repräsentierte Handlungsmuster geregelt. Es werden keine neuen Handlungspläne generiert; die Aktionen sind vielmehr vorgegeben, können aber auf die jeweilige Situation abgepasst werden. Der Bewusstheitsgrad ist auf dieser Ebene eher gering. Fehler bestehen hier darin, dass man Aktionen wie gewohnt ausführt, obwohl diese nicht zur aktuellen Situation passen oder dass wichtige Dialogelemente nicht erkannt und beachtet.
≡ Intellektuelle Ebene Auf intellektueller Ebene werden unter Rückgriff auf das Langzeitgedächtnis als Wissensgrundlage und komplexen Situationsanalysen bewusst geplante Handlungen ausgeführt. Die hier geregelten Handlungen erfordern die bewusste, intellektuelle Zuwendung der Person auf die Gegebenheiten der Situation. Fehler entstehen hier aufgrund unklarer Zielsetzung und –planung.
≡ Ebene des abstrakten Denkens (Regulationsgrundlage) Die Ebene des abstrakten Denkens als Grundlage der Regulationsebenen schließt das gesamte Handlungswissen (Fertigkeiten) und deklarative Wissen (Fakten, Begriffsbedeutungen, Schlussfolgerungen, Abläufe etc.) einer Person ein. Das Wissen steht in Form von Mentalen Modellen (Duttke, 1994) bzw. operativen Abbildsystemen 36 (OAS) (Hacker, 1998) zur Verfügung. Handlungsfehler sind hier z.B. auf unvollständige bzw. fehlerhafte mentale Modelle zurückzuführen oder auf unzureichendes Wissen um Begriffe, Funktionselemente etc.
Neben den Regulationsebenen kann ein Handlungsfehler zusätzlich nach der jeweiligen Phase des Handlungsprozesses kategorisiert werden. Frese et al. (1992) unterscheiden hier zwischen Handlungsplanung und –durchführung sowie der Phase der Rückmeldung. Abb. 3-2 zeigt die taxonomische Zusammenfassung der von Frese et al. beschriebenen Handlungsfehler entlang der beiden Dimensionen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3-2: Taxonomie von Handlungsfehlern in der Mensch-Computer-Interaktion in Anlehnung an Frese et al. (1992). Die beiden Zuordnungsdimensionen ergeben sich aus den Ebenen der sequentiellen-hierarchischen Handlungsregulation (Hacker, 1998) und einer Unterscheidung verschiedener Phasen im Handlungsprozess.
Im Folgenden sollen die Fehlertypen kurz beschrieben werden (Frese & Zapf, 1992; Dahm, 2006):
≡ Denkfehler sind Fehler bei der Planung von komplexen Handlungen. Das Problem resultiert aus der falschen Anwendung prinzipiell ausreichenden Wissens. Der Nutzer setzt sich z.B. unrealistische oder falsche Ziele/Teilziele und kann das zur effektiven Aufgabenbewältigung notwendige Ziel nicht erreichen.
≡ Merk-/Vergessensfehler In der Planungsphase eines Handlungsziels werden mehrere Teilziele aufgestellt. Diese müssen im Kurzzeitgedächtnis abgespeichert und zum geeigneten Zeitpunkt abgerufen werden. Zu Problemen kommt es, wenn ein oder mehrere dieser Teilziele vom Nutzer vergessen werden.
≡ Urteilsfehler Dieser Fehlertyp entsteht, wenn Reaktionen des Systems vom Nutzer falsch interpretiert werden oder diese von ihm nicht wahrgenommen werden. Das gilt auf der intellektuellen Regulationsebene speziell für weniger gut geübte Handlungen, d.h. für unbekannte Benutzungsschnittstellen. Beispiel: Ein Webanwender nutzt zum ersten Mal einen Internet-Bestellshop.
≡ Gewohnheitsfehler Zu Gewohnheitsfehlern kommt es, wenn Handlungen auch in einem Ausnahmefall wie gewohnt ausgeführt werden, ohne auf die speziellen Bedingungen der Ausnahme zu achten. Ausschlaggebend dafür sind die kognitiv repräsentierten Handlungspläne gut geübter Handlungen, die an der falschen Stelle bzw. zum falschen Zeitpunkt abgerufen werden. So klickt etwa ein Nutzer warnende Dialoge immer sofort weg, ohne auf deren Inhalt zu achten.
≡ Unterlassensfehler resultieren daraus, dass bekannte und gut beherrschte Handlungsschemata (Handlungsentwürfe auf Grundlage vorausgegangener Erfahrungen) nicht genutzt oder übersprungen werden, obwohl sie situationsadäquat sind.
≡ Erkennensfehler Ähnlich den Urteilsfehlern sind Erkennensfehler dadurch charakterisiert, dass Systemrückmeldungen nicht ausreichend berücksichtigt werden. Auf der Ebene flexibler Handlungsmuster resultieren Fehler allerdings vornehmlich dadurch, dass direkt erkennbare Rückmeldungen einer bekannten Benutzungsschnittstelle (vorhandene Benutzungserfahrung beim Anwender) übersehen werden. So erscheinen Erkennensfehler eher Problemen auf syntaktischer Ebene und Urteilsfehler eher Problemen auf semantischer Ebene zuordenbar (vgl. Abschnitt 2.1.1).
≡ Wissensfehler auf der Ebene des abstrakten Denkens sind Fehler, die auf unvollständige bzw. fehlerhafte mentale Modelle oder auf unzureichendes Wissen um Begriffe, Funktionselemente etc. zurückzuführen sind.
Dahm (2006) verweist darauf, dass die genannten Handlungsfehler durch Berücksichtigung von Usability-Anforderungen wie sie etwa in der Norm ISO 9241 definiert sind, vermieden werden können. Generell beeinträchtigen Handlungsfehler die Oberziele eines gebrauchstauglichen Computersystems. Ein schwerer Fehler führt dazu, dass ein Ziel überhaupt nicht erreicht wird, was die Effektivität des Anwenders stark verringert. Ein leichter Fehler beeinflusst die Effizienz der Systembenutzung negativ, da der Nutzer zur Fehlerkorrektur Zeit verliert bzw. unnötige Umwege gehen muss. Schließlich scheint jedweder Fehler die Zufriedenstellung des Nutzers zu beeinträchtigen.
3.2 Nutzungsprobleme als Transformationsprobleme
Eine weitere Möglichkeit zur Spezifizierung von Nutzungsproblemen liefert das speziell für die Mensch-Computer(Maschine)-Interaktion37 entworfene Handlungsmodell nach Norman (1986). Das Modell beschreibt Seven Stages Of Action, die bei der Benutzung eines Geräts oder einer grafischen Benutzungsschnittstelle im Allgemeinen vom Anwender ausgeführt werden (siehe Abb. 3-3).
Wie die in Abschnitt 3.1 beschriebene Theorie zur Handlungsregulation referiert das Modell von Norman auf die grundlegenden Phasen aus Handlungsvorbereitung, Handlungsausführung (Stages Of Execution) und Rückmeldungsprozessen (Stages Of Evaluation). Das Handlungsmodell beschreibt die vom Benutzer zu leistenden Transformationen von der Zielsetzung bis zu den Systemeingaben und von den Systemausgaben zur Bewertung dieser für das Ziel als Vergleich zwischen Ist- und Soll-Zustand. Interaktionsprobleme entstehen, wenn diese Transformationsprozesse gestört sind (Dahm, 2006). Aus dieser handlungstheoretischen Perspektive können fehlerhafte Transformationsprozesse Nutzungsprobleme auslösen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3-3: Das Handlungsmodell zur Mensch-Computer(Maschine)-Interaktion nach D. Norman (1986) (Grafik in Anlehnung an Dahm, 2006; S. 97).
Norman spricht in Bezug auf diese gestörten bzw. blockierten Transformationen von Klüften (gulfs) im Handlungsprozess. Kann der Anwender aus dem angestrebten Ziel keine Bedienhandlung bestimmen bzw. ausführen, liegt ein Gulf Of Execution vor. Beim Feedback durch die Systemreaktion kann analog eine Kluft zwischen Systemausgabe und Wahrnehmung/Interpretation des Nutzers entstehen, ein so genannter Gulf Of Evaluation.
Je nachdem in welcher Handlungsphase die Transformation blockiert ist, können mehrere Probleme bzw. Problemursachen unterschieden werden (siehe Abb. 3-4) (Norman, 1986; 2002; Dahm, 2006):
≡ Lässt sich das Ziel nicht direkt im mentalen Modell, welches der Nutzer vom System kognitiv repräsentiert hat (User Model), umsetzen, so fehlt die Ausrichtung der Handlung auf ein motiviertes Ergebnis (Intention) und der Handlungsprozess ist blockiert. In der Entwicklung und Benutzung eines Computersystems sind nach Norman drei Typen mentaler Modelle relevant. Während der Systementwicklung orientiert sich der Entwickler an seinem mentalen Design-Modell (Design Model). Das implementierte System in Form des physisch-realen Modells wird als System Image bezeichnet, welches sich dem Nutzer primär über die Nutzung sowie sekundär über entsprechende Handbücher und Erklärungen verdeutlicht. Bei der Nutzung des Systems „arbeitet“ der Anwender mit seinem eigenen mentalen Modell des Systems (User Model). Vor allem Diskrepanzen zwischen User Modell und System Image führen zu Usability-Problemen (Details siehe Norman, 1988; Norman, 2002).
≡ In ähnlicher Weise gestaltet sich das Problem auf der nächsten Stufe. Die Handlungsplanung kann nur mit zusätzlichem Wissen um das Bedienkonzept (als Teil des System Image) vollzogen werden. Ist dieses nicht präsent, kann die Handlungskluft nicht übersprungen werden.
≡ In der Ausführungsphase können die geplanten Teilhandlungen nicht in Systemaktionen transformiert werden, da für den Nutzer keine zielrelevanten Funktionselemente erkennbar sind. Denkbar ist z.B., dass der Nutzer nach dem Bedienelement „Löschen“ sucht und diese Funktion auf dem Interface durch den Funktionsbutton „DEL“ oder „C“ repräsentiert ist. Da diese Bezeichnung vom Nutzer semantisch nicht mit dem Ziel „Etwas löschen“ in Verbindung gebracht wird, kann er die Aktion nicht durchführen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3-4: Ursachen für Nutzungsprobleme je Handlungsphase nach dem Handlungsmodell von Norman (1986). Bei fehlerhaften Transformationen entsteht in den Handlungsschritten zur Handlungsausführung ein Gulf of Execution (linke Darstellung) und in der Feedbackphase ein Gulf of Evaluation (rechte Darstellung) (Grafik in Anlehnung an Dahm, 2006; S. 101 & 102).
≡ Auf unterster Rückmeldungsebene entsteht ein Problem dadurch, dass Änderungen dem Nutzer nicht sichtbar gemacht werden.
≡ Werden Systemreaktionen auf der Benutzungsoberfläche dargestellt und sind damit potentiell für den Nutzer wahrnehmbar, kann ein Problem immer noch daraus resultieren, dass dieser die Darstellung nicht interpretieren kann. So verwendet das System ein bestimmtes Icon, um die Änderung zu indizieren. Diese wird vom Nutzer allerdings semantisch nicht entschlüsselt.
≡ Auf oberster Ebene in der Feedbackphase entsteht eine Bewertungskluft, wenn der Ist-Zustand, also die Systemveränderung, zwar potentiell sichtbar und verständlich ist, es für den Nutzer aber nicht klar ist, ob das Ziel mit der Systemaktion erreicht wurde. Dies ist z.B. dann der Fall, wenn die Position der Aktion und die geänderte Anzeige zu weit auseinander liegen, um miteinander in Verbindung gebracht zu werden.
3.3 Nutzungsprobleme als Syntheseprobleme
Nachdem in den Abschnitten 3.1 und 3.2 zwei allgemeine Konzepte zur Definition und Kategorisierung von Nutzungsproblemen in der Mensch-Computer-Interaktion vorgestellt wurden, liegt mit Schimpfky (2003) ein Ansatz vor, die Operationalisierung von Nutzungsproblemen speziell auf deren Identifizierung mittels Eye-Tracking-Daten auszurichten. Nutzungsprobleme werden dabei als Syntheseprobleme beschrieben, die dadurch charakterisiert sind, dass bei der Interaktion mit einem System über dessen graphische Benutzungsoberfläche zielrelevante Objekte (Buttons, Icons, Menüelemente etc.) vom Nutzer a) nicht erkannt oder b) nicht verstanden werden. Infolgedessen schlägt die Zielerreichung durch die vom System angebotenen Mittel fehl. Die Konzeptualisierung von Nutzungsproblemen erreicht Schimpfky über die Einbindung verschiedener Modelle und theoretischer Ansätze.
Problemtypen
Die Spezifizierung von Nutzungsproblemen in Schimpfkys Ansatz gründet zunächst auf der Kategorisierung allgemeiner Probleme nach Dörner (1976). Das Vorhandensein einer Barriere ist nach Dörner das charakteristische Merkmal eines Problems. Die Barriere verhindert, dass ein Ausgangszustand in einen Endzustand transformiert wird. Zu dieser Transformation sind generell bestimmte Mittel notwendig, die zur Zielerreichung eingesetzt werden. Eine Systematisierung von allgemeinen Problemen erfolgt nach Dörner dadurch, dass zwischen Bekanntheitsgrad der Mittel und Klarheit der Zielkriterien unterschieden wird. Daraus ergeben sich folgende Problemtypen (Schimpfky, 2003):
≡ Syntheseproblem bei hoher Klarheit der Zielkriterien (hKZ) und gleichzeitig geringem Bekanntheitsgrad (gBM) der Mittel.
≡ Interpolationsproblem (hKZ/hBM)
≡ Dialektisches Problem (gKZ/hBM)
≡ Dialektisches sowie Synthese-Problem (gKZ/gBM)
Für das Verständnis des Problemkonzepts nach Dörner ist es wichtig anzumerken, dass eine Barriere resp. ein Problem nur dann entstehen kann, wenn der Handelnde (hier: der Computernutzer) auch die Absicht (Intention) hat, den Ausgangszustand zu verändern. Diese Voraussetzung findet sich auch in den beiden Modellen der vorherigen Abschnitte wieder (siehe Abb. 3-2 & Abb. 3-4).
Aufgaben-Struktur-Modell
Die Eingrenzung von Dörners Problemtypen auf das Syntheseproblem gründet im Ansatz von Schimpfky auf die Einführung des Aufgaben-Struktur-Modells nach Dzida (1993). Der Begriff Aufgabe meint hier das Ereignis resp. den Prozess, um einen Ausgangszustand in einen gewünschten Endzustand zu transformieren (Dzida, 1993). In Übereinstimmung mit der Theorie zur sequentiellen-hierarchischen Handlungsregulation beschreibt das Modell eine Aufgabe durch seine elementaren Komponenten, die einer Aktivität vor- und nachgeschaltet sind (siehe Abb. 3-5).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3-5: Aufgaben-Strukturmodell nach Dzida (1993; S. 42).
Durch die Aktivitätskomponente (Activity) soll - wie bei den bereits beschriebenen Handlungsmodellen - ein Soll-Zustand erreicht werden, der hier als Ergebnis (Result) bezeichnet ist. Die Aktivität ist auf die Transformation bestimmter Eigenschaften eines Objekts gerichtet und wird unter Verwendung eines Werkzeugs (Tool) ausgeführt. In Abhängigkeit gewünschter Attribute (Merkmale) des Ergebnisses sind zusätzlich Parametereinstellungen möglich. Ein Beispiel von Schimpfky (2003) zur Nutzung einer Übersetzungssoftware von Langenscheidt verdeutlicht die Anwendung des Aufgaben-Struktur-Modells:
Angenommen die Aufgabe besteht in der Übersetzung des englischen Wortes miscellaneous ins Deutsche mit der Langescheidt-Software. Beginnt man die Betrachtung der Suchmaske, dann ist das Objekt zu Beginn die leere Eingabezeile. Um das englische Wort in die Eingabezeile eingeben zu können, wird die Tastatur benötigt, um die Anfrage zu starten, der OK Button. Tastatur und Button symbolisieren somit das Werkzeug, mit dessen Hilfe das Ergebnis (das übersetzte Wort) erzielt wird. Bei der Eingabe ist es möglich, Suchoptionen als Parameter einzustellen, z.B. Schreibungstolerante Suche oder Nur Stichwörter. Mit Hilfe dieser Parametereinstellungen kann das Suchergebnis beeinflusst werden. Ist z.B. die Rechtschreibung des zu übersetzenden Wortes falsch und wird ohne Schreibungstolerante Suche gesucht, dann findet die Software keinen entsprechenden Eintrag. Ist der Parameter Schreibungstolerante Suche aber aktiviert, liefert die Software eine Ergebnisliste mit mehreren ähnlich geschriebenen Begriffen und deren Übersetzungen.
Nach Schimpfky besteht der Vorteil des Aufgaben-Struktur-Modells darin, dass es im Gegensatz zur Handlungsregulationstheorie auch die notwendigen Voraussetzungen für die Ausführung einer zielgerichteten Handlung abbildet. Die Handlungsregulationstheorie setze voraus, dass alle für eine Operation (Aktion) erforderlichen Vorbedingungen erfüllt, sprich die notwendigen Mittel und Methoden zur Zielerreichung vorhanden sind. Dieser Prämisse folgt die Kritik, dass der Handlungsregulationstheorie somit die Unterscheidung zwischen Aufgabe und Problem (Existenz einer Barriere) fehlt, was diese zur Ableitung von Nutzungsproblemen unbrauchbar macht. Anders das Aufgaben-Struktur-Modell, welches die Vorbedingungen durch die der Aktivität vorgeschalteten Komponenten Werkzeug, Objekt und Parameter bestimme.
Motivationstheorie
Die Relevanz dieser Komponenten unterstreicht Schimpfky durch Einbindung motivationstheoretischen Überlegungen mit Verweis auf das so genannte Rubikon-Modell. Das Rubikon-Modell ist Grundlage der Handlungsmotivationstheorie von Heckhausen und Gollwitzer (1987). Nach diesem Modell müssen vier Phasen durchlaufen werden, damit eine Handlung tatsächlich ausgeführt wird:
a) die prädezisionale Phase, in der zwischen verschiedenen Handlungszielen (Motivationstendenzen) nach Wünschbarkeit (bewertete Handlungskonsequenzen) und Realisierung (antizipierte Umsetzungswahrscheinlichkeit) ausgewählt wird. Nach erfolgter Intentionsbildung folgt b) die präaktionale Phase, in welcher die Handlung geplant wird, indem aus den in Konkurrenz stehenden Intentionen eine in Abhängigkeit von Intentionsstärke und Günstigkeit der Realisation ausgewählt wird. Nach der Intentionsinitiierung wird in c) der aktionalen Phase die Handlung ausgeführt bzw. die Intention realisiert, worauf die Intention deaktiviert wird. In d) der postaktionalen Phasen erfolgt schließlich noch ein Abgleich zwischen Handlungsergebnis und Zielsetzung (Details siehe Schimpfky, 2003; Kap. 3.3).
Die ersten beiden Phasen des Rubikon-Modells stellen die motivationsgebundenen Voraussetzungen für das Ausführen einer Handlung dar. Zur Intentionsbildung müssen geeignete Handlungsziele (Motivationstendenzen) vorhanden sein. Zur Intentionsinitiierung müssen geeignete Mittel zur Realisierung vorhanden sein bzw. ausgewählt werden. Um also handeln zu können, benötigt der Handelnde (hier: der Computerbenutzer) ein Objekt, ein Werkzeug und ggf. bestimmte Parameter. Nach Schimpfky folgt daraus, dass diese Komponenten des Aufgaben-Struktur-Modells die Intentionen des Benutzers auf unterster Ebene der Handlungshierarchie repräsentieren. Damit lassen sich die Voraussetzungen für das Ausführen einer Handlung wie folgt bestimmen (Schimpfky, 2003):
Sie sind (1) das Vorhandensein der relevanten Komponenten Objekt, Werkzeug und Parameter und (2) das Vorhandensein der durch die Komponenten des Aufgaben-Struktur-Modells repräsentierten Intentionen (S. 20).
Als Syntheseproblem nach Dörner (1976) kann demnach ein Handlungsproblem bezeichnet werden, wofür die Nichterfüllung dieser Handlungsvoraussetzungen ursächlich ist, indem zwar die entsprechenden Intentionen (Zielkriterien) vorhanden, nicht aber die Mittel (Objekt, Werkzeug, Parameter) zur Zielerreichung dem Handelnden vollständig bekannt sind. Ein Nutzungsproblem beim Gebrauch der Übersetzungssoftware aus obigem Beispiel entsteht also, wenn dem Nutzer das Objekt Eingabefeld und/oder das Werkzeug OK Button und/oder die Möglichkeit zu Parametereinstellungen nicht bekannt sind (Schimpfky, 2003).
Ablaufmodell eines Dialogschrittes
Unter Verwendung eines Modells, welches den möglichen Ablauf eines Dialogschrittes in der MCI beschreibt, lassen sich in Schimpfkys Ansatz die Auslöser von Nutzungsprobleme spezifizieren. Es soll also eine Erklärung dafür geliefert werden, dass dem Nutzer die Handlungsmittel nicht bekannt sind, obwohl diese möglicherweise vom System bereitgestellt werden. Wie bereits erwähnt, fokussiert der Ansatz auf jene Probleme, die mittels Eye-Tracking identifizierbar sind.
Schimpfky führt ein Modell zum zeitlichen Verlauf eines Dialogschrittes38 in Anlehnung an Geis, Dzida und Redtenbacher (2003) ein. Das Modell unterteilt aus der Sicht des Benutzers einen Dialogschritt in vier Phasen. Entscheidend ist, dass diese Phasen mit verschiedenen Prozessebenen in der Mensch-Computer-Interaktion, genau genommen mit der syntaktischen (Zeichen und Regeln) und semantischen Ebene (Bedeutung der Zeichen) nach dem linguistischen Modell von Marcus & van Dam (1991) in Verbindung gebracht werden (siehe Abschnitt 2.1.1). In Bezug auf das GUI eines Computerprogramms definiert die Syntax das Informationsdesign, also die Komposition von Inhalt, Form und Farbe. Auf Basis der Syntax kann der Nutzer die präsentierten Daten zu bedeutungsvollen Informationen transformieren, diesen also eine Bedeutung geben. Damit können die vier Phasen eines Dialogschrittes wie folgt beschrieben werden (Schimpfky, 2003):
≡ Orientierungsphase Ein Orientierungsverhalten ist im Allgemeinen dadurch gekennzeichnet, dass die Person zunächst einfachste visuelle Reize aus der Umwelt aufnimmt und diese zur Orientierung in einen größeren, noch groben Zusammenhang bringt. Daraufhin werden die Sinneswahrnehmungen nach Auffälligkeit und Relevanz selektiert (competition for selection (Theeuwes, 1993)). Auf die MCI übertragen entspricht die Orientierungsphase der groben syntaktischen Wahrnehmung der Ist-Situation. Die Displayelemente werden (noch) nicht im Einzelnen analysiert, sondern es wird lediglich die reine Existenz dieser wahrgenommen und eine Vorauswahl getroffen, welche Informationen näher entschlüsselt werden. Für das Beispiel der Übersetzungssoftware hieße das, dass nach dem Start der Software z.B. die Position bestimmter Buttons inkl. deren Beschriftung wahrgenommen werden.
≡ Vorbereitungsphase In der zweiten Phase wird die Handlungsausführung vorbereitet, indem die zuvor selektierten Informationen detailliert analysiert und auf semantischer Ebene dekodiert (entschlüsselt) werden. Der Benutzer vergleicht seine erwarteten mit den real existierenden Bedingungen. Für das Beispiel der Übersetzungssoftware wird in der Vorbereitungsphase etwa das Bedienelement Bibliothek semantisch analysiert, woraus sich die Entscheidung ergibt, die dadurch symbolisierte Funktion mittels Mausklick zu nutzen.
≡ Ausführungsphase Hier wird die Benutzeraktivität ausgeführt, also das Bedienelement Bibliothek tatsächlich angeklickt.
≡ Bewertungsphase Zum Abschluss eines Dialogschrittes wird geprüft, ob das Resultat auch tatsächlich eingetreten ist.
Das Ablaufmodell zeigt demnach, dass die Ausführung des Dialogschrittes nur noch ein Abarbeiten des zuvor auf Basis syntaktischer und semantischer Verarbeitung Geplanten ist. In Schimpfkys Ansatz wird daher die Quelle von Nutzungsproblemen auf die beiden ersten Phasen der Orientierung und Vorbereitung eingeschränkt. Eine Bestätigung erfährt diese These durch Ergebnisse aus der Usability-Laborpraxis39. Es hätte sich gezeigt, dass ca. 90% der Nutzungsprobleme in den ersten beiden Phasen des Modells von Geis et al. auftreten (Schimpfky, 2003). Auf Grundlage dieser Eingrenzung lassen sich zwei Nutzungsproblemtypen während der Orientierungs- und Vorbereitungsphase bestimmen:
Nicht-Erkennen
Während der Orientierung steht die Verarbeitung zielrelevanter visueller Reize im Vordergrund. Das Nicht-Erkennen solcher Informationselemente kann folglich für ein Nutzungsproblem auslösend sein. Zwei Ursachen können dabei klassifiziert werden: Die für den Benutzer relevanten Informationen sind a) nicht vorhanden, d.h. die Erkennung der relevanten Stimuli ist von vornherein ausgeschlossen oder b) falsch kodiert40, d.h. diese sind z.B. zu unauffällig oder nicht erwartungskonform (Schimpfky, 2003).
Erwartungen bezüglich der Dialogstruktur ergeben sich aus den mentalen Modellen des Nutzers, die während der Interaktion aktiv sind. Darin eingebunden sind zum einen konkrete Nutzungserfahrungen mit ähnlichen Anwendungen und zum anderen Handlungswissen um den Ablauf ähnlicher Aufgaben. Ein Nutzer überträgt z.B. den Einkauf in einem realen Shop auf die Nutzung eines Online-Shops, was spezifische Erwartungen an die Bedienelemente und Interaktionsstruktur der Website generiert. Zu betonen ist, dass die Erwartungen des Nutzers in der Orientierungsphase lediglich der Selektion wichtig erscheinender visueller Reize dienen. Ein Nutzer erwartet z.B. fettgedruckte Überschriften, findet diese aber nicht vor.
Mit Blick auf die vorausgegangenen Konzepte von Nutzungsproblemen (NP) lässt sich bezüglich des NP des Nicht-Erkennens nach Schimpfky große Überschneidungen zu a) den Erkennensfehler nach Frese et al. (siehe Abschnitt 3.1) und b) der Handlungskluft aufgrund fehlenden Wissens des Bedienkonzepts sowie der Bewertungskluft aufgrund nicht erkennbarer Systemreaktionen nach dem Handlungsmodell von Norman feststellen (siehe Abschnitt 3.2).
Nicht-Verstehen
Der Auslöser von Nutzungsproblemen bezieht sich in der Vorbereitungsphase auf die semantische Ebene der Interaktion zwischen System und Benutzer. Sind die für die Handlung benötigten Informationen für den Nutzer nicht verständlich, so entsteht eine Nutzungsbarriere. Nach Schimpfky liegen die Ursache dafür z.B. in einer mangelnden Selbstbeschreibungsfähigkeit (verständliches Systemfeedback) oder mangelnden Erwartungskonformität41 (Angepasstheit an Nutzerwissen und -erfahrung) der Anwendung (Schimpfky, 2003).
Die beim Nutzer repräsentierten Erwartungen beziehen sich im Unterschied zu den Erwartungen der Orientierungsphase auf bedeutungsvolle Inhalte. Es geht vornehmlich um die semantische Verarbeitung a) der Begrifflichkeiten (deklaratives Wissen) der Funktionselemente sowie b) der Reihenfolge der einzelnen Dialogschritte, also der Ablaufstruktur des Dialogs (Handlungswissen). Beide Wissensformen sind zu einem mentalen Modell des Nutzers über das System zusammengefügt.
Im Abgleich mit den Konzepten nach Frese et al. sowie Norman überschneidet sich die Definition des NP Nicht-Verstehen nach Schimpfky mit a) den Urteilsfehlern und Wissensfehlern nach Frese et al. (siehe Abschnitt 3.1) sowie b) der Handlungskluft aufgrund fehlender zielrelevanter Elemente und der Bewertungskluft aufgrund nicht interpretierbarer Systemaktionen nach dem Handlungsmodell von Norman (siehe Abschnitt 3.2).
4. Charakteristika von Blickbewegungen
Nachdem im Kapitel 3 Nutzungsprobleme in der MCI durch die Vorstellung und Verknüpfung dreier Modelle detailliert beschrieben wurden, können nun im folgenden Kapitel die wichtigsten Eigenschaften von Blickbewegungen und der visuellen Wahrnehmung im Hinblick auf deren Nutzen für die Identifizierung von Nutzungsproblemen mittels Eye-Tracking charakterisiert werden.
4.1 Typen von Augenbewegungen
Neben motorischen Handlungen und der Sprachproduktion zählen Augen- und Blickbewegungen zu den einfachsten physischen Akten des Menschen. Sie stellen eine Verbindung zwischen sensorischen, perzeptiven sowie attentiven Prozessen und kognitiven Prozessen dar, die der Manipulation von Objekten und der Organisation von komplexen Verhalten zu Grunde liegen. Das menschliche Auge kann durch die sechs am Augapfel angreifenden Muskeln verschiedenartige Bewegungen ausführen, welche sich je nach auslösenden Reizen, Bewegungsmerkmalen und beeinflussenden Steuerungsprozessen ergeben. Danach lassen sich Augenbewegungen folgendermaßen klassifizieren (Joos, Rötting et al., 2000):
Bewegungen des Auges als Reaktion auf Bewegungen des Körpers, der visuellen Umwelt oder des fixierten Objekts.
So genannte vestibuläre Augenbewegungen sind nötig, um bei Kopf- oder Körperbewegungen die Fixierung eines Punktes bzw. Objektes aufrechtzuerhalten. Sie sind Reflexbewegungen (unwillkürlich) und setzen sich aus einer Reihe noch feineren Bewegungen zusammen.
Ist das Fixieren (d.h. Festhalten) eines sich bezüglich der Augen bewegenden Blickobjektes nötig, so werden so genannte Folgebewegungen (smooth pursuits) erzeugt. Diese sind als langsam gleitende (normalerweise nur bis 40°/s42 ) und autonome (unwillkürliche) Bewegungen des Auges charakterisiert. Bewegt sich zusätzlich auch ein Großteil der visuellen Umgebung – z.B. bedingt durch Kopf- oder Körperbewegungen – so dient die so genannte Optokinese der Erzeugung eines stabilen Netzhautbildes. Wie die vorherigen Anpassungsbewegungen ist die Optokinese auch als ein unwillkürlicher Reflex zu beschreiben, der sich aus weiteren Augenbewegungen ergibt (Joos et al., 2000).
Bewegungen des Auges zur Ausrichtung der Fovea (Bereich des scharfen Sehens) auf (neue) Sehobjekte
Das gesamte Blickfeld der Augen umfasst einen Kegel von ca. 100°, wohingegen schärfstes Sehen nur in einem Winkel von etwa 1° um den fixierten Blickort möglich ist. Je weiter entfernt Objekte von diesem Bereich liegen, umso geringer sind deren wahrgenommene Auflösung und Farbintensität. Bereits bei einer Abweichung von 3° ist die Schärfe des Blickobjektes um die Hälfte reduziert. Dieses Verhältnis aus Schärfe und Unschärfe ist durch die anatomischen Gegebenheiten des Auges bedingt (siehe Abb. 4-1). In einem kleinen Bereich der Retina (Netzhaut), der so genannten Fovea (Sehgrube), ist die Konzentration der lichtempfindlichen Rezeptoren, in diesem Fall der für die Farbwahrnehmung verantwortlichen Zapfenrezeptoren am größten, was dort eine besonders hohe Auflösung betrachteter Objekte bedingt (foveales Sehen). Außerhalb der Fovea dominieren die Stäbchenrezeptoren, mit welchen lediglich eine Unterscheidung zwischen Schwarz und Weiß möglich ist. Entscheidend für die periphere Unschärfe ist, dass im Unterschied zur Fovea die Rezeptoren der übrigen Netzhaut sehr stark auf die nachgeschalteten Neuronen (Ganglienzellen) konvergieren, d.h. die Lichtreize werden gebündelt, was zu einer Verminderung der räumlichen Auflösung führt (parafoveales/peripheres Sehen) (Goldstein, 1997).
Bewegt sich das Objekt langsam, können die Augen die Aufrecherhaltung dessen fovealer Verarbeitung durch einfache Folgebewegungen (s.o.) erreichen. Bei höheren Geschwindigkeiten hingegen werden so genannte Sakkaden notwendig. Dies ist auch dann der Fall, wenn ein Blickwechsel von einem Objekt zu einem anderen stattfindet.
Sakkaden sind sehr schnelle, sprunghafte Bewegungen, um die Augen auf ein Blickobjekt zu richten. Sie werden entweder als unwillkürliche Reflexe aufgrund schneller Veränderungen im peripheren Gesichtsfeld oder als willentliche, gezielte Handlungspläne bei der Interpretation von externen, visuellen Reizen ausgeführt. Allerdings stehen Sakkaden nach Beginn der Ausführung generell nicht mehr unter bewusster Kontrolle, solange bis die Augen am berechneten Ziel angelangt sind. Durch diese Eigenschaft sind sie auch als ballistische Bewegungen charakterisiert. Des Weiteren sind Sakkaden zu den schnellsten Bewegungen zu zählen, zu welchen der menschliche Körper mächtig ist (bis zu 1000°/s mit einer Größe von bis zu 60°). Generell wird davon ausgegangen, dass in einem Zeitraum einer Sakkade von ca. 30-40ms vor und bis 100-120ms nach dem Start die visuelle Informationsverarbeitung sehr stark eingeschränkt bzw. nicht möglich ist [saccadic suppression (Chekaluk & Llewellyn, 1994)].
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4-1: Anatomie des menschlichen Auges. Die physiologischen Eigenschaften, die zur Bestimmung von Blickbewegungen dienen, sind mit (A) bis (I) gekennzeichnet (Joos et al., 2000; S. 5). Der Sehvorgang beginnt, wenn beim Blick auf ein Objekt/Ort Licht ins Auge fällt, welches zu einem Bild auf der Netzhaut (Retina) fokussiert wird und durch ein dortiges Neuronennetzwerk in elektrische Aktivität des Nervensystems umgewandelt wird. Das einfallende Licht passiert die durchsichtige Hornhaut (Cornea), dann eine in der dahinter liegenden Iris befindliche Öffnung, die Pupille und schließlich die Linse. Durch die Pupillengröße kann die Menge des einfallenden Lichts reguliert werden. Mit Hilfe der Ziliarmuskeln können die optischen Eigenschaften der konvexen Linse verändert werden. Cornea – der transparente Teil der das Auge umschließenden Lederhaut (Sklera) – und Linse sorgen für die notwendige Lichtfokussierung auf der Neuronenschicht der Retina. Die wichtigsten dort befindlichen Neuronen sind die ihrer Form nach bezeichneten Photorezeptoren Stäbchen und Zapfen. Zapfen sind bei hohen Lichtintensitäten aktiv und ermöglichen eine feine farbliche und räumliche Verarbeitung. Stäbchen hingegen sind für das Hell-Dunkel-Sehen verantwortlich und sind eher bei geringer Lichtintensität aktiv. In der Retina befindet sich eine kleine Vertiefung, die so genannte Fovea. Dort ist das schärfste Sehen möglich. Als blinden Fleck wird der Bereich der Retina bezeichnet, wo der Sehnerv das Auge verlässt. An dieser Stelle ist keine Reizverarbeitung möglich, d.h. Objekte, deren Netzhautbild auf diese Stelle fallen, können nicht gesehen werden (Details siehe Goldstein, 1997).
Die wichtigste Aufgabe der visuellen Wahrnehmung ist, aus den sensorischen Informationen der Umwelt relevante und aussagekräftige Eigenschaften zu extrahieren. So ist für die visuelle Wahrnehmung ein dynamischer Wechsel zwischen Fixationen und Sakkaden (siehe Abb. 4-2) charakteristisch, da die Eigenschaften der externen Welt nicht aus einem statischen Bild gewonnen werden können (Joos et al., 2000; Rötting, 2001).
Den bisher beschriebenen Augenbewegungen ist gemein, dass sie für beide Augen nahezu identisch sind. Anders bei den so genannten Vergenzbewegungen, die dafür nötig sind, ein Objekt auf der Fovea beider Augen gleichzeitig abzubilden. Wenn z.B. der Blick von einem fernen Objekt auf eines in der Nähe gerichtet wird, müssen sich beide Augen gegenläufig zueinander bewegen. Durch die foveale Ausrichtung beider Augen werden die beiden Netzhautbilder fusioniert (Joos et al., 2000; Rötting, 2001).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4-2: Das für die visuelle Wahrnehmung charakteristischste Blickbewegungsmuster (Goldstein, 1997; S. 183). Durch einen dynamischen Wechsel aus Fixationen und Augenbewegungen (Sakkaden) werden relevante Eigenschaften aus der Blickumgebung (hier ein künstlerisches Bild) extrahiert.
Mikrobewegungen des Auges
Miniaturbewegungen (< 10 Winkelminuten, entspricht < 0,17°) treten bei einer Fixation auf und lassen sich in Drift, Tremor und Mikrosakkaden unterscheiden. Die Hauptfunktion von Drift und Tremor besteht darin, die Übermüdung der retinalen Rezeptoren zu verhindern, indem die Netzhaut kontinuierlich um den Bereich einiger Sehzellen verschoben wird. Dadurch wird die Rezeptor-Empfindlichkeit gegenüber dem optischen Stimulus aufrechterhalten. Der Tremor verkörpert dabei die kleinsten Augenbewegungen (< 1 Winkelminute, entspricht < 0,017°). Die durch Drift/Tremor erforderlichen Refixierungen werden von sehr kleinen Sakkaden, den so genannten Mikrosakkaden geleistet (Joos et al., 2000).
Fixationen
Fixationen und daraus abgeleitete Parameter spielen üblicherweise bei der Interpretation von Augen- und Blickbewegungen die wichtigste Rolle. Nach Rötting (1999; 2001) handelt es sich allerdings bei Fixationen nicht um Bewegungen des Auges, was wohl dem Alltagsverständnis des Begriffs im Sinne von „Etwas Festgelegtem“ gerecht würde. Daher wären Fixationen als Augenbewegungen theoretisch in dieser Klassifikation fehl am Platz. Je nach Definition einer Fixation sind nach Rötting (2001) allerdings zwei Sichtweisen möglich:
Eine Fixation wird definiert als der Zustand, bei dem das Auge sich bezüglich eines Sehobjektes in „relativem“ Stillstand befindet. Eindeutig sind mit dieser Definition die Fixationen von den Sakkaden abgegrenzt. In der Definition wird in doppeltem Bezug das Wort „relativ“ genutzt. Wird „relativ auf Stillstand bezogen, erfolgt die Abgrenzung zu den Mikrobewegungen (…) des Auges. (…) Wird „relativ“ hingegen auf das Sehobjekt bezogen, werden Folgebewegungen (…) in den Fixationen mit eingeschlossen (S. 68).
Inwieweit zwischen Fixationen und verschiedener Augen- bzw. Blickbewegungen überhaupt detailliert unterschieden werden kann, ist von der Größe der zeitlichen sowie örtlichen Auflösung des verwendeten Meßsystems abhängig (siehe Abschnitt 7.1 im empirischen Teil).
Fast ausschließlich während Fixationen, bei denen sich die Augen also in relativem Stillstand befinden, werden visuelle Informationen aufgenommen und verarbeitet. Empirische Befunde zeigen, dass die minimale Fixationsdauer bei 100ms liegt, was aufgrund der Theorie zur saccadic suppression (s.o.) plausibel erscheint. Kürzere Fixationsdauern würden keine Wahrnehmung von Informationen zulassen. Zur Analyse der visuellen Aufmerksamkeit (attention) und des Handlungsvollzugs ist die Identifizierung von Fixationen unumgänglich (Rötting, 2001).
Augen- vs. Blickbewegungen / Eye-Tracking vs. Gaze-Tracking
Die vorgestellten okularen Bewegungen erfahren eine Eingrenzung für die Identifikation von Nutzungsproblemen, indem zwischen Augen- und Blickbewegungen unterschieden wird. Das Unterscheidungskriterium ist dabei der Bezugspunkt der Bewegungen.
Augenbewegungen werden als Bewegungen in Relation zum Kopf definiert und gemessen. Bei vestibulären Bewegungen etwa müssen Bewegungen relativ zum Kopf stattfinden, um die Fixierung eines Objektes aufrechtzuerhalten. Aus der Sicht des Objektes blieben die Augen aber unbewegt. Okulare Bewegungen, die den Kopf als Bezugspunkt haben, werden translatorische Bewegungen genannt (Duchowski, 2003). Damit sind Augenbewegungen als jene Bewegungen des Auges zu definieren, die allein durch Beobachtung des Auges erfasst und analysiert werden können. Im Gegensatz dazu sind Blickbewegungen solche Bewegungen, bei deren Erfassung und Interpretation der Zielort, an welchem Informationen aufgenommen werden, miterfasst wird (Rötting, 2001). Blickbewegungen werden als rotierende Bewegungen bezeichnet, die in Relation zu einem Objekt gemessen werden (Duchowski, 2003).
Zur Evaluation von Computerinterfaces über Augenbewegungen müssen solche Daten generiert werden, die Aussagen über den Zielort Benutzungsoberfläche der Testanwendung zulassen. Daher sind für die Usability-Evaluation ausschließlich Blickbewegungen von Interesse. Konsequenterweise müsste die für die vorliegende Arbeit relevante Messung von Blickdaten als Gaze-Tracking (auch Point-of-Regard Measurement) bezeichnet werden. Eine solch konsequente Trennung ist in einschlägiger Literatur (z.B. Duchowski, 2003; Duchowski & Rele, 2004) nicht aufzufinden. Der Begriff Eye-Tracking wird vielmehr als Oberbegriff für die Erfassung von Augen- und Blickbewegungen verwendet.
Für das Gaze-Tracking sind somit von den oben beschriebenen okularen Bewegungen Sakkaden und Fixationen relevant. Andere Bewegungen treten entweder nicht bzw. in vernachlässigbarem Ausmaß auf, weil sie durch die Art des Untersuchungsobjekts (z.B. bei statischem GUI) und durch die für das Gaze-Tracking eingesetzte Messmethodik kontrolliert sind oder nur einen schwachen Einflussfaktor auf die Untersuchungsergebnisse darstellen (z.B. bei Mikrobewegungen). Dies wird auch im folgenden Abschnitt zur Beschreibung der Registrierung von Blickbewegungen deutlich.
4.2 Registrierung von Augenbewegungen
Zur Registrierung von Augenbewegungen kann aus einer Fülle an Methoden und Messtechnik ausgewählt werden. Die Auswahl hängt grundsätzlich vom Untersuchungsobjekt und –ziel ab (Joos et al., 2000). Die derzeit gängigste Eye-Tracking-Technik ist gleichzeitig diejenige, die als Gaze-Tracking vornehmlich zur Blickdaten basierenden Analyse von (grafischen) interaktiven Systemen geeignet ist. Diese Technik wird allgemein als Cornea-Reflexions-Methode bezeichnet (Duchowski, 2003)
Cornea-Reflexions-Methode
Auf die Cornea (Hornhaut) auftreffendes Licht führt zu vier verschiedenen Reflexionen, die sich aufgrund des geschichteten Aufbaus der Hornhaut ergeben und als Referenzpunkte zur Bestimmung von Blickbewegungen dienen. Corneale Reflexionen werden auch als Purkinje-Reflexionen/-Bilder bezeichnet (siehe Abb. 4-1, F bis H), die von einer fest installierten Infrarot-Lichtquelle erzeugt, von einer geeigneten infrarot-sensitiven Kamera des Eye-Trackers wieder erfasst und von der Bildverarbeitungskomponente des Steuerrechners zu Blickdaten in „real-time“ umgewandelt werden. Die erste Variante dieser Technik nutzt die erste Purkinje-Reflexion und die Puppillenmitte als Vergleichspunkte. Führt das Auge rotierende Bewegungen (Blickbewegungen) aus, so ändert sich der Abstand zwischen Pupillenmitte und erstem Purkinje-Bild, bleibt aber bei geringen Kopfbewegungen konstant. Während die corneale Reflexion also örtlich stabil bleibt, verschiebt sich die Pupille, woraus sich die Referenzwerte zur Bewegungsbestimmung ergeben. Um valide Blickbewegungsdaten zu erhalten, ist eine Kalibrierung auf den Zielort, z.B. auf ein Computerinterface notwendig (siehe Abb. 4-3).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4-3: Abstand zwischen Pupille (großer schwarzer Kreis) und erstem Purkinje-Bild (kleiner weißer Kreis) bei neun verschiedenen Blickpositionen wie sie von der Kamera eines Eye-Trackers aufgezeichnet sind. Während die corneale Reflexion örtlich relativ stabil bleibt, verschiebt sich die Pupille, woraus sich die Referenzwerte zur Bewegungsbestimmung ergeben. Um den Eye-Tracker z.B. auf ein Testinterface zu kalibrieren, muss der Tester eine Reihe von Blickpunkten – etwa wie hier dargestellt- nacheinander fixieren (Duchowski, 2003; S. 64).
Ein Nachteil der ersten, älteren Variante der Cornea-Reflexions-Methode besteht darin, dass der Kopf z.B. in einer Kinnstütze fixiert werden muss, um zu gewährleisten, dass Augenposition und Blickpunkt auf dem Zielort synchronisieren. Eye-Tracker neuester Generation arbeiten meist mit einer neuen Variante der Cornea-Reflexions-Methode und schaffen eine deutlich natürlichere Testumgebung, indem auf fixierende Apparaturen verzichtet wird. Die Messung basiert dabei auf der Nutzung von zwei cornealen Reflexionen, dem ersten und vierten Purkinje-Bild. Bei translatorischen Augenbewegungen relativ zum Kopf verschieben sich die Bilder um exakt die gleiche Distanz. Anders bei den rotierenden Blickbewegungen, wo sich die Abstände zwischen den Purkinje-Bildern ändern und Referenzwerte zur Bestimmung der Blickbewegungen abgeleitet werden können (Duchowski, 2003). Dennoch ist anzumerken, dass Kopfbewegungen nur bis zu einer bestimmten Geschwindigkeit und Weite vom Eye-Tracking-System kompensiert werden können.
Zur Beschreibung weiterer interessanter Eye-Tracking-Methoden, die allerdings zum Großteil auf die Erfassung von Augenbewegungen beschränkt sind, siehe Joos et al. (2000), Rötting (2001; Kap. 3) & Duchowski (2003; Kap. 5).
4.3 Blickbewegungen und kognitive Prozesse
4.3.1 Visuelle Aufmerksamkeit
Die Arbeit mit einer graphischen Benutzungsoberfläche ist durch Suchprozesse charakterisiert. Der Nutzer sucht z.B. auf dem Interface nach geeigneten Funktionselementen, um diese zu bedienen oder er ist auf der Suche nach bestimmten Informationen (z.B. Online-Nachrichtenmagazin). Suchprozesse gestalten sich durch räumliche Veränderung visueller Aufmerksamkeit (Sommer, 2003).
Aufmerksamkeit kann allgemein als ein Zustand gesteigerten Bewusstseins beschrieben werden, der auf die Beachtung eines Objekts (Vorgang, Gegenstand, Idee etc.) gerichtet ist. Auf Objektseite werden dabei bestimmte Teilinhalte hervorgehoben; auf Subjektseite tritt ein erhöhter, konzentrierter Einsatz des Wahrnehmungs- und Verarbeitungssystems ein (Häcker & Stapf, 1998; S. 80).
Die visuelle Wahrnehmung des Menschen ist in ihrer Kapazität zur Verarbeitung von visuellen Informationen beschränkt. Aus diesem Grund werden Aufmerksamkeitsprozesse generell dafür genutzt, die Fülle an visuellen Reizen zu selektieren, um ausschließlich relevante (z.B. für eine Handlung) Informationen tiefer zu verarbeiten. So konzentriert sich das Gehirn auf einen ausgewählten Teil des sensorischen Inputs, um diesen detaillierter zu verarbeiten als das restliche periphere Reizmaterial.
Die visuelle Aufmerksamkeit gilt als eines der am besten verstandenen Mechanismen des menschlichen Wahrnehmungsapparates. Zur Erklärung dieses Phänomens liegt eine Vielzahl unterschiedlicher Modelle vor. Eine sehr geläufige Metapher ist das so genannte Spotlight (Posner, Snyder et al., 1980). Wie ein Scheinwerfer bewege sich die Aufmerksamkeit über die internen Repräsentationen43 der visuellen Umwelt und entscheide, welche Informationen weiterverarbeitet und welche herausgefiltert werden. Visuelle Merkmale innerhalb des Spotlights, welches in der Größe bis zu einem gewissen Maß variieren kann, werden tiefer verarbeitet. Sehr charakteristisch ist, dass die visuelle Umgebung am Zielort einer Handlung (z.B. Anklicken eines bestimmten Funktionsbutton auf einem Computerinterface) vorverarbeitet werden kann, indem die visuelle Aufmerksamkeit schon vor Handlungsbeginn auf den Zielpunkt der Handlung gerichtet ist. Beim Lesen etwa findet eine Vorverarbeitung im Bereich von zwölf Buchstaben rechts vom aktuellen Blickpunkt statt. Das Spotlight hätte hier eine stark asymmetrische Form (Sommer, 2003).
Dual Attentive Hypothesis
Das hier sehr verkürzt dargestellte Konzept des Spotlights beinhaltet die grundlegende Konzeptualisierung zweier Verarbeitungsströme, das „WAS“ und „WO“ der visuellen Aufmerksamkeit (dual attentive hypothesis). Die Aufmerksamkeitslenkung ist geprägt durch das „WO“ als nächstes hingeblickt wird, um „Was“ im Detail zu betrachten. Die räumliche Orientierung korrespondiert dabei mit peripheren, die detaillierte Erkennung der im Aufmerksamkeitsfokus befindlichen Objekte/Elemente mit fovealen Aspekten der Wahrnehmung. Damit ist eine Unterscheidung zwischen der hochauflösenden, feinen, kontrastreichen Wahrnehmung über die Fovea und der groben, ganzheitlichen Wahrnehmung über den restlichen Bereich der Netzhaut angesprochen (Duchowski, 2003; Kap. 1). Unter Gültigkeit der dual attentive hypothesis läuft die aufmerksamkeitsgeleitete visuelle Verarbeitung eines Bildes in drei Stufen ab (Duchowski, 2003; S. 12):
≡ Ein auftauchendes Bild wird zuerst in seiner Gesamtheit mittels peripherer Wahrnehmung und daher mit geringer Auflösung erfasst. Auf dieser Stufe stechen interessante Merkmale im Blickbereich hervor („pop out“) und konzentrieren die Aufmerksamkeit auf ihre Position, um eine foveale Verarbeitung anzuregen. Das menschliche Wahrnehmungssystem reagiert durch die Eigenschaften seines Rezeptornetzwerks stärker auf bestimmte Stimulustypen (z.B. Ecken) und schwächer auf andere (z.B. homogene Flächen).
≡ Die Aufmerksamkeit wird vom aktuellen Ort fovealer Ausrichtung losgelöst und zur Region größter Aufmerksamkeitserregung über Blickbewegungen (Sakkaden) verschoben.
≡ Nach der Repositionierung der Augen wird die Fovea auf die interessierte Region (ROI) ausgerichtet, um die visuellen Merkmale in hoher Auflösung zu verarbeiten.
Bottom-up vs. Top-down
Eine derart modellierte visuelle Aufmerksamkeitssteuerung basiert auf einer reinen Bottom-up-Verarbeitung (auch: Feature-Driven-Processing), d.h. die Wahrnehmung vollzieht sich auf niedriger kognitiver Ebene, indem ein visuelles Objekt in seine Elementarmerkmale (Farbe, Größe, Bewegung etc.) zerlegt wird (unbewusst, automatisiert) und durch Verknüpfung eine bedeutungsvolles Ganzes entsteht. Wenn jedoch visuelle Stimuli alleinig für die Erzeugung von Aufmerksamkeit verantwortlich wären, wären bewusst gesteuerte Augenbewegungen nicht erforderlich bzw. nicht möglich. Ein Betrachter ist aber in der Lage, seinen Blick willentlich auf ein ihn interessierendes Objekt zu richten. Für ein umfassendes Modell der visuellen Aufmerksamkeit müssen daher auch kognitive Prozesse höherer Ordnung einbezogen werden.
Folglich wird die Aufmerksamkeitslenkung auch von einer Top-down-Verarbeitung beeinflusst. Zur Identifikation und Interpretation der visuellen Informationen spielen daher auch frühere Erfahrungen, das Wissen und bestimmte Erwartungen des Betrachters eine Rolle. Dieser Einfluss auf die Informationsverarbeitung speist sich vornehmlich aus den mentalen Modellen des Betrachters (Goldstein, 1997; Duchowski, 2003). Im Kontext der MCI ist hier vor allem das im Abschnitt 3.2 erwähnte User Model relevant, welches der Nutzer zur Erklärung der Funktionalität und Dialogstruktur des verwendeten Computersystems während der Nutzung repräsentiert hat.
Zum „WAS“ und „WO“ der Aufmerksamkeitssteuerung kann mit Hinzunahme top-down gesteuerter Prozesse noch ein dritter Verarbeitungsstrom, das „WIE“ der visuellen Verarbeitung, konzeptualisiert werden. Perzeptuelle Erwartungen des Betrachters bedingen die Auswahl und Interpretation der visuellen Elemente. In einem Experiment zur Worterkennung wurde z.B. gezeigt, dass das falsch geschriebene Wort „sael“ entweder als seal (Robbe) oder sail (Segel) gelesen wird, je nachdem ob den Testpersonen die Präsentation von Wörtern zum Thema „Tiere“ oder zum Thema „Schiffe“ in Aussicht gestellt worden war. Noch deutlicher zeigt sich diese top-down gesteuerte Aufmerksamkeitslenkung darin, dass Blickbewegungsmuster (Blickpfade bestehend aus Fixationen und Sakkaden) eines Betrachters auf einem Bild mit der Aufgabenstellung variieren (siehe Abb. 4-4) (Duchowski, 2003; Kap. 1).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4-4: Darstellung (Ausschnitt) aufgabenabhängiger Blickbewegungsmuster aus dem bekannten Experiment von Yarbus (1967). Je nachdem, ob ein Betrachter die Aufgabe bekommt, das Bild (A) ganz allgemein anzuschauen (B), das Alter der Personen zu beurteilen (C) oder sich die Objekte und Personen im Bild einzuprägen (D), werden verschiedene Blickbewegungsmuster aufgezeichnet (in Anlehnung an Duchowski, 2003; S. 10).
Präattentive vs. attentive Phase
Die bisherigen Erörterungen zur visuellen Aufmerksamkeit lassen sich zu einem zweistufigen Modell der visuellen Suche zusammenfügen, welches in der kognitiven Psychologie eine lange Tradition besitzt (Velichkovsky, Dornhoefer et al., 2000). Bezogen auf die Suche innerhalb einer graphischen Benutzungsoberfläche können diese beiden Phasen wie folgt beschrieben werden:
In der präattentiven Phase findet zunächst die räumliche Orientierung auf der Oberfläche statt. Hier vollziehen sich größtenteils bottom-up Prozesse. Auf Basis automatisierter Verarbeitung der wahrnehmbaren Elementarmerkmalen des Interfaces wird die Aufmerksamkeit auf den Ort gelenkt, der am meisten Erregung im visuellen System erzeugt, welches – wie bereits erwähnt- für bestimmte Stimulustypen sensibler ist als für andere. Top-down Prozesse sind in der präattentiven Phase allerdings auch zu beachten. Der räumliche Auswahlprozess wird durch das Wissen des Nutzers über die visuellen Eigenschaften der Benutzungsoberfläche beeinflusst (Goldstein, 1997; Duchowski, 2003). Das mögen zu internen Normen generalisierte Nutzungserfahrungen sein wie etwa Das Menü einer Website befindet sich meistens auf der linken Seite oder Hauptfunktionen einer Anwendung sind in gelben Buttons dargestellt. Im letzteren Fall arbeitet der Nutzer möglicherweise schon mehrere Jahre mit einer für seinen Job speziell angefertigten Software, welche mit dieser Farbkodierung versehen ist. Zu betonen ist, dass der Einfluss des präsenten Nutzerwissens sich in der automatisierten präattentiven Phase auf eine Voraktivierung entsprechender Stimuli beschränkt. Eine semantische Verarbeitung findet hier noch nicht statt. In der attentiven Phase wird der durch den Selektionsprozess ausgewählte Bereich der graphischen Oberfläche (z.B. ein Button) im Detail und semantisch analysiert (Duchowski, 2003; Kap. 1). Auf dieser zweiten Stufe nehmen hauptsächlich die mentalen Modelle und die daraus abgeleiteten Erwartungen des Nutzers Einfluss auf die visuelle Verarbeitung bzw. Suche.
4.3.2 Blickbewegungen und visuelle Aufmerksamkeit
Es liegen zahlreiche Untersuchungen vor (z.B. Just & Carpenter, 1976; Rayner & Pollatsek, 1992), die die These unterstützen, dass eine Übereinstimmung zwischen Fixationsort und dem Fokus der visuellen Aufmerksamkeit angenommen werden kann. Die Aufmerksamkeit ist an Sakkaden gekoppelt und wird von diesen gewöhnlich an den Ort des stärksten Reizes bzw. auf die ROI verschoben, um dort eine tiefere Verarbeitung mittels Fixation auszulösen. Sakkaden können dabei gezielt gesteuert werden, sind aber oft, vor allem bei schnellen Veränderungen, im peripheren Gesichtfeld reflexiv, d.h. unwillentlich ausgelöst. Dieser Reflex kann allerdings willentlich kontrolliert werden.
Mit kleinen Einschränkungen gilt, dass die Aufmerksamkeit erst vom fixierten Objekt (bewusst) gelöst werden muss, um die nächste Sakkade zu initiieren. Diese „Reflexkontrolle“ ist gerade für die visuelle Suche von großer Bedeutung. In der Peripherie liegende Objekte können mittels parafovealer Wahrnehmung bewusst (vor-) analysiert werden, um sodann zu entscheiden, ob zu diesem Objekt geblickt werden soll oder nicht. Diese Tatsache zeigt, dass die Kongruenz von Aufmerksamkeitsfokus und Fixationsort nicht zwingend ist. Dies ist z.B. dann der Fall, wenn beim Nachdenken die Aufmerksamkeit nach innen gerichtet ist und keinem Objekt aus der Umgebung zugewandt ist. Auch das Lesen bildet eine Ausnahme. Während ein Wort fixiert und semantisch verarbeitet wird, kann gleichzeitig auch das nächste im parafovealen Bereich liegende Wort vorverarbeitet werden. Aufgrund solcher Ergebnisse erscheint die Aufmerksamkeit stets zwischen fixiertem und peripheren Objekten aufgeteilt zu sein (Joos et al., 2000).
So kann festgehalten werden, dass die Aufmerksamkeit ohne Sakkadenausführung auf einen anderen als den aktuell fixierten Blickort gerichtet werden kann. Umgekehrt gilt dies allerdings nicht (!). Es ist nicht möglich eine Sakkade ohne vorherige Verschiebung der visuellen Aufmerksamkeit auszuführen. Aus diesem Grund wird auch zwischen der offenen Aufmerksamkeit (overt attention) und der verdeckten Aufmerksamkeit (covert attention) unterschieden. Offene oder direkte Aufmerksamkeit ergibt sich aus der Übereinstimmung zwischen Fixationspunkt und Aufmerksamkeitsfokus. Verdeckte Aufmerksamkeit liegt vor, wenn attentive Prozesse vornehmlich auf periphere Bereiche gerichtet sind (Deubel, 1998).
Die Existenz verdeckter Aufmerksamkeit stellt ein Problem für die Analyse von Aufmerksamkeitsprozessen dar. Eye-Tracker können nur offene Augenbewegungen direkt erfassen (Duchowski, 2003; S. 14). Dieses Problem ist allerdings in Abhängigkeit verschiedener Anwendungsbereiche zu gewichten. Wie bereits erwähnt finden bei der Arbeit auf einer graphischen Benutzungsoberfläche vornehmlich visuelle Suchprozesse statt. Studien zur visuellen Suche (z.B. Findlay & Gilchrist, 1998) weisen hierbei auf die geringe Bedeutung verdeckter Aufmerksamkeitsprozessen hin. Suchaufgaben würden zum Großteil besser mit offener Aufmerksamkeitslenkung bewältigt. Im Allgemeinen zeigen Betrachter bei Suchaufgaben die natürliche Tendenz, die Augen zu bewegen, obwohl dies nicht immer effizient ist. Erklärbar ist dies damit, dass für natürliche, alltägliche Suchsituationen Augenbewegungen subjektiv als die effektivste Suchform erscheinen (Duchowski, 2003). Gegenteilige Ergebnisse liegen z.B. bei Studien zur Fahrzeugführung vor. Dort spielt die periphere Wahrnehmung eine große Rolle, etwa für die Wahrnehmung von Geschwindigkeit und Entfernung (Rötting, 2001).
4.3.3 Fixationen/Sakkaden und kognitive Prozesse
Im folgenden Abschnitt werden Erkenntnisse über den Zusammenhang von Fixationen/Sakkaden mit speziellen Aspekten der kognitiven Informationsverarbeitung vorgestellt. Diese münden mit den in Kapitel 3 beschriebenen Konzeptionen von Nutzungsproblemen in die Auswahl der im empirischen Teil verwendeten Testvariablen ein.
Fixationsmodell
Das Fixationsmodell von Viviani (1990) (siehe Abb. 4-5) beschreibt drei Prozesse, die während einer typischen Fixation ablaufen: (a) Die visuellen Informationen werden foveal sowohl auf syntaktischer als auch auf semantischer Ebene verarbeitet. (b) Über parafoveale Wahrnehmung wird das periphere Blickfeld gemustert, um nachfolgende ROIs zu bestimmen. (c) Die nächste Sakkade wird geplant und vorbereitet. Die daraufhin ausgeführte Sakkade erzeugt einen neuen Fixationsort. Die beschriebenen Phasen überschneiden sich und können auch parallel ablaufen. Über die drei Phasen bestimmt sich die Fixationsdauer, die Viviani mit 250-300ms ansetzt. Die Phase der Analyse dauert typischerweise 100-150ms (Goldberg & Kotval, 1999; Schimpfky, 2003). Aufgrund der möglichen Synchronizität der Phasen sind für die Gesamtdauer der Fixation auch kürzere Zeiten plausibel.
Die Modellierung einer Fixation nach dem Modell von Viviani lässt sich mit einigen bereits erörterten Aussagen zur visuellen Informationsverarbeitung zusammenbringen. Das Modell beschreibt grundsätzlich den charakteristischen Wechsel aus Fixationen und Sakkaden (Blickpfade) zur Aufmerksamkeitsverschiebung und Analyse ausgewählter Blickorte.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4-5: Fixationsmodell nach Viviani (1990, Grafik aus Goldberg & Kotval, 1999; S. 636).
Die drei Prozesse können zudem den beiden Aufmerksamkeitsphasen zugeordnet werden (dual attentive hypothesis). Der erste Prozess zur Enkodierung visueller Stimuli entspricht der attentiven oder aufmerksamkeitsgerichteten Phase. Der zweite und dritte Prozess in Vivianis Modell lässt sich zur präattentiven Phase zusammenfassen, in welcher die räumliche Orientierung im Vordergrund steht. Zudem wird das Konstrukt der verdeckten Aufmerksamkeit unterstützt. Während einer Fixation bleibt die Wahrnehmung nicht ausschließlich auf dem fixierten Objekt/Blickort gebunden, sondern das periphere Blickfeld wird gleichzeitig gemustert.
Fixationsdauer & visuelle Verarbeitung
Zur Analyse des Zusammenhangs zwischen kognitiven Prozessen und Augen- bzw. Blickbewegungen wird nach Schroiff (1986, zitiert nach Rötting, 2001; S. 62) von folgenden Annahmen ausgegangen:
≡ Eye-mind-assumption Die visuelle Achse verläuft durch das Objekt, welches momentan zentral verarbeitet wird.
≡ Immediacy-assumption Die Fixationsdauer entspricht der Dauer der zentralen Verarbeitung.
Es gibt eine Reihe von Studien die für und gegen die (uneingeschränkte) Gültigkeit der beiden Annahmen sprechen:
Ein von Just & Carpenter (1980) entwickeltes Modell zur Bestimmung der Fixationsdauern von verschiedenen Wörtern und Testpassagen konnte die Gültigkeit der beiden „assumptions“ untermauern. Das Modell ist in der Lage die Fixationsdauern für Textpassagen mit guter Genauigkeit vorherzusagen. In einem Versuch von Mackworth & Morandi (1967) wiesen graphische Felder, die von Testpersonen als besonders informationshaltig beurteilt wurden, auch überzufällig hohe Werte in der Fixationsdichte auf. Dieses Ergebnis unterstützt ebenfalls die Gültigkeit der „eye-mind-assumption“ (Rötting, 2001).
Dagegen zeigte ein Problemlösetest von Putz-Osterloh & Lüter (1979), dass die Fixationsdauern länger waren, wenn die Aufgabe durch die Generierung einer Raumvorstellung gelöst wurde. Dabei blickten die Testpersonen relativ häufig auf die leere Fläche zwischen den beiden Objekten, die zum Vergleich standen, oder schlossen ganz die Augen. Die Fixationsdauer kann hier also nicht, wie die „immediancy assumption“ postuliert, als Maß für die zentrale Verarbeitung herangezogen werden. Die fixierten visuellen Informationen werden durch die Generierung von Vorstellungsbildern nicht verarbeitet.
Dieses Ergebnis spiegelt sich auch im Alltag wider. So denkt man mit einem „verträumten Blick“ über etwas nach oder starrt „in Gedanken“ vor sich hin. Letzteres Phänomen trägt in der Wissenschaft den bezeichneten Namen looking without seeing (Rötting, 2001). Die Relevanz dieses Ergebnisses auf das Thema dieser Arbeit erscheint aber fraglich, wenn man den oben erwähnten Befund berücksichtigt, dass Personen bei visuellen Suchaufgaben gewohnheitsbedingt Blickbewegungen ausführen.
Das so genannte cognitive processing argument nach Goldberg & Kotval (1999) unterstützt die These, dass ein schwierig zu verarbeitendes Objekt auch längere Fixationsdauern hervorruft, was auf eine größere Verarbeitungszeit zurückzuführen ist. Diese Annahme konnte in vielen Studien untermauert werden. De Graef, Christiaens und d’Ydewalle (1990) zeigten etwa, dass die Fixationsdauern auf Objekten in einem Bild, die für die gezeigte Szene sehr unwahrscheinlich bzw. untypisch waren oder gegen bestimmte Normen verstießen (z.B. ein Hydrant schwebt in der Luft etc.) länger waren als für jene, die in der präsentierten Szene vom Betrachter erwartet wurden. Diese Studie spricht dafür, dass die Verarbeitung eines fixierten Objekts die Fixationsdauer kontrolliert. Weitere Ergebnisse und eine detaillierte Diskussion dazu findet sich bei Henderson & Hollingworth (1998; 1999).
Die Fixationsdauer ist auch als Indikator für die Tiefe der kognitiven Verarbeitung beschrieben. In entsprechenden Untersuchungen ist die Verarbeitungstiefe in Form von hierarchisch aufgebauten Ebenen konzeptualisiert, die sich aus der klassischen Unterscheidung einer Verarbeitung von Oberflächen- bzw. perzeptiven Merkmalen und einer weiterführenden semantischen Verarbeitung ergeben. In neueren Untersuchungen sind zusätzlich übergeordnete Verarbeitungsprozesse durch die Einbeziehung einer metakognitiven und kommunikativen Ebene beschrieben. Eine wegweisende Studie zum Zusammenhang von Verarbeitungstiefe und Fixationsdauer stammt von Velichkovsky, Sprenger & Pomplun (1997). In der Untersuchung mussten Testpersonen ein Schwarzweißbild, auf dem unbekannte Gesichter zu sehen waren, nach verschiedenen jeweils einer Verarbeitungsebene zugeordneten Kriterien beurteilen:
≡ Perzeptive Ebene Ist mehr schwarz oder weiß auf dem Bild vorhanden?
≡ Semantische Ebene Sind Männer oder Frauen zu sehen?
≡ Metakognitive Ebene Erscheinen die Gesichter sympathisch oder unsympathisch?
≡ In der kommunikativen Bedingung mussten zwei Partner gemeinsam ein visuelles Problem lösen und sich über betrachtete Objekte verständigen.
Als Ergebnis konnte ein positiver Zusammenhang zwischen Verarbeitungsebenen und Fixationsdauer festgestellt werden (siehe Abb. 4-6). Die einzelnen Ebenen lassen sich so über unterschiedliche Zeiträume von Fixationsdauern abgrenzen (Dornhöfer & Pannasch, 1999).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4-6: Fixationsdauer als Indikator der Ebenen der Informationsverarbeitung (Velichkovsky, 1997, Grafik aus Dornhöfer & Pannasch, 1999).
Für die vorliegende Arbeit sind vor allem die Ergebnisse zur figurativen und semantischen Verarbeitung von Interesse. Eine perzeptive Fixation liegt zwischen 120ms und 250ms, eine semantische Fixation zwischen 220ms und 450ms.
Sakkadensteuerung
Anhand des Fixationsmodells von Viviani lassen sich Sakkaden der präattentiven Verarbeitung zuordnen, welche für die räumliche Orientierung und Ortauswahl (der nächsten Fixation) verantwortlich ist.
Modelle zur Sakkadensteuerung versuchen die Auswahl des Blickortes, das „WIE“ und „WANN“ sakkadischer Bewegungen zu präzisieren. Henderson et al. (1999) führen in ihrem Modell zur Sakkadensteuerung bei Bildbetrachtungen das Konstrukt der Hervorstechens-Karte (saliency map) ein. Diese zweidimensionale Karte symbolisiert die Aktivierungsstruktur eines betrachteten Bildes im visuellen Wahrnehmungssystem, wobei jedem Bildelement ein Aktivierungsniveau zugeordnet wird. Der Punkt mit dem höchsten Niveau bestimmt den Zielort der nächsten Sakkade. Die saliency-map bestimmt sich über die bereits beschriebenen bottom-up und top-down Prozesse der attentiven Informationsverarbeitung. Eine auffällige und erwartungskonforme visuelle Darstellung führt zu hohen Aktivierungsniveaus. Das „WANN“ sakkadischer Bewegungen erklärt Henderson et al. – konform mit dem Fixationsmodell von Viviani – im Wesentlichen über die Dauer der vorausgehenden Fixation. Nach erfolgreicher Informationsverarbeitung sinkt das Aktivierungsniveau und die Aufmerksamkeit wird freigegeben, um den nächsten Punkt höchster Aktivierung auszuwählen (Duchowski, 2003; Kap. 11, Schimpfky, 2003).
Als Einflussfaktor auf die saliency-map gehen Henderson et al. zudem von einer semantischen Analyse aus, die sich in zwei Typen unterteilt. Die globale semantische Analyse gliedert eine Szene in einen größeren Kontext ein, z.B. die Erkenntnis, dass man sich auf der Startseite einer bestimmten Internet-Anwendung befindet. Die lokale semantische Analyse entspricht der Bedeutungsextraktion eines eingegrenzten Bereichs, z.B. das Erkennen eines Links und seiner Funktion. Der Einfluss der beiden Analysetypen ist vom zeitlichen Verlauf der visuellen Suche abhängig. Die räumliche Planung der ersten Sakkade erfolgt auf Grundlage einer globalen semantischen Analyse. Anschließende lokale Analysen der Bedeutungsstruktur spiegeln sich in der saliency-map nieder und beeinflussen so die Sakkadensteuerung (Duchowski, 2003; Kap. 11, Schimpfky, 2003).
Das Modell zur Sakkadensteuerung von Henderson et al. zeigt grundsätzlich, dass die über sakkadische Augenbewegungen erreichte Ortauswahl nicht zufällig erfolgt, sondern ganz bestimmten Mechanismen unterworfen ist. Diese Grundaussage deckt sich mit der in Abschnitt 4.3.1 erwähnten Studie von Yarbus et al., die die Abhängigkeit von Blickbewegungsmustern (Blickpfade) von der Aufgabenstellung aufzeigt (siehe Abb. 4-4).
5. Gaze-Tracking Parameter & Nutzungsprobleme
In diesem Kapitel werden die Ausführungen aus den Kapiteln 3. & 4. genutzt, um eine Zuordnung von Blickbewegungsparametern und Nutzungsproblemen zu realisieren.
5.1 Parameter-Pool
Auf Grundlage einer Literaturanalyse konnte ein Pool erstellt werden, der eine Vielzahl spezifischer Eye-Tracking-Parameter beinhaltet, welche bereits geeignete Interpretationsansätze aufweisen. Der Pool soll zum einen als Unterstützung für die Nutzung von Blickdaten in der Usability-Praxis dienen, zum anderen liefert er die notwendigen Parameter, die im empirischen Teil dieser Arbeit auf ihre Indikatorstärke für Nutzungsprobleme untersucht werden.
Die Parameter-Übersicht ist nach den für das Gaze-Tracking relevanten unterteilt. So werden die Parameter, die sich auf Basis von Fixationen, Sakkaden oder Blickpfaden (Wechsel zwischen Fixationen u. Sakkaden) berechnen lassen kurz beschriebenen, deren Interpretations-/Verwendungsmöglichkeiten skizziert und ggf. zusätzliche Anmerkungen angebracht. Des Weiteren sind die Parameter danach untergliedert, ob sie durch zeitliche oder räumliche Eigenschaften oder durch eine Häufigkeitsbestimmung charakterisiert sind.
Der Parameter-Pool befindet sich im Anhang A
5.2 Gaze-Tracking Parameter zur Identifizierung von Nutzungsproblemen
In diesem Abschnitt wird gezeigt, welche Parameter aus dem erstellten Parameter-Pool für die Erfassung welcher Nutzungsprobleme zur empirischen Überprüfung ausgewählt werden, wobei diese für die vorliegende Studie teilweise erweitert wurden. Insgesamt werden sechs Blickbewegungsparameter zur Erfassung von vier Nutzungsproblemen eingesetzt (siehe Abb. 5-1).
5.2.1 Erwartungsabweichung
Die bisherigen Ausführungen haben die wichtige Rolle mentaler Modelle auf die Konzeptualisierung von Nutzungsproblemen und deren Einfluss auf die visuelle Suche auf Grundlage sakkadischer Bewegungen gezeigt. Über das während der Computernutzung repräsentierte User Model (siehe Abschnitt 3.2) ist das Verhalten des Nutzers stark von seinen Erwartungen in Bezug auf die Eigenschaften der Benutzungsoberfläche geprägt. Weicht das System in Design und Dialogstruktur im hohen Maße von den Erwartungen des Nutzers ab, führt dies zu einem Nutzungsproblem (Erwartungsabweichung), welches es mittels Blickbewegungsanalyse zu identifizieren gilt. Ein dafür relevanter Parameter ist der so genannten Backtrack (siehe B.2.2 im Parameter-Pool [PMP]).
Abb. 5-1: Übersicht zur Auswahl der Blickbewegungs-Parameter in Abhängigkeit der zu identifizierenden Nutzungsproblemen (inkl. Verweis auf die Verortung im Parameter –Pool [PMP]).
Backtracks Backtracks (auch backtrackings; dt. Rücksprünge) entstehen dadurch, dass ein Ziel während der visuellen Suche plötzlich geändert wird. Der Parameter stammt aus der Leseforschung, die z.B. Art und Gründe für Rücksprünge (engl. regressive movements) des Lesers innerhalb einer Textzeile untersucht. Studien bestätigen, dass die Anzahl der Rücksprünge mit dem Ausmaß der Leseerfahrung hoch korreliert (Rötting, 2001). Umso besser man lesen kann, desto weniger regressive movements benötigt man, um einen Text ausreichend semantisch zu verarbeiten. Gerade Kinder als Leseanfänger zeigen in ihren Blickbewegungen diese auffälligen Muster. Aber auch Erwachsene mit sehr guter Leseerfahrung müssen mit den Augen häufig zurückspringen, wenn es einen schwierigen Text durchzuarbeiten gilt (z.B. unbekanntes Vorlesungsskript).
In einer Reihe von Studien zur Verwendung von Blickbewegungsdaten für die Usability-Evaluation werden Backtracks als interessanter und geeigneter Parametertyp vorgestellt ( z.B., Yamamoto & Kuto, 1992; Goldberg & Kotval, 1998; 1999; in review 1999a; in review 1999b).
Goldberg & Kotval (in review 1999a) charakterisieren Backtracks in einer Studie wie folgt:
Backtracks are undesireable, indicating a more complex search and possibly attentional difficulties (S. 4). Number of backtracks, borrowed from reading studies in which eye movement regressions are commonly tallied (Rayer, 1978), assessed the potential for distraction and hestancy during visual search (S. 18).
In dieser Studie überprüften Goldberg & Kotval in drei Experimenten die Sensibilität ausgewählter Blickbewegungs-Parameter für die erlebte Usability-Qualität eines Computerinterface. Pro Experiment wurden jeweils andere Eigenschaften und Elemente der graphischen Benutzungsoberfläche variiert: (a) Die Gruppierung bestimmter Werkzeug-Icons, (b) die Qualität deren graphischer Darstellung sowie (c) die Art der Repräsentation/Kodierung der Funktionen (z.B. Grafik vs. Text). Als Einstufung der Benutzungsqualität diente eine fünf-stufige Ratingskala („excellent“ bis „unacceptabel“), mit welcher 80 Zielanwender und professionelle Interface-Designer die verschiedenen Interfaces nach deren Usability-Qualiltät einstuften. Die so kategorisierten Interfacetypen wurden insgesamt 12 Testern präsentiert, deren Blickbewegungen in verschiedenen Testaufgaben getrackt (aufgezeichnet) wurden.
Bei der Auswahl der Parameter griffen Goldberg & Kotval auf ihre faktorenanalytische Kategorisierung (Goldberg & Kotval, in review 1999b) zurück, die drei Beschreibungsdimensionen des Nutzerverhalten beschreiben: (a) Global Search (globale Suche), (b) Local Search (lokale Suche) und (c) Level Of Processing (Verarbeitungstiefe). Die durchgeführte statistische Analyse stellt drei der verwendeten 11 Parameter hinsichtlich deren Sensibilität für den Zusammenhang zwischen subjektiver Einschätzung und auf Blickbewegung basierter Messung deutlich heraus. Neben der Dauer und Länge des Blickpfades (scanpath duration, scanpath length) sind unter den drei besten Parametern auch die Backtrackanzahl zu finden.
Ein zentraler Aspekt der Mensch-Computer-Interaktion ist das Auffinden von Informationen innerhalb des gesamten Bereichs einer Schnittstelle. Backtracks seien zur Analyse dieser globalen Suchprozesse (global search) geeignet. Gleichzeitig ist der Parameter nach Röttings Systematik (2001) auch der Analyse von Informationsaufnahme und Informationsverarbeitungsprozessen zuzuordnen und darin der Gruppe „Erwartungen und Handlungspläne“. Mit Goldberg & Kotval (1998) erhält man eine genaue Definition eines Backtracks, welche sich zur Berechnung des Parameters für die vorliegende Untersuchung eignet:
A backtrack can be described by any saccadic motion that deviates more than 90 deg. in angle from its immediately preceding saccade. These acute angles indicate rapid changes in direction, due to changes in goals and mismatch between users’ expectation and the layout (S. 532).
Nach dieser Definition entsteht ein Backtrack also dann, wenn sich auf einem Blickpfad die Richtung über eine Abweichung von mehr als +/- 90 ° im Verhältnis zur vorhergehenden Sakkade ändert. Für die extrahierten Blickdaten dieser Untersuchung heißt dies, dass jeweils anhand dreier Fixationspunkten bestimmt werden kann, ob ein Backtrack vorliegt oder nicht (siehe Abb. 5-2).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 5-2: Blickpfad bestehend aus Sakkaden (Linien) und Fixationspunkten. Nach Goldbergs (1998) Definition zählen alle Sakkaden, deren Richtung sich im Verhältnis zur vorausgehenden Sakkade um mehr als +/- 90° ändern, als Backtrack. Der entsprechende Winkelbereich ist in der Grafik mit einem grauen Halbkreis markiert. Als Backtrack einzustufende Sakkaden sind fett gezeichnet (Rötting, 2001; S. 134).
In den vorliegenden Studien, in denen Backtracks zum Einsatz kommen, findet man lediglich Definitionen dieses Blickbewegungsparameters, aber nicht die genaue mathematische Umsetzung. Daher muss die Berechnung eines Backtracks für diese Untersuchung noch hergeleitet werden. Dies ist im Anhang C exemplarisch an drei Fixationskoordinaten aus dem Datensatz dieser Untersuchung dargestellt.
5.2.2 Nicht-Erkennen
Dieses Nutzungsproblem gründet auf dem Ansatz von Schimpfky (2003) und wurde bereits im Abschnitt 3.3 vorgestellt. Das Problem tritt dann auf, wenn der Nutzer ein relevantes Bildschirmelement auf dem Interface nicht findet bzw. nicht erkennt (lokaler Suchprozess). In einem so genannten Use-Szenario kann die Interaktion (Benutzerreaktion und Systemreaktion) zwischen User und System aus der Aufgabenperspektive episodisch beschrieben werden. Dadurch wird deutlich, welche Dialogschritte der User vollziehen muss, um sein Handlungsziel zu erreichen. So genannte Use-Cases beschreiben dabei die kleinsten vom Nutzer ausführbaren Dialogschritte. In einem mittels solcher Use-Cases beschriebenen Szenario können die Bedienelemente identifiziert werden, die zum Erreichen des Handlungsziels essentiell sind. Schimpfky (2003; S. 55) spricht in diesem Zusammenhang von kritischen Dialogschritten, welche in einem erweiterten Use-Szenario abgebildet werden können (siehe Abb. 5-3). Die Erweiterung besteht in der Benennung konkreter Bedienelemente, die für den jeweiligen Use-Case relevant sind.
Erkennt ein Nutzer ein kritisches Bedienelement nicht, kommt es zwangsläufig zum Abbruch der Interaktion, da das weiterführende Interaktionselement fehlt. Umgekehrt kann man den Abbruch einer Interaktion mit dem Nicht-Erkennen eines kritischen Bedienelementes erklären, wenn die Blickanalyse zeigt, dass auf den relevanten Objekten keinerlei Fixationen liegen. In diesem Fall findet keine perzeptive Verarbeitung statt. Allerdings kann ein kritisches Objekt auch dann zum Auslöser des Nutzungsproblems werden, wenn es fixiert wurde. Wahrscheinlich ist dann, dass die semantische Verarbeitung Schwierigkeiten verursachte, der Nutzer also nicht verstanden hat, dass z.B. hinter einem bestimmten Icon die für ihn wichtige Funktion steckt. Die verschiedenen Stufen der Informationsverarbeitung sind über die Fixationsdauer unterscheidbar (siehe Abschnitt 4.3.3).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 5-3: Ausschnitt des erweiterten Use-Szenario nach Schimpfky (2003; S. 55). In der Tabelle abgebildet sind die notwendigen Benutzer- und Systemaktionen sowie die erforderlichen Handlungskomponenten Objekt, Werkzeug und Parameter für das Übersetzen eines englischen Wortes mit dem digitalen Langenscheidt-Wörterbuch. Die kritischen Dialogschritte sind grau hinterlegt.
In Anlehnung an Schimpfky sollen hier die für eine Aufgabe essentiellen Elemente kritische Dialogelemente/Objekte genannt werden. Für die vorliegende Arbeit erscheint allerdings eine reine Analyse der nicht-fixierten kritischen Objekte nicht sinnvoll. Es ist aufgrund der Testaufgaben zu erwarten, dass der vollständige Abbruch einer Aufgabe durch das Nicht-Finden eines weiterführenden Bedienelementes nur vereinzelt auftritt, wodurch sich die Testerdaten bezüglich des Parameters nicht mehr vergleichen ließen.
Daher werden zur Identifizierung des Nutzungsproblems, das durch eine schlechte perzeptive Verarbeitung wichtiger Teile der Oberflächenstruktur charakterisiert ist, folgende zwei Blickbewegungs-Parameter verwendet: Die Suchzeit kritischer Objekte (siehe F.4.1 im PMP) und die durchschnittliche Sakkadenweite (siehe S.2.1 im PMP).
Suchzeit Die Suchzeit (engl. search time) ist charakterisiert durch die Zeit vom ersten Erscheinen eines Zielobjektes bis zur ersten Fixation desselbigen. Verschiedene Studien (z.B. Barbur, Forsyth et al., 1993) zeigen, dass neben der räumlichen Struktur der Bedienelemente vor allem die Kontraste mitbestimmend für die Suchzeit sind. Laut Rötting (2001; S. 129) ist die Suchzeit besonders für die Evaluation der Gestaltung von Mensch-Maschine-Schnittstellen geeignet. Nach Pannasch et al. (2003; S. 26) liegen Fixationen, die auf eine rein perzeptive Verarbeitung schließen lassen, zwischen 120ms und 250ms.
Für diese Untersuchung soll die Suchzeit bestimmt werden, die bis zur ersten perzeptiven Fixation der wichtigsten Objekte je Aufgabe mit einer Mindestdauer von 150ms vergeht.
So sind z.B. für die erste Testaufgabe (siehe Anhang B) die beiden Bedienelemente „+Ordner“ im oberen Menü und „Löschen“ im linken Menü entscheidend zum Erreichen des Aufgabenziels (Screenshot der Testanwendung siehe Abb. 5-6). Die über diese kritischen Dialogelemente kumulierte Suchzeit je Aufgabe kann somit zwischen den Testern verglichen werden. In Anlehnung an Schimpfkys erweitertes Use-Szenario ergibt sich für die Testapplikation Coop-MV untenstehende Tabelle.
Abbildung in dieser Leseprobe nicht enthalten
Tab. 5-1: Übersicht zu den wichtigsten Bedienelementen der vier Testaufgaben, die der Nutzer zum Erreichen des Aufgabenziels nutzen muss. Um kein Nutzungsproblem zu erfahren, muss der User die kritischen Elemente erkannt und verstanden haben.
Sakkadenweite Die Sakkadenweite (engl. saccadic amplitude) ergibt sich aus dem Abstand zwischen Start- und Zielort einer Sakkade. Der Parameter dient als Maß für die Affordance45 eines Interfaces und ist für die Analyse der lokalen Suche geeignet. Die Affordance steigt und fällt mit den wahrnehmbaren Hinweisen, die dem Nutzer ins Auge fallen und die für ihn in einem lokalen Interfacebereich (z.B. Menü) in der präattentiven Phase (siehe Abschnitt 4.3.1) brauchbar sind. Lange Sakkaden weisen auf eine gute Affordance hin; eine erhöhte Stimuluskomplexität verringert die Sakkadenlänge (Rötting, 1999). Bei Cowen (2001) findet sich, in Erweiterung der Arbeit von Goldberg & Kotval (1998), dieser Zusammenhang wieder:
The latter measure indicated that where the highlighting was meaningful, larger saccades could be planned to the target. Where it was not, smaller saccades had to be made to check more of the interface(S. 13).
Für diese Untersuchung soll die durchschnittliche Sakkadenweite bzgl. lokaler Suchregionen als Parameter verwendet werden. Für die Testanwendung sind das die drei Menüregionen (Abb. 5-6). Da Sakkaden in dieser Untersuchung nicht direkt erfasst werden (siehe Abschnitt 7.1), wird die Sakkadenweite über die Position aufeinander folgender Fixationen berechnet.
5.2.3 Nicht-Verstehen
Auch dieses Nutzungsproblem gründet auf den Ansatz von Schimpfky (2003) und wurde bereits im Abschnitt 3.3 vorgestellt. Über die Analyse der Fixationsdauer können Verständnisprobleme identifiziert werden. Nach Goldberg et al. (2003; S. 501-502) weist die Tatsache, dass Nutzer direkt auf eine Bildschirmkomponente blicken, ohne diese aber zu verwenden, darauf hin, dass z.B. ein Icon zwar erkennbar aber nicht für das Aufgabenziel interpretierbar ist. Schimpfkys (2003; S. 48) Methodik zur Evaluierung von Bildschirmanzeigen mittels Eye-Tracking liefert drei Parameter, mit deren Hilfe festgestellt werden soll, ob ein zuvor festgelegter Bereich nicht verstanden wurde. Folgende Anforderungen werden gestellt:
≡ Es muss über die Dauer der Fixation herausgefunden werden, ob ein User im Verhältnis zur Komplexität der GUI eine Komponente sehr lange fixiert.
≡ Es muss festgestellt werden, ob ein User eine Komponente wiederholt fixiert.
≡ Es gilt herauszufinden, ob ein User die relevante(n) Komponente(n) fixiert, diese aber für die Ausführung der folgenden Aktivität nicht in Anspruch genommen hat.
Neben obigen Anforderungen erscheint auch die Verwendung der Fixationsdauer als Indikator verschiedener Ebenen der Informationsverarbeitung nützlich. So kann festgelegt werden, dass erst ab einer Fixationsdauer von 250ms die Verarbeitung eines Objektes auf semantischer Ebene beginnt (s.o.). Diese Abgrenzung hat zur Folge, dass zur Berechnung der Parameterwerte nur solche Fixationen berücksichtigt werden, die ein semantisches Nutzungsproblem betreffen. Der Parameter für das Nutzungsproblem Nicht-Verstehen kann damit wie folgt berechnet werden:
Anzahl der wiederkehrenden semantischen Fixationen, die auf die kritischen Dialogelemente je Aufgabe entfallen.
5.2.4 Schlechte Orientierung
Ein Orientierungsproblem entsteht während des globalen visuellen Suchprozesses, den ein Nutzer auf der Benutzungsoberfläche eines Systems initiiert, sobald er mit einer bestimmten Intention (Handlungsziel) mit dem System interagiert. Der User tastet zuerst mit den Augen großflächig die Gebiete auf dem Interface ab (globale Suche), um dann nach einer Aufmerksamkeitsfixierung langsamer und bewusster ein kleineres Gebiet (lokale Suche) nach den für sein Handlungsziel wichtigen Informationen abzusuchen (Goldberg & Kotval, in review 1999a).
Nach dem Nutzungsproblem-Konzept von Schimpfky (Abschnitt 3.3) beginnt jeder Dialogschritt mit einer Orientierungsphase, in der einfache visuelle Reize zur Orientierung in einen größeren Zusammenhang gebracht werden. Diese erste Orientierungsphase ist vergleichbar mit der Wahrnehmung der Syntax eines Textes. Ohne den Sinn des Textes schon verstanden zu haben, nehmen wir die grammatische Struktur des Textes wahr und „springen“ mit den Augen an den Anfang des Textes oder legen ihn vielleicht beiseite, weil wir auf den ersten Blick festgestellt haben, dass er keiner uns bekannten Syntax folgt (z.B. bei einer Fremdsprache). Übertragen auf die Interaktion mit einem Display-System bedeutet dies, dass einfache visuelle Reize (Helligkeit, Farbe, Form oder Position von Interfaceelementen) die Grammatik der Benutzungsoberfläche prägen (Schimpfky, 2003). Ist die syntaktische Struktur minderwertig, d.h. die Informationen zu einer ersten Orientierung schlecht präsentiert, wird der globale Suchprozess für den Nutzer aufwendig und ineffizient (Rötting, 2001). Wie in den Abschnitten 4.3.2 & 4.3.3 dargestellt sind Sakkaden für die räumliche Orientierung verantwortlich bzw. steuern die Auswahl des Blickortes, an welchem mittels Fixationen visuelle Informationen verarbeitet werden.
Die Anforderungen an die „Syntax“ eines Interfaces gehen unter anderem auch aus der ISO 9241-Teil 12 hervor. Die Norm benennt einige wichtige Prinzipien wie Klarheit, Unterscheidbarkeit, Kompaktheit, Konsistenz, Erkennbarkeit und Lesbarkeit der dargestellten Informationen (DIN EN ISO 9241-12, 1998). Solche Eigenschaften der Informationsdarstellung können mittels Eye-Tracking, im Besonderen über die Länge des Blickpfades (scanpath) sowie der Anzahl der Fixationen und Sakkaden sehr gut erfasst werden (Goldberg & Wichansky, 2003; S. 500).
Nach Goldberg & Kotval (in review 1999a) ist „(...) scanpath analysis best suited for interface tasks requiring visual search for items or components”(S. 17). Zur Identifizierung von Orientierungsproblemen sollen daher in dieser Untersuchung zwei Blickpfad-Parameter herangezogen werden, welche sich ausschließlich auf die örtliche Ausprägung der Blickbewegungen beziehen. Diese sind die Länge des Blickpfades (B.2.1 im PMP) und die Übergangshäufigkeiten (B.2.5 im PMP).
Länge des Blickpfads: Die Länge des Blickpfades (engl. scanpath length) bestimmt sich über die Addition der Distanzen zwischen den Messpunkten des Eye-Trackers. Als Alternative kommt auch die Längenberechnung über die Distanzen aufeinander folgender Fixationspunkte in Frage, wie sie für diese Untersuchung genutzt werden soll (siehe Abb. 5-4). Eingegrenzt wird die Bestimmung des „scanpath lenght“ durch z.B. Anfang und Ende einer Aufgabe oder eines Versuchsabschnitts (Rötting, 2001; S. 133). Goldberg & Kotval machen in ihrer Studie (in review 1999a) gute Erfahrungen mit der Blickpfadlänge als validen Usability-Parameter. Wie bereits erwähnt kann damit die von Goldberg & Kotval so bezeichnete globale visuelle Suche analysiert werden. In der Studie ist die Blickpfadlänge neben der Anzahl der Backtracks und der Blickpfaddauer der dritterfolgreichste Parameter zur Erfassung der Usability.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 5-4: Blickpfad aus Fixationen (Kreise) und Sakkaden (Verbindungslinien) auf dem GUI der Testanwendung Coop-MV. Eine Möglichkeit zur Berechnung der Blickpfadlänge ist die Addition der Distanzen aufeinander folgender Fixationen.
Die Ergebnisse zeigen, dass die Blickpfade der Tester im Fall eines schlechten Interface-Designs auf signifikantem Niveau (p<0.05) um 14% länger sind als beim besser gestalteten Interface. Lange Blickpfade sind demnach ein Indikator für ein ineffizientes Suchverhalten. Zwei Blickpfade, generiert über Fixationen und Sakkaden, können die gleiche Zeit in Anspruch nehmen und trotzdem beachtliche Unterschiede in ihrer Gesamtlänge aufweisen, was durch die Unterschiede im Ausmaß der visuellen Suche verursacht wird (Goldberg & Kotval, 1999; S. 638).
Übergangshäufigkeiten: Zur Analyse der Übergangshäufigkeiten wird das Blickgebiet entweder in regelmäßige (Gitternetz) oder nach inhaltlichen Überlegungen (ROIs) ausgewählten Regionen eingeteilt. Der Parameter der Übergangshäufigkeit (engl. transition frequency) bestimmt sich über die Anzahl der Übergänge zwischen verschiedenen Regionen eines Blickgebietes. Eine dazugehörige Matrix enthält entweder die Absolutwerte oder gibt den prozentualen Anteil der Übergänge wieder (siehe Abb.5-5). Es ist auch üblich die Daten direkt in einer Grafik zu den Blickgebieten darzustellen (Rötting, 2001).
Abbildung in dieser Leseprobe nicht enthalten
Abb.5-5: Darstellung der Übergangshäufigkeit als 3D-Säulendiagramm und Übergangsmatrix (Rötting, 2001; S. 140).
Die Übergangsmatrix entspricht der so genannten Markov Matrix erster Ordnung, die in der Blickbewegungsanalyse häufig eingesetzt wird. Diese gibt für jedes Blickgebiet den prozentualen Anteil der Gesamtzahl der Fixationen oder die relative kumulierte Fixationsdauer wieder. Damit enthält die Matrix die Wahrscheinlichkeiten der Übergänge von einem zum anderen Blickgebiet. Markov Matrizen höherer Ordnung ergeben sich aus der Betrachtung der Abhängigkeit eines Überganges von den vorausgegangenen Blickgebieten (Rötting, 2001).
Die Übergangsmatrix kann die Grundlage bilden, Muster in den Blickbewegungen zu identifizieren. So weisen hohe Übergangswahrscheinlichkeiten zwischen bestimmten Blickbereichen zum Beispiel auf ein erlerntes Blickverhalten hin, welches sich negativ auf die Interaktion mit einer Anwendung auswirken kann. Ursache eines solchen deterministischen Blickverhaltens kann aber auch die jeweilige Situation bzw. die Stimuluskonstellation des Interface sein. Dies ist vor allem dann der Fall, wenn Nutzer, die sich hinsichtlich ihrer Lerngeschichte (z.B. Erfahrung im Umgang mit Computern und mit bestimmter Software) stark unterscheiden (heterogene Nutzergruppe) und trotzdem relativ übereinstimmende Muster in ihrem Blickverhalten zeigen (Rötting, 2001). Im Hinblick auf die Auswertung von Suchprozessen im Internet stellt Goldberg et al. (2002) die Übergangsmatrix als sehr wichtige Methode vor: “One tool of great importance (…) is the transition matrix, which classifies preceeding and succeeding AOIs, relative to a defined AOI”( S. 52).
Ein Blickbewegungsmuster, charakterisiert durch die Übergangshäufigkeiten verschiedener Areas of Interest (AOIs), liefert somit einen direkten Hinweis auf die Güte der räumlichen Anordnung der Bedienelemente. Hohe Werte in den Matrixzellen sprechen für ineffiziente Blickpfade und extensive Suchprozesse, was auf eine schlechte Gestaltung der Schnittstelle hinweist (Goldberg & Kotval, 1998). Vollzieht demnach ein Nutzer zwischen festgelegten AOIs viele Übergänge, so lässt dies auf eine ungerichtete Suche schließen, welche wiederum in einer schlechten Orientierung auf dem Interface begründet liegt.
Zur Nutzung der Übergangshäufigkeiten als Parameter erscheint es in dieser Untersuchung sinnvoll, sich auf das Blickverhalten zwischen den Haupt-Regionen zu konzentrieren, die die Menüs und Arbeitsbereiche umfassen (siehe Abb. 5-6).
Abb. 5-6: Screenshot der Testanwendung Coop-MV mit mittels der Auswertungssoftware RealEYES-Analyzers aufgezogenen ROIs (Regions Of Interest). Generell stehen zur Auswertung der Blickbewegungen die großen Haupt-Regionen im Mittelpunkt, die die drei Menüs (3, 4, 5) und den Arbeitsbereich (6) umfassen. Je nach Testaufgabe interessieren im Speziellen auch verschiedene kleine Bedienelemente (z.B. 1,7).
Des Weiteren soll die Angabe der Übergänge ungerichtet erfolgen. Das heißt, es wird nicht unterschieden, ob der Übergang von einem Blickgebiet A zu einem Blickgebiet B oder von B zu A erfolgt (siehe Rötting, 2001).
Teil B – Empirische Bearbeitung
6. Methodik
Abbildung in dieser Leseprobe nicht enthalten
Abb. 6-1: Übersicht zum methodischen Vorgehen.
Die Zielstellung dieser Arbeit ist, objektiv gemessene Blickbewegungs-Parameter durch subjektive Nutzer-Daten zu validieren. Dafür soll konkret der Zusammenhang zwischen sechs Parametern und vier subjektiv erlebten Nutzungsproblemen empirisch überprüft werden.
Die grundsätzliche Vorgehensweise zeigt Abb. 6-1. Ingesamt bearbeiteten 12 Tester vier prototypische Aufgaben einer Web-Anwendung. Während der Interaktion wurden im Usability-Labor die Blickbewegungen (Gaze-Tracking) aufgezeichnet. Zusätzlich wurden die von den Testern artikulierten Problemphasen erfasst. Zur subjektiven Datenerhebung wurden diese von den Testern in einer Videokonfrontation nach den vier ausgewählten Nutzungsproblemen bewertet. Zum Abschluss kamen noch zwei standardisierte Fragebögen zum Einsatz.
7. Messinstrumente
7.1 Eye-Tracking-System
Zur Erfassung der Blickbewegungen stand ein Eye-Tracking-System auf Basis der Cornea-Reflexions-Methode (Variante 1, siehe Abschnitt 4.2) der Firma SMI (Sensumotorik Instruments) zur Verfügung. Das System liefert eine potentielle zeitliche Auflösung von 60Hz. Aufgrund der zum Zeitpunkt der Erhebung bestehenden Struktur der rechnergestützten Datenverarbeitung wurde eine Sample-Rate von 20Hz erreicht, d.h. alle 50 ms wird die Position des Auges in Form einer XY-Blick-Koordinate bestimmt.
Um sinnvolle und valide Werte für die aufgezeichneten Blickbewegungen zu erhalten, ist es äußerst wichtig, Mess-Kriterien zur Definition von Fixationen und Sakkaden zu bestimmen. Von größter Wichtigkeit ist dabei, diese Kriterien in Abhängigkeit von den Untersuchungsbedingungen zu definieren (Auflösung des Eye-Trackers, Auflösung des Bildschirms, Abstand des Testers vom Monitor bzw. Eye-Trackers etc.). Die Mess-Kriterien legen fest, welche der aufgezeichneten Rohdaten des Eye-Trackers als Fixationen oder Sakkaden ausgegeben werden und welcher Teil des Datenstroms dafür nicht berücksichtigt werden darf. Die Bildverarbeitungskomponente des Steuerrechners benötigt also einen entsprechenden Algorithmus (Rötting, 2001).
Aufgrund der niedrigen Sample-Rate des genutzten Eye-Tracking-Systems war eine valide und direkte Erfassung von Sakkaden (Geschwindigkeiten bis 1000°/s) nicht möglich. Daher wurden Sakkaden indirekt über die Anzahl der Fixation bestimmt. Diese Vorgehensweise erschien für den vorliegenden Untersuchungsgegenstand zweckmäßig.
Zur Definition einer Fixation muss ein zeitlicher und ein örtlicher Faktor berücksichtigt werden. „Zeitlich“ meint die minimale Dauer einer Fixation, innerhalb derer Information verarbeitet werden kann. Die minimale Fixationsdauer liegt nach empirischen Befunden normalerweise bei 100 ms (Karsh & Breitenbach, 1983, zitiert nach Rötting, 2001; S. 16). Dieser Wert erklärt sich auch aus der bereits erwähnten Theorie zur so genannten saccadic suppression (Chekaluk & Llewellyn, 1994). Durch die Überschneidung von Sakkade und Fixation wird die Informationsaufnahme unterdrückt und das Wahrnehmungsvermögen eingeschränkt. Etwa 30-40 ms vor und bis etwa 100-120 ms nach dem Beginn einer Sakkade ist keine Informationsaufnahme mehr möglich. Somit ist die minimale Dauer einer Fixation, in der noch Informationen aufgenommen werden können, vom Abstand der jeweils vorherigen Fixation abhängig. Je kleiner dieser Abstand ist, umso länger muss die Fixation sein. Legt man eine durchschnittliche Sakkadendauer von 50-60 ms an, so ergibt sich eine Mindestdauer von 100ms für eine Fixation. Diese Zeit benötigt das Auge, um wieder in den Modus der Informationsverarbeitung überzugehen (Rötting, 2001).
Der örtliche Faktor hingegen steht für den maximalen Abstand zwischen einzelnen vom Eye-Tracker erfassten XY-Blickkoordinaten, die zu einer Fixation gerechnet werden sollen. Die Bildverarbeitungskomponente des Steuerrechners benötigt demnach einen Wert, der diesen Toleranzbereich zur Berechnung einer Fixation eindeutig festlegt.
Eine Fixation beschränkt sich nicht auf einen Punkt des betrachteten Objektes, sondern es wird innerhalb eines elliptischen visuellen Feldes (Nies, 1999) Information verarbeitet. So treten während einer Fixation einige so genannte Mikrobewegungen im Bereich von 1° um den Fixationspunkt auf (Dornhöfer & Pannasch, 1999). Die eigentliche Größe des Feldes, welches den Fixationspunkt umgibt, ist jedoch nicht pauschal bestimmbar. Dieses wird bedingt z.B. von der Art der verarbeiteten Informationen und der Stimuluscharakteristik (z.B. Schriftgröße, Farbe, Leuchtunterschiede etc.). Die einschlägige Literatur (z.B. Barbur et al., 1993; Crundall, Underwood et al., 1999; Nies, 1999) nennt eine Fülle an weiteren Einflussfaktoren auf die Größe des visuellen Feldes, die je nach Forschungsfeld variieren.
Die Berechnung des Toleranzbereichs in Abhängigkeit der vorliegenden Untersuchungsbedingungen ist im Anhang D dargestellt.
7.2 Videokonfrontation
Die Videokonfrontation bot jedem Tester die Möglichkeit, die Problemphasen der vorausgegangenen Interaktion mit dem System nochmals zu erleben und zu kommentieren, indem er mit der audiovisuellen Aufzeichnung seines Verhaltens „konfrontiert“ wurde.
Anhand eines Bewertungsbogen (siehe Anhang F.2) stufte jeder Tester ein, in welchem Maß die von ihm erlebten Probleme den vier Nutzungsproblemen (1) Erwartungsabweichung, (2) Nicht-Erkennen, (3) Nicht-Verstehen und (4) Schlechte Orientierung zuzuordnen sind. Der Bewertungsbogen wurde deduktiv aus den im Abschnitt 5.2 vollzogenen theoretischen Überlegungen entwickelt.
Für eine allgemeine Beschreibung dieses Verbalisierungsverfahrens siehe Abschnitt 2.2.2. Der genaue Ablauf der Videokonfrontation für die Erhebung subjektiver Daten in dieser Arbeit ist im Abschnitt 8.5.5 dargestellt.
7.3 Fragebögen
Zur schriftlichen Befragung im Anschluss an die Videokonfrontation wurden zwei standardisierte Fragebögen zur Erfassung der Zufriedenstellung der Nutzer mit der Anwendung und der erlebten Orientierung in der Anwendung verwendet.
SUS: Zufriedenstellung
Der 10 Items umfassende Fragebogen (FB) SUS (System Usability Scale) misst eine kontextunabhängige allgemeine Usability. Er wird daher auch oft zur Bestimmung der Zufriedenstellung des Testers mit der Anwendung herangezogen. Die Skala liefert einen Gesamtwert zwischen 0 und 100 „Zufriedenstellungspunkten“ (Brooke, 1991).
Der SUS lag im englischsprachigen Original vor und wurde vom Autor ins Deutsche übersetzt (siehe Anhang E.1).
WOOS: Erlebte Orientierung
Der Fragebogen WOOS (Wahrgenommene Orientierung in Online-Shops) erfasst das Konstrukt „Wahrgenommene Orientierung“. Dieser erschien wegen seiner Ausrichtung auf Web-Anwendungen für die web-basierte Testapplikation dieser Untersuchung geeignet. Die direkte grafische Umsetzung des FB lag allerdings nicht vor. Anhand der Literatur zur Konstruktion des FB (siehe Yom & Wilhelm, 2004b) lagen jedoch die einzelnen Items vor, die in mehreren Studien auf Reliabilität und Validität überprüft worden sind. Anhand von sieben Items wurde ein Fragebogen mit einer 5-stufigen Ratingskala erstellt (von 1=stimmt nicht bis 5=stimmt sehr), mit welchem die Tester einstuften, wie sehr orientiert sie sich in der Anwendung gefühlt haben (siehe Anhang E.2).
8. Datenerhebung
8.1 Testsetting
Die Tests fanden vom 14. November 2005 bis 17. November 2005 im Usability-Labor des Fraunhofer Instituts für Graphische Datenverarbeitung in Rostock (IGD-R) statt. Das Institut verfügt über eine moderne Laborausstattung zur Erfassung von physiologischen und subjektiven Daten in einem Usability-Test. Messgeräte und Methoden zur Bestimmung von Stress und Blickverlauf ergänzen z.B. Video- Tonaufzeichnungen sowie unterschiedliche Befragungstechniken während und nach der Interaktion mit der Zielanwendung. Schließlich steht auch ein Eye-Tracking-System zur Verfügung. Die Aufzeichnung anderer physiologischer Daten (Puls, Hautleitwiderstand) wäre zwar reizvoll gewesen, wurde aber zu Gunsten einer weniger artifiziellen Testsituation (Bortz & Döring, 2002) außer Acht gelassen.
Im Testraum stehen insgesamt drei Computerarbeitsplätze bereit. Zwei werden für die verschiedenen Messsysteme benötigt. Der dritte Rechner kann zu anderen Zwecken benutzt werden. Für diese Untersuchung fand dort die Videokonfrontation statt. Das Labor kann über eine Tür vollständig verschlossen werden, was für eine ungestörte Test-Atmosphäre unabdingbar ist. Über eine Jalousie kann das Tageslicht reguliert werden. Gerade beim Einsatz des Eye-Trackers ist dies eine wichtige Funktion. Für stabile Augendaten benötigt die Infrarot-Kamera des Trackers einen leicht abgedunkelten Raum und konstante Lichtverhältnisse.
Im Nebenraum des Labors steht ein Testleiterplatz zur Verfügung, an welchem die audio-visuellen Daten aus dem Labor simultan abgerufen werden können. Der Usability-Experte kann von dort aus auch den Testablauf überwachen und bereits während der Datenaufzeichnung wichtige Ereignisse festhalten. Für diese Untersuchung war es allerdings notwendig, dass der Testleiter während der Aufgabenbearbeitung neben dem Tester sitzt (siehe Abb. 8-1, S. 94).
8.2 Testapplikation
Die Auswahl der Testanwendung war von verschiedenen inhaltlichen sowie technischen Faktoren bedingt:
Klassische Internetpräsenzen beschränken sich größtenteils auf die Darstellung und Erfassung von Informationen (z.B. durch Kontaktformulare), so dass hierbei nur der Aufgabentyp „Informationssuche“ bzw. „Umgang mit Eingabeformularen“ möglich wäre. Diese beiden Aufgabentypen schienen dem Erkenntnissinteresse der Untersuchung nicht gerecht zu werden. Man musste davon ausgehen, dass die Aufgaben zu einfach und die Fülle an auftretenden Nutzungsproblemen zu gering ausfallen würden. Aus diesem Grund sollte eine komplexer46 gestaltete Applikation als Test-Anwendung eingesetzt werden.
Viele Mitarbeiter im IGD-R verwenden für die Projektarbeit, d.h. für die Zusammenarbeit mit einer Projektgruppe eine hauseigene CSCW-Anwendung. Die Applikation Coop-MV (Screenshot siehe Abb. 5-4, S. 81) unterstützt die Zusammenarbeit von Gruppen über das Internet. Das System ist rein web-basiert, d.h. der Nutzer muss keine Software (außer einem Internet-Browser) auf seinem Rechner installieren und kann sich praktisch von überall her einloggen und damit arbeiten. Für die Zusammenarbeit einer Gruppe bietet Coop-MV gemeinsame Arbeitsbereiche, in denen Dokumente abgelegt, verwaltet, gemeinsam bearbeitet und ausgetauscht werden können. Um die Einarbeitungszeit zu verringern, wurde bei Coop-MV versucht, Funktionsweise und graphisches Interface eines Dateimanagers (z.B. Windows-Explorer) zu übernehmen. So kann man z.B. Ordnerübersichten durchsehen und Dokumente auf den eigenen Rechner downloaden, wie bei Dateien im WWW üblich. Wichtige Dokumente kann man auf dieselbe Weise in einem gemeinsamen Arbeitsbereich ablegen. Zusätzlich bietet Coop-MV Werkzeuge an, mit welchen Arbeitsgruppen Treffen planen können. Dabei sind reale Meetings wie auch virtuelle (elektronische) Konferenzen möglich.
Da Coop-MV die oben erwähnten technischen (Webfähigkeit) sowie inhaltlichen (Komplexität) Anforderungen erfüllte, war es als Testanwendung perfekt geeignet. Darüber hinaus wurde in einigen persönlichen Gesprächen deutlich, dass die Zufriedenheit mit Coop-MV sehr gering ausfiel (siehe dazu auch den Usability-Report im Anhang 0), was nach Meinung der betroffenen Nutzer an der teils umständlichen Bedienung lag. Der Versuch, die Bedienung durch die Explorer-Analogie zu vereinfachen, schien also gescheitert zu sein. Letztlich wurde auch klar, dass Coop-MV aufgrund der Unzufriedenheit von weit weniger Mitarbeitern genutzt wurde als geplant. Die mangelnde Zufriedenstellung der Nutzer ließ den Schluss zu, dass man mit einigen Nutzungsproblemen im Umgang mit der Applikation rechnen konnte.
8.3 Testpersonen (Stichprobe)
In der vorliegenden Studie wurde für die empirische Analyse ein Gruppenvergleich zwischen Experten und Novizen eingeplant. Zur Erfassung des Expertisegrades wurde ein Fragebogen erstellt, der die Vorerfahrung im Umgang mit dem Computer allgemein, dem Internet und speziell mit CSCW-Anwendungen erfasst (siehe Anhang E.3). Über diesen Fragebogen konnten insgesamt 34 Personen, teils aus dem Institut und teils über anderweitige persönliche Kontakte für die Studie rekrutiert werden. Jedoch musste aus Rücksicht auf den Umfang der empirischen Analyse der geplante Gruppenvergleich verworfen werden, so dass aus dem potentiellen Testerpool per Randomisierung 12 Personen ausgewählt wurden. Die Stichprobe lässt sich auf Grundlage eines Post-Test-Fragebogens (siehe Anhang E.4) wie folgt näher beschreiben:
Unter den 12 Testern sind 11 Männer und eine Frau. In Bezug auf ihr Alter verteilen diese sich ausschließlich auf zwei Gruppen. Sieben Tester stammen aus der Altergruppe der 18-25 Jährigen, fünf aus der Gruppe von 26-35 Jahren. Bei der Frage nach dem momentanen Beruf/der momentanen Tätigkeit gaben zehn Tester ein Studium an (7 Informatik /3 Sonstige) und zwei Personen eine Mitarbeiterstelle (1 IGD-R/1 Sonstige). Bei zehn Testern war der höchste erreichte Bildungsabschluss das Abitur. Zwei Tester waren bereits diplomiert (1 Inf./1 Sonstige). Es sind keine testrelevanten Handicaps (z.B. Sehstörungen etc.) genannt. Ein Tester trägt eine Brille.
8.4 Vortests
Der endgültige Ablauf der Datenerfassung im Usability-Lab wurde stark von den Ergebnissen der vier Vortests beeinflusst. In diesen Non-Experimenten (Bortz & Döring, 2002; S.89) testeten Personen, die aus derselben Population gewonnen wurden wie die eigentlichen Untersuchungsteilnehmer, den Testablauf vorab.
Die vier Vortests fanden allesamt im Usability-Lab des Institutes statt. Es standen vier Personen aus dem Testerpool zur Verfügung. Für den Vortest sollten alle Messinstrumente zum Einsatz kommen. Obwohl die Datenerfassung nicht immer vollständig war – z.B. fiel bei einem Vortest der abschließende Fragebogen weg, weil die Videokonfrontation aufgrund der vielen Anmerkungen seitens des Testers zu lange dauerte, konnten Schwachstellen des Tests erfasst und Lösungsmöglichkeiten gesammelt werden. Gerade für die Kontrolle von Versuchleiter-Artefakten (störende Einflüsse des Leiters auf die Datenerhebung) waren die Vortests äußerst wertvoll. Das verbale und non-verbale Verhalten des Testleiters kann sich unter Umständen als erhebliche Störquelle entpuppen. Diese so genannten Rosenthal-Effekte können je nach Test und Untersuchungsleiter sehr zahlreich und verschiedenartig auftreten. „Schon die Art und Weise, wie der Untersuchungsleiter bzw. die –leiterin die Untersuchungsteilnehmer begrüßt, vermittelt den Teilnehmern einen ersten Eindruck von der für sie in der Regel ungewöhnlichen Situation und kann damit das spätere Untersuchungsverhalten beeinflussen“ (Bortz & Döring, 2002; S. 86).
Grundsätzlich muss man auch beachten, dass bei empirischen Untersuchungen mit psychologischer Reaktanz der Teilnehmer zu rechnen ist. Dies kann zu unterschiedlichen Varianten von „Untersuchungssabotage“ führen (Bortz & Döring, 2002). In gleicher Weise wirkt sich eine mehr oder weniger ausgeprägte Testangst (Bradner, 2004) seitens der Probanden aus.
Als Ergebnis des Vortests zeigte sich:
≡ Eine Testdurchführung soll insgesamt nicht mehr als 1,5 h überschreiten.
≡ Aus Zeitgründen müssen die Tester vorab Testunterlagen (Informationen zum Ablauf des Tests, Vorstellung der Testanwendung etc.) erhalten, da ansonsten der Zeitverbrauch bis zur Aufgabenbearbeitung, bei der die Teilnehmer selbst aktiv werden können, zu groß wäre. In zwei Vorversuchen reagierten die Probanden auf eine lange Instruktionsphase mit Ungeduld bis hin zur Verärgerung.
≡ Der Testleiter bleibt während der Aufgabenbearbeitung im Labor und sitzt am Computerplatz neben dem Tester. Üblicherweise lässt der Leiter die Testperson nach der Instruktion alleine, um diese während des Tests nicht zu stören. Bei dieser Untersuchung ist es wegen des Testdesigns aber erforderlich, dass der Testleiter neben dem Probanden sitzen bleibt.
≡ Für die Kennzeichnung von Nutzungsproblemen durch den Tester während der Aufgabenbearbeitung ist eine Übung notwendig.
8.5 Versuchsablauf
8.5.1 Instruktion & Wiederholung
Jeder Proband erhielt mindestens zwei Tage vor der Versuchsdurchführung seine persönlichen Testunterlagen (siehe Anhang I).
Zunächst wiederholte der Leiter mit Hilfe einer Powerpoint-Präsentation die wesentlichen Informationen aus den Testunterlagen, um erstens sicher zu stellen, dass die Unterlagen auch gelesen wurden, und zweitens um das Wissen aufzufrischen. Um den Tester persönlich in die Thematik der Untersuchung zu involvieren, fragte der Testleiter auch nach den eigenen Erfahrungen, die der Proband mit Nutzungsproblemen gemacht hat: Wenn du an die letzte Benutzung einer Software oder Internetanwendung denkst, gab es da etwas, wo du dir gedacht hast, das hat mich geärgert oder gestört, da bin ich nicht richtig voran gekommen, das hätte ich anders erwartet etc.?
Dann folgte eine Übung zu den Kommandos, die der Tester während der Aufgabenbearbeitung abgeben sollte (siehe Anhang I, S. 5-6). Für die Datenerhebung während der Aufgabenbearbeitung waren diese ein äußert wichtiger Bestandteil. Es bedarf eines gewissen Trainings bei den Testern, um bei der späteren Aufgabenbearbeitung eine spontane Reaktion zu gewährleisten. Zudem konnte der Testleiter durch die Übung überprüfen, ob die Instruktionen in den Testunterlagen richtig verstanden wurden und ggf. Missverständnisse ausräumen.
8.5.2 Übung zur Kennzeichnung von Nutzungsproblemen
Nachdem der Tester über Sinn und Zweck der Übung aufgeklärt war, las er sich die Aufgabenstellung am Monitor durch. Wie auch die späteren Aufgaben enthält die Übungsaufgabe einen Text zur Rolle, die der Tester während der Aufgabenbearbeitung einnehmen sollte. Da die Präsentation für die Aufgabenbearbeitung unterbrochen werden musste, erhielt der Tester die Aufgabe zusätzlich als Printmedium.
Während der Aufgabenbearbeitung saß der Testleiter schräg hinter dem Probanden und beobachtete den Bildschirm. Hatte er den Eindruck, dass ein Kommando (z.B. Anfang eines Problems: der Tester sucht merklich den Bildschirm ab ohne den relevanten Button gleich zu finden), so fragt er beim Tester nach, ob man an dieser Stelle den Anfang einer Problemphase hätte festlegen können. Vor allem die Kennzeichnung von Anfang und Ende einer Problemphase stand hier im Mittelpunkt. Da dabei die rein subjektive Einschätzung des Testers gefragt war, gab es keine Fehler, auf die der Testleiter hätte aufmerksam machen können. Es ging vielmehr darum, im Gespräch mit dem Tester zu klären – was bei der eigentlichen Aufgabenbearbeitung natürlich nicht mehr möglich war – ob an einer Stelle ein Nutzungsproblem bestand, es aber nicht verbal gekennzeichnet wurde.
Zum Abschluss erhielt der Proband noch die Möglichkeit, sich die Aufgabenstellung in Ruhe durchzulesen und ggf. letzte Fragen zu klären. An dieser Stelle erwies es sich in den Pretests als dringend erforderlich, den Tester darauf hinzuweisen, dass er sich die Aufgaben keineswegs merken muss, sondern diese vom Tester vorgelesen bekommt.
8.5.3 Kalibrierung der Technik
War der Tester durch Wiederholung und Übung ausreichend vorbereitet und aktiviert, begann der Laborassistent den Eye-Tracker auf den Tester zu kalibrieren. Dafür musste der Tester mit seinen Augen einer sequentiell ablaufenden Serie von Punkten folgen, die auf dem Monitor angezeigt wurde (siehe Abschnitt 4.2). An dieser Stelle war es wichtig, dass sich die Testperson an ihrem Arbeitsplatz so einrichtete, dass etwaige Störquellen ausgeschlossen wurden. So musste z.B. die Sitzhaltung bequem, die Maus an der für die Testperson gewohnten Position sein und das Kinn entspannt auf der Stütze aufliegen. Der Testleiter machte darauf aufmerksam, dass die gewählte Position die gesamte Dauer der Aufgabenbearbeitung beibehalten werden muss.
Nur wenn man auf die individuellen Vorlieben Rücksicht nimmt, können sich die Tester voll auf die Interaktion mit der Testanwendung konzentrieren. Je nach Person kann die Kalibrierung des Eye-Trackers 2 bis 10 Minuten dauern. Ist die Prozedur erfolgreich, kann die Bildverarbeitung des Steuerrechners alle Blickpositionen einer Testperson exakt berechnen. Die Daten können so zur Auswertung an andere Anwendungen weitergegeben werden (siehe dazu auch Oertel, 2003).
8.5.4 Aufgabenbearbeitung und Eye-Tracker
Tester und Technik waren nun bereit für die Aufgabenbearbeitung (Testaufgaben siehe Anhang B). Bevor begonnen wurde, wies der Testleiter noch auf einige wichtige Dinge hin (siehe Testleitfaden im Anhang F.1). Wenn es keine Fragen mehr gab, schaltete er vom Kalibrierungsbildschirm auf den Testbildschirm um (Die Testanwendung war vom Tester noch nicht zu sehen). Der Testleiter verlas nun die erste Aufgabe. Durch das Kommando „Start“ gab der Proband zu verstehen, dass er beginnen möchte. Nun erhielt der Tester die Maus zur Steuerung des Cursors und begann mit der Aufgabenbearbeitung. Der Testleiter beantwortete während der Interaktion mit der Anwendung generell keine Fragen, außer wenn der Proband die Aufgabe nochmals wissen wollte.
Der Tester konnte durch die entsprechenden Kommandos, die er in der Übungsaufgabe bereits benutzt hatte, Probleme bei der Bearbeitung der Aufgabe anzeigen. Er sagte „Anfang“, wenn er z.B. den richtigen Button nicht finden, sich nur schlecht orientieren konnte, lange auf dem Bildschirm suchen musste oder nicht wusste, wo es weiter ging etc. Wenn er das Gefühl hatte, die problematische Phase zu verlassen, weil er zum Beispiel den notwendigen Button gefunden hatte oder wieder wusste, wo es auf dem GUI weiter ging, sagte der Tester „Ende“. Die Definition eines Problems ist dabei natürlich rein subjektiv. Dennoch wurde versucht (in Phase 1), dem Tester eine Orientierungshilfe bei der Bewertung an die Hand zu geben. Unter Rückgriff auf seine geäußerten Problem-Erfahrungen wurden ihm Eigenschaften eines benutzerfreundlichen Programms skizziert Zum Beispiel: „Bei einer Anwendung mit hoher Usability sollte man binnen weniger Sekunden wissen, wo man hin soll“ etc.47
Während der Tester eine Aufgabe bearbeitete, saß der Leiter rechts (leicht nach hinten versetzt) neben diesem und bediente die Tastatur am Auswertungscomputer (Abb. 8-1). Jedem Kommando war eine eigene Taste zugeordnet. Durch Drücken dieser konnte der Testleiter entsprechende Markierungen im Videostream setzen. In der späteren Auswertung konnten die verschiedenen Marken und damit einzelne Zeitabschnitte direkt angesteuert und analysiert werden. Hatte der Proband nun das Gefühl, dass die erste Aufgabe fertig bearbeitet war, sagte er „Fertig“. Fand er keinen geeigneten Lösungsweg, so konnte er jederzeit durch das Kommando „Abbruch“ die Aufgabe abbrechen. Im Anschluss erhielt der Tester die zweite Aufgabe vorgelesen und signalisierte wieder durch das Kommando „Start“, dass er beginnen wollte. Auf diese Weise verfuhr er bis zum Ende der vierten Aufgabe (siehe zum Ablauf auch Anhang I, S. 2).
Während der gesamten Bearbeitungszeit, d.h. auch in den Pausen, zeichnete das Eye-Tracking-System die Blickpositionen des Testers auf. Durch die Marken war es bei der späteren Auswertung allerdings möglich, die relevanten Zeitabschnitte herauszufiltern.
Abb. 8-1: Testsituation während der Aufgabenbearbeitung. Der Tester bearbeitet die Aufgaben am Testrechner (A) während der Testleiter die vom Tester artikulierten Problemphasen manuell am Auswertungscomputer festhält (B). Die Blickbewegungen des Testers werden dabei über den Eye-Tracker (C) aufgezeichnet. Dieser macht die Nutzung einer Kinnstütze erforderlich (D), um starke Kopfbewegungen des Testers zu verhindern.
8.5.5 Videokonfrontation
Für die Videokonfrontation begab sich der Tester zusammen mit dem Leiter wieder zum Übungsrechner. Mit der vom IGD-R entwickelten Auswertungssoftware RealEYES-Analyzer konnten dort die zuvor synchron aufgezeichneten Daten zur Bewertung durch den Tester abgespielt werden. Für diese Untersuchung waren dabei das Bildschirmvideo, das Testervideo und die Audiodaten relevant. Die Videokonfrontation unterteilte sich in drei Phasen:
≡ Erklärung der Programmoberfläche – „Was sieht der Tester“?
≡ Erläuterung der Bewertungskategorien & Instruktion
≡ Abspielen der Problemsequenzen & Bewertung
Zunächst erklärte der Testleiter seinem Tester die Programmoberfläche des RealEYES-Analyzer. Für die Videokonfrontation waren einige Programmelemente wichtig (siehe Abb. 8-2).
Abb. 8-2: Benutzungsoberfläche des RealEYES-Analyzer. Wichtige Bereiche sind: (A) Ausgabe des aufgezeichneten Bildschirmvideos; der Mauszeiger ist zur besseren Orientierung des Betrachters mit einem schwarzen Kreis hervorgehoben (Pfeil). (B) Zeitlaufleiste mit Darstellung der gesetzten Zeitmarken unterschiedlichen Typs (Aufgabenstart vs. Aufgabenende etc.) (C) Ausgabe des Testervideos.
Über die Zeitlaufleiste konnte der Testleiter die Abschnitte direkt ansteuern, die der Tester zuvor als für ihn problematisch eingestuft hatte. Im Webcam-Video in der rechten oberen Ecke sah bzw. hörte der Tester zudem seine verbalen sowie nonverbalen Reaktionen während der Aufgabenbearbeitung.48
War der Tester über die Programmoberfläche des RealEYES-Analysers informiert, wurden ihm vom Testleiter der Bewertungsbogen (siehe Anhang F.2) vorgestellt und er erhielt eine Instruktion zum Ablauf der Videokonfrontation. Das Material zu den Bewertungskategorien umfasste drei Teile. Zum einen eine farblich illustrierte Übersicht zu den vier Kategorien mit je vier verbalen Ankern, welche die inhaltliche Bedeutung der Kategorien für den Tester klären sollte. Während der Videokonfrontation diente diese Übersicht dem Probanden als Orientierung bei der Einstufung seiner markierten Nutzungsprobleme hinsichtlich der vier Bewertungskategorien. Dafür stand zweitens ein Fragebogen zur Verfügung, der für jede Problemphase die Zustimmung zu den vier Kategorien über eine fünf-stufige Ratingskala abfragte. Den dritten Teil bildete ein Protokoll, mit welchem der Testerleiter zu jeder Problemphase die Kommentare des Testers in Stichpunkten und das betreffende Dialogelement bzw. Bildschirmregion, die für das Problem ausschlaggebend war, festhielt. Nach der Vorstellung der Problemkategorien erhielt der Proband seine Instruktion.
Der Testleiter erklärte ihm, dass er nun jede Problemphase anschauen werde und bat ihn dabei seine aufgezeichnete Interaktion mit dem System zu kommentieren. Während der Videoauswertung saß der Versuchsleiter schräg hinter dem Probanden und bediente die Maus, um die verschiedenen Aktionen im RealEYES-Analyzer zu steuern (siehe Abb. 8-3). Zu jeder Aufgabe erhielt der Tester nochmals die Aufgabenstellung. Zusammen mit dem Testleiter ging er nun die einzelnen Problemphasen durch und kommentierte sein Verhalten. Ein Beispiel: „Dieses Symbol sieht aus wie ein Brief (…), dass man damit alle Kästchen auswählen kann war mir überhaupt nicht klar; da hätte ich eher einen Button mit ’select all’ erwartet“. Der Proband hatte jederzeit die Möglichkeit einzelne Ausschnitte mehrmals zu betrachten oder an bestimmten Stellen zu stoppen. Die Kommentare wurden stichpunktartig in das Testprotokoll aufgenommen. Dieser Detaillierungsgrad ist ausreichend, da die an dieser Stelle erfassten Testeraussagen nicht in Form einer qualitativen Auswertung (Bortz & Döring, 2002; S. 329-353) analysiert wurden. Ihr Zweck lag hauptsächlich darin, die erfassten Nutzungsprobleme vor der Bewertung ins direkte Erleben des Testers zurückzuholen. Nach jeder durchgesehenen Problemphase stufte der Proband diese mittels des Bewertungsbogens ein. Die Testeraussagen flossen zudem in den Usability-Report der Testanwendung ein (siehe Anhang 0).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 8-3: Setting während der Videokonfrontation. Der Tester schaut sich jede seiner Problemphasen mit dem RealEYES-Analyser nochmals an und bewertet diese hinsichtlich der vier Nutzungsprobleme über einen Bewertungsbogen (A). Der Testleiter notiert sich wichtige Anmerkungen seitens des Testers, wie etwa die Zuordnung der Nutzungsprobleme zu bestimmten Bereichen oder Elementen der Oberfläche (B).
8.5.6 Fragebogen
Zum Abschluss des Tests erhielten die Tester noch die beiden Fragebögen zur allgemeinen Zufriedenstellung und der erlebten Orientierung. Ergänzt wurden diese durch eine Abfrage allgemeiner Informationen zur Person und einem Fragebogen zum Gesamturteil (siehe Anhang E).
9. Hypothesen
Grundlegendes Ziel dieser Studie ist, zu überprüfen, inwieweit sich Nutzungsprobleme im Umgang mit einer Computeranwendung auf Grundlage von Eye-Tracking-Parametern49 identifizieren lassen. Folglich geht es darum, den Zusammenhang zwischen beiden Datentypen (objektiv vs. subjektiv) bzw. zwischen den Testerdaten je einer Variable eines Nutzungsproblems und eines zugeordneten Parameters zu bestimmen.
Statistisch ausgedrückt gilt es, eine bivariate Zusammenhangsanalyse auszuführen. Auf Grundlage der Zuordnung von Nutzungsproblem (NP) und Parameter (PA) in Abschnitt 5.2 können in Bezug auf die vier konzeptualisierten Nutzungsprobleme folgende unspezifische, gerichtete Zusammenhangs-Hypothesen (Alternativehypothesen H1) aufgestellt werden:
NP Erwartungsabweichung
PA Backtracks H1: Je höher die Anzahl der Backtracks in einer Problemphase ist, desto stärker wird das Nutzungsproblem als Erwartungsabweichung erlebt.
NP Nicht-Erkennen
PA Suchzeit H1: Je länger die Suchzeit kritischer Dialogelemente in einer Problemphase ist, desto stärker wird das Nutzungsproblem als Erkennensproblem erlebt.
PA Durchschn. Sakkadenweite H1: Je geringer die durchschn. Sakkadenweite während der lokalen Suche in einer Problemphase ist, desto stärker wird das Nutzungsproblem als Erkennensproblem erlebt.
NP Nicht-Verstehen
PA Wiederkehrende Fixationen H1: Je höher die Anzahl wiederkehrender semantischer Fixationen auf kritischen Dialogelementen ist, desto stärker wird das Nutzungsproblem als Verständnisproblem erlebt.
NP Schlechte Orientierung
PA Blickpfadlänge H1: Je länger der Blickpfad innerhalb einer Problemphase ist, desto stärker wird das Nutzungsproblem als schlechte Orientierung erlebt.
PA Übergangshäufigkeiten H1: Je höher die Anzahl der Übergänge zwischen den Hauptregionen in einer Problemphase ist, desto stärker wird das Nutzungsproblem als schlechte Orientierung erlebt.
Die Testdurchführung lieferte zur Korrelationsberechnung subjektive Daten aus a) der Videokonfrontation und b) den beiden standardisierten Fragebögen. Die Daten aus dem Fragebogen zur erlebten Orientierung sollen auf Zusammenhang mit dem NP Schlechte Orientierung überprüft werden. Die Daten zur Zufriedenstellung fließen zuvorderst in den Usability-Bericht zur Testanwendung Coop-MV ein (siehe Anhang 0). Sie werden daher nur explorativ auf ihren Zusammenhang mit den Parameterdaten analysiert.
Dem Test obiger Hypothesen muss allerdings noch eine andere empirische Überprüfung vorausgehen. Es muss festgestellt werden, ob die einzelnen Parameter auch in der Lage sind, allgemein eine Problemphase von einer Nicht-Problemphase zu unterscheiden. Dies liefert a) Hinweise darauf, dass die Tester in der Lage waren, ihre Problemphasen zeitlich richtig zu markieren; wenn man voraussetzt, dass die verwendeten Parameter auch für die vorliegende Stichprobe – wie in anderen Studien gefunden (siehe Parameter-Pool im Anhang A) – Usability-Probleme aufzeigen können und b) eine zusätzliche Aussage zur Validität der Blickbewegungs-Parameter zur Identifizierung von Nutzungsproblemen jenseits einer spezifischen Problemzuordnung liefern.
Die Unterschieds-Hypothese lautet hier allgemein:
Die Parameterwerte unterscheiden sich im Gruppenvergleich zwischen Problem- und Nicht-Problemphase voneinander, in konformer Richtung ihrer Interpretation. Das hieße z.B.: Die Anzahl der Backtracks ist in der Problemphase höher als in der Nicht-Problemphase.
Statistische Verfahren
Aufgrund des sehr hohen Aufwands zur Datenerhebung war diese Untersuchung von vornherein auf die Verwendung einer kleinen Stichprobe (N=12) angelegt. Nach Bortz (1993; S. 91f.), Bortz, Lienert & Boehnke (2000; S. 81f.) und Bortz & Lienert (1998; , S. 49) kann man sich aus praktischen Gründen bei einer Stichprobe, die deutlich weniger als 30 Personen umfasst, für die Verwendung von nicht-parametrischen Verfahren entscheiden, welche eine Normalverteilung der zu prüfenden statistischen Kennwerte nicht voraussetzen.
Zur Prüfung der Unterschiedshypothesen wurde daher der nicht-parametrische Wilcoxon-Test zum Gruppenvergleich beim Vorliegen von zwei verbundenen Stichproben verwendet. Zum Problemgruppenvergleich wurden die Wertepaare (Problem vs. Nicht-Problem) der Tester miteinander verglichen, so dass hier verbundene bzw. abhängige Stichproben vorlagen (Bühl & Zöfel, 2005; S. 111). Der Wilcoxon-Test wurde dem hier auch anwendbaren Vorzeichen-Test vorgezogen, da er nach Büning & Trenkler (1994; S. 171) eine größere Güte besitzt.
Zur Prüfung der Zusammenhangshypothesen wurde als nicht-parametrisches Korrelationsmaß Kendalls Tau-b ( τb) eingesetzt. Dieses wurde dem auch hier verwendbaren Zusammenhangsmaß Spearmans Rho vorgezogen, da bei der Auswertung mit der Analysesoftware SPSS automatisch Rangbindungen einbezogen werden und der Einfluss von Extremwerten minimiert ist (Bühl & Zöfel, 2005).
Sämtliche Analysen wurden auf einem Signifikanz-Niveau von α = .05 berechnet. Die Signifikanzprüfung liefert allgemein die Wahrscheinlichkeit p, dass das empirisch ermittelte Ergebnis auftritt, wenn nicht die Alternativehypothese H1, sondern die entgegengesetzte Nullhypothese Ho richtig ist. Ist diese Wahrscheinlichkeit allerdings sehr klein, kann die Nullhypothese zu Gunsten der Alternativhypothese verworfen werden. Ein Niveau von α = .05 legt einen Toleranzbereich mit einem Maximum von p= 5% fest (Bühl & Zöfel, 2005).
Für die Ergebnisse wird folgende Notation verwendet: * p<.05 (signifikant); **p<.01 (sehr signifikant); *** p<.001 (höchst signifikant).
10. Ergebnisdarstellung
10.1 Problemphase vs. Nicht-Problemphase
10.1.1 PA Backtracks
Um die Anzahl der Backtracks unter den Testern vergleichbar zu machen, musste ein neuer relativierter Parameter berechnet werden, der etwaige Abhängigkeiten zu anderen Maßen berücksichtigte. Inhaltlich am plausibelsten war, von einem Einfluss der Bearbeitungsdauer und der Anzahl der Fixationen auf die Backtrackanzahl auszugehen. Der größte Zusammenhang zeigte sich mit der Bearbeitungsdauer (τb =.788**, p< .01; Anhang G, Tab. 18-1). Aus diesem Grund wurde ein erweiterter Parameter erstellt: Anzahl der Backtracks pro 10 Sekunden Bearbeitungsdauer.
Ergebnis: Der Wilcoxon-Test auf Gruppenunterschiede liefert einen Wert von p=.875. (siehe Tab. 10-1 unten). Nur sechs Tester zeigen in ihren Problemphasen (PP) mehr Backtracks als in der Zeit, in welcher sie keine Probleme zu haben angeben (siehe Tab. 10-1, oben, Fußnote b). Damit unterscheiden sich die Werte nicht zwischen den Problemgruppen. Der Parameter Anzahl der Backtracks kann eine PP nicht identifizieren. Dieses Ergebnis lässt sich auch augenscheinlich der Abb. 10-1 entnehmen. Wäre das Ergebnis hypothesenkonform, wäre die gestrichelte Linie (PP) deutlich von der durchgezogenen Linie abgehoben, welche die Nicht-Problemphase (NPP) darstellt.
Tab. 10-1: Wilcoxon-Test zum Gruppenvergleich zwischen Problemphase und Nicht-Problemphase bzgl. des Parameters Anzahl der Backtracks/10sec.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 10-1: Anzahl der Backtracks/10sec im Vergleich zwischen Problemphase und Nicht-Problemphase.
10.1.2 PA Suchzeit
Der Parameter Suchzeit kritischer Dialogelemente war von der Analyse der Problemgruppenunterschiede ausgeschlossen. Dieser Parameter soll in Anlehnung an die statistische Terminologie als diskret bezeichnet werden. Dies bedeutet, dass er im Bezug zum zeitlichen Verlauf der Interaktion keine kontinuierlichen (stetigen) Parameterwerte generiert, wie etwa die Backtrackanzahl. Der Parameter fokussiert vielmehr auf spezielle Bedienelemente, die an einer bestimmten Stelle im Interface zu finden sind. Dadurch liefert der Parameter keine Werte, die sich über den gesamten Zeitraum der Phasen erstrecken. Ein Vergleich zwischen PP und NPP ist damit nicht sinnvoll.
10.1.3 PA Durchschn. Sakkadenweite
Ergebnis: Der Wilcoxon-Test auf Gruppenunterschiede liefert einen Wert von p=.015 und damit ein signifikantes Ergebnis (siehe, Tab. 10-2, unten). Insgesamt 11 Tester weisen in ihren PPs hypothesenkonform eine kleinere Sakkadenweite auf, als in der Zeit, in welcher sie keine Probleme zu haben angeben (siehe Tab. 10-2, oben, Fußnote a). Damit unterscheiden sich die Werte signifikant zwischen den Problemgruppen. Der Parameter Durchschnittliche Sakkadenweite bzgl. der lokalen Interfaceregionen kann eine PP identifizieren. Dieses Ergebnis lässt sich auch der Abb. 10-2 entnehmen. Die gestrichelte Linie, die die Werte in den PPs symbolisiert, hebt sich über fast alle Tester deutlich nach unten ab.
Tab. 10-2: Wilcoxon-Test zum Gruppenvergleich zwischen PP und NPP bzgl. des Parameters Durchschnittliche Sakkadenweite.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 10-2: Die durchschnittliche Sakkadenweite im Vergleich zwischen Problemphase und Nicht-Problemphase je Tester.
Abbildung in dieser Leseprobe nicht enthalten
10.1.4 PA Wiederkehrende semantische Fixationen
Dieser Parameter bezieht sich wie die Suchzeit auf die kritischen Dialogelemente, die für die effektive und effiziente Erreichung der Aufgabe relevant sind. Damit liegt hier auch ein diskreter Parameter vor. Da die kritischen Dialogelemente meist Auslöser für Nutzungsprobleme waren, konzentrierten sich die Werte auf die PPs. Daher ist ein Vergleich zwischen PP und NPP hier nicht sinnvoll.
10.1.5 PA Pfadlänge
Wie auch bei der Anzahl der Backtracks war es inhaltlich plausibel, einen erweiterten an einem anderen Maß relativierten Parameter zu erstellen. In Frage kamen hier auch die Anzahl der Fixationen und die Bearbeitungsdauer. Jedoch konnten keine ausreichenden Zusammenhänge festgestellt werden. (Korr. mit Fixationsanzahl: τb =.164*, p<.05/ Korr. mit Bearbeitungsdauer; τb = .046, p = .519; siehe Anhang G,
Tab. 18-2). Dies ist bereits ein interessantes Ergebnis. Die Länge des Blickpfads scheint unabhängig von der Anzahl der Fixationen und der Bearbeitungsdauer zu sein.
Ergebnis: Der Wilcoxon-Test auf Gruppenunterschiede liefert einen Wert von p=.347. (siehe Tab. 10-3, unten). Es weisen sogar mehr Tester hypothesen-nonkonform in ihren Problemphasen (PP) einen kürzeren Blickpfad auf als in der Zeit, in welcher sie keine Probleme zu haben angeben (siehe Tab. 10-3, oben, Fußnote a). Damit unterscheiden sich die Werte nicht zwischen den Problemgruppen. Der Parameter Blickpfadlänge kann eine PP nicht identifizieren. Dieses Ergebnis lässt sich auch augenscheinlich der Abb. 10-3 entnehmen.
Tab. 10-3: Wilcoxon-Test zum Gruppenvergleich zwischen PP und NPP bzgl. des Parameters Blickpfadlänge.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 10-3: Die Blickpfadlängen im Vergleich zwischen Problemphase und Nicht-Problemphase je Tester.
10.1.6 PA Übergangshäufigkeiten
Ergebnis: Der Wilcoxon-Test auf Gruppenunterschiede liefert einen Wert von p=.028 und damit ein signifikantes Ergebnis (siehe Tab. 10-4, unten). Insgesamt 9 Tester zeigen in ihren PPs hypothesenkonform mehr Übergänge, als in der Zeit, in welcher sie keine Probleme zu haben angeben (siehe Tab. 10-4, oben, Fußnote b). Damit unterscheiden sich die Werte signifikant zwischen den Problemgruppen. Der Parameter Übergangshäufigkeiten kann eine PP identifizieren. Dieses Ergebnis lässt sich auch der Abb. 10-4 entnehmen. Die gestrichelte Linie, die die Werte in den PPs symbolisiert, hebt sich über fast alle Tester nach oben ab.
Tab. 10-4: Wilcoxon-Test zum Gruppenvergleich zwischen PP und NPP bzgl. des Parameters Übergangshäufigkeit.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 10-4: Die Übergangshäufigkeiten im Vergleich zwischen Problemphase und Nicht-Problemphase je Tester.
Abbildung in dieser Leseprobe nicht enthalten
10.2 Zusammenhangsanalyse
10.2.1 PA Backtracks / NP Erwartungsabweichung
H1: Je höher die Anzahl der Backtracks in einer Problemphase ist, desto stärker wird das Nutzungsproblem als Erwartungsabweichung erlebt.
Die Alternativhypothese H1 muss verworfen werden. Die Korrelationsberechnung (über alle vier Nutzungsprobleme) liefert keine signifikanten Ergebnisse (siehe Anhang H, Tab. 18-3).
10.2.2 PA Suchzeit; PA Sakkadenweite / NP Nicht-Erkennen
PA Suchzeit H1: Je länger die Suchzeit kritischer Dialogelemente in einer Problemphase ist, desto stärker wird das Nutzungsproblem als Erkennensproblem erlebt.
Der Parameter konnte nicht wie konzipiert überprüft werden. Aufgrund seiner Berechnung (Suchzeit = Aufgabenanfang bis erste perzeptive Fixation auf kritischem Dialogelement) war eine Unterscheidung zwischen PP und NNP nicht möglich.
PA Durchschn. Sakkadenweite H1: Je geringer die durchschn. Sakkadenweite während der lokalen Suche in einer Problemphase ist, desto stärker wird das Nutzungsproblem als Erkennensproblem erlebt.
Die Alternativhypothese H1 muss verworfen werden. Die Korrelationsberechnung (über alle vier Nutzungsprobleme) liefert keine signifikanten Ergebnisse (siehe Anhang H, Tab. 18-4)
10.2.3 PA Wiederk. semantische Fixationen / NP Nicht-Verstehen
H1: Je höher die Anzahl wiederkehrender semantischer Fixationen auf kritischen Dialogelementen ist, desto stärker wird das Nutzungsproblem als Verständnisproblem erlebt.
Die Alternativhypothese H1 kann angenommen werden. Die Korrelationsberechnung (über alle vier Nutzungsprobleme) zeigt einen positiven fast starken Zusammenhang (τb =.672**, p< .01). Zum NP Erwartungsabweichung besteht ein positiver, jedoch geringer Zusammenhang (τb =.319**, p< .01) (siehe Anhang H, Tab. 18-5)
10.2.4 PA Blickpfadlänge - Übergangshäufigkeit / NP Schl. Orientierung
PA Blickpfadlänge H1: Je länger der Blickpfad innerhalb einer Problemphase ist, desto stärker wird das Nutzungsproblem als schlechte Orientierung erlebt.
Die Alternativhypothese H1 muss verworfen werden. Die Korrelationsberechnung (über alle vier Nutzungsprobleme) liefert keine signifikanten Ergebnisse (siehe Anhang H, Tab. 18-6).
PA Übergangshäufigkeiten H1: Je höher die Anzahl der Übergänge zwischen den Hauptregionen in einer Problemphase ist, desto stärker wird das Nutzungsproblem als schlechte Orientierung erlebt.
Die Alternativhypothese H1 muss verworfen werden. Die Korrelationsberechnung (über alle vier Nutzungsprobleme) liefert für die Hypothese kein signifikantes Ergebnis. Es besteht allerdings ein geringer negativer Zusammenhang zum NP Erwartungsabweichung (τb =-.319*, p<.05) (siehe Anhang H, Tab. 18-7).
Fragebogen zur erlebten Orientierung und Zufriedenstellung
Zur Überprüfung des Zusammenhangs zwischen den beiden Parametern und dem subjektiv erlebten Nutzungsproblem standen hier auch noch die Daten aus dem Fragebogen Erlebte Orientierung zur Verfügung. Die Fragebogendaten (Post-Test) wurden mit den Gesamtwerten (keine Unterscheidung zw. PP und NPP) der Parameter verglichen.
In Bezug auf den PA Blickpfadlänge liefert die Korrelationsberechnung kein signifikantes Ergebnis (siehe Anhang H, Tab. 18-8). Jedoch für den PA Übergangshäufigkeiten weist der Korrelationskoeffizient ein signifikantes hypothesenkonformes Ergebnis aus. Es besteht ein negativer mittlerer Zusammenhang. Das heißt: Umso mehr Übergänge die Tester zwischen den Hauptregionen in einer Problemphase vollzogen, umso schlechter empfanden sie die Orientierung auf dem Interface (τb =-.492*, p<.05) (siehe Anhang H, Tab. 18-9).
Die Korrelationsanalyse zwischen Parameterwerten und subjektiven Daten zur Zufriedenstellung lieferte keinerlei signifikanten Ergebnisse (siehe Anhang H, Tab. 18-8, Tab. 18-9 & Tab. 18-10).
11. Diskussion
11.1 Ergebnisse
Nachdem im vorherigen Abschnitt die Einzelergebnisse der statistischen Analyse dargestellt wurden, sollen nun Aussagen über deren Verwertbarkeit und Bedeutung für das Thema dieser Arbeit gemacht werden. Grundlegendes Ziel ist es, herauszufinden, ob anhand spezifischer Eye-Tracking-Parameter konkrete Nutzungsprobleme zu identifizieren sind. Es interessieren also die Zusammenhänge zwischen objektivem Parameter und subjektiv erlebten Problem.
Tab. 11-1 bietet einen Überblick über die gefundenen Untersuchungsergebnisse. Die signifikanten, d.h. statistisch gesicherten Resultate sind hervorgehoben, welche eigentlicher Bestandteil dieser Diskussion sind.
Identifizierung einer allgemeinen Problemphase
Der Zusammenhangsanalyse vorausgegangen war ein Vergleich der Parameter zwischen Problemphase und Nicht-Problemphase. Fraglich war, ob es auf Grundlage der verschiedenen Parameter möglich ist, die Bearbeitungsphasen der Tester, in welcher sie allgemein Probleme erlebten, zu identifizieren. Diese Voraussetzung war für eine sinnvolle Interpretation der Ergebnisse aus der Zusammenhangsanalyse essentiell. Denn: Nur wenn sich die Parameterwerte in Phasen, in welchen die Tester allgemein keine Probleme erleben, signifikant von solchen aus Problemphasen unterscheiden, macht es Sinn, diese in einer weiterführenden Analyse als Erwartungsabweichung, Erkennens, Verständnis- oder Orientierungsproblem zu qualifizieren.
Zwei der vier in der Unterschiedsanalyse überprüfbaren Parameter, liefern ein signifikantes hypothesenkonformes Ergebnis. Nur die beiden Parameter zur Sakkadenweite und den Übergangshäufigkeiten lassen in der Stichprobe eine eindeutige Identifizierung einer Problemphase zu. Der Parameter zur Blickpfadlänge zeigt eine solche Indikatorstärke nicht. Allerdings liefert er ein anderes signifikantes Ergebnis. Für die Stichprobe zeigt er keine Abhängigkeit zu Fixationsanzahl und Bearbeitungsdauer, so dass er hier als ein von den individuellen Blickgewohnheiten der Tester unabhängiges Maß erscheint. An dieser Stelle gilt zu bedenken, dass die nicht-signifikanten Ergebnisse auch dadurch bedingt sein können, dass die Tester trotz ausführlicher Instruktion und Übungsphase Beginn und Ende einer Problemphase zeitlich nicht korrekt angaben bzw. problematische Bearbeitungsphasen nicht als solche deklarierten.
Abbildung in dieser Leseprobe nicht enthalten
Identifzierung von Nutzungsproblemen
Die Überprüfung des Zusammenhangs zwischen Parameter und artikuliertem Nutzungsproblem liefert nur ein signifikantes hypothesenkonformes Ergebnis. Der Parameter zur Anzahl der wiederkehrenden semantischen Fixationen auf die aufgabenrelevanten Dialogelemente zeigt eine beinahe hohe Korrelation mit dem Nutzungsproblem Nicht-Verstehen. Das heißt: Tester, die die Ursache für ein erlebtes Nutzungsproblem hauptsächlich darin sahen, dass sie z.B. die Bedeutung einer Buttonbeschriftung (bei der Testanwendung Coop-MV z.B. Konfig als Link zu den persönlichen Einstellungen) für ihr Aufgabenziel nicht verstanden hatten, kehrten mit ihren Augen häufiger auf die entsprechenden Objekte zurück als andere Tester. Entscheidend für den Parameter ist, dass diese sich wiederholenden Fixationen mindestens 250ms betragen, was einer semantischen Verarbeitung des fixierten Objektes gleichkommt. Geschmälert wird dieses Ergebnis dadurch, dass der Parameter aufgrund seiner Berechnung nicht der vorangegangnen Unterschiedsanalyse zugeführt werden konnte.
Die Korrelationsanalyse auf Basis von Parametern und subjektiven Daten aus dem Fragebogen zur erlebten Orientierung weist nur ein hypothesenkonformes signifikantes Ergebnis aus. Es besteht ein mittlerer negativer Zusammenhang zwischen dem Parameter zur Anzahl der Übergangshäufigkeiten und der Güte der erlebten Orientierung. Das heißt: Umso mehr Übergänge die Tester zwischen den Hauptregionen in einer Problemphase vollzogen, umso schlechter empfanden sie die Orientierung auf dem Interface.
FAZIT
Unter Hinzunahme des signifikanten Ergebnisses aus der Unterschiedsanalyse erweist sich der Eye-Tracking-Parameter Übergangshäufigkeiten in der Stichprobe als einzig valides Maß zur Identifizierung eines konkreten Nutzungsproblems, der schlechten Orientierung auf der Benutzungsoberfläche. Das nicht-signifikante Ergebnis bei der Korrelation mit den Daten aus der Videokonfrontation ist möglicherweise mit methodischen Problemen zu erklären (s.u.).
Über die durchschnittliche Weite der sakkadischen Blickbewegungen, die die Computernutzer der Stichprobe bei der lokalen Suche (z.B. innerhalb eines Menüs) zeigten, kann zumindest eine allgemeine Problemphase eindeutig identifiziert werden.
Das positive Ergebnis des Parameters zur Anzahl der semantischen Fixationen spricht dafür, dass sich semantische Nutzungsprobleme, ausgelöst etwa durch die falsche Bezeichnung von Bedienelementen, prinzipiell über die Analyse von Blickdaten identifizieren lassen. Das Ergebnis unterstützt zudem die Annahme, dass von der Fixationsdauer auf die Ebene der Informationsverarbeitung geschlossen werden kann (siehe Abschnitt 4.3.3)
11.2 Methodische Aspekte
11.2.1 Subjektive Daten aus Videokonfrontation
Die Ergebnisse der Korrelationsanalyse auf Basis der subjektiven Daten aus der Videokonfrontation überraschten negativ. Trotz eines sehr guten theoretischen Fundamentes zum Mapping von Parameter und Nutzungsproblem lieferte die Analyse nur ein signifikantes Ergebnis. Eine Ursache muss daher auch in der Methodik zur Datenerhebung gesucht werden. Der Bewertungsbogen (siehe Anhang F.2), mit welchem die Tester ihre im RealEYES-Analyzer vorgeführten Problemsequenzen nach den vier Nutzungsproblemen auf einer 5-stufigen Skala (stimmt nicht bis stimmt sehr) einstufen sollten, offenbarte während der Befragung einen Schwachpunkt.
Auffallend war, dass sich die Tester manchmal schwer taten, die vorgegebenen Kategorien voneinander zu trennen und eindeutig für oder gegen ein Nutzungsproblem zu antworten. Inhaltlich erscheinen die Zusammenhänge zwischen dem NP Nicht-Erkennen und dem NP Schlechte Orientierung groß. So mag das Nicht-Erkennen als Ursache für eine schlechte Orientierung verstanden werden. Ähnlich könnte es zwischen dem NP Erwartungsabweichung und dem NP Nicht-Erkennen gelagert sein: Wenn ich etwas nicht dort erkenne, wo ich es vermutet habe, wird meine Erwartung nicht erfüllt. Eine Zusammenhangsanalyse stützt diese Sichtweise (NP Erwartungsabw. x NP Nicht-Erkennen: τb = .287*, p< .05; NP Schlechte Orient. x NP Nicht-Erkennen: τb = .448**, p< .01, siehe Anhang H, Tab. 18-11).
Inhaltlich trennt sich die Problemkategorie Nicht-Verstehen vom Rest ab. Ausgerechnet in Bezug auf das NP Nicht-Verstehen liegt ein hypothesenkonformes signifikantes Ergebnis vor, so als ob dem Tester diese Kategorie klarer war und sein Erleben exakter erfasst werden konnte. Als Hinweis für einen negativen Einfluss der Konstruktion des Bewertungsbogens kommt hinzu, dass der standardisierte Fragebogen im Gegensatz zu den Daten aus der Videokonfrontation die Güte der Orientierung besser erfasst zu haben scheint.
11.2.2 Statistische Verfahren
Für die statistische Analyse in dieser Arbeit kamen aufgrund des kleinen Stichprobenumfangs (N=12) ausschließlich nicht-parametrische Verfahren zur Anwendung. Dadurch wurden die mittels Eye-Tracking gemessenen Parameterwerte sowie die dazugehörigen Befragungsdaten zu den Nutzungsproblemen nicht direkt miteinander verglichen, sondern die statistische Überprüfung erfolgte auf Basis von entsprechenden Rangdaten. Einfach ausgedrückt, werden durch nicht-parameterische Verfahren Informationen „verschwendet“ (Büning & Trenkler, 1994; S. 3). Nach Bortz & Lienert (1998; S. 49) gibt es beim Vorliegen von kleineren Stichproben für die statistische Hypothesenprüfung allerdings keine Alternative zu den nicht-parametrischen Verfahren.
Die Durchführung von Signifikanztests dient der Entscheidung, ob eine Alternativhypothese, die zu einer neuen Forschungsfrage aufgestellt wurde, angenommen oder zu Gunsten der entgegen gesetzten Nullhypothese verworfen werden muss. Mit dem Signifikanztest bestimmt man die Irrtumswahrscheinlichkeit (α-Fehler-Wahrscheinlichkeit), mit der das empirisch gefundene Stichprobenergebnis zu Stande kommen kann, wenn die Nullhypothese gilt (Bortz & Döring, 2002).
Die statistischen Analysen in dieser Arbeit wurden sämtlich auf einem Signifikanz-Niveau von α = .05 berechnet. Beim Vorliegen einer Irrtumswahrscheinlichkeit von α < 0,5 wurde die Alternativhypothese angenommen, oder anders ausgedrückt: Bei der Entscheidung für die Alternativhypothese nahm man einen α-Fehler von 5% Irrtumwahrscheinlichkeit in Kauf. Jedoch kann man bei der Entscheidung gegen die Nullhypothese (auf Grundlage eines α < .05) einen so genannten β-Fehler begehen. Dieser ergibt sich im Umkehrschluss zum α-Fehler durch das Beibehalten der Nullhypothese, obwohl die Alternativehypothese in den Stichprobendaten gültig ist. Um sich gegen eine Fehlentscheidung absolut abzusichern, müssten beide Fehlerwahrscheinlichkeiten kontrolliert werden (Bortz & Döring, 2002). Nicht-parametrische Verfahren liefern meist einen größeren β-Fehler als vergleichbare parametrische Verfahren (Nachtigall & Wirtz, 2002; S. 158). Daher muss für die Ergebnisse dieser Arbeit beachtet werden, dass möglicherweise vorhandene Zusammenhänge und Unterschiede in der Stichprobe nicht aufgedeckt wurden.
Aufgrund der kleinen Stichprobe (N=12) dieser Untersuchung ist von einer Übertragung der Ergebnisse auf die Population, also von einer unkritischen Generalisierung der Ergebnisse abzusehen. Die mit dieser Studie gewonnenen Erkenntnisse bieten jedoch einen sehr guten Ansatzpunkt zur Durchführung weiterführender Untersuchungen mit größerem Stichprobenumfang. Denkbar wäre, sich dabei auf den in dieser Arbeit „besten“ Eye-Tracking-Parameter der Übergangshäufigkeiten zu konzentrieren.
12. Schlussbetrachtung
Diese Arbeit war durch das praktische Problem motiviert, dass das mittels Eye-Tracking im Usability-Labor gewonnene Datenmaterial sein Potential zur Identifizierung von Nutzungsproblemen bei der Arbeit mit einer Softwareanwendung nur spärlich ausschöpfen kann. Dies liegt hauptsächlich im Missverhältnis zwischen Umfang des zu analysierenden Datenmaterials und dem Umfang zur Verfügung stehender Auswertungsstandards begründet. So steht der Fülle an Blickbewegungsdaten meist eine verhältnismäßig kleine Menge an Interpretationsansätzen gegenüber, wodurch die Methode des Eye-Trackings derzeit für die Usability-Evaluation nicht sehr effizient erscheint.
Daher zielte diese Arbeit darauf ab, einen Beitrag zur Effizienzsteigerung zu leisten, indem versucht wurde, Eye-Tracking Parameter durch subjektive Nutzerdaten zu validieren. Als Voraussetzung dafür konnte in dieser Arbeit zum einen ein umfassender Überblick zu möglichen Auslösern von Nutzungsproblemen geliefert werden, und zum anderen auf Grundlage einer Literaturanalyse eine Sammlung bereits aussagekräftiger Blickbewegungsparameter erstellt werden.
Darauf aufbauend konnte der Zusammenhang zwischen ausgewählten Parametern und spezifischen Nutzungsproblemen statistisch überprüft werden. Die Ergebnisse lassen Aussagen zu drei der sechs überprüften Parameter zu.
Nur einer der sechs objektiven Eye-Tracking Parameter (Übergangshäufigkeiten) ließ sich als Indikator für ein spezifisches, subjektiv erlebtes Nutzungsproblem (Schlechte Orientierung) validieren50. Für die beiden anderen Parameter (Sakkaden/wiederkehrende semantische Fixationen) gelang dies nicht. Allerdings deuten die Ergebnisse darauf hin, dass die gezogene Verbindung aus Parameter und Nutzungsproblem sinnvoll ist und hierin großes Potential besteht.
Zu den restlichen drei Parametern (Backtracks, Suchzeit, Blickpfadlänge) konnten keine signifikanten Ergebnisse generiert werden. Jedoch liefert diese Studie für alle Parameter eine fundierte Operationalisierung zur Überprüfung ihrer Indikatorstärke in Bezug auf Nutzungsprobleme, so dass in zukünftigen Studien darauf zurückgegriffen werden kann.
An subjektiven Nutzerdaten validierte Eye-Tracking-Parameter haben das Potential spezifische Usability-Probleme zu identifizieren und Maßnahmen zur Optimierung vorzugeben. Mit solchen Parametern ließen sich bei der Evaluation der Anwenderunterstützung (nach MOVE, siehe Abschnitt 2.2.1) nicht nur Aussagen zur Effizienz der Systembenutzung treffen, sondern auch dazu, welche Probleme eine etwaige ineffiziente Interaktion beeinflusst haben. So ließen sich gleichzeitig auch Maßnahmen zur Optimierung der Interfacegestaltung ableiten. Auf der Basis validierter Parameter wären die in Usability-Laboren eingesetzten Testsysteme, wie das RealEYES-Testsystem im Fraunhofer IGD-R, in der Lage, Evaluationsprozesse teilweise zu automatisieren. Der Einsatz automatisierter Analyseprozesse von Blickdaten würde sich beispielsweise zur Evaluation von hoch frequentierten Display-Terminals (z.B. DB-Ticketautomat) anbieten. Der Nutzen läge darin, dass man automatisiert Usability-Probleme der Terminalsoftware identifizieren könnte, die aufgrund der hohen Testeranzahl für die Zielgruppe als repräsentativ einzustufen wären. Mit den derzeitigen Entwicklungen im Bereich der Eye-Tracking-Technik ist es sicherlich kein großer Schritt mehr zu einem System, welches für eine Blickdaten gestützte Evaluation von Terminals eingesetzt werden könnte.
Ein längerer Weg erscheint dagegen noch die Validierung von Eye-Tracking-Parametern zu sein. Wie in dieser Studie deutlich wird, werden Blickbewegungen stark von der Art der Anwendung, den individuellen Nutzereigenschaften und grundsätzlich vom Aufgabentyp beeinflusst. Eine Übertragung von Analyseergebnissen erscheint daher schwierig zu sein. Verstärkt wird dies dadurch, dass es für die Messung und Berechnung der Parameterwerte keine Standards gibt. Für einige Parameter sind diese auch nicht sinnvoll, weil sie – wie bei den Übergangshäufigkeiten in dieser Arbeit – speziell nach inhaltlichen Überlegungen der Testanwendung angepasst werden (z.B. Definition von ROIs).
Allgemeingültige Kennwerte, wann ein Parameterwert ein Problem indiziert und wann nicht, sind nicht möglich. Lukrativ erscheinen dagegen Vergleiche zweier Applikationen auf Basis einer großen Testeranzahl oder Vergleiche zwischen verschiedenen Nutzergruppen hinsichtlich einer Applikation.
Festzuhalten bleibt: Die Entwicklung von Auswertungsstandards für Eye-Tracking-Daten zur Usability-Evaluation kann nur in kleinen Schritten und durch viele weitere Studien zu den verschiedenartigen Einflussfaktoren von Blickbewegungen erfolgen. Die vorliegende Arbeit liefert dazu einen wichtigen Beitrag.
Auf theoretischer Seite wird aufbauend auf einer ausführlichen Erörterung der Besonderheiten der Mensch-Computer-Interaktion, eines integrativen Usability-Qualitätsmodells als Grundlage eines modularen Vorgehens zur Sicherung von Usability (MOVE) und der Entwicklung von Usability mittels verschiedener Methoden die Bedeutung und Anwendung der Usability-Evaluation ausführlich erläutert. Zur Klärung der Besonderheiten des Eye-Trackings werden die wichtigsten Eigenschaften von Blickbewegungen und der visuellen Wahrnehmung in Bezug auf den vorliegenden Untersuchungskontext beschrieben. Zusätzlich geht diese Arbeit auch auf die Besonderheiten der Eye-Tracking-Messtechnik ein und gibt technische Kennwerte zum praktischen Einsatz eines Eye-Trackingsystems vor. Für die Durchführung weiterer Studien zur Verwendung von Eye-Tracking-Parametern als Indikatoren von Nutzungsproblemen bietet a) die Erörterung wichtiger Modellierungen von Nutzungsproblemen und b) der auf Grundlage einer Literaturanalyse gewonnene und erweiterte Pool aus Eye-Tracking-Parametern eine ideale Ausgangsbasis. Auf empirischer Seite liefern das Mapping von ausgewählten objektiven Parametern und subjektiv erlebten Nutzungsproblemen sowie die entsprechende statistische Analyse interessante Ergebnisse zum praktischen Einsatz von Eye-Tracking-Parametern, die eine weiterführende Analyse motivieren.
13. Glossar
Affordance (dt. Aufforderungscharakter/Angebot) Begriff nach Norman (1988) zur Charakterisierung von Interaktionselementen in der Mensch-Computer-Interaktion. Affordance steht für ein Interaktionselement (Knopf, Button etc.), das einem Benutzer eine Möglichkeit zur Benutzung anbietet und ihm gewissermaßen einen Interaktionspfad vorgibt. Bei gut gestalteten Elementen begreift der Betrachter die Art dieses Angebots intuitiv (Karat, 1997; Dahm, 2006).
Aufgabenanalyse Eine Methode zur Beschreibung der Arbeitsziele sowie der Bedingungen, die für die Zielerreichung gegeben oder notwendig sind. Die Aufgabenanalyse kann außerdem der Feststellung dienen, ob die Qualitätsempfehlungen der Norm ISO 9241-2 eingehalten werden.
Aufgabengestaltung Begriff aus der Arbeitspsychologie. Es wird eine Reihe von Anforderungen an eine menschengerechte Gestaltung von Arbeitsaufgaben gestellt. Wichtige Gestaltungsmerkmale sind Ganzheitlichkeit (Arbeiter kennt Bedeutung seiner Tätigkeit und erhält Feedback über seinen Arbeitsfortschritt), Anforderungsvielfalt (Arbeiter kann unterschiedliche Fähigkeiten einsetzen), soziale Interaktion (Problemlösungen im Team), Autonomie (Übernahme von Verantwortung), Lern- und Entwicklungsmöglichkeiten und zeitliche Flexibilität (Details siehe Ulich, 1994; Kap. 4).
Benutzerbelange (engl. user needs) Bedürfnisse des Benutzers, die sich aus den Eigenschaften des Benutzers ergeben, und im Zusammenhang mit der Nutzung einer Software im áNutzungskontext zu berücksichtigen sind. Beispiele: Alter, Sprachkenntnisse, Computerexpertise, Beruf etc. (DATech, 2004).
Benutzungsschnittstelle (engl. user interface) Gesamtheit der Eingabe-Merkmale, der Ausgabe-Merkmale, der Dialogmerkmale und der Werkzeug-Merkmale, mittels derer ein Nutzer auf das System einwirkt (z.B. Eingabefeld, Kommandozentrale, Unterbrechungskommando, UNDO) sowie der Merkmale, in denen sich das Verhalten des Systems gegenüber dem Benutzer äußert (z.B. Meldungen, Nutzungshinweise, Menüs am Bildschirm, nutzungsrelevante Objekt- oder Werkzeugeigenschaften.
Benutzungsoberfläche (engl. user interface) Gesamtheit der Eingabemittel und Displayeinrichtungen eines Systems (z.B. Tastatur, Cursor, Bildschirm, Anzeigen). Die Benutzungsoberfläche ist Teil der áBenutzungsschnittstelle.
Dialog 1. Interaktion zwischen Benutzer und Computer-System, um ein bestimmtes Ziel zu erreichen (DIN EN ISO 9241-10, 1996). 2. Kommunikation zwischen Benutzer und System auf der ásemantischen Ebene nach dem linguistischen Modell von Marcus & van Dam (1991). 3. Spezielles Fenster, das temporär und zusätzlich zum Hauptfenster einer Anwendung erscheint (Dahm, 2006).
Dialogschritt Wechselschritt von Aktionen des Menschen und des Computers. Ein Dialogschritt besteht aus Eingabedaten, den zugehörigen Verarbeitungsprozessen und den zugehörigen Ausgabedaten (DATech, 2004).
Interview, standardisiertes~ Mündliche Befragung, bei welcher Wortlaut und Reihenfolge der Fragen eindeutig vorgegeben und für den Interviewer verbindlich sind. Eine abgeschwächte Version ist das halbstandardisierte Interview, welches anhand eines vorbereiteten, aber flexibel einsetzbaren Fragenkatalogs durchgeführt wird (Bortz & Döring, 2002).
Kodierung (allg.) Verschlüsselungsvorschrift für Informationen. Die Art der Kodierung bestimmt die Darstellungsart von Informationen. In Bezug auf graphische áBenutzungsoberflächen lässt sich die Kodierungsart auch mit dem verwandten Symbolsystem beschreiben. Dabei können Informationen durch Sprache, Bilder oder Zahlen symbolisiert sein (Weidenmann, 1995).
Kontextszenario Eine episodische Beschreibung der Erledigung von Kernaufgaben einer Arbeitsperson, um den Einfluss der Bedingungen des áNutzungskontexts auf die Ausführung der Kernaufgaben zu analysieren. Diese Erhebung dient der Spezifikation von áNutzungsanforderungen (DATech, 2004).
Mapping 1. (allg.) technische Bezeichnung für die Beziehung zwischen zwei Dingen. 2. Begriff nach Norman (1988) zur Charakterisierung von Interaktionselementen in der Mensch-Computer-Interaktion. Ein Mapping beschreibt die Abbildung der Funktion des Interaktionselements auf die damit gesteuerte Funktion. Ein natürliches Mapping macht sich physikalische Analogien zu nutze, indem die Form der Bewegung die Funktion imitiert (z.B. Drehung eines virtuellen Schalters nach rechts hat die Erhöhung eines Parameter (z.B. Lautstärke) zur Folge. 3. Das Herstellen einer Beziehung zwischen subjektiven und objektiven Daten in der Usability-Evaluation (Kawalek, 2003; S. 2).
Mentales Modell Gedankliche Konstruktionen auf Basis von Wahrnehmung und Gedächtnis. In einem mentalen Modell werden externe Sachverhalte (z.B. Technisches Gerät oder Handlungsabläufe) der realen Welt in Form eines internen, gedanklichen Objekts abgebildet, welches in einer bestimmten Struktur- oder Funktionsanalogie zum repräsentierten Sachverhalt steht und dadurch als Orientierung (z.B. Verständnis für Funktionalität oder Grundlage der Handlungssteuerung) über diesen Sachverhalt dient. Mentale Modelle werden im Arbeitsgedächtnis (Kurzzeitgedächtnis) generiert und sind daher flüchtige Vorstellungsprodukte, können allerdings für den Aufbau von Wissen genutzt werden und haben damit einen indirekten Einfluss auf die langzeitliche Speicherung. Zur Grundlage für Handlungs-, Verstehens- und Problemlöseprozesse werden mentale Modelle vor allem durch die Möglichkeit einer dynamischen Simulation (Häcker & Stapf, 1998). So erschließt sich z.B. die Funktion eines Flaschenzuges, indem das Gerät mit allen Teilen in Form eines Modells gedanklich präsent ist und die Bewegung der Teile kognitiv simuliert wird.
Metrik Maß bzw. Messgrundlage zur Erfassung und Einordnung von áTestdaten. Für die Bewertung dieser Daten regeln Metriken, welche Kriterien erfasst werden, anhand welcher Indikatoren sie gemessen werden sollen und welche Grenzwerte gelten.
Nutzungsanforderungen Auf gesicherte ergonomische Erkenntnisse basierende Anforderungen an die Merkmale eines Softwaresystems (Farbkodierung, Dialoggestaltung etc.) unter Berücksichtigung des áNutzungskontexts.
Nutzungskontext Die Benutzer, die Arbeitsaufgaben, die Arbeitsmittel (Hardware, Software und sonstige Materialien) sowie die physische und soziale Umgebung, in der das Produkt genutzt wird (DATech, 2004).
Operatives Abbildsystem (OAS) ámentales Modell
Repräsentation interne~ Begriff zur Bezeichnung aller Arten von gedanklichen Abbildungen. Es können sowohl externe Objekte und Vorgänge als auch Erlebnisse mental repräsentiert werden. Zur Planung von Handlungsabläufen durch inneres Probehandeln oder zum Problemlösen stehen Repräsentationen in Form von ámentalen Modellen zur Verfügung (Häcker & Stapf, 1998).
Performanzdaten Die während der Mensch-Computer-Interaktion unmittelbar erhobenen Testdaten (gesprochener Testerkommentar, Tastatureingaben, Blickpunktkoordinaten etc.).
Pixel (dt. Bildkörnchen) Einzelner Punkt eines Bildes. Er ist die kleinste Einheit bei der Ausgabe eines Bildes auf dem Monitor oder Drucker. Jedoch ist der Pixel nicht identisch mit den auf einem Monitor darstellbaren Punkten. Die Auflösung eines Bildes wird daher nicht von den Monitoreinstellungen bestimmt, sondern von der Anzahl der darstellbaren Pixel in einem Bild pro Zoll (ppi = pixel per inch oder dpi = dots per inch). Spricht man allerdings bei Computermonitoren von Pixeln ist damit nicht die Auflösung des dargestellten Bildes gemeint, sondern die Anzahl der Pixel, die pro Zoll auf dem Gerät angezeigt werden können. Der Umfang hängt direkt von den baulichen Gegebenheiten ab (Laserline, 2005).
Präferenzdaten Die während einer Mensch-Computer-Interaktion mittelbar erhobenen Testdaten (z.B. Beobachtungsprotokoll, Fragebogen etc.).
Prototyp Produktentwurf, der wesentliche Eigenschaften des endgültigen Softwaresystems besitzt und zu Demonstrations- und Testzwecken verwendet wird.
Paper-Prototyp áPrototyp einer Software auf Basis von Papier-Layouts der áBenutzungsoberfläche, entweder mit Hilfe eine Grafikprogramms angefertigt und ausgedruckt oder im einfachsten Fall per Hand mit Stiften und anderen Materialen (z.B. Folien, Pappe, Post-Its etc.) erstellt.
Prototyping Das systematische Vorgehen zur Erstellung eines áPrototypen.
Reliabilität Testgütekriterium. Die Reliabilität eines Tests kennzeichnet den Grad der Genauigkeit, mit dem das geprüfte Merkmal gemessen wird. Sie ist umso höher, je kleiner der zu einem Messwert gehörende Fehleranteil ist. Fehlereinflüsse entstehen z.B. durch situative Störungen, Müdigkeit der Tester oder Missverständnisse (Bortz & Döring, 2002).
Sehwinkel Winkel zwischen zwei Linien, die vom Auge des Beobachters ausgehen und auf einen Gegenstand gerichtet sind; die eine führt zum unteren Rand des Gegenstandes, die andere zu dessen oberen Rand (Goldstein, 1997).
Testdaten Im Rahmen eines áUsability-Tests gewonnenen Interaktionsdaten.
Usability-Test Potentielle Benutzer bearbeiten in der Interaktion mit dem zu evaluierenden System typische Aufgaben unter kontrollierten Bedingungen (Oertel, 2003).
Validität (Gültigkeit) Gütekriterium eines Tests. Die Validität gibt an, wie gut ein Test in der Lage ist, genau das zu messen, was er zu messen vorgibt. Beispielsweise sollte ein Intelligenztest Intelligenz messen und nicht etwa Testangst (Bortz & Döring, 2002).
Winkelgeschwindigkeit Der bei einer Kreisbewegung in einem gewissen Zeitintervall überstrichene Winkel. Die Winkelgeschwindigkeit des Sekundenzeigers mit einer Umdrehung pro Minute beträgt 360° pro Minute, also 6° pro Sekunde. Die Winkelgeschwindigkeit des Stundenzeigers liegt dagegen bei nur 360°/12h oder 0,00833° pro Sekunde (www.wikipedia.org, 2005; 13.09.2005).
14. Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
15. Abbildungsverzeichnis
Abb. 2-1: Das klassische Kommunikationsmodell 11
Abb. 2-2: A-B-C-Modell 13
Abb. 2-3: Software-ergonomische Teile der Norm ISO 9241. 16
Abb. 2-4: Auswahl an wichtigen software-ergonomischen Regelwerken. 19
Abb. 2-5: Usability-Qualitätsmodell 21
Abb. 2-7: Vorgehensschema zur Software-Evaluation. 23
Abb. 2-8: MOVE: Übersicht über die Modellstruktur 24
Abb. 2-9: Items zur Erwartungskonformität. 27
Abb. 2-10: Komponenten des Prüfverfahrens. 28
Abb. 2-11: Beispiel für ein Setting im Usability-Labor.. 30
Abb. 2-12: Systematik wichtiger Datenerhebungs-Methoden. 34
Abb. 2-13: Phasen eines Software-Projekts im rückgekoppelten Wasserfall-Modell. 36
Abb. 2-14: Benutzerorientierter Entwicklungszyklus. 38
Abb. 2-15: Der Usability Engineering Lifecycle. 40
Abb. 3-1: Kategorisierung von Problemen in der MCI. 43
Abb. 3-2: Taxonomie von Handlungsfehlern in der MCI. 46
Abb. 3-3: Das Handlungsmodell zur MCI. 48
Abb. 3-4: Ursachen für Nutzungsprobleme. 49
Abb. 3-5: Aufgaben-Strukturmodell 51
Abb. 4-1: Anatomie des menschlichen Auges. 58
Abb. 4-2: Das charakteristischste Blickbewegungsmuster. 59
Abb. 4-3: Abstand zwischen Pupille und erstem Purkinje-Bild. 62
Abb. 4-4: Darstellung aufgabenabhängiger Blickbewegungsmuster 65
Abb. 4-5: Fixationsmodell nach Viviani. 68
Abb. 4-6: Fixationsdauer als Indikator der Ebenen der Informationsverarbeitung. 71
Abb. 5-1: Übersicht zur Auswahl der Blickbewegungs-Parameter 74
Abb. 5-2: Blickpfad bestehend aus Sakkaden und Fixationspunkten. 76
Abb. 5-3: Ausschnitt des erweiterten Use-Szenario nach Schimpfky. 77
Abb. 5-4: Blickpfad aus Fixationen und Sakkaden. 81
Abb.5-5: Darstellung der Übergangshäufigkeit 82
Abb. 5-6: Screenshot der Testanwendung Coop-MV.. 83
Abb. 6-1: Übersicht zum methodischen Vorgehen. 84
Abb. 8-1: Testsituation während der Aufgabenbearbeitung. 94
Abb. 8-2: Benutzungsorberfläche des RealEYES-Analyzer 95
Abb. 8-3: Setting während der Videokonfrontation. 97
16. Tabellenverzeichnis
Tab. 5-1: Übersicht zu den wichtigsten Bedienelementen der vier Testaufgaben. 78
Tab. 10-1: Wilcoxon-Test zum Gruppenvergleich zwischen Problemphase und Nicht-Problemphase bzgl. des Parameters Anzahl der Backtracks/10sec... 101
Tab. 10-2: Wilcoxon-Test zum Gruppenvergleich zwischen PP und NPP bzgl. des Parameters Durchschnittliche Sakkadenweite... 103
Tab. 10-3: Wilcoxon-Test zum Gruppenvergleich zwischen PP und NPP bzgl. des Parameters Blickpfadlänge. 105
Tab. 10-4: Wilcoxon-Test zum Gruppenvergleich zwischen PP und NPP bzgl. des Parameters Übergangshäufigkeit. 107
Tab. 11-1: Übersicht zu den Hauptergebnissen aus Unterschieds- und Zusammenhangsanalyse 112
Tab. 18-1: Korrelation zwischen Backtrack-Anzahl, Bearbeitungsdauer und Fixationsanzahl. 159
Tab. 18-2: Korrelation zwischen Pfadlänge, Bearbeitungsdauer und Fixationsanzahl. 159
Tab. 18-3: Korrelation zwischen Anzahl der Backtracks/10sec und den subjektiven Daten zu den vier Nutzungsproblemen 160
Tab. 18-4: Korrelation zwischen Durchschnittlicher Sakkadenlänge und den subjektiven Daten zu den vier Nutzungsproblemen 160
Tab. 18-5: Korrelation zwischen Anzahl der wiederkehrenden semantischen Fixationen und den subjektiven Daten zu den vier Nutzungsproblemen.. 161
Tab. 18-6: Korrelation zwischen Blickpfadlänge und den subjektiven Daten zu den vier Nutzungsproblemen. 161
Tab. 18-7: Korrelation zwischen Übergangshäufigkeiten und den subjektiven Daten zu den vier Nutzungsproblemen. 162
Tab. 18-8: Korrelation zwischen der Blickpfadlänge und den subjektiven Fragebogendaten zur erlebten Orientierung und Zufriedenstellung. 162
Tab. 18-9: Korrelation zwischen den Übergangshäufigkeiten und den subjektiven Fragebogendaten zur erlebten Orientierung und Zufriedenstellung 162
Tab. 18-10: Korrelation zwischen der Backtrackanzahl, der Suchzeit, der Sakkadenweite sowie der Anzahl wiederkehrender semantischer Fixationen und den subjektiven Fragebogendaten zur erlebten Orientierung und Zufriedenstellung 163
Tab. 18-11: Korrelation 51 zwischen den vier Nutzungsproblemen
17. Literaturverzeichnis
Barbur J. L., Forsyth P. M., & Wooding D. S. (1993). Eye movements and search performance. In Brogan, Gale & Carr (Eds.), Visual Search 2 (pp. 253-264). London: Taylor & Francis.
Bartsch H. J. (1997). Taschenbuch mathematischer Formeln, (17. rev. ed.). München: Fachbuchverlag Leipzig im Carl Hanser Verlag.
Bortz J. (1993). Statistik für Sozialwissenschaftler. Berlin: Springer.
Bortz J., & Döring N. (2002). Forschungsmethoden und Evaluation, (3. rev. ed.). Heidelberg: Springer-Verlag.
Bortz J., Lienert A., & Boehnke K. (2000). Verteilungsfreie Methoden in der Biostatistik, (2. rev. ed.). Berlin: Springer.
Bortz J., & Lienert G. A. (1998). Kurzgefaßte Statistik für die klinische Forschung. Berlin: Springer.
Bradner E. (2004). Keeping your distance: Remote usability testing or the lab - which is the best? User Experience, 6 (11).
Bräutigam L. (1998). Grundwissen: Software-Ergonomie. Retrieved 21.04, 2006, from http://141.90.2.11/ergo-online/ergoframe1.htm
Brooke J. (1991). SUS - A quick and dirty usability scale.
Bühl A., & Zöfel P. (2005). SPSS 12 - Einführung in die moderne Datenanalyse unter Windows. München: Pearson.
Büning H., & Trenkler G. (1994). Nichtparametrische statistische Verfahren, (2. rev. ed.). Berlin: de Gruyter.
Chekaluk E., & Llewellyn K. R. (1994). Masking effects in saccadic eye movements. In d'Ydewalle & Rensvergen (Eds.), Visual and Oculomotor Functions - Advances in Eye Movement Research (pp. 45-54). Amsterdam: Elsevier.
Cooper A. (2004). The Inmates Are Running The Asylum: Why High-Tech Products Drive Us Crazy And How to Restore the Sanity. Indianapolis: Sams Publishing.
Cooper A., & Robert R. (2003). About Face 2.0: The Essential Of Interaction Design. Indianapolis: Wiley Publishing.
Cowen L. (2001). An eye movement analysis of web-page usability. Unpublished Masters' thesis, Lancaster University.
Crowe E. C., & Narayanan N. H. (2000). Comparing interfaces based on what users watch and do. Paper presented at the Eye Tracking Research & Application Symposium 2000, Palm Beach Gardens, Fl, USA.
Crundall D., Underwood G., & Chapmann P. (1999). Driving experience and the functional field of view. Perception, 28, 1075 - 1087.
Dahm M. (2006). Grundlagen der Mensch-Computer-Interaktion. München: Pearson Education.
DATech (Ed.). (2004). Prüfhandbuch Gebrauchstauglichkeit: Leitfaden für die ergonomische Evaluierung von Software auf Grundlage von DIN EN ISO 9241, Teile 10 und 11 (3.3) Frankfurt/Main: Deutsche Akkreditierungsstelle Technik e.V.
de Graef P., Christiaens P., & d'Ydewalle G. (1990). Perceptual effects of scene context on object identification. Psychological Research, 52, 317-329.
Deubel H. (1998). Die Rolle der visuellen Aufmerksamkeit bei der Selektion von Blickbewegungszielen. In Bülthoff, Fahle, Gegenfurtner & Mallot (Eds.), Visuelle Wahrnehmung: Beiträge zur 1. Tübinger Wahrnehmungskonferenz. Kirchentellinsfurt: Knirsch.
DGPs D. G. f. P. (Ed.). (1997). Richtlinien zur Manuskriptgestaltung (2nd. rev. ed.) Göttingen: Hogrefe.
DIN EN ISO 9241-10. (1998). Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten - Teil 10: Grundsätze der Dialoggestaltung. Berlin: Deutsches Institut für Normung e.V.
DIN EN ISO 9241-11. (1998). Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten - Teil 11: Anforderungen an die Gebrauchstauglichkeit - Grundsätze. Berlin: Deutsches Institut für Normung e.V.
DIN EN ISO 9241-12. (1998). Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten, Teil 12: Informationsdarstellung. Berlin: Deutsches Institut für Normung e.V.
Dörner D. (1976). Problemlösen als Informationsverarbeitung. Stuttgart: Kohlhammer.
Dornhöfer S. M., & Pannasch S. (1999). Risky business: Der Gefahr ins Auge geblickt., from http://rcswww.urz.tu-dresden.de/~cogsci/pdf/risiko.pdf.
Duchowski A. T. (2003). Eye Tracking Methodology: Theory and Practice. London: Springer.
Duchowski A. T., & Rele R. S. (2004). Using Eye Tracking To Evaluate Alternative Search Output Interfaces.
Duttke S. (1994). Mentale Modelle: Konstrukte des Wissens und Verstehens. Göttingen: Verlag für angewandte Psychologie.
Dzida W. (1993). Externalizing Task Structures for Software Design Purposes. In Luczak, Cakir & Cakir (Eds.), Work With Display Units 92. Amsterdam: North-Holland.
Dzida W. (1994). Qualitätssicherung durch software-ergonomische Normen. In Eberleh, Oberquelle & Oppermann (Eds.), Einführung in die Software- Ergonomie - Gestaltung graphisch-interaktiver Systeme: Prinzipien, Werkzeuge, Lösungen (2nd rev. ed., pp. 373-406). Berlin: de Gruyter.
Dzida W. (2001). Software-Ergonomie: Grundlagen in die Praxis umsetzen. In Mensch und Computer 2001 (Tutorium, Bad Honnef, 5. - 8. März 2001).
Findlay J. M., & Gilchrist I. D. (1998). Eye Guidance and Visual Search. In Underwood (Ed.), Eye Guidance in Reading and Scene Perception (pp. 295-312). Oxford, GB: Elsevier.
Frese M., & Zapf D. (1992). Fehler bei der Arbeit mit dem Computer, (Ulich). Bern: Huber.
Geis T., Dzida W., & Redtenbacher W. (2003). Interactive Systems supporting computerized work places: Specifying ergonomic requirements and test criteria for software (Technical report). Dortmund: Bundesanstalt für Arbeitsschutz und Arbeitsmedizin.
Gloud J., & Lewis C. (1985). Designing for Usability - Key Principles and What Designers Think. In Communications of the ACM (Band 28, pp. 300-311): ACM Press.
Goldberg J. H., & Kotval X. P. (1998). Eye Movement-Based Evaluation of the Computer Interface. In Advances in Occupational Ergonomics and Safety (pp. 529-532). Amsterdam: IOS Press.
Goldberg J. H., & Kotval X. P. (1999). Computer Interface Evaluation Using Eye Movements: Methods and Constructs. In International Journal of Industrial Ergonomics (24, pp. 631 - 645).
Goldberg J. H., & Kotval X. P. (in review 1999a). Eye Movement-Derived Measures of Interface Usability. Retrieved 12.09, 2005, from Prof. Dr. Matthias Rötting, E-Mail: roetting@mms.tu-berlin.de
Goldberg J. H., & Kotval X. P. (in review 1999b). Factor Analysis of Eye Movement Scanpath Measures. Retrieved 12.09, 2005, from Prof. Dr. Matthias Rötting, E-Mail: roetting@mms.tu-berlin.de
Goldberg J. H., Stimson M. J., Lewenstein M., Scott N., & Wichansky A. M. (2002). Eye tracking in web search tasks: design implications. In Proceedings of the symposium on Eye tracking research \& applications (pp. 51-58). New Orleans, Louisiana: ACM Press.
Goldberg J. H., & Wichansky A. M. (2003). Eye Tracking in Usability Evaluation: A Practitioner's Guide. In Hyönä, Radach & Deubel (Eds.), The Mind's Eye: Cognitive and Applied Aspects Of Eye Movement Research (pp. 493-516). Amsterdam: Elsevier.
Goldstein E. B. (1997). Wahrnehmungspsychologie, Sensation and Perception (Herbst, Trans.). Heidelberg: Spektrum.
Häcker H., & Stapf H. (Eds.). (1998). Dorsch Psychologisches Wörterbuch (13. rev. & ext. ed.) Bern: Huber.
Hacker W. (1998). Allgemeine Arbeitspsychologie: Psychologische Regulation von Arbeitstätigkeiten. Bern: Hans Huber.
Hacker W. (2000). Handlung. In Ansanger & Wenninger (Eds.), Handwörterbuch Psychologie. Augsburg: Weltbild Verlag (Sonderausgabe, Original ersch. bei Beltz, 1999).
Hamborg K.-C. (2002). Gestaltungsunterstützende Evaluation von Software: Zur Effektivität und Effizienz des IsoMetricsL Verfahrens. In Herczeg, Prinz & Oberquelle (Eds.), Mensch & Computer 2002: Vom interaktiven Werkzeug zu kooperativen Arbeits- und Lernwelten (pp. 303-312). Stuttgart: B.G. Teubner.
Heckhausen H., Gollwitzer P. M., & Weinert F. E. (1987). Jenseits des Rubikon: Der Wille in den Humanwissenschaften. Berlin: Springer.
Heide B. H. a. d. (1993). Welche software-ergonomische Evaluationsverfahren können was leisten? In Rödiger (Ed.), Software-Ergonomie'93 (pp. 157-172). Stuttgart: Teubner.
Henderson J. M., & Hollingworth A. (1998). Eye Movements during Scene Viewing: An Overview. In Underwood (Ed.), Eye Guidance in Reading and Scene Perception (pp. 269-293). Amsterdam: Elsevier.
Henderson J. M., & Hollingworth A. (1999). High-level scene perception. Annual Review of Psychology, 50, 243-271.
Herrmann C. (2004). Zum wechselseitigen Einfluss von Benutzer-Eypertise und Systemkomplexität auf die Benutzbarkeit von EDV-Systemen, Eine vergleichende Untersuchung anhand von zwei SAP-Standardanwendungen. Görlitz: Hochschule Zittau / Görlitz (FH).
Herrmann T. (1992). Sprechen und Sprachverstehen. In Spada (Ed.), Allgemeine Psychologie (2. rev. ed., pp. 281-322). Bern: Huber.
Herrmann T. (1994). Allgemeine Sprachpsychologie - Grundlagen und Probleme, (2. rev. ed.). Weinheim: Beltz.
Hilbert D. M., & Redmiles D. F. (2000). Extracting Usability Information from User Interface Events. ACM Computing Surveys, 32 (4), 384-421.
Hom J. (1998). The usability methods toolbox. Retrieved 25.04, 2006, from http://jthom.best.vwh.ne/usability/usahome.htm
Hüwel S. (2001). Geschichte der Mensch-Maschine-Kommunkation: Wandel der Software-Ergonomie und der Mensch-Maschine-Interaktion: Technische Fakultät, Universität Bielefeld.
Jacob R. J. K., & Karn K. S. (2003). Commentary on Section 4: Eye Tracking in human-computer interaction and usability research: Ready to deliver the promises. In Hyönä, Radach & Deubel (Eds.), The Mind's Eye: Cognitive and Applied Aspects Of Eye Movement Research (pp. 573-605). Amsterdam: Elsevier.
Joos M., Rötting M., & Velichkovsky B. M. (2000). Die Bewegungen des menschlichen Auges: Fakten, Methoden, innovative Anwendungen, Psycholinguistik / Psycholinguistics. Ein internationales Handbuch / An International Handbook, (Rickheit, Herrmann & Deutsch). Berlin: de Gruyter.
Just M. A., & Carpenter P. A. (1976). Eye fixations and cognitive processes. Cognitive Psychology, 8, 441-480.
Karat J. (1997). User-Centered Software Evaluation Methodologies. In Helander, Landauer & Prabhu (Eds.), Handbook of Human-Computer-Interaction (pp. 689-704). Amsterdam: North-Holland.
Kawalek J. (2003). LV 75: Diagnostik der Mensch-Maschine-Interaktion. Vorlesung Software-Evaluation, Unveröffentliches Studienskript. Görlitz: Hochschule Zittau / Görlitz (FH).
Laserline. (2005). Pixel oder Punkte? Retrieved 01.03, 2006, from www.laser-line.de/de/news/archiv/archiv_2005/PixelPunkte.html
Marcus A., & van Dam A. (1991). User-interface develeopments for the nineties. 24 (9), 49-57.
Mayhew D. (1999). The Usability Engineering Lifecycle: A Practioner's Handbook for User Interface Design. San Francisco: Morgan Kaufmann.
Nachtigall C., & Wirtz M. (2002). Wahrscheindlichkeitsrechnung und Interferenzstatistik: Statistische Methoden für Psychologen Teil 2, (Vol. 2 überarb. und erw. Aufl.). Weinheim und München: Juventa.
Nickerson R. S., & Landauer T. K. (1997). Human-Computer Interaction: Backround and Issues. In Helander, Landauer & Prabhu (Eds.), Handbook of Human-Computer Interaction (pp. 4-28). Amsterdam: North-Holland.
Nielsen J. (1993). Usability Engineering. Boston: Academic Press.
Nielsen J. (2001). http://www.useit.com.
Nielsen J., Clemmensen T., & Yssing C. (2002). Getting access to what goes on in people's heads? - Reflections on the think-aloud technique. Paper presented at the NordiCHI, Arhus Denmark.
Nies U. (1999). Blickbewegungen und Detektion bei der Suche auf homogenen Flächen - Untersuchungen zur Optimierung industrieller Qualitätskontrolle. Aachen: Shaker.
Norman D. (1986). User centered system design: New perspectives on human computer interaction. Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Norman D. (1988). The Design Of Everyday Things. New York: Basic Books.
Norman D. (2002). The Psychology Of Everyday Things. New York: Basic Books.
Oertel K. (2003). Usability Evaluation Strategien zur Bewertung der Gebrauchstauglichkeit von interaktiven Web Interfaces. Unpublished Dissertation, Universität Rostock, Rostock.
Oertel K. (2004). Ansatz zu einer Operationalisierung des Qualitätsbegriffs Usability. In Keil-Slawik (Ed.), Gesellschaft für Informatik (GI) Fachausschuss Mensch-Computer-Interaktion u.a.: Mensch & Computer 2004: Allgegenwertige Interaktion (pp. 303-304). München: Oldenbourg.
Oertel K., & Schultz R. (2003). Im Auge des Betrachters: Software-Qualitätssicherung durch Blickbewegungsregistrierung. 4. IuK-Tage MV.
Oppermann R. (1988). Software-ergonomische Evaluationsverfahren. In Balzert, Hoppe, Oppermann, Peschke, Rohr & Streitz (Eds.), Einführung in die Software-Ergonomie (pp. S. 323-342). Berlin: de Gruyter.
Oppermann R., & Reiterer H. (1994). Software-ergonomische Evaluation. In Eberleh, Oberquelle & Oppermann (Eds.), EInfürhung in die Software-Ergonomie (pp. 335-371).
Pannasch S. (2003). Ereignisbezogene Veränderungen der visuellen Fixationsdauer. Unpublished Doctoral Dissertation, Technische Universität, Dresden.
Paterno F. (2000). Model-Based Design and Evaluation of Interactive Application, Applied Computing. London: Spinger.
Posner M. I., Snyder C. R. R., & Davidson B. J. (1980). Attention and the Detection of Signals. Experimental Psychology: General, 109 (2), 160-174.
Prümper J. (1997). Der Benutzerfragebogen Isonorm 9241/10: Ergebnisse zur Rel. In Loskowsky, Velichkovsky & Wünschmann (Eds.), Software-Ergonomie '97: Usability Engineering: Integration von Mensch-Computer Interaktion und Software-Entwicklung (pp. 253-262). Stuttgart: Teubner.
Rayner K., & Pollatsek A. (1992). Eye Movements and Scene Perception. Canadian Journal of Psychology, 46 (3), 342-376.
Riebeck M. (2006). Software-Evaluation: Eine Studie zur Erkennung von Nutzungsproblemen mit Hilfe von Logfile-Daten. Saarbrücken: VDM Verlag Dr. Müller.
Rötting M. (1999). Typen und Parameter von Augenbewegungen. In Rötting & Seifert (Eds.), Blickbewegungen in der Mensch-Maschine-Systemtechnik (pp. 1-18). Sinzheim: Pro Universitate Verlag.
Rötting M. (2001). Parametersystematik der Augen- und Blickbewegungen für arbeitswissenschaftliche Untersuchungen, Schriftenreihe Rationalisierung und Humanisierung, (Vol. 34 Zugl. Dissertation RWTH Aachen). Aachen: Shaker.
Schiessl M., Duda S., Thölke A., & Fischer R. (2003). Eye tracking and its application in usability and media research. MMI-Interaktiv, 3 (2003).
Schimpfky N. (2003). Aufklärung von Nutzungsproblemen mit interaktiven Systemen mittels Eye-Tracking. Unpublished Diplom.
Schweibenz W., & Thissen F. (2003). Qualität im Web. Benutzerfreundliche Webseiten durch Usability Evaluation. Berlin: Springer.
Shannon, & Weaver. (1949). The mathematical theory of communication.
Sommer M. (Ed.). (2003). Usability praktisch umsetzen München: Carl Hanser.
Sperka M. (1996). Psychologie der Kommunikation in Organisationen: eine Einführung aus systemtheoretischer Grundlage. Essen: Die Blaue Eule.
Streitz N. A. (1988). Fragestellungen und Forschungsstrategien der Software-Ergonomie. In Balzert, Hoppe, Opperman, Peschke, Rohr & Streitz (Eds.), Einführung in die Software Ergonomie (pp. 3-24). Berlin: de Gruyter.
Streitz N. A. (1990). Psychologische Aspekte der Mensch-Maschine-Interaktion. In Hoyos & Zimlong (Eds.), Enzyklopädie der Psychologie (Ingenieurspsychologie, pp. 240-284). Göttingen: Hogrefe.
Theeuwes J. (1993). Visual selective attention: A theoretical analysis. 83, 93-154.
Ulich E. (1994). Arbeitspsychologie, (3. compl. rev. & ext. ed.). Zürich: vdf, Hochschulverl. AG an der ETH Zürich; Stuttgart: Schäffer-Poeschel.
Velichkovsky B., Sprenger A., & Pomplun M. (1997). Auf dem Weg zur Blickmaus: Die Beeinflussung der Fixationsdauer durch kognitive und kommunikative Aufgaben. Paper presented at the Software-Ergonomie '97: Usability Engineering, Dresden.
Velichkovsky B. M., Dornhoefer S. M., Pannasch S., & Unema P. J. A. (2000). Visual Fixation and Level of Attentional Processing. Paper presented at the Eye Tracking Research & Applications Symposium, Palm Beach Gardens, Florida, USA.
Virzi R. A. (1997). Usability Inspection Methods. In Helander, Landauer & Prabhu (Eds.), Handbook of Human-Computer Interaction (pp. 705-732). Amsterdam: Noth-Holland.
Viviani P. (1990). In Kowler (Ed.), Eye movements and their role in visual and cognitive processes (chapter 8). Amsterdam: Elsevier.
Wandmacher J. (1993). Software-Ergonomie. Berlin: Walter de Gruyter.
Watzlawick P. (2000). Menschliche Kommunikation: Formen, Störungen, Paradoxien, 1969 (10 ed.). Seattle: Huber.
Weidenmann B. (1995). Multicodierung und Multimodalität im Lernprozess. In Issing & Klimsa (Eds.), Information und Lernen mit Multimedia (pp. 65-84). Weinheim: Psychologie Verlags-Union.
Witt H. (2001). Forschungsstrategien bei quantitativer und qualitativer Sozialforschung. Forum Qualitative Sozialforschung / Forum Qualitative Social Research Retrieved 23.11, 2005, from http://www.qualitative-research.net/fqs-texte/1-01/1-01witt-d.htm
Wottawa H., & Thierau H. (1998). Lehrbuch Evaluation, (2. rev. ed.). Bern: Verlag Hans Huber.
www.wikipedia.org. (2005). Online-Enzyklopädie.
Yamamoto S., & Kuto Y. (1992). A method of evaluating VDT screen layout by eye movement analysis. Ergonomics (35), 591-606.
Yarbus A. L. (1967). Eye Movements and Vision. New York: Plenum Press.
Yom M., & Wilhelm T. H. (2004a). Methoden und Erkenntnisse der Web-Usability-Forschung. In Zerfaß & Zimmermann (Eds.), Usability von Internet-Angeboten. Grundlagen und Fallstudien (Stuttgarter Beiträge zur Medienwirtschaft Nr. 10) (pp. 19-38). Stuttgart.
Yom M., & Wilhelm T. H. (2004b). WOOS-Ein Messinstrument für die wahrgenommene Orientierung in Online-Shops. In Keil-Slawik, Selke & Szwillus (Eds.), Mensch und Computer 2004: Allgegenwärtige Interaktion (pp. 43-53). München: Oldenburg Verlag.
18. Anhang
A Übersicht: Gaze-Tracking
B Testaufgaben
C Berechnung von Backtracks
Die Punkte definieren einen Blickpfad mit zwei Streckenabschnitten bzw. Sakkaden, die einen gewissen Winkeleinschließen (siehe Abb. 18-1).
Abb. 18-1: Blickpfad, der durch die drei Fixationspunkte A, B und C definiert ist. Der Winkel gibt den durch die beiden Vektoren und eingeschlossenen Winkel wieder. Ist , so liegt der die Sakkade definierende Fixations-Endpunkt im Backtrack-Bereich.
Dieser Winkel entscheidet darüber, ob eine Sakkade als Richtungsänderung einzustufen ist. Ist , so liegt der die Sakkade definierende Fixations-Endpunkt im Backtrack-Bereich. Den Wert des eingeschlossenen Winkels erhält man über das Skalarprodukt (inneres Produkt) der beiden Vektoren und (Bartsch, 1997; S. 213). Der Vektor ist als Strecke und Vektor als Strecke definiert und man berechnet:
Nach aufgelöst ergibt sich:
Mit den obigen Koordinaten erhält man:
Der durch die beiden Vektoren und eingeschlossene Winkel beträgt also 161,05°. Die Richtung des Blickpfades verändert sich im Verhältnis zur vorangegangenen Sakkaden demnach nur um 18,95° (180°-161,05°). Wie Abb. 18-1 bereits verdeutlich, liegt hier kein Backtrack vor. Da in Formel 1 stets der kleinere der beiden durch die Vektoren bedingte Winkel bestimmt wird, gilt für die Identifizierung von Backtracks in dieser Untersuchung folgende Beziehung:
Wenn , dann ist Vektor als Backtrack zu werten
D Berechnung des Toleranzbereichs zur Fixationserfassung
Für die vorliegende Untersuchung bringt eine Studie zur Computer interface evaluation using eye movements von Goldberg & Kotval (1999) wegen der Überschneidungen in Thema und Untersuchungsbedingungen die relevanten Referenzwerte:
A fixation algorithm must produce fixations that meet certain minimum characteristics. The center of a typical fixation is within 2-3° from the observed target and the minimum processing duration during a fixation is 100-150 ms”(1999; S. 636).
Entscheidend ist nun der von Goldberg & Kotval vorgestellte Algorithmus zur Bestimmung einer Fixation mittels Clusterbildung. In der Studie wird ein Eye-Tracker mit 60Hz verwendet, d.h. alle 16,67ms wird die Blickposition abgespeichert. Für die Identifizierung von Fixationen in dieser Studie wird das dort beschriebene Berechnungsverfahren übernommen (siehe Abb. 18-2). Sechs Blickdatenpunkte (6 Samples pro 100ms bei 60 Hz Samplerate) werden zu einer Fixation mit 100ms Dauer zusammengefasst, wenn diese innerhalb des Toleranzbereichs von 40px Radius (1,3°) liegen. Fallen mehr als sechs (n > 6) Datenpunkte in das Cluster, so werden diese als Fixation mit der Dauer von n x 16,67 ms klassifiziert. Ist n < 6 und/oder liegt die Datenpunktreihe außerhalb der Toleranz, so wird eine Sakkade mit einer Dauer von n x 16,67ms ausgegeben.
Für diese Untersuchung können die von Goldberg & Kotval vorgeschlagenen Werte allerdings nicht ohne Weiteres übernommen werden, da in dieser Untersuchung die Blickbewegungen mit einer Rate von 20Hz erfasst werden. Das hat zur Folge, dass sich die Mindestanzahl an Messpunkten für eine Fixation mit einer Mindestdauer von 100ms im Cluster von sechs auf zwei Punkte reduziert. Der Toleranzbereich von 40 Pixel muss ebenfalls angepasst werden. Dieser Pixelwert ergibt sich aus der Definition des visuellen Feldes von 1,3° Radius. Dieser Wert beschreibt den Sehwinkel, der sich vom Auge des Betrachters bis zur entsprechenden Stelle auf dem Monitor aufspannt und dabei eine bestimmte Strecke einschließt (örtlicher Faktor)52. Der Bestimmung dieser Strecke in Pixel (Einheit zur Einstellung des Toleranzbereichs für das verwendete Eye-Tracking-System RealEYES) für diese Untersuchung liegen folgende Berechnungen zu Grunde:
Abbildung in dieser Leseprobe nicht enthalten
Die Streckeergibt sich aus dem Tangens des Sehwinkels, multipliziert mit dem Abstand zwischen Monitor und Testperson. Für die Daten dieses Versuchs ergibt sich:
Für die Umrechnung von Zentimeter in Pixel (Darstellung auf dem Monitor!) gibt es keine einheitliche Formel, sondern das Verhältnis ist direkt abhängig von Größe und Auflösung des Monitors. Der Testrechner verfügt über einen 21-Zoll-Monitor (Typ: Sony Trintrion) mit einer Größe des sichtbaren Bereichs von 40cm x 30cm und einer eingestellten Auflösung von 1024px auf 768px. Damit ergibt sich für die Umrechnung:
Probe:
Auf dem Testmonitor misst ein Pixel also 0,039 Zentimeter. Für den Toleranzbereich von 1,3° zur Bestimmung einer Fixation ergibt sich in Abhängigkeit von den vorliegenden Bedingungen ein Wert von:
E Fragebögen
E.1. SUS: Zufriedenstellung
Beschreibung der Fragebogenkonstuktion
In response to these requirements, a simple usability scale was developed. The System Usability Scale (SUS) is a simple, ten-item scale giving a global view of subjective assessments of usability.
SUS is a Likert scale. It is often assumed that a Likert scale is simply one based on forced-choice questions, where a statement is made and the respondent then indicates the degree of agreement or disagreement with the statement on a 5 (or 7) point scale. However, the construction of a Likert scale is somewhat more subtle than this. Whilst Likert scales are presented in this form, the statements with which the respondent indicates agreement and disagreement have to be selected carefully.
The technique used for selecting items for a Likert scale is to identify examples of things which lead to extreme expressions of the attitude being captured. For instance, if one was interested in attitudes to crimes and misdemeanours, one might use serial murder and parking offences as examples of the extreme ends of the spectrum. When these examples have been selected, then a sample of respondents is asked to give ratings to these examples across a wide pool of potential questionnaire items. For instance, respondents might be asked to respond to statements such as “hanging’s too good for them”, or “I can imagine myself doing something like this”.
Given a large pool of such statements, there will generally be some where there is a lot of agreement between respondents. In addition, some of these will be ones where the statements provoke extreme statements of agreement or disagreement among all respondents. It is these latter statements which one tries to identify for inclusion in a Likert scale, since, we would hope that, if we have selected suitable examples, there would be general agreement of extreme attitudes to them. Items where there is ambiguity are not good discriminators of attitudes. For instance, while one hopes that there would be a general, extreme disagreement that “hanging’s too good” for those who perpetrate parking offences, there may well be less agreement about applying this statement to serial killers, since opinions differ widely about the ethics and efficacy of capital punishment.
SUS was constructed using this technique. A pool of 50 potential questionnaire items was assembled. Two examples of software systems were then selected (one a linguistic tool aimed at end users, the other a tool for systems programmers) on the basis of general agreement that one was “really easy to use” and one was almost impossible to use, even for highly technically skilled users. 20 people from the office systems engineering group, with occupations ranging from secretary through to systems programmer then rated both systems against all 50 potential questionnaire items on a 5 point scale ranging from “strongly agree” to “strongly disagree”.
The items leading to the most extreme responses from the original pool were then selected. There were very close intercorrelations between all of the selected items (± 0.7 to ± 0.9). In addition, items were selected so that the common response to half of them was strong agreement, and to the other half, strong disagreement. This was done in order to prevent response biases caused by respondents not having to think about each statement; by alternating positive and negative items, the respondent has to read each statement and make an effort to think whether they agree or disagree with it.
The System Usability Scale is shown in the next section of this chapter. It can be seen that the selected statements actually cover a variety of aspects of system usability, such as the need for support, training, and complexity, and thus have a high level of face validity for measuring usability of a system (Brooke, 1991; S. 3).
SUS-Questionnaire im englischen Original (Brooke, 1991; S. 4).
Verwendete Form des Fragebogens in dt. Übersetzung
E.2. WOOS: Wahrgenommene Orientierung
Itemanalyse der Items zur Konstruktion des WOOS-Fragebogens (Yom & Wilhelm, 2004b; S. 49)
Die Items 8-10 wurden aufgrund der Ergebnisse aus der Skala entfernt. Für den Fragebogen in dieser Untersuchung wurden also die Items 1-7 genutzt, die entsprechend dem Untersuchungskontext semantisch leicht (!) verändert wurden.
Verwendete Form des Fragebogens
E.3. Fragebogen zur Vorerfahrung
E.4. Fragebogen zur Person
E.5. Fragebogen zum Gesamturteil
F Testdurchführung
F.1. Leitfaden
F.2. Bewertungsbogen zur Videokonfrontation
G Unterschiedsanalyse
Tab. 18-1: Korrelation zwischen Backtrack-Anzahl, Bearbeitungsdauer und Fixationsanzahl.
Tab. 18-2: Korrelation zwischen Pfadlänge, Bearbeitungsdauer und Fixationsanzahl.
H Zusammenhangsanalyse
Tab. 18-3: Korrelation zwischen Anzahl der Backtracks/10sec und den subjektiven Daten zu den vier Nutzungsproblemen.
Tab. 18-4: Korrelation zwischen Durchschnittlicher Sakkadenlänge und den subjektiven Daten zu den vier Nutzungsproblemen.
Tab. 18-5: Korrelation zwischen Anzahl der wiederkehrenden semantischen Fixationen und den subjektiven Daten zu den vier Nutzungsproblemen.
Tab. 18-6: Korrelation zwischen Blickpfadlänge und den subjektiven Daten zu den vier Nutzungsproblemen.
Tab. 18-7: Korrelation zwischen Übergangshäufigkeiten und den subjektiven Daten zu den vier Nutzungsproblemen.
Tab. 18-8: Korrelation zwischen der Blickpfadlänge und den subjektiven Fragebogendaten zur erlebten Orientierung und Zufriedenstellung.
Tab. 18-9: Korrelation zwischen den Übergangshäufigkeiten und den subjektiven Fragebogendaten zur erlebten Orientierung und Zufriedenstellung.
Tab. 18-10: Korrelation zwischen der Backtrackanzahl, der Suchzeit, der Sakkadenweite sowie der Anzahl wiederkehrender semantischer Fixationen und den subjektiven Fragebogendaten zur erlebten Orientierung und Zufriedenstellung.
Tab. 18-11: Korrelation zwischen den vier Nutzungsproblemen.
I Testerunterlagen
J Usability-Report
[...]
1 Zwischen und innerhalb verschiedener Fachdisziplinen (Informatik, Psychologie etc.) fällt die Definition von Interaktion und Kommunikation äußerst durchaus gegensätzlich aus. So setzt z.B. der Kommunikationspsychologe Paul Watzlawick mit seinem berühmten Axiom Man kann nicht nicht kommunizieren (2000) Kommunikation und Verhalten gleich. Auf dieser psychologischen Ebene wird Kommunikation demnach seiner Beschränkung auf den Austausch verbaler Codes enthoben. Für diese Arbeit soll allerdings die Mensch-Computer-Interaktion von der Kommunikation zwischen Mensch und Computer abgegrenzt werden. Interaktion meint hier den Informationsaustausch mit einem Computersystem mittels Eingabegeräten (Maus, Tastatur) und einer graphischen Benutzungsoberfläche. Kommunikation meint die Arbeit mit einem Computer über gegenseitige Spracheingabe und Sprachausgabe. Letztere soll nicht Gegenstand dieser Studie sein.
2 Durch den rein technischen Charakter des Modells von Shannon & Weaver (1949) steht „Kanal“ noch für die rein physikalischen Gegebenheiten wie die Atmosphäre oder ein Kabel.
3 Zum Beispiel definiert die internationale Norm ISO 9241 im Teil 10 sieben Gründsätze der Dialoggestaltung (siehe Abschnitt 2.2.1).
4 Ergonomie (gr. Ergo = Arbeit; nomos = Gesetz) meint im übertragenen Sinn „Die Wissenschaft von der Arbeit“(Duden).
5 Entgegen der Begriffsverwendung der Autoren Oppermann & Reiterer sei in diesem Abschnitt auch der Begriff Mensch-Computer-Interaktion als Synonym für Software-Ergonomie verwandt.
6 Siehe Glossar
7 Cooper (2003) unterscheidet in Bezug auf die Computerbenutzung zwischen Ziel und Aufgabe. Ein Ziel wird hier z.B. als erfolgreiches Ausdrucken eines Dokumentes konzeptualisiert, wohingegen eine Aufgabe als Aufwand zum Erreichen dieses Ziels gilt. Demnach können den Nutzer irrelevante Aufgaben belasten, die durch eine ungeeignete Interaktionsgestaltung entstehen. Der von Oppermann verwandte Begriff der Aufgabe ist eher arbeitswissenschaftlicher Natur. Er meint die Arbeitsanweisung (Dokumentenausdruck), die der Computernutzer von Extern erhält.
8 Dieser Zusammenhang behält nur in Bezug auf Business-Anwendungen (z.B. Microsoft Excel) seine Richtigkeit. Auf Computer-Spiele lässt er sich indes nicht übertragen.
9 Die Norm ist sowohl nationaler (DIN), europäischer (CEN) als auch internationaler Standard (ISO), weshalb man in der Literatur oft uneinheitliche Bezeichnungen findet, die allerdings identische Inhalte bezeichnen: ISO 9241, DIN EN 29241 oder DIN EN ISO 9241.
Bei der Verwendung der ISO 9241 und anderer software-ergonomischer Normen muss beachtet werden, dass diese keine rechtlichen Vorschriften enthalten, sondern vielmehr Richtliniencharakter haben. Dadurch wird berücksichtigt, dass Usability keine objektive Produkteigenschaft ist, sondern sich eng am konkreten Nutzungskontext abbildet. So sei z.B. eine Festlegung auf Forderungen des mittleren Benutzers nicht erwünscht und unzweckmäßig (Dzida, 1994).
10 vgl. Glossar
11 Die internationale Norm ISO 9126 enthält in großen Teilen die deutsche Norm DIN 66272
12 In der vorliegenden Arbeit sollen die Begriffe Usability, Gebrauchstauglichkeit und Gebrauchsqualität synonym verwendet werden.
13 Heuristik : methodische Anleitung, Anweisung zur Gewinnung neuer Erkenntnisse (Duden)
14 vgl. Glossar
15 MOVE gründet hier auf Paterno (2000): Engineering twoards a target: Is the design good enough?/Comparing alternative designs: Which is best?/Unterstanding the real world: How well does the design work in real world?/Checking conformance to a standard: Does this product conform to the standard?
16 In Anlehnung an die Norm ISO 9241 (siehe Abb. 2-3) wird davon ausgegangen, dass die Anwenderunterstützung – im Modell als Gebrauchstauglichkeit im engeren Sinne konzeptualisiert - wesentlich von der Qualität der Interfacegestaltung und der Qualität des Dialogverhaltens abhängig ist.
17 Nach Nielsen (1993) sind bereits sechs Experten ausreichend, um etwa 80% der Usability-Probleme zu identifizieren.
18 vgl. Glossar; Eine sehr einfache, aber dennoch effektive Form eines Software-Prototypen ist der so genannte Paper-Prototype. Dabei werden die zu evaluierenden Bildschirminhalte einer Anwendung auf Papier aufgezeichnet bzw. mit unterschiedlichen Materialien (Folie, Pappe, Post-Its etc.) dargestellt. Ein großer Vorteil der Arbeit mit Paper-Prototypen ist, dass Wünsche und Ideen von Zielanwendern bzgl. Design und Interaktionsstruktur der Anwendung direkt umgesetzt und auf ihren Effekt auf die Usability hin überprüft werden können.
19 Nielsen schlägt z.B. eine 5-stufige Bewertungsskala vor: 1 = Kein Usability-Problem, 2 = kosmetisches Problem, 3 = Kleines Usability-Problem, 4 = Großes Usability-Problem, 5 = Usability-Katastrophe (Details siehe Nielsen, 2001).
20 Um z.B. das Verhalten verschiedener Nutzer einer Anwendung vergleichen zu können, müssen störende externe Einflüsse auf die Untersuchungsvariable „Nutzerverhalten“ kontrolliert, sprich ausgeschaltet werden. Zu solchen so genannten Störvariablen zählen etwa ablenkende Geräusche, der Einsatz verschiedener Testleiter oder Unterschiede im Instruktionsmaterial. Kontrollierte Bedingungen können am besten in laborähnlichen Räumen hergestellt werden, in denen ein Untersuchungsleiter praktisch jede Veränderung des Umfelds kontrollieren kann (Bortz & Döring, 2002).
21 DATech: D eutsche A kkreditierungsstelle Tech nik e.V.
22 Details zur Durchführung der Konformitätsprüfung und Erläuterung der Verfahren siehe DATech (2004).
23 vgl. Glossar
24 vgl. Glossar
25 siehe Glossar
26 siehe Glossar
27 Augenbewegungen finden relativ zum Kopf statt und sind für sich interpretierbar. Dagegen muss bei Blickbewegungen das Blickobjekt in die Analyse miteinbezogen werden. Blickbewegungen sind als Bewegungen relativ zum Blickobjekt definiert.
28 W ebsite A nalysis and M easure M ent I nventory (www.wammi.com).
29 Zur Reliabilität und Validität von Tests siehe Glossar
30 vgl. Glossar
31 vgl. Glossar
32 Bei kleinen Firmen ist das der Geschäftsführer. Bei größeren Softwarefirmen kann das Upper-Management mehrere Entwicklungsleiter, CTOs (Chief Technology Officer) bis zum CEO (Chief Executive Officer) umfassen.
33 Siehe Glossar
34 Die unzureichende Qualifikation besteht im Handlungswissen (Fertigkeiten) und deklarativem Wissen (Fakten, Begriffsbedeutungen, Konzepte etc.) seitens der Benutzer.
35 vgl. Glossar
36 vgl. Glossar
37 Norman entwarf sein Handlungsmodell in der Erforschung der Nutzung von Computersystemen sowie alltäglichen Gebrauchgegenständen wie Telefone, Autos, Türen etc.
38 vgl. Glossar
39 Schimpfky (2003) erwähnt in ihrem Vorwort eine Zusammenarbeit mit dem Fraunhofer Institut für Autonome Intelligente Systeme (AiS), dem Institut für Ingenieurspsychologie und Kognitive Ergonomie an der Humboldt Universität in Berlin & dem Institut für Allgemeine Psychologie und Arbeitspsychologie der TU Chemnitz.
40 vgl. Kodierung im Glossar
41 Selbstbeschreibungsfähigkeit und Erwartungskonformität sind konkrete Gestaltungskriterien aus der ISO 9241-10.
42 siehe Winkelgeschwindigkeit im Glossar
43 vgl. Glossar
44 Die Testanwendung bietet dem User keine Möglichkeit, sich auszuloggen. Daher gibt es auch kein kritisches Element. Mit der Aufgabe soll versucht werden, typische Blickbewegungs-Muster einer aufwendigen visuellen Suche zu erzeugen und zu identifizieren.
45 dt. Angebot (zur Benutzung); vgl. Glossar
46 Die Komplexität einer Computeranwendung erhält in der Human-Computer-Interaction (HCI)-Forschung keine klar abgrenzbare Definition. Komplexität wird durch Systemmerkmale wie Mächtigkeit und Vernetztheit der Systemfunktionen oder auch über subjektive Größen wie die kognitive Belastung im Zuge der Handlungsplanung bestimmt. Gemein ist den verschiedenen Perspektiven, dass von einem direkten Einfluss der Komplexität eines Computersystems auf die kognitiven Prozesse des Nutzers ausgegangen wird. Komplexität ist damit ein hervorstechender Einflussfaktor auf die Benutzungsqualität der Software (Herrmann, 2004). Für die vorliegende Arbeit soll der Begriff der Komplexität mit dem Konzept der Kognitiven Kompatibilität von Streitz (1988; 1990) erfasst werden, welches die wechselseitige Beeinflussung von System- und Benutzervariablen hervorhebt. Ein zu komplexes System schafft es demnach nicht, die Diskrepanz zwischen den Wissensstrukturen des Benutzers und dem im Computersystem umgesetzten Wissensrepräsentationen auf einem Minimum zu halten. Daraus resultiert eine Überforderung des Nutzers.
47 Derartige Aussagen sind natürlich nicht direkt bestehenden Usability-Standards oder –normen entnommen, sondern sie sind als allgemeinsprachliche Formulierungen aus dem Wissen des Usability-Experten (Testleiter) zu verstehen.
48 Interessanterweise liegt meist die gesamte visuelle Aufmerksamkeit der Tester auf dem Bildschirmvideo und die Aufzeichnungen der Web-Cam werden nur wenig beachtet. Dies gilt aber nur solange bis sich die Tester im Video eine prägnante Äußerung (z.B. „Keine Ahnung, wo es da weitergeht“) sagen hören. Das Audiosignal ist also hier für die Aufmerksamkeitslenkung essentiell.
49 Wie in Abschnitt 4.1 dargestellt, handelt es sich bei der Messung von Blickbewegungen genau genommen um Gaze-Tracking.
50 In Bezug auf die Stichprobe der Untersuchung ist eine Generalisierung allerdings ist nicht ohne Weiteres möglich!
51 Die Verwendung von durchgehend englischsprachigen Abkürzungen folgt hier den Richtlinien zur Manuskriptgestaltung der Deutschen Gesellschaft für Psychologie (DGPs, 1997; S. 72).
52 Eine Übersicht über die von verschiedenen Autoren benutzten Kriterien zur Bestimmung einer Fixation gibt Rötting (2001; S. 71). Je nach Untersuchungsbedingungen und Forschungsfeld ergeben sich Werte zwischen <0,5 ° und <2,0° für das örtliche Kriterium und >80ms bis >120ms für das zeitliche Kriterium. Zudem wird bei manchem Autor auch ein Geschwindigkeitsfaktor als Kombination aus örtlichem und zeitlichem Kriterium verwendet. Dieser umfasst Werte zwischen <16°/s und <50°/s. Die zusätzliche Eingrenzung durch einen Geschwindigkeitswert soll verhindern, dass sakkadische Bewegungen in die Fixationsbestimmung eingehen. Für die vorliegende Untersuchung findet das Geschwindigkeitskriterium allerdings keine Anwendung, da sakkadische Bewegungen aufgrund des eingesetzten Eye-Trackers (zeitliche Auflösung 20Hz) nicht direkt erfassbar sind.
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.