Inhaltsverzeichnis
1 EINLEITUNG 1
2 PROJEKT USEKIT 3
2.1 AUSGANGSLAGE 3
2.2 ZIELSETZUNGEN 4
3 MULTIMODALE INTERFACES 7
3.1 SPEECH USER INTERFACE 7
3.1.1 ENTWICKLUNG UND EINSATZMÖGLICHKEITEN 8
3.1.2 NUTZEN UND CHANCEN 9
3.1.3 PROBLEME UND HERAUSFORDERUNGEN 10
3.2 TECHNISCHE KOMPONENTEN VON SUIS 13
3.2.1 SPRACHERKENNUNGSPROZESS 14
3.2.2 AUTOMATISCHE SPRACHERKENNUNG 15
3.2.3 DIALOG MANAGEMENT 16
3.2.4 SPRACHAUSGABE 18
4 USABILITY VON MULTIMODALEN INTERFACES 21
4.1 QUALITÄTSKRITERIEN VON SPRACHAPPLIKATIONEN 21
4.1.1 FEHLERMANAGEMENT 21
4.1.1.1 Erkennungsfehler 23
4.1.1.2 Management von Erkennungsfehlern 24
4.1.2 NAVIGATIONS- UND DIALOGABLAUF 27
4.1.2.1 Dialogstrategien 27
4.1.2.2 Strukturierung der Inhalte 30
4.1.2.3 Navigationsfunktionen 30
4.1.3 INFORMATIONSDARSTELLUNG 31
4.1.3.1 Wording der Sprachausgabe 32
4.1.3.2 Ästhetik der Sprachausgabe 32
4.1.3 FEEDBACK DES SYSTEMS 34
4.2 VERZAHNUNGSINFORMATIONSMODELL 35
4.2.1 BESCHREIBUNG DES VERZAHNUNGSINFORMATIONSMODELLS 35
4.2.2 KOMPONENTEN DES VERZAHNUNGSINFORMATIONSMODELL 38
4.3 ERWEITERUNG DES VERZAHNUNGSINFORMATIONSMODELLS 41
4.3.1 SYSTEM - LEVEL 41
4.3.1.1 Entscheidung Internal Action 42
4.3.1.2 Entscheidung (G)UI - Design 43
4.3.1.3 Entscheidung (G)UI - Objekte und Struktur 44
4.3.1.4 Entscheidung UI - Data 46
4.3.1.5 Entscheidung Dialog 48
4.3.1.6 Entscheidung Navigations-/Supportfunktion 50
4.3.2 INTERAKTION - LEVEL 53
4.3.2.1 Entscheidung Interaction - Data 53
4.3.2.2 Entscheidung Interaction 53
4.3.3 DOMAIN - LEVEL 54
4.3.3.1 Entscheidung Domain - Data 54
4.3.4 TASK - LEVEL 55
4.3.4.1 Entscheidung Task 55
4.4 DATENVALIDITÄT DES VERZAHNUNGSINFORMATIONSMODELLS 56
4.4.1 VALIDIERUNG MIT LITERATUR 56
4.4.2 VALIDIERUNG MIT ROLLENSIMULATION 57
4.4.3 UNSCHÄRFE DER DATEN 59
5 SCHLUSSFOLGERUNGEN UND AUSBLICK 60
LITERATURVERZEICHNIS 61
ANHANG A: INFORMATIONSMODELL - SUI 65
ANHANG B: INFORMATIONSMODELL - TUTORENSYSTEME 95
ANHANG C: INFORMATIONSMODELL - VOICE SUPPORT SYSTEME IM WEB 102
Abbildungsverzeichnis
Abbildung 1: Generelle Komponenten in einem Sprachinterface
Abbildung 2: Spracherkennung
Abbildung 3: Dialog Manager
Abbildung 4: Prompt Player
Abbildung 5: Benutzergruppen eines Dialogs.
Abbildung 6: Entscheidungspunkte von TORE.
Abbildung 7: Komponenten Verzahnungsinformationsmodell
Kapitel 1
Einleitung
Usability gewinnt in Deutschland zunehmend an Bedeutung und nimmt neben anderen Qualitätsaspekten wie Sicherheit und Zuverlässigkeit einen hohen Stellenwert bei Softwareprodukten ein. Sie erhöht nicht nur die Akzeptanz und Zufriedenheit der Kunden, sondern wirkt sich auch positiv auf den „Return on Investment“ (ROI) des Unternehmens aus [10]. Dabei erfordert die Realisierung von Usability-Kriterien eine verzahnende Anwendung von Usability Engineering und Software Engineering bei der Entwicklung von Software.
Der Problematik einer fehlenden Verzahnung beider Disziplinen widmet sich das Forschungsprojekt USEKIT. Es definiert ein Vorgehensmodell, das bei klassischen SW-Entwicklungsverfahren die Berücksichtigung von Usability-Kriterien ermöglicht und eine Integration ihrer Prozesse unterstützt.
Die vorliegende Studienarbeit ist im Rahmen des Projektes USEKIT entstanden und hat die Aufgabe, die Validität des USEKIT-Modells für die Konstruktion von multimodalen Benutzerschnittstellen zu prüfen. Durch die rasante Entwicklung und dem derzeit verbreitetem Einsatz von Sprachanwendungen in zahlreichen Domänen nimmt hierbei insbesondere die Sprache als Modalität eine besondere Rolle ein. War der Einsatz von Sprachapplikationen aufgrund der schwachen Erkennungsraten noch vor kurzem undenkbar, erzielt man seit 1997, nach 20 Jahren der Entwicklung, weitgehend Erfolge und einen vermehrten Einsatz von Sprachsystemen aller Art.
Die Konstruktion von Sprachapplikationen birgt dabei im Vergleich zu grafischen Oberflächen enorme Herausforderungen. Neben technologischen Restriktionen sind es Schlüsselfaktoren wie Benutzbarkeit und Akzeptanz aus Sicht der User, die über den Erfolg der Anwendung entscheiden. Längst reicht es nicht mehr aus nur die Lauffähigkeit des Systems zu garantieren, vielmehr ist die Beachtung von Usability-Kriterien gefragt. Nach [13] ist Usability das Ausmaß, in dem ein Produkt durch bestimmte Anwender in einem gewissen Nutzungskontext verwendet werden kann, um Ziele auf effektive, effiziente und zufrieden stellende Weise zu erreichen.
Diese Kriterien stellen gerade für Sprachapplikationen eine hohe Herausforderung dar, weil hier die Sprache als einzige Bezugskomponente zum User über alle Kriterien der Zufriedenheit des Benutzers entscheidet. Um diesen neuen Anforderungen gerecht zu werden, erfordert es geeigneter Vorgehensweisen, die die Aspekte des Usability Engineering (UE) und Software Engineering (SE) vereinen.
Um diesen hohen technischen und benutzerorientierten Anforderungen gerecht zu werden, wird die vorliegende Arbeit geeignete Hilfsmittel und Vorgehensweisen vorstellen. Der Aufbau gliedert sich dabei hauptsächlich in drei Teile, deren Inhalte wie folgt strukturiert sind:
Ausgehend von der Problembeschreibung heutiger Software-Entwicklung, wird das Projekt USEKIT vorgestellt, welches einen Ansatz zur nutzerzentrierten Systementwicklung definiert und damit insbesondere für klein- und mittelständische Unternehmen (KMU) eine Lösung für die Ausgangsproblematik einer fehlenden Verzahnung von Software Engineering und Usability Engineering bietet (Kapitel 2).
Interessant für diese Arbeit ist die Entwicklung von Multimodalen Schnittstellen, wobei insbesondere Sprachapplikationen in den Mittelpunkt der Betrachtung rücken. Vor diesem Hintergrund werden im zweiten Abschnitt die Aspekte zu derzeit existierenden Herausforderungen sowie eine Darstellung von Vor- und Nachteilen beim Einsatz von Sprachanwendungen die wesentlichen Inhalte bilden. Ferner werden die grundlegenden Komponenten von Speech User Interfaces vorgestellt und in ihrem Kontext kritische Punkte aufgezeigt, die bei der Umsetzung beachtet werden müssen (Kapitel 3).
Das Kapitel 4 „Usability von Multimodalen Interfaces“ bildet den Kernpunkt dieser Arbeit. Nach einer Beschreibung von Qualitätskriterien und Strategien, die zur Steigerung der Akzeptanz und Kundenzufriedenheit entscheidend sind, wird das Verzahnungsinformationsmodell vorgestellt. Als Vorgehensmodell zur nutzerzentrierten SW-Entwicklung berücksichtigt es im Designprozess Kriterien der Benutzbarkeit und wirkt der oben beschriebenen Problematik entgegen. Um den Einsatz für die Entwicklung von Sprachsystemen zu garantieren, wird das Modell für diesen Nutzungskontext erweitert und mit den dafür notwendigen Daten in Form von Regeln und Guidelines gefüllt (Kapitel 4).
Schließlich wird die Arbeit mit einer Zusammenfassung der ermittelten Ergebnisse und einem Ausblick für die zukünftige Entwicklung von Software Engineering und Usability Engineering abgeschlossen (Kapitel 5).
Kapitel 2
Projekt USEKIT
Das Projekt USEKITT 1 definiert einen Ansatz zur nutzerzentrierten Software-Entwicklung für unternehmenskritische Anwendungen. Zielsetzung dieses Projekts ist es Wettbewerbsvorteile für Unternehmen zu sichern, indem es eine Methodik für sie bereitstellt, die den Nutzer einer Anwendung in den Mittelpunkt des Software-Entwicklungs-Prozesses stellt.
Dieses Kapitel dient dazu, ausgehend von einer Beschreibung der gegenwärtigen Vorgehensweisen und Problemstellungen bei der Software-Entwicklung, Herausforderungen und Zielsetzungen des Projekts USEKIT zu formulieren. Des Weiteren wird dargestellt, inwieweit dieses Projekt zu Wettbewerbsvorteilen in den Unternehmen beitragen kann.
2.1 Ausgangslage
Gebrauchstauglichkeit (engl. Usability) von Software spielt gegenwärtig eine größere Rolle denn je. Wurde Usability früher lediglich als „nice to have“ - Kriterium bei der Erstellung von Software betrachtet, kommt diesem Aspekt heute, einer Zeit der ständigen Mensch-Maschine-Interaktion, ein hoher Stellenwert zu. Usability ist nicht nur eng verknüpft mit Kundenzufriedenheit, sie hat auch einen wesentlichen Einfluss auf die Effizienz der Arbeitsabläufe, die mit der Software unterstützt werden. Auf diese Weise entsteht ein unmittelbarer Zusammenhang zwischen Usability und dem Return on Investment (ROI) [10].
Zunehmend erkennen auch die Unternehmen in Deutschland die Wichtigkeit von Usability 2 , ein Trend der sich in den USA, bedingt durch die stärker Konsumgüter-orientierte Branchenausrichtung, schon stärker durchgesetzt hat [18]. Längst zeigen sich Kunden nicht mehr nur mit Funktionalität zufrieden, sondern definieren darüber hinaus Merkmale wie Effizienz und Effektivität als wesentliche Aspekte in ihren Anforderungen.
1 Das Projekt USEKIT wird durch das Bundesministerium für Bildung und Forschung (BMBF) unter
dem Kennzeichen 01|SC23 gefördert. Das Projektkonsortium wird von der PSIPENTA Software Sys-
tems GmbH geleitet und setzt sich aus den Forschungsinstituten Fraunhofer IESE, Institut für Tech-
nologie und Arbeit und dem Unternehmen DaimlerChrysler AG zusammen. Weitere Informationen
erhalten Sie unter http://www.usekit.de.
2 Eine detaillierte Evaluation über die Wichtigkeit von Usability für Softwareunternehmen zeigt der
Branchenreport Usability 2003 in [21].
Um diesen hohen Anforderungen an gebrauchstaugliche Software-Produkte sowie der Berücksichtigung weiterer Qualitätsmerkmale, wie Sicherheit und Zuverlässigkeit, gerecht zu werden, erscheint die Integration der Disziplinen Software-Engineering und Usability-Engineering unabdingbar.
Obgleich die Notwendigkeit der Integration beider Disziplinen im Entwicklungsprozess von Software-Produkten einheitlich angenommen wird, erweist sich die praktische Umsetzung als schwierig. Hindernisse in Form eines fehlenden Verständnisses bzw. einer fehlenden Definition der Schnittstellen zwischen SE und UE, erschweren eine Verknüpfung der Verfahrensweisen beider Disziplinen. Des Weiteren machen Terminologiekonflikte (keine einheitlichen Definitionen), unterschiedliche konstruktive Methoden sowie eine fehlende Abstimmung bestehender Evaluationsmethoden beider Ingenieurswissenschaften eine Integration nur schwer möglich [8].
Aufgrund dieser Konflikte existiert derzeit kein allgemeingültiges Vorgehen zur Integration der Disziplinen. Stattdessen müssen Unternehmen diese Verbindung immer wieder neu erarbeiten, wobei potentielle Synergieeffekte häufig ungenutzt bleiben [11]. Im folgenden Abschnitt wird deshalb das Projekt USEKIT als mögliche Lösung vorgestellt, die der oben genannten Problematik entgegenwirkt. Neben den Zielsetzungen werden auch die Wettbewerbsvorteile dieses Projekts genannt.
2.2 Zielsetzungen
Um die Aspekte der Gebrauchstauglichkeit effizient in den SW-Entwicklungsprozess zu integrieren, ist es entscheidend ein Modell zu definieren, das die Kernaspekte des Software-Engineering und Usability-Engineering vereint. Ein standardisiertes integriertes Modell zur nutzerzentrierten Entwicklung würde die Situation der Software-Hersteller wesentlich verbessern, da es sowohl die Anwenderbedürfnisse im gesamten Entwicklungszyklus systematisch beachtet als auch einen Beitrag zur Senkung der Herstellkosten leistet [11]. Positive Effekte würden sich deshalb in einer gesteigerten Kundenzufriedenheit sowie einer gestärkten Marktposition des Unternehmens deutlich machen.
Das Projekt USEKIT verfolgt das Ziel, insbesondere für kleine und mittelständische Unternehmen (KMU) Methoden für eine nutzerzentrierte SE zur Verfügung zu stellen, die ihnen auf folgende Weise Wettbewerbsvorteile verschaffen sollen [25]:
der Entwicklungsprozess wird in seiner Effizienz wegen der Nutzerzentrierung gesteigert (Senkung der Herstellkosten)
die entwickelte Software zeichnet sich durch hohe Nutzerakzeptanz aus
die Software unterstützt einen effizienten Arbeitsablauf und führt damit zu Wettbewerbsvorteilen beim Kunden und einem schnellstmöglichen Return on Investment
die Beachtung der Nutzeranforderungen, der Nutzeraufgaben und des Anwendungskontext als integrativen Bestandteil der Anforderungsphase
das Management von funktionalen Anforderungen unter Berücksichtigung von Nutzereigenschaften und Nutzeraufgaben sowie unter Beachtung des Anwendungskontext
die Erkennung und das Management von Abhängigkeiten zwischen funktionalen und nicht-funktionalen Anforderungen (z.B. Usability)
die Formulierung von interaktions-, benutzer- und produktzentrierten Abnahmekriterien als Bestandteil der Anforderungen, die zur Erkennung von Abweichungen der Anforderungen während der Entwicklung dienen
den Einsatz von Usability-Techniken unter der Restriktion gegebener personeller, finanzieller und zeitlicher Ressourcen
die durchgehende Berücksichtigung von Usability als entscheidendes Kriterium im SE-Prozess
Neben projektspezifischen Vorteilen sind durch den Einsatz des USEKIT-Modells auch langfristige Verbesserungen auf übergeordneter Ebene anzuführen. Auf der organisatorischen Ebene werden deshalb folgende Verbesserungen durch die Anwendung von USEKIT genannt [25]:
Etablierung von Ergonomie als Marketingargument
Höhere Stabilität der Anforderungen durch Benutzerbeteiligungen
Aufbau und Verwendung einer Wissensbasis des Usability-Engineering (UE-Knowledge-Management)
Möglichkeit eines Kontinuierlichen Lernens (Continuous Learning)
Schaffung eines Bewusstseins und Verbesserung der Motivation für das
Usability-Engineering bei allen beteiligten Stakeholdern
Realisiert können diese Zielsetzung durch eine Verzahnung von vorhandenen und beschriebenen Methoden des SE und UE sowie einer entsprechenden Anpassung der Prozesse an die Ressourcen und Anforderungen einer KMU [24].
Zweck dieses Projekts ist daher die Entwicklung und Erprobung eines nutzerzentrierten Vorgehensmodells, welches dem Bedarf kleiner und mittelständischer Unternehmen nach einem einfach anzuwendenden Methodeninventars zur Förderung der Effizienz der Softwareentwicklung und zur Steigerung der Akzeptanz der entstehenden Produkte gerecht wird.
USEKIT enthält einen Baukasten aus Tools und Methoden, die flexibel angewendet und an die individuellen Rahmenbedingungen eines Software entwickelnden Unternehmens angepasst werden können. Eine besondere Herausforderung liegt dabei in der technischen und organisatorischen Integration des USEKIT-Baukastens in die bestehenden Prozesse eines Unternehmens.
Im Ergebnis dieses Projekts soll deshalb eine Sammlung aus Methoden und Tools entstehen, die problemlos in die Umgebung einer KMU integriert werden kann [11]. Auf diese Weise leistet das Projekt USEKIT einen entscheidenden Beitrag zu einer integrierten Software-Entwicklung, der in einer isolierten Betrachtung weder die Methoden des Software-Engineering noch die Instrumente des Usability Engineering gerecht werden könnten.
Kapitel 3
Multimodale Interfaces
Multimodale Systeme haben sich in der letzten Dekade rapide entwickelt, sodass heute ein stärkerer Fortschritt bei der Konstruktion von allgemeinen, robusten Systemen sowie von transparenten Mensch-Maschine-Schnittstellen zu verzeichnen ist, als je zuvor [2]. Die Zielsetzung bei der Entwicklung multimodaler Benutzerschnittstellen ist es, die Fähigkeiten der Anwender besser zu unterstützen und durch die Kombination verschiedener Ein- und Ausgabemodalitäten die Nutzung einfacher und effizienter zu gestalten.
Allgemein versteht man Multimodalen Interfaces als Systemschnittstellen, die den kombinierten Einsatz von multiplen Eingabemodi (auditiv, visuell, haptisch etc.) erlauben, um eine Problemstellung mit Unterstützung der Maschine zu lösen [14]. Dabei unterscheidet man nach [31] grundsätzlich zwei verschiedene Typen:
Eine kombinierte Modalität liegt dann vor, wenn die Informationen parallel aus zwei (oder mehreren) Ein- oder Ausgabemodi bezogen werden können. Dieser Typ ist sehr effizient und kann die Interaktion mit dem System stark verbessern. Eine sequentielle Modalität ermöglicht den Wechsel zwischen verschiedenen Modi während der Ausführung einer Operation. Der Benutzer kann hier fortwährend den für ihn in einem spezifischen Interaktionskontext geeigneten Modus auswählen.
Im weiteren Verlauf dieser Arbeit werden speziell Spracheingaben als spezifische Form der Benutzerinteraktion in den Mittelpunkt der Betrachtung gezogen. Hierzu werden in diesem Kapitel zunächst allgemeine Aspekte zu Sprachapplikationen und der Aufbau sowie die wesentlichen Komponenten derartiger Systeme dargestellt.
3.1 Speech User Interface
In diesem Abschnitt werden allgemeine Aspekte zu Sprachapplikationen behandelt. Dabei werden allgemein alle Arten von Systemen betrachtet, deren Eingaben oder Ausgaben von Daten über einen akustischen Kanal erfolgen. Nach einer kurzen Beschreibung der historischen Entwicklung von Sprachsystemen werden die verschiedenen Einsatzmöglichkeiten und eine Eingrenzung der in dieser Arbeit betrachteten Systeme aufgeführt. Darüber hinaus werden Vorteile von Spracheingaben gegenüber andern Modi herausgearbeitet, aber auch Heraus- forderungen und Probleme bei ihrer praktischen Umsetzung diskutiert.
3.1.1 Entwicklung und Einsatzmöglichkeiten
Die ersten Ideen, natürliche Sprache als Kommunikationsmittel zur Interaktion mit Computern einzusetzen, sind bereits in den 60er Jahren entstanden [19]. Damals noch als Vision deklariert, wurde die Entwicklung in den Forschungslabors seither schrittweise vorangetrieben. Bereits in den 80er Jahren reichten das Wissen und die Ressourcen der Maschinen aus, um Systeme zu entwickeln, die einige hundert Einzelwörter erkennen konnten. Die Kapazität heutiger Systeme reicht von einfacher Einzelworterkennung über kommerziell verfügbare Diktiersysteme mit einem Wortschatz von einer Millionen Wörtern bis hin zu hochkomplexen Sprachportalen für die sprecherunabhängige Erkennung von kontinuierlich gesprochener Sprache.
Einen lukrativen Anwendungsbereich stellt die Mobilkommunikation dar, die eine stetig wachsende Verbreitung mobiler Endgeräte und Services zu verzeichnen hat. So sind in diesem Kontext Sprachportale 3 zu nennen, die als Plattform für vielseitige Angebote eingesetzt werden und die bisher bekannten Dienste sowohl in der Leistungsfähigkeit, als auch in der Komplexität der Inhalte bei weitem übertreffen [19]. Auch die bequeme Art der Interaktion bietet im Vergleich zu traditionellen Inter-aktionsformen wie Tastenmenüs (DTMF) oder graphischen Oberflächen auf kleinen Displays (Handy, PDA, Smartphone) weitere Vorteile. Weitere Einsatzmöglichkeiten von Sprachapplikationen ergeben sich im Bereich Smart Housing, in dem das intuitive Interaktionskonzept Sprache eine wichtige Rolle einnehmen kann. Sprachinteraktionen können hier zur Steuerung von diversen Geräten (Beleuchtung, Heizung, Fernseher etc.) eingesetzt werden. Ein anderes Anwendungsgebiet bietet die Automobilindustrie. Neben den Vorteilen der Freiheit und Bequemlichkeit bei Sprachinteraktionen werden hier weiterhin sicherheitskritische Aspekte in den Vordergrund gestellt. Einfache Bedienbarkeit der In-Car-Systeme (Navigations-, Audiosystem, Autotelefon etc.) ohne Ablenkung bzw. Einschränkung der Betroffenen während der Bedienung des Fahrzeugs lauten hier die zentralen Forderungen [19]. Diesen hohen Anforderungen kann die Verwendung von Sprache als Interaktionsmodus ohne weiteres gerecht werden. Die gesamte Vielzahl existierender Systeme mit Sprachunterstützung kann aufgrund des beschränkten Rahmens nicht in der vorliegenden Arbeit abgedeckt werden. Der Inhalt dieser Arbeit ist aus diesem Grund primär im Kontext der In-Car-Systeme zu betrachten. Zwar können einige Aspekte auch auf andere Sprachapplikationen übertragen werden, diese werden hier jedoch nicht explizit erwähnt.
3 Unter Sprachportalen werden Systeme verstanden, die über Telefon den Zugang zu Informations-
welten schaffen. Nähere Informationen zu Sprachportalen finden man unter [27].
3.1.2 Nutzen und Chancen
Wie bereits im oberen Abschnitt angedeutet, ergeben sich durch den Einsatz von Sprache erhebliche Vorteile, die mit keiner anderen Interaktionsform realisiert werden können. Im Folgenden möchte ich in Anlehnung an Peissner et al. [19] die wichtigsten Eigenschaften aufzählen, die begründen, warum Sprachinteraktionen in bestimmten Situationen anderen Interaktionsformen vorzuziehen sind:
Intuitivität
Menschen sind mit der Verwendung von Sprache vertraut, denn sie ist die natürlichste Form der menschlichen Kommunikation und wird eingesetzt, um zwischenmenschliche Informationen auszutauschen. So ist es komfortabler seine Ziele und Bedürfnisse verbal auszudrücken, als sie in Mausbewegungen zu übersetzten.
Verfügbarkeit
Sprachsteuerung ist überall verfügbar und kann somit für einen mobilen Zugriff auf umfangreiche Inhalte und Funktionalitäten genutzt werden; dabei ist sie unabhängig vom eingesetzten System/Endgerät und kann universell eingesetzt werden.
Effizienz
Sprache ist ein direktes Steuerungselement und kann für gezielte Aufrufe von Funktionen/Applikationen genutzt werden und somit ein mühseliges Durchlaufen von Listen-/Menüeinträgen zur Erreichung des gewünschten Funktionsbereichs vermeiden. Der Einsatz von Spracherkennung in Verbindung mit einer offenen Dialogstrategie ermöglicht dem User sein Anliegen direkt zu formulieren und jedes Element zielbewusst ansteuern.
Freiheit
Sprachapplikationen sind unabhängig vom Gebrauch der Augen und Hände, sodass diese Elemente für andere Aktivitäten genutzt werden können. Hierbei sind zum Beispiel Situationen interessant, bei denen Augen und Hände auf andere Objekte gerichtet sein müssen oder unterwegs ein schneller Informationszugriff benötigt wird, bei dem die Nutzung eines kleinen Displays zu hohe Anforderungen (z.B. wegen manueller Genauigkeit) an den User stellt. Besonders im Kontext der Fahrzeugführung, des industriellen Gebrauchs sowie bei Sichteinschränkungen kann die Sprachinteraktion deshalb einen wesentlichen Vorteil bieten.
Aufmerksamkeit
Aufgaben, deren Bearbeitung visuelle Fähigkeiten erfordern, beanspruchen die menschlichen Kapazitäten in hohem Maße. Eine Dialogführung mittels Sprache stellt für den Menschen dagegen keine große Anstrengung dar; diese erledigt er praktisch „nebenbei“.
Technische Anforderungen
Sprachapplikationen stellen nur minimale technische Anforderungen an das Endgerät. Wo bei einem Graphical User Interface (GUI) ein Screen, ein Keyboard oder eine Maus benötigt wird, ist bei zur Benutzung eines Sprachservices ein Telefon bzw. ein Lautsprecher und ein Mikrofon ausreichend.
Vielfältige Einsatzmöglichkeiten
Auskunftssysteme (z.B. Fahr-/Fugplan), natürlich-sprachliche Zugriffe auf Informationen (z.B. Wetter, News), Sprachsysteme im Hausbereich (z.B. Heizung, Heimgeräte, TV), Sprachsteuerung von In-Car-Systemen (z.B. Audio, Navigation), Support für Menschen mit Behinderungen (z.B. Sehschwäche, Einschränkung in der Mobilität) sind nur wenige der potentiellen Einsatzdomänen von Sprachschnittstellen.
Anhand dieser kurzen Aufzählung von positiven Aspekten in Sprachanwendungen wird ersichtlich, dass sich hinter der verbalen Interaktion ein hohes Potential verbirgt. Dieses kann eingesetzt werden, um einen Dialog mit dem System zu führen, wenn keine technischen Endgeräte wie Screen/Keyboard zur Verfügung stehen oder die zu ihrer Bedienung benötigten Elemente (Hand, Gestik) temporär bzw. dauerhaft behindert sind. Aber auch außerhalb dieser Situationen erweist sich die Verwendung von Sprachsteuerung aufgrund der oben genannten Aspekte als vorteilhaft.
Neben dem erheblichen Potential sind heute aber auch eine Vielzahl ungelöster Probleme und Herausforderungen im Zusammenhang mit Speech-Interfaces zu nennen, die im folgenden Abschnitt behandelt werden.
3.1.3 Probleme und Herausforderungen
Neben den angesprochenen Vorteilen des Interaktionskonzepts Sprache, erweist sich der universelle Einsatz von Speech User Interfaces wegen inhärenter Probleme als zweifelhaft. Diese sind sowohl auf Hindernisse bei der technischen Realisierung, als auch auf Schwierigkeiten bei der Informationspräsentation zurückzuführen. Die nachstehenden Kriterien bilden nach Peissner et al. [19] eine Übersicht über bisher ungeklärte Problemstellungen beim Einsatz von Sprachapplikationen:
Unrealistische Erwartungen
Die meist idealistischen Erwartungen an die Leistungsfähigkeit der Spracherkennungssysteme führen zu einer falschen Interaktionsstrategie der Anwender. Sie erwarten eine menschenähnliche Dialogführung des Systems, jedoch sind die technischen Möglichkeiten heute weit davon entfernt Sprache zu „verstehen“ und zu interpretieren. In vielen Fällen stellt bereits die reine Erkennung des Userinputs eine große Heraus-forderung dar. Oft sind deshalb Enttäuschung und Frustration beim Nutzer die unweigerlichen Folgen einer gescheiterten Sprachinteraktion, bei der der Kunde sein Ziel nicht erreichen konnte.
Spracherkennung
Eine wichtige Komponente bei Sprach-Interfaces ist die automatische Spracherkennung. Sie ist häufig Ursache für das Auftreten von Fehlern, da sie sehr anfällig gegenüber Anwendungen mit großem Vokabular bzw. komplexen Benutzeräußerungen ist und leicht durch den Einfluss äußerer Umweltbedingungen (z.B. Fahrgeräusche) belastet werden kann. Nicht selten führt auch die natürliche Variabilität der menschlichen Sprache zu Erkennungsfehlern im System. Oviatt [15] macht hierfür insbesondere zwei Gründe für die sprachliche Variabilität verantwortlich: (a) Unflüssige Sprechweise (Disfluency)
(b) Hyperartikulation in Sprache (Hyperarticulation)
Form der Spracheingabe
Aufgrund der technischen Voraussetzungen automatischer Spracherkennungssysteme ist eine Einschränkung des zulässigen Benutzerinputs erforderlich. Diese Restriktionen müssen dem User bekannt gemacht werden, damit eine effektive und möglichst fehlerfreie Nutzung der Sprachschnittstelle möglich ist.
Individuelle Sprachunterschiede
Eine stabile Spracherkennung wird nicht selten durch interindividuelle Abweichungen in der Aussprache erschwert. Insbesondere Systeme, die von vielen Benutzern bedient werden, sind einer hohen Anzahl unterschiedlicher Dialekte und Sprechweisen ausgesetzt.
Mangel an visuellem Feedback
Der inhärente Mangel an visuellem Feedback in Sprachinterfaces kann dem Nutzer das Gefühl geben, weniger Kontrolle über das System zu haben. Bei graphischen Interfaces kann ein neuer User das Interface ohne Zeitdruck erkunden und sich dabei Zeit zum überlegen und nachdenken nehmen; bei Sprachinterfaces muss er hingegen Systemfragen beantworten oder Dialoge initiieren, wenn er nicht einer Stille ausgesetzt sein möchte. Schweigende Pausen werden in Konversationen als unangenehm empfunden, woraus für den User der Druck entsteht schnell auf die Systemanfrage einzugehen. Nicht selten entstehen daraus Verhaspelungen, die zur Enttäuschung der Benutzer die Wahrscheinlichkeit von Erkennungsfehlern stark erhöhen.
Neben dieser Problematik führt der Mangel einer visuellen Anzeige dazu, dass mittels Sprache weitaus weniger Daten zu einem Zeitpunkt übermittelt werden können. Informationen, die mittels Sprache übertragen werden, sind im Vergleich zu einer visuellen Darstellung wesentlich langsamer transportierbar. Die Eigenschaft der mangelnden Persistenz bei der verbalen Informationsvermittlung erweitert die Herausforderungen, denen Designer bei der Erstellung von Sprachinterfaces ohne visuelle Feedbackkonstrukte gegenüberstehen.
Darstellung von Informationen
Die akustische Präsentation von Informationen und Daten bei Sprach-Interfaces ist zeitraubend und erfordert eine starke Konzentration bzw. Aufmerksamkeit der Benutzer. Im Gegensatz zu einer grafischen Darstellung, hat der Anwender im Falle einer Sprachausgabe keine Kontrolle über die Reihenfolge der Informationsaufnahme. Zusätzlich ist die akustische Darbietung von Informationen kurzlebig, belastet das Arbeitsgedächtnis und erlaubt keine Vermittlung von großen Datenmengen. Diese Aspekte müssen beim Design der Schnittstelle bedacht und geeignete Lösungskonzepte integriert werden 4 .
4 Eine Möglichkeit zur effizienten Darstellung von großen Informationsmengen wird in Kapitel 4.1.2
vorgestellt
Darstellung der Funktionalität 5
Die Illustration vorhandener Systemfunktionen erweist sich unter Einsatz von Sprache als weitaus schwieriger als mit einer grafischen Darstellung. Eine grafische Oberfläche unterstützt das schnelle Erfassen angebotener Informationen und Funktionen; eine akustische Darbietung erfordert eine vergleichsweise zeitraubende sowie mental ansprechende Erfassung, weil der User sich meist den Verlauf/Inhalt der Darstellung merken muss, bevor er den gewünschten Funktionsaufruf starten kann.
Akzeptanzprobleme
Unbefriedigende Vorerfahrungen mit Spracherkennungssystemen führen zu Vorurteilen bei den Systemanwendern und können die Interaktion mit dem aktuellen System negativ beeinflussen.
Um das negative Ausmaß der angesprochenen Problempunkte so gering wie möglich zu halten, ist es für den Erfolg einer Sprachapplikation entscheidend, sowohl die Zielgruppe als auch den Anwendungskontext im Voraus genau festzulegen. Aufgrund der erwähnten Schwierigkeiten im Bereich der Spracherkennung, ist es derzeit nicht möglich Sprachinteraktionen universell einzusetzen. Damit erscheint die Anwendung von Sprachapplikationen nur für thematisch eng eingegrenzte Bereiche sinnvoll und kann nicht universell als Alternative zu anderen Benutzerschnittstellen aufgefasst werden [19].
3.2 Technische Komponenten von SUIs
Wie im vorangegangenen Kapitel gezeigt wurde, existieren insbesondere im Bereich der Spracherkennung eine Reihe von Problemstellungen, die einen häufigeren Einsatz von Sprachsystemen einschränken. Auch in Zukunft wird die automatische Spracherkennung (ASR) nicht fehlerfrei funktionieren [22]. Umso wichtiger ist es deshalb, die Schwachpunkte der ASR durch geeignete Techniken und Strategien beim Design von Speech User Interfaces zu kompensieren und somit negative Auswirkungen von Fehlern zu reduzieren.
In diesem Abschnitt möchte ich im Detail auf die technischen Komponenten eines Sprachinterface eingehen und ihr Zusammenspiel im Verarbeitungsprozess der Sprache erklären. Diese Elemente stellen nicht nur eine notwendige Voraussetzung für die Entwicklung von Sprachinterfaces dar, darüber hinaus entscheidet ihre Implementierung über den Erfolg der Anwendung und somit über die Zufriedenheit der Benutzer mit dem System.
5 Mögliche benutzerfreundliche Techniken zur Darstellung der Funktionalität bei Sprachschnittstellen
werden in Kapitel 4.2.1 erläutert.
3.2.1 Spracherkennungsprozess
Obwohl derzeit kein Standard im Bezug auf die Architektur von Sprachapplikationen existiert und sich die individuellen Lösungen graduell voneinander unterscheiden, gibt es gemeinsame Komponenten, die den Kern eines jeden Systems bilden. Ihr Zusammenspiel kann wie folgt dargestellt werden [3]:
Abbildung 1: Generelle Komponenten in einem Sprachinterface
Der Prozess einer Spracherkennung erfordert zunächst einen Sprachdetektor (speech detector), der die Benutzersprache identifiziert und genau angibt, wann der User seine Spracheingabe beginnt bzw. beendet. Diese Informationen dienen dem Spracherkennungssystem (speech recognition engine), das nun auf Basis des zu-grunde liegenden Wortmusters eine Wort-zu-Wort-Übersetzung der Benutzereingabe vornehmen kann. Ist diese Übertragung erfolgt, kann der Sprachparser (natural-language parser) die erhaltenen Daten verarbeiten, indem er jedem Wort bzw. jeder Wortgruppe eine Bedeutung zuordnet.
Die resultierende Interpretation wird an den Dialogmanager (dialog manager) übermittelt, der die Aufgabe hat, die Informationen im Hinblick auf die Taskausführung zu überprüfen. In Abhängigkeit von der Vollständigkeit der erhaltenen Daten entscheidet dieser über den weiteren Fortgang des Dialogs, indem er die entsprechenden Anweisungen über das Wiedergabesystem (prompt player) ausgeben lässt.
Im Folgenden werden die markierten Elemente der oberen Abbildung genauer untersucht und ihre Aufgaben im Detail beschrieben. In diesem Kontext werden auch mögliche Interaktionsstrategien aufgezeigt, die in Abhängigkeit vom Gesamtsystem realisiert werden können und den Erkennungsprozess der Sprache beeinflussen.
3.2.2 Automatische Spracherkennung
Die Spracherkennung (speech/voice recognition) ist ein auf Software basierendes Verfahren der Sprachanalyse, bei dem ein computerbasiertes System mittels automatischer Spracherkennung (ASR) eingegebene Sprachinformationen des Benutzers hinsichtlich seiner gesprochenen Worte sowie deren Bedeutung untersucht. 6 Wichtig ist dabei die Unterscheidung zwischen einer simplen Erkennung und dem tieferen Verständnis der eingegeben Informationen. Letztere Fähigkeit besitzt die Spracherkennung nicht und so bleibt ihre Aufgabe auf die digitale Konvertierung sowie die Identifikation bekannter Wörter in der Benutzersprache beschränkt. Die Erkennung und Selektion einzelner Wörter aus dem Input des Benutzers erfolgt dabei auf Grundlage statistischer Modelle, die sowohl auf dem akustischen als auch auf dem sprachlichen Level eingesetzt werden. Das Zusammenspiel der Elemente zeigt dabei die nachstehende Abbildung (veränderte Darstellung aus [9]):
Abbildung 2: Spracherkennung
Wurde eine Spracheingabe ausgeführt, so ermittelt das akustische Modell im ersten Schritt Wortkandidaten aus dem Systemvokabular, die mit höchster Wahrscheinlichkeit zu der gesprochenen Symbolfolge gehören. 7 Um diesen Vergleich angehen zu können, liegt das Vokabular des Systems in Lautschrift vor [30]. Im zweiten Schritt schränkt das abgelegte Sprachmodell die Menge möglicher Wort-kandidaten ein. In Abhängigkeit von der Sprachumgebung, die sich je nach System aus den zwei bzw. drei vorangegangenen und bereits erkannten Wörter ergibt, werden linguistische Wahrscheinlichkeiten für denkbare Satzhypothesen getroffen und somit die Auswahl passender Wörter eingegrenzt.
6 Diese Definition ist eine abgewandelte Definition von „Spracherkennung“ aus [32].
7 Die Wahrscheinlichkeit für jedes Wort wird dabei über Hidden-Markow-Modelle ermittelt; hierauf wird
jedoch nicht näher eingegangen, weil die Betrachtung im Rahmen der Arbeit zu weit führen würde.
Für interessierte Leser sei deshalb auf die Literatur zum Thema „Speech Recognition“ verwiesen.
Unter erneuter Anwendung eines detaillierten akustischen Modells werden schließlich die Endkandidaten bestimmt und die gesamte Benutzereingabe als Text extrahiert. Dieser dient nun als Eingabe für den Interpretationsprozess, der durch die Übergabe der Textdaten an die nächste Komponente initialisiert wird.
Trotz enormer Verbesserungen auf dem Gebiet der Spracherkennung, steht man in der Praxis einer Vielzahl von Problemen gegenüber, sodass selbst hoch entwickelte Technologien derzeit noch nicht fehlerfrei funktionieren. Als Ursachen hierfür können unterschiedliche Faktoren genannt werden:
Neben sprachinhärenten Eigenschaften (z.B. Koartikulation 8 ) sind hierbei verstärkt Störgeräusche aus der Umgebung sowie Unregelmäßigkeiten in der Sprache des Users zu nennen. Inhaltliche Selbstkorrekturen, erneute Satzanfänge sowie auf-einander folgende Wiederholungen von Wörtern können in diesem Zusammenhang als weitere Problemfelder identifiziert werden [16]. Zuletzt kann die Verwendung von Füllwörtern („äh“, „hm“) und die sprachliche Variabilität der Nutzer im laufenden Dialog als häufig auftretende Ursache für hohe Fehlerraten beim Erkennungsprozess des Userinputs aufgeführt werden (vgl. Kapitel 3.1.3). Wäre eine Spracherkennungsmaschine entwickelt genug, um alle vorher genannten Fehlerursachen problemlos zu behandeln, so können dennoch Konfliktsituationen, wie Usereingaben außerhalb des Erkennungsbereichs des Systems auftreten, an denen die Technologie scheitern kann.
Insgesamt bleibt die Spracherkennung derzeit trotz steigendem Fortschritt eine unvollkommene und sensible Technologie. Diese Tatsache muss bei ihrem Design berücksichtigt und Fehler- bzw. Präventionsmaßnahmen (vgl. Kapitel 4.1.1) einge-bunden werden, um der Enttäuschung des Systemanwenders entgegenzuwirken und die Akzeptanz des Sprachinterfaces zu erhöhen.
3.2.3 Dialog Management
Das Dialog Management ist die zentrale Komponente einer Sprachapplikation, die die Steuerung der gesamten Interaktion zwischen User und Sprachsystem umfasst. Ihre Realisierung hat einen starken Einfluss auf die Funktionalität sowie auf die Ein-/Ausgabespezifikationen der einzelnen Module des Sprachsystems, weswegen ihrem Design ein hoher Stellenwert zukommt.
Zu den wichtigsten Aufgaben eines Dialog Managers kann man allgemein Aspekte der Planung und Problemlösung in einer Mensch-Maschine-Interaktion zählen, die sich in Abhängigkeit vom Dialogstadium unterscheiden können.
8 Danach ist die akustische Realisierung eines Lautes abhängig von den vorangegangenen und den
nachfolgenden Lauten, was dazu führt, dass die Aussprache des gleichen Wortes in Abhängigkeit
von der Satzstellung variieren kann.
Arbeit zitieren:
Diplom-Wirtschaftsingenieur Georg Schumacher, 2006, Validation des USEKIT-Modells zur Verzahnung von Requirements Engineering und Usability Engineering hinsichtlich Unterstützung der Konstruktion multimodaler Benutzerschnittstellen, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Georg Schumacher hat den Text Validation des USEKIT-Modells zur Verzahnung von Requirements Engineering und Usability Engineering hinsichtlich Unterstützung der Konstruktion multimodaler Benutzerschnittstellen veröffentlicht
Georg Schumacher hat einen neuen Text hochgeladen
Lehrbuch der Softwaretechnik: Basiskonzepte und Requirements Engineeri...
Basiskonzepte Und Requirements...
Helmut Balzert
Requirements Engineering Fundamentals
A Study Guide for the Certifie...
Klaus Pohl, Chris Rupp
Interaction Between Requirements Engineering and Systems Architecting
An Emerging Theory Based on a ...
Remo Ferrari
Software & Systems Requirements Engineering
In Practice
Brian Berenbach, Daniel J. Paulish, Juergen Kazmeier, Arnold Rudorfer
Basiswissen Requirements Engineering
Aus- und Weiterbildung nach IR...
Klaus Pohl, Chris Rupp
0 Kommentare