Evaluation eines prototypischen regelbasierten Ansatzes für Modalitätsentscheidungen in der Mensch-Maschine-Interaktion


Masterarbeit, 2010
155 Seiten, Note: 1,0

Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

Abstract

1 Einleitung
1.1 Vision und Problemstellung
1.2 Zielsetzung
1.3 Struktur der Arbeit

2 Multimodale Interaktion
2.1 Ursprung und geschichtliche Entwicklung multimodaler Interaktionsformen .
2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen
2.2.1 Definition der Modalität nach menschlicher Wahrnehmung
2.2.2 Definition der Modalität nach technischen Gesichtspunkten
2.2.3 Definition der Modalität - modularer Ansatz
2.2.4 Unimodalität und Multimodalität
2.2.5 Charakteristika und Eigenschaften von Modalitäten
2.3 Entwurf multimodaler Systeme
2.3.1 Zugrundeliegende Prinzipien
2.3.2 Technische Architektur
2.3.3 Fusion und Fission
Fusion
Fission
2.3.4 Kontextfreie Dialogrepräsentation und Dialogmanagement
2.3.5 Design- und Runtime-Sicht auf Multimodalität
2.4 Vorteile von multimodaler Interaktion gegenüber unimodaler Interaktion . .
2.4.1 Geschwindigkeit und Qualität der Interaktionsabläufe
2.4.2 Natürlichkeit der Interaktion
2.4.3 Fehlertoleranz und Robustheit
2.4.4 Benutzeradaption

3 Wissens- und Regelbasierte Systeme
3.1 Wissensbasierte Systeme
3.1.1 Expertensysteme
3.1.2 Wissensrepräsentationsformen in wissensbasierten Systemen
Prädikatenlogik erster Ordnung und Beschreibungslogiken
Logikprogrammierung
Semantische Netze und Frames
Regelbasierte Repräsentation - Produktionsregelsysteme .
3.2 Regelbasierte Systeme und Rule-based Programming
3.2.1 Grundlagen
3.2.2 Vorwärtsverkettung - Forward Chaining
Parameter und Konfliktlösungsstrategien
Vor- und Nachteile der Vorwärtsverkettung
Der Rete-Algorithmus
3.2.3 Rückwärtsverkettung - Backward Chaining
3.2.4 Hybridlösungen
3.3 Typen und Einsatzfelder regelbasierter Systeme
3.3.1 Regelbasierte Ansätze in Anwendungssoftware
3.3.2 Expertensysteme
3.3.3 Business-Rule-Systeme
3.4 Diskussion
3.4.1 Implementierung
3.4.2 Wiederverwendbarkeit
3.4.3 Flexibilität und Erweiterbarkeit
3.4.4 Formulierung von Wissen durch Experten und Lesbarkeit
3.4.5 Erklärbarkeit
3.4.6 Vorwärtsverkettung oder Rückwärtsverkettung?
3.4.7 Grenzen und Problemfelder
3.4.8 Fazit der Diskussion

4 Phase 1 der Umsetzung - Definition
4.1 Verwandte Ansätze in der Literatur
4.2 Funktionalität des Prototypen
4.2.1 Szenario und Use-Cases
4.2.2 Konzept der Multimodalität im Prototypen
Fokus
Modalität und Modalitätseigenschaften . .
4.2.3 Entscheidungsverfahren
4.2.4 Geplante konzeptionelle Systemstruktur .
4.2.5 Verarbeitungsabfolge
4.3 Abgeleitete Evaluationskriterien

5 Phase 2 der Umsetzung - Evaluation
5.1 Drools
5.2 Jess
5.3 NxBre
5.4 OpenRules
5.5 Vergleichstabelle
5.6 Fazit und Bewertung der Evaluation
5.6.1 System der Wahl
5.6.2 Bewertung der Evaluation

6 Phase 3 der Umsetzung - Implementierung
6.1 Wahl der technischen Architektur
6.1.1 Architekturvariante 1 - Enge Kopplung, keine Verteilung .
6.1.2 Architekturvariante 2 - Lose Kopplung, Decision-Service-Modell
6.1.3 Verteilungsaspekte der Regelhaltung
6.1.4 Inferenz-Modus des Servers
6.1.5 Client-Anwendung
6.2 Konzept und GUI-Entwurf
6.2.1 GUI - Überblick
6.2.2 Eigenschaften, Faktenobjekte und Modalitäten
Benutzerprofil
Umweltbedingungen
Interaktionseigenschaften und Goal
Repräsentationssprachen
Interaktionsgeräte
6.2.3 Topologie-Übersicht
6.3 Anbindung an den Drools Execution Server
6.4 Konfiguration und Aufbau des Drools Execution Servers .
6.5 Implementierung von exemplarischen Regelsätzen
6.5.1 Regelbeispiele
Positivregel
Negativregel
Sonderfall CEP-Regeln
Beispielhafte Bewertungsrechnung
6.5.2 Abstufung der Rankingwerte
6.5.3 Funktionen in Guvnor
6.5.4 Queries in Guvnor
6.6 Aufgetretene Probleme und Schwierigkeiten
6.6.1 Schwächen des Drools Execution Servers
Resource Change Scanner des Execution Servers
Sessionmanagement
6.6.2 Guvnor und Drools Fusion / CEP
6.6.3 Debugging und Erklärkomponente

7 Fazit
7.1 Diskussion und Bewertung des zugrundeliegenden Ansatzes
7.2 Diskussion und Bewertung des Prototypen
7.3 Ausblick
7.3.1 Erweiterung und Präzisierung des Ansatzes
7.3.2 Grundsätzliche technische Erweiterungen des Prototypen .
7.3.3 Lernfähigkeit
7.3.4 Andere Methoden aus der künstlichen Intelligenz

A Quelltexte
A.1 Konfiguration des Knowledge Service im Applikationsserver
A.2 Exemplarischer Regelsatz des Prototypen

Literaturverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abstract

Deutsch

Die vorliegende Masterarbeit beschäftigt sich mit dem Entscheidungsprozess zwischen Modalitäten innerhalb des Fissionsprozesses in multimodalen Systemen. Dieser kann bereits in der Theorie aufgrund vielfältiger verschiedener für die Entscheidung relevanter Einflussfaktoren und gleichzeitigen Beschränkungen in der zeitlichen Domäne eine hohe Komplexität aufweisen. Gleichzeitig besteht jedoch im Zuge der tatsächlichen, praktischen Implementierung von multimodalen Systemen ein Bedarf für Möglichkeiten, angemessen mit der Komplexität dieses Prozessschrittes umgehen zu können.

Innerhalb dieser Arbeit wird ein prototypischer Ansatz präsentiert, welcher durch die Ver- wendung von herkömmlichen regelbasierten Systemen, wie beispielsweise aus dem Be- reich der Business Rule Engines, einen Umgang mit diesem Problem erlaubt. Hierfür wer- den zunächst die Grundlagen der multimodalen Interaktion sowie der regelbasierten Syste- me erläutert und vertieft. Anschließend wird auf dieser Basis ein Design für den Prototypen entworfen, welches neben der technischen Architektur auch ein spezifisches Konzept der Multimodalität zugrunde legt. Dieses Design wird im nächsten Schritt als Kriterienbasis für die Evaluation gängiger regelbasierter Systeme aus verschiedenen Einsatzdomänen her- angezogen. Nach der Auswahl eines solchen Systems wird auf dessen Basis der Prototyp konstruiert. Abschließend wird basierend auf dem Implementierungsergebnis und den wäh- rend der Arbeit gesammelten Erfahrungen ein Fazit gezogen und es werden Vorschläge ge- macht, wie sich regelbasierte bzw. allgemeine wissensbasierte Systeme in multimodalen interaktiven Systemen praktisch einsetzen lassen.

Abstract

English

This Master’s thesis covers the modality decision within the multimodal fission process in multimodal systems. This decision is, on the one hand, naturally highly complex due to multiple and different factors that contribute to the decision, but on the other hand also due to restrictions in processing time. Yet, at the same time, there is an increasing need for possibilites to cope with this complexity while implementing actual applied multimodal systems.

Within this work, a prototypical approach to this problem is presented, which allows to handle this problem by using rule based approaches like common business rule systems. For this, we start with an in-depth introduction to the basics of multimodal interaction and rule based systems. We then define a design for the prototype, which incorporates not only the technical architecture, but also a specific concept of multimodality. This design is being used as a source of criteria for an evaluation of a set of common rule based systems from different application domains. After one of those systems has been chosen, the ex- perimental prototype is being implemented on top of it. Finally, a conclusion is drawn from the implementation result and the lessons learned throughout the implementation process. Also, some proposals are made concerning how rule-based or knowledge-based systems in general can be used practically within multimodal interactive systems.

1 Einleitung

1.1 Vision und Problemstellung

Nachdem Benutzerschnittstellen von Computersystemen in den vergangenen 50 Jahren kontinuierlich weiterentwickelt wurden, hat sich heute im Bereich der direkten Interaktion mit Computern weitgehend das grafische Benutzerinterface in Kombination mit Maus und Tastatur als Standard etabliert. Daher fokussiert sich die Forschung und Wirtschaftsinnovation im Bereich der Mensch-Maschine-Interaktion zunehmend auf das, was nach einhelliger Meinung die Zukunft der Interaktion darstellt - Multimodalität.

Die multimodale Interaktion verspricht sowohl erhöhte Effizienz als auch eine wesentlich einfachere und robustere Bedienung auch bei komplexen Interaktionsvorgängen durch die Verwendung mehrerer Interaktionsformen und -geräte. Diese erhöhte Leistungsfähigkeit ergibt sich jedoch nicht alleine durch die Verwendung der Interaktionsformen parallel zuein- ander, sondern vielmehr durch eine intelligent Koordination und Steuerung der Modalitäten in Abhängigkeit voneinander, sowohl was die Eingabe als auch die Ausgabe angeht. Dies ermöglicht es, adaptive Benutzerschnittstellen zu gestalten, welche versuchen, dem Benut- zer immer die jeweils optimale Interaktionsform anzubieten, die der momentanen Situation am angemessensten erscheint. Computersysteme sollen sich so in immer natürlicherer Form an den Benutzer anpassen, um sich nahtloser in seinen Alltag und sein Umfeld ein- zubetten.

Dafür erfassen zukünftige multimodale Systeme eine Vielzahl von Umgebungsbedingun- gen, wie beispielsweise Umweltbedingungen oder Stimmung und Bewegungen des Benut- zers. Diese müssen verarbeitet und in einen Zusammenhang gebracht werden, so dass Schlüsse gezogen werden können in welcher Situation sich System und Benutzer momen- tan befinden.

Um diese Eigenschaften zu erreichen bedarf es zunächst jedoch angemessenen Metho- den zum Umgang mit dieser erhöhten Komplexität auf Softwareebene. Im Gegensatz zu gängigen interaktiven Systemen ist hier eine wesentlich größere Menge an Informationen bei höherem Abstraktionsgrad zu verarbeiten. Ein Ansatz hierfür ist der Einsatz von Syste- men aus dem Bereich der künstlichen Intelligenz, wie zum Beispiel regelbasierte Systeme. Diese sind aufgrund ihres deklarativen Umgangs mit dem in Software enthaltenen Fachwis- sens wesentlich besser geeignet für solche Vorhaben, bei denen mit großen Datenmengen umgegangen werden muss. Andere deklarative Ansätze wie zum Beispiel SQL im Daten- bankbereich können hier bereits eine lange Erfolgsgeschichte verbuchen.

In dieser Arbeit soll daher geprüft werden, wie marktübliche regelbasierte Systeme, etwa aus dem Bereich der Business-Rule-Systeme, in multimodalen Systemen genutzt werden können, um die kontextbasierte Auswahl von Modalitäten bei der Ausgabe zu unterstützen.

1.2 Zielsetzung

Innerhalb dieser Masterthesis sollen mehrere verschiedene Fragen im Zusammenhang mit dem zum Ende des vorigen Abschnitts gestellten Oberthema geklärt werden. Zunächst soll anhand der bestehenden Literatur ermittelt werden, welche Einflussfaktoren es bei der Auswahl von Modalitäten innerhalb des Ausgabeprozesses gibt und wie diese genutzt wer- den können. Anschließend wird im Rahmen einer prototypischen Implementierung erprobt, wie diese Einflussfaktoren mittels einem regelbasierten System gehandhabt werden kön- nen. Hierfür bedarf es allerdings zunächst einer detaillierten Evaluation von verfügbaren Regelsystemen hinsichtlich ihrer Eignung für den Einsatz in multimodalen Systemen im Allgemeinen, sowie auch speziell für das gewählte Szenario. Hierbei soll mit Hinblick auf eine praktische Anwendung dieser Grundlagen, beispielsweise für die weitere Erforschung von komplexeren Auswahlstrategien, ein besonderes Augenmerk auch auf Umgebungsfak- toren wie einfache Benutzung oder Anschaffungskosten gelegt werden.

1.3 Struktur der Arbeit

Die Arbeit wurde organisatorisch in drei Hauptbestandteile gegliedert:

- Recherche und Definition der Umgebung des prototypischen Systems
- Evaluation der Regelsysteme
- Prototypische Umsetzung

Um diese drei Teile herum ist auch die Gliederung der Arbeit angesiedelt.wird zunächst in den ersten Kapiteln ein ausführlicher Überblick über die multimodale Interaktion und über regelbasierte Systeme gegeben. Dann folgt die Definition und der Entwurf für den Proto- typen. Anschließend wird im Kapitel „Evaluation“ eine Beschreibung der zu evaluierenden Systeme und jeweils eine Bewertung vorgestellt. In den darauffolgenden Kapiteln wird die Planung und Implementierung des Prototypen beschrieben. Abschließend wird ein Fazit aus der Arbeit gezogen und erläutert, welche Ansatzpunkte für zukünftige Arbeiten sich in diesem Bereich anbieten.

2 Multimodale Interaktion in der Mensch-Maschine-Kommunikation

Dieser Abschnitt der Arbeit soll eine Einführung in den Bereich der Multimodalen MenschMaschine-Interaktion darstellen. Er beschreibt kurz die geschichtlichen Ursprünge und versucht, eine Definition der später in dieser Arbeit verwendeten Begriffe und Konzepte zu geben, sowie gängige Beispiele für Konzepte und Interaktionsformen zu nennen. Weiterhin wird auf die Vorteile, aber auch die Herausforderungen eingegangen, welche sich bei Systemen mit multimodalen Interaktionsformen ergeben können.

2.1 Ursprung und geschichtliche Entwicklung multimodaler Interaktionsformen

Das Aufkommen multimodaler Interaktionsformen ist eng verbunden mit der Entwicklung verschiedenartiger Interfaces für Computersysteme. Allen voran ist hier die Entwicklung grafischer Benutzeroberflächen in den frühen 80er Jahren, beginnend mit dem Xerox Alto und darauf basierenden Systemen wie Apples Mac OS, meist auf Basis eines WIMPParadigmas, zu nennen. Als zweiter Faktor kamen einige Jahre später Informationssysteme auf, die Sprachsteuerung und/oder Sprachfeedback beinhalteten. Insbesondere automatisierte Telefonauskunftsdienste wurden auf diese Art betrieben.

Der nächste logische Schritt dieser Entwicklung war die Vereinigung dieser beiden Interakti- onsformen, welche in ihrer ersten Form in Bolts „Put-that-there“-System (vgl.[10] ) stattfand. Das von Bolt vorgeschlagene System sollte nicht nur Spracheingabe und grafische Ober- flächen kombinieren, sondern beinhaltete außerdem einen Mechanismus zur Gestener- kennung, mit dem Ziel, durch das Zusammentreffen der verschiedenen Interaktionsformen eine aufeinander abgestimmte und dadurch natürlichere Benutzerinteraktionsmodalität zu erhalten (vgl.[10] 1 ). Es ermöglichte es dem Benutzer, durch Sprachkommandos in Ver- bindung mit Zeigegesten Objekte auf dem Bildschirm zu bewegen bzw. zu manipulieren. Hierfür musste das System nicht nur die jeweilige Semantik der einzelnen Interaktionsfor- men erkennen, sondern auch eine gemeinsame Bedeutung extrahieren, sowie auch die entsprechend enthaltenen deiktischen Referenzen („das“, „dort“) auflösen können. Somit kann das „Put-that-there“-System als das erste System betrachtet werden, welches das bis heute zugrundeliegende Konzept der Multimodalität aufgriff und integrierte. Es zeigte be- reits die meisten der grundlegenden Eigenschaften, die beispielsweise auch Oviatt in[55] benennt:

Multimodal systems process two or more combined user input modes - such as speech, pen, touch, manual gestures, gaze, and head and body movements - in a coordinated manner with multimedia system output. [...] This new class of interfaces aims to recognize naturally occurring forms of human language and behavior, which incorporate at least one recognition-based technology (e.g., speech, pen, vision).

Seit der Entwicklung des „Put-that-there“-Systems 1980 beschäftigten sich zahlreiche Pro- jekte und Arbeiten mit der Erweiterung des Konzeptes der Multimodalität und der Integra- tion der immer fortgeschritteneren Möglichkeiten der Mensch-Maschine-Interaktion wie z.B. erweiterte Möglichkeiten der Kontexterfassung oder neuerer UI-Paradigmen wie Multitouch- Oberflächen. Hierzu wurden und werden nach wie vor zahlreiche Projekte vorangetrieben, wie beispielsweise ein multimodales Flugauskunftssystem namens MATIS (vgl.[15] ) im Rahmen der umfassenden Multimodalitäts-Forschungsprojekte AMODEUS und AMODEUS- 2, oder QuickSet (vgl.[14] ) als Ansatz einer verteilten multimodalen Architektur. Ebenfalls erwähnenswert ist hier auch das aus Deutschland stammende SmartKom-Projekt (vgl.[47] ) sowie zahlreiche als Paper publizierten Einzelarbeiten von Forschern weltweit. Die über- wiegende Zahl dieser Arbeiten konzentrierte sich hierbei auf multimodale Eingabe, hier insbesondere auf Kombinationen aus Sprache und Zeigegesten (vgl.[22] ).

2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen

Trotz der bereits verhältnismäßig lange andauernden Forschungsaktivitäten in diesem Be- reich (vgl. vorhergehender Abschnitt) gibt es immer noch starke Unterschiede in der Bele- gung der Begrifflichkeiten rund um das Thema der multimodalen Interaktion.fehlt bisher eine anerkannte Definition was die multimodale Interaktion überhaupt ausmacht, ebenso wie auch Kernbegriffe wie Modalität, multimodal, unimodal großteils uneinheitlich verwen- det werden, und stellenweise auch mit vielschichtigen Begriffen aus anderen Domänen wie dem des Mediums oder des Modus vermischt werden. Dieses Problem erfährt jedoch zu- nehmend große Beachtung, und es existieren mehrere Ansätze zur Lösung, welche nach- folgend kurz dargestellt werden sollen.

2.2.1 Definition der Modalität nach menschlicher Wahrnehmung

Ein gängiger und früh eingeführter Ansatz ist es, die Modalität als abhängig vom menschli- chen Wahrnehmungskanal, der zur Interaktion mit dieser Modalität fähig ist, zu definieren. Mögliche Aus- und Eingabekanäle des Menschen hierfür sind nachfolgend dargestellt. Sie sind in Anlehnung an[30] (zitiert nach[40] ) in sogenannte Wahrnehmungs- und Aktionsmo- dalitäten untergliedert, welche sie gleichzeitig auch in Eingabemodalitäten und Ausgabe- modalitäten gliedern2. Die jeweiligen Fähigkeiten des Kanal sind hier als Ein- und Ausgabe aus menschlicher Sicht definiert.

- Auditiver Kanal
- Eingabe: Hören
- Ausgabe: Sprechen, Erzeugen von Lauten und Geräuschen

- Visueller Kanal
- Eingabe: Sehen
- Ausgabe: Sichtbarkeit von Gestik, Mimik, Augen- und Kopfbewegungen

- Haptischer Kanal
- Eingabe: „Fühlen“, taktile Erfassung von Vibration und Kraft durch Mechanore- zeptoren
- Ausgabe: Mechanische Anwendung von Kraft

- Olfaktorischer Kanal (bisher kaum relevant in der multimodalen Interaktion)3

- Gustatorischer Kanal (bisher kaum relevant in der multimodalen Interaktion)4

Zusätzlich zu dieser grundlegenden, auf sehr hohem Abstraktionsniveau gehaltenen Defi- nition der Modalität existieren Ansätze, die hier definierten Kategorien weiter zu unterglie- dern, um auch semiotische5 Gesichtspunkte zu berücksichtigen, also die Art und Weise, wie eine Information innerhalb eines Wahrnehmungskanals kodiert ist. Bernsen bezeich- net in[7] die oben dargestellten Kanäle als physical media, und definiert seinen Modali- tätsbegriff wiederum basierend darauf, indem er zur Bildung einer Modalität ein solches physisches Medium verknüpft mit der Art und Weise, wie etwas in diesem Medium darge- stellt wird.können nach Bernsen beispielsweise im Bereich des physischen Mediums des Lichts und des zugehörigen Sehsinnes verschiedene Modalitäten dadurch entstehen, dass diese beiden Einheiten verknüpft werden mit „Sprachen“ wie Bildern, geschriebenem Text oder sichtbaren Gesten. Die dadurch entstehenden Modalitäten unterscheiden sich Bernsen zufolge neben der Ausdrucksweise hauptsächlich in ihrer „expressiveness“, al- so ihrer Ausdrucksmächtigkeit bei der Darstellung einer Information.ist beispielsweise die Modalität „Grafische Kartendarstellung“ von potentiell höherem Informationsgehalt als die Modalität „Liste von Orten“, obwohl beide auf der visuellen (Eingabe-)Verarbeitung des Menschen aufbauen.

2.2.2 Definition der Modalität nach technischen Gesichtspunkten

Eine weitere gängige Art der Definition von Modalitäten ist die Orientierung an den techni- schen Fähigkeiten der Systemkomponenten multimodaler Systeme. Nigay beispielsweise macht in[42] die Definition von Modalitäten an Tupeln < d, L > fest. Hier stellt d ein In- teraktionsgerät (device) dar, wobei das Gerät für ein tatsächliches, physisch vorhandenes Ein-/Ausgabegerät steht (beispielsweise Mikrofon oder Tastatur). Der zweite Teil L wie- derum stellt in diesem Zusammenhang die Interaktionssprache (language) dar, in welcher die tatsächlichen Informationen kodiert sind - d ist also nur ein Mittel, um den „rohen“ Datenstrom zu erhalten, welcher durch Kenntnis der Grammatik von L in verarbeitbare, bedeutungsvolle Informationen dekodiert werden kann. Nicht ausdrücklich festgelegt ist hingegen, auf welchem Abstraktionsniveau sich die jeweilige Interaktionssprache bewegen muss - lediglich ein gemeinsames Verständnis der benutzten Sprache von Nutzer und System ist nötig.ergeben sich nach dieser Definition beispielsweise folgende Modalitäten (teilweise entnommen aus[42] bzw.[15] ) .

- <Mikrofon, gesprochene pseudonatürliche Sprache> (Eingabe)
- <Bildschirm, Kartenansicht> (Ausgabe)
- <Tastatur, Kommandointerface> (Eingabe)

So lassen sich viele „technische“ Modalitäten unterschiedlichster Art konstruieren. Ledig- lich die Komplexität der Sprache und die technischen Möglichkeiten der Eingabedevices stellen hier eine Beschränkung dar. Im Fall der Sprache wird eine Möglichkeit benötigt, die- se sowohl maschinenlesbar auszudrücken und zu erzeugen, als auch, bei der Nutzung als Eingabesprache daraus maschinell eine Bedeutung über die Interaktion hinaus zu extra- hieren. Dies ist nach[41] auch ein Charakteristikum multimodaler Systeme im Gegensatz zu reinen multimedialen Systemen.

2.2.3 Definition der Modalität - modularer Ansatz

Ein neuerer Ansatz (vgl.[31] ) schlägt zunächst vor, die Betrachtung multimodaler Interaktion aufzuteilen in eine lokale und eine globale Betrachtungsweise. Hierbei handelt es sich einerseits um die Betrachtung einzelner Interaktionsschritte (lokal), denen die Betrachtung eines gesamten, multimodal-interaktiven Systems gegenüber gestellt wird (global). Der Ansatz bezieht sich dabei vorrangig auf die lokale Betrachtungsweise. Weiterhin wird in der Arbeit eine strikte Trennung von Eingabe- und Ausgabeoperationen bei der Betrachtung vorgenommen. Hierbei nimmt die intrinsische Feedback-Schleife (vgl. auch[54] ) bei UserInteraktionen eine Sonderstellung ein, indem sie nicht als eigenständige Ausgabeoperation betrachtet wird, sondern auch als Teil der Eingabeoperation.

Aufbauend auf diesen Grundannahmen schlagen die Autoren vor, die Modellierung von multimodalen Interaktionen als eine Art mehrgliedrige Verarbeitungskette mit dem Zweck eines Informationsaustausches anzusehen. Diese Kette beginnt damit, dass die Informatio- nen der Quelle auf der Senderseite via eines Interpreters in eine zum Empfänger übertrag- bare Repräsentationsform transformiert werden. Die Seite des Empfängers bzw. der Senke besitzt wiederum einen Interpreter, um aus der übertragenen Repräsentation die ursprüng- lichen Informationen zurückzugewinnen. Dieser Formalismus in abwechselnd umgekehrter Richtung beschreibt dann die gesamte Interaktion, gemäß[31] sogar über den Kontext der Mensch-Maschine-Kommunikation hinaus und ohne von technischen Gegebenheiten abhängig zu sein.

Nach diesem Verarbeitungskettenansatz ist nun nach Honold et al. eine Modalität definiert als eine solche Verarbeitungskette aus Quelle Interpreter(n) Übertragung(en) Interpreter(n) Senke. Der Zweck einer Modalität ist demnach das „information mapping“ zwischen zwei Kommunikationspartnern, also die Abbildung von Informationen zwischen den Partnern. Formal wird sie definiert als ein 5-Tupel (I source , I sink , M prop , M type , M fault). Hierbei stellen I source sowie I sink die Interpreter der beiden Seiten dar, M prop und M type stehen für die Eigenschaften und den Typ der Modalität (bzw. die Art der transportierbaren Information), und M fault für einen möglichen Informationsverlust, welche abhängig von den Defiziten eines beliebigen Interpreters der Kette auftritt.

Je nach Anzahl der Quellen, Senken, Interpreter und Übertragungswege lassen sich so verschiedene Szenarien aus Uni- und Multimodalität konstruieren, welche im nachfolgenden Abschnitt noch getrennt genannt werden.

2.2.4 Unimodalität und Multimodalität

Mit dem Aufkommen der verschiedenen Begriffe der Modalität und der tatsächlichen Ver- wendung mehrerer Modalitäten beispielsweise in Forschungsprojekten kam auch die Frage auf, wann genau ein System als multimodal oder umgekehrt als unimodal zu betrachten ist. Diese wurde bis heute nicht abschließend beantwortet, es gibt jedoch mehrere Ansätze zur Erklärung.schlägt beispielsweise[11] vor, ein System genau dann als multimodal zu betrachten, wenn entweder mindestens zwei verschiedene Eingabemodalitäten oder zwei verschiedene Ausgabemodalitäten existieren. Oviatt definiert in der in Abschnitt 2.1 bereits zitierten Aussage aus[55] lediglich eine solche Bedingung für die Eingabeseite (“[...] two or more combined user input modes [...]“). Die Ausgabeseite ist hingegen in Oviatts Definition lediglich am Rande in Form eines „[...] multimedia system output [...]“ erwähnt. Bernsen hingegen lockert diese Bedingungen noch einmal etwas und definiert in seiner „multimo- dality theory“ (vgl.[7] ) jedes System als multimodal, welches mindestens zwei Modalitäten nutzt, unabhängig davon ob diese für Ein- oder Ausgabe benutzt werden. In diesem Zu- sammenhang wird in der zitierten Arbeit auch von grafischen Interfaces als multimodale Systeme gesprochen, weil diese haptische Eingaben mit graphischen Ausgaben kombinie- ren. Oftmals ist bei diesen Definitionen jedoch nicht klar dargelegt, ob sich die Multimoda- lität lediglich auf das Vorhandensein von Eingabe- und Ausgabegeräten in entsprechender Anzahl und Ausprägung bezieht, oder auch auf die konkrete Benutzung.

Neueste Ansätze[31] verfeinern diese bestehenden Definitionen wie bereits gezeigt einer- seits durch eine verbesserte Beschreibung dessen, was eine Modalität ausmacht, als auch durch daraus entstehende präzisere Definitionen für Uni- und Multimodalität, welche durch die Begriffe „direkt-unimodal“, „indirekt-unimodal“, „direkt-multimodal“, „multi-unimodal“ so- wie „cross-modal“ zum Tragen kommen. Diese sollen es in Zukunft wesentlich präziser erlauben, eine spezifische Interaktionsform zu kategorisieren und zu beschreiben.

2.2.5 Charakteristika und Eigenschaften von Modalitäten

Unabhängig von ihrer exakten Definition können Modalitäten meist auf verschiedene Art und Weise in Kategorien eingeteilt werden, und besitzen zudem verschiedene wichtige Eigenschaften. Dies ist insbesondere im Kontext dieser Arbeit von Bedeutung, da diese Informationen einen Teil der Wissensgrundlage ausmachen, auf welcher später die Ent- scheidungsprozesse im System beruhen.können sich später Regeln beispielsweise auf konkrete Modalitäten, aber für gesteigerte Flexibilität auch nur auf Modalitäten mit ge- wissen Eigenschaften beziehen. Hierfür müssen den Modalitäten zunächst Eigenschaften zugeordnet werden, wofür unter anderem die nachfolgend präsentierten Ansätze in Frage kommen.

Eine erste, grobe Unterscheidung insbesondere von Eingabemodalitäten bietet die Ein- teilung in aktive und passive Modalitäten, wie dies beispielsweise [55,417] geschieht. Hierbei sind aktive Eingabemodalitäten diejenigen, bei denen der Benutzer aktiv und wil- lentlich einen Befehl an das Computersystem richtet. Passive Eingabemodalitäten hinge- gen beruhen auf einer passiven Beobachtung des Benutzers und der Interpretation von meist unwillentlichen Regungen wie Augenbewegungen, Mimik oder Gestik. Dieser Un- terscheidungsansatz ist jedoch aufgrund der Fixierung auf Eingabemodalitäten für diese Arbeit eher am Rande relevant, da hier die Entscheidung zwischen Ausgabemodalitäten im Fokus steht.

Einen wesentlich weiter reichenden Ansatz präsentiert Bernsen in seiner laufend fortent- wickelten Modality Theory (vgl. unter anderem [7, 8]). Dort wird einerseits versucht, ei- ne Taxonomie, also ein Klassifikationsschema für Modalitäten zu entwickeln. Andererseits werden jedoch auch eine „Sammlung“ einschlägiger Annahmen über den Zusammenhang von Modalitätseigenschaften und deren Auswirkung auf den Einsatz der Modalitäten prä- sentiert, welche aus der bis dato vorhandenen Literatur zu diesem Thema herausgearbeitet und übernommen wurden.

Der erste Teil, die Modalitätstaxonomie, besteht aus einer insgesamt vierstufigen Unter- gliederung der möglichen Modalitäten im Bereich der auditiven, visuellen und haptischen Interfaces, mit Bezug auf symmetrische Multimodalität, also auf gleiche Ein- und Ausga- bemodalitäten. Bernsen nimmt hier auf der obersten Ebene eine Untergliederung in die vier Bereiche Analogue (Darstellung durch Analogie), Linguistic (Darstellung durch Spra- che), Arbitrary (freie Darstellung mit Bedeutungserklärung) und Explicit structure (Darstel- lung innerhalb verschachtelter Strukturen der anderen Typen) vor, gibt aber gleichzeitig an, dass diese Top-Level-Unterteilung nicht die einzig mögliche ist und gegebenenfalls bei- spielsweise auch die Zusammenfassung nach anderen Kriterien legitim ist. In der zweiten Hierarchieebene werden nun die Begriffe aus der ersten Ebene weiter aufgefächert und ei- nerseits nach dem Medium differenziert (Akustisch, Grafisch, Haptisch), andererseits aber nach einigen weiteren interessanten Kriterien. Eine Unterscheidungsweise nach Bernsen ist die Gliederung in statische und dynamische Modalitäten. Statische Modalitäten sind hierbei solche, die vom Benutzer beliebig lange wahrgenommen werden können, zumeist so lange bis die durch die Modalität übermittelte Information beim Empfänger angekom- men ist. Dynamische Modalitäten hingegen erlauben dies nicht; sie müssen zum Zeitpunkt ihres Auftretens wahrgenommen werden, oder die transportierte Information kommt mögli- cherweise nicht an. Dies könnte beispielsweise bei einer Sprachausgabe der Fall sein.

Bernsen verfeinert seine Taxonomie nach den beiden beschriebenen Ebenen noch um zwei weitere Ebenen, welche eine weitere Detaillierung erlauben. Auch hier erlaubt Bernsen aber das Vorhandensein zusätzlicher Ebenen nach „unten“. Die Bernsen-Taxonomie wurde in mehreren Arbeiten ergänzt und erweitert, beispielsweise in[61].

Der zweite Teil von Bernsens Arbeit, die Sammlung von Modalitätseigenschaften, ist ins- besondere für die hier vorliegende Arbeit interessant. Bernsen stellt dabei nicht nur die Frage in den Raum, wie beim Design einer multimodalen Anwendungen die Entscheidungen gegen, für oder zwischen Modalitäten vorgegangen werden soll. Er vertritt weiterhin die Ansicht, dass die Kriterien, anhand denen eine Entscheidung möglich ist, aus verschiedenen Bereichen stammen:

- dem Anwendungstyp
- dem Benutzer
- der Benutzergruppe
- der auszuführenden Aufgabe
- der fachlichen Domäne der Anwendung
- der Benutzungsumgebung
- dem Typ der Interaktion
- dem Interaktionsgerät (der Hardware)

Alle diese Bereiche liefern nach Bernsen entscheidungsrelevante Informationen. Um diese mit den verfügbaren Modalitäten abzugleichen, schlägt Bernsen das Konzept der bereits genannten Modality Properties, also zu deutsch Modalitätseigenschaften, vor. Diese sind „funktionale Eigenschaften von Modalitäten, welche Modalitäten so charakterisieren, dass diese Charakterisierung direkte Relevanz für die Auswahl von Ein- und Ausgabemodalitä- ten beim Design, Entwicklung und Evaluation interaktiver Systeme hat“ (übersetzt aus dem Englischen nach[7], siehe Originaltext6 ). Bernsen ermittelt einige dieser Eigenschaften in [7] anhand mehrerer hundert sogenannter claims in der einschlägigen Literatur, welche in den meisten Fällen einfache, dort getätigte Annahmen über, und Begründungen für den Einsatz einer Modalität sind. Ein Beispiel einer abgeleiteten Eigenschaft von akustischen Modalitäten wäre es hier, omnidirektional zu sein. Dies könnte für den Anwendungsent- wickler beispielsweise von Nutzen sein wenn die Privatheit der Information ein Thema ist.

Neben den Arbeiten über die Charakterisierung von Modalitäten als solchen gibt es auch noch einige Ansätze, welche spezifisch auf das Nebeneinander mehrerer Modalitäten und die daraus entstehenden Querbezüge eingehen. Dies ist weniger für die Auswahl bezie- hungsweise „Nominierung“ konkreter, geeigneter Modalitäten relevant, sondern mehr für die Kombination von Modalitäten zur Herstellung einer multimodalen Ausgabe. Bei dieser wird die zu vermittelnde Information auf mehrere Kanäle aufgeteilt. Einer der verbreitetsten Ansätze zur Spezifizierung solcher Querbeziehungen zwischen Eingabemodalitäten, die sogenannten CARE-Properties, soll hier kurz der Vollständigkeit halber vorgestellt werden.

Die CARE-Properties sind ein in[16] vorgestelltes Konzept, welches das Verhältnis von mehreren Modalitäten anhand eines Zustandsüberganges eines Zustandssystems beschrei- ben. CARE steht hierbei für die vier Properties Complementary, Assignment, Redundancy und Equivalence. Zwei Modalitäten sind hierbei komplementär (Complementary), wenn ein Zustandsübergang nur unter Benutzung aller Modalitäten in einer Menge möglich ist, d.h. wenn sich die Modalitäten ergänzen, aber alleine nicht zur Erfüllung der Aufgabe geeignet sind. Die Zuweisung (Assignment) besagt, dass für den Zustandsübergang genau eine Mo- dalität zugewiesen und geeignet ist, also keine Auswahl stattfinden kann. Die Redundanz (Redundancy) wiederum stuft zwei Modalitäten als gleichwertig ein, wenn sie die gleiche Aussagemächtigkeit haben und im gleichen Zeitabschnitt zum Einsatz kommen - hier findet also trotz der Verwendung mehrerer Modalitäten kein erweiterter Informationsfluß statt. Zu- letzt besagt die Äquivalenz von Modalitäten (Equivalence), dass diese Modalitäten gleich- wertig sind, es also egal ist welche davon benutzt wird.

2.3 Entwurf multimodaler Systeme

Der Entwurf und die Planung multimodaler Systeme sind aufgrund der vielschichtigen Aspekte, die es zu beachten gilt, eine stark interdisziplinäre Angelegenheit. Es bedarf oftmals Wissenschaftlern und Entwicklern aus verschiedenen Bereichen wie Usability- und User-Interface-Engineering, künstlicher Intelligenz, Kognitionspsychologie und hardwarewarenaher Informatik zur Umsetzung eines solchen Systems. Die Vertreter all dieser Disziplinen haben im Verlauf der bisherigen Forschung bereits diverse Ergebnisse erbracht, welche es ermöglichen, auf einigen bestehenden technischen Grundlagen aufzubauen. Diese sollen nachfolgend kurz erläutert werden.

2.3.1 Zugrundeliegende Prinzipien

Verschieden Ergebnisse aus dem Bereich der Kognitionspsychologie werden in[22[ zusammengefasst vorgestellt und auf drei zentrale Punkte vereint, welche für den Entwurf multimodaler Systeme von Bedeutung sind:

- Nach der These des working memory von Baddeley[4] verarbeiten Menschen die unterschiedlichen Sinneseindrücke und somit auch Modalitäten unabhängig vonein- ander. Die Benutzung mehrerer Modalitäten bedeutet also auch eine Steigerung des nutzbaren working memory.
- Menschen neigen dazu, Muster aus der Interaktion mit ihresgleichen auf die Interaktion mit Computer zu übertragen
- Die kognitive Leistung von Menschen ist generell bei multimodaler Interaktion höher. Dies hängt mit der Art und Weise zusammen, wie die menschliche Wahrnehmung, Kommunikation und das Gedächtnis arbeiten (vgl.[44] ).

Zusätzlich zu diesen Arbeiten existieren heute auch eine große Zahl an empirisch beim Entwurf und Einsatz multimodaler Systeme erhobenen Informationen. Diese beziehen sich einerseits auch auf die Art und Weise wie Menschen interagieren, andererseits aber auch direkt auf Eigenschaften, welche multimodale Systeme aufweisen sollten. Ein Beispiel für die erstere Kategorie stellen beispielsweise die vielzitierten „10 Myths of multimodal Inter- action“ dar (vgl. u.a.[55], im Original 1999 aufgestellt von Oviatt), welche einige der häu- figsten Aussagen über multimodale Interaktion aufgreifen und entkräften, beispielsweise was die Effizienz oder die Vergleichbarkeit mit unimodaler Interaktion angeht. Ein Beispiel für die zweitere Kategorie geben Reeves et al., indem sie in[46] verschiedene Guidelines für das Design multimodaler Systeme spezifizieren. Diese enthalten unter anderem Aus- sagen über eine notwendige erhöhte Flexibilität und Benutzeranpassbarkeit, Beachtung von Sicherheits- und Privatsphärenaspekten sowie Empfehlungen bezüglich Fehlertoleranz und -korrektur.

2.3.2 Technische Architektur

Multimodale System unterscheiden sich untereinander zumeist hinsichtlich ihrer Fachlo- gik, welche der Erfüllung konkreter Aufgaben (dem Zweck ihres Bestehens) Rechnung trägt. Die Interaktionslogik und die umgebenden Komponenten sind jedoch meistens recht ähnlich. In[22] wird dazu eine gängige generische Architektur präsentiert, welche diese Komponenten beschreibt (Abb. 2.1, gegenüber der Originalquelle grafisch leicht modifiziert und aus dem Englischen übersetzt). In[55] wird zusätzlich eine konkrete Instanz einer solchen Architektur für ein Sprach-Zeigegesten-System beschrieben, welches weitgehend die Unterteilung aus[22] übernimmt7. Ähnliche Architekturmodelle mit Fokus auf konkrete Entwicklung interaktiver Systeme sind beispielsweise auch das ARCH-Modell[5] oder die architekturbezogenen Bestandteile des WWHT-Modells[48].

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Architektur eines multimodalen Systems nach[22]

Aus der Grafik sind alle wichtigen Architekturbestandteile eines multimodalen Systems er- sichtlich. Ganz oben findet sich die Schnittstelle zum Benutzer in Form verschiedener Ein- und Ausgabemodalitäten (Punkt 1 in Abb. 2.1). Handlungen des Benutzers werden hier via einer oder mehrerer Eingabemodalitäten zunächst erfasst, digitalisiert (beispielsweise A/D-Wandlung für gesprochene Sprache) und verarbeitet. Dann erfolgt die Übergabe an eine Fusions-Komponente (Punkt Nr. 2), welche die Informationen aus den verschiede- nen Modalitäten zusammenführt und eine gemeinsame Bedeutung extrahiert (vgl. auch folgender Abschnitt). Diese Bedeutung dient als Eingabe für die zweite Komponente des multimodalen Kerns, die Dialogmanagementkomponente (Nr. 3), welche den aktuellen Zu- stand des Dialogs mit dem Benutzer verwaltet, und beim Eintreffen einer neuen Information diesen gegebenenfalls entsprechend aktualisiert. Erfordert es der aktuelle Zustand oder Zustandswechsel, wird mit der eigentlich Fachlogik der Anwendung kommuniziert (Nr. 4). Diese erhält dann beispielsweise neue Informationen, führt Berechnungen durch und lie- fert dem Dialogmanager ein Ergebnis zurück. Dieser kümmert sich wiederum darum, dass dieses Ergebnis dem Benutzer übermittelt wird, indem er das Ergebnis in einer modalitäts- neutralen Form an die Fissions 8 -Komponente (Nr. 5) weitergibt. Die Fissions-Komponente wählt nun eine geeignete Repräsentationsform aus (welche durchaus auch modalitätsüber- greifend sein kann), bereitet die bisher modalitätsneutrale Informationsdarstellung für die spezifischen Ausgabemodalitäten auf und übergibt sie an diese, welche wiederum für die tatsächliche Darstellung der Information sorgen (Nr. 6).

Von besonderer Relevanz für diese Arbeit ist die nun eben genannte Auswahl der Reprä- sentationsform. Die Fissions-Komponente greift hierfür auf die vierte Kernkomponente (Nr. 7), die Kontextverwaltung zu. Sie verwaltet gewissermaßen ein Modell der Anwendung und ihrer Umgebung (Duarte et al. schlagen in[21] in einem ähnlichen Architekturansatz ei- ne Aufgliederung in User Model, Platform and Devices Model, Environmental Model und Interaction Model vor, welche hier ebenfalls implizit stattfindet, und später in dieser Arbeit ähnlich gehandhabt wird). Dieses Modell hält die Interaktion betreffende Informationen über den Kontext, den Benutzer, den bisherigen Benutzungsverlauf und die Umgebungsbedin- gungen vor. Diese Informationen sind meist Daten aus den in Abschnitt 2.2.5 beschriebe- nen Kategorien. Die Kontextverwaltung erhält ihre Informationen beispielsweise direkt aus geeigneten Sensoren (wie die Benutzerposition via GPS oder andere, via Sensorik wahr- genommene Werte), aus Äußerungen und Vorlieben des Benutzers oder auch aus dem momentanen Dialogzustand. Diese Informationen bilden zusammen mit den vom Entwick- ler für das System vorgegebenen Informationen (beispielsweise Eigenschaften von Aus- gabegeräten) und festgelegten Verhaltensweisen die Basis für die Entscheidung zwischen Ausgabemodalitäten. Durch die technische Entwicklung ist insbesondere der sensorische Bereich ein großes Wachstumsgebiet; die Zahl der verfügbaren Kontext- und Umgebungs- informationsquellen ist heute sehr vielfältig. Beispielsweise kann durch die Verbreitung von aktuellen Smartphones und deren Nutzung in multimodalen Systemen heute bereits eine Vielzahl von direkt den Benutzer betreffenden Parametern wie Beschleunigung, Position (via GPS/WLAN), Ausrichtung (teilweise, via Kompass), Umgebungshelligkeit oder Umge- bungslautstärke erhoben werden.

Generell kann für eine solche Architektur gesagt werden, dass durch die multimodale In- teraktion oftmals eine begrenzte, weiche Echtzeitfähigkeit gefordert ist, um eine natürliche Interaktion zu ermöglichen. Zusammen mit dem oftmals nicht unerheblichen Erkennungs- und Verarbeitungsaufwand beispielsweise in der Sprach- oder Gestenerkennung stellt dies bei der heutigen verfügbaren Technologie immer noch eine Herausforderung dar. Dies führ- te beispielsweise auch dazu, dass multimodale Systeme immer öfter als verteilte Systeme (multi-agent architectures) konzipiert werden, wodurch die Rechenlast geteilt und die Ant- wortzeit verringert werden soll.

Konkrete Ausführungen ähnlich aufgebauter Architekturen sind beispielsweise FAME[21] (mit Schwerpunkt auf Adaptierung) oder ICARE[11].

2.3.3 Fusion und Fission

Die Fission und insbesondere die Fusion von Modalitäten sind einer der Punkte, an welchen sich multimodale Systeme stark von unimodalen Systemen unterscheiden. Diese beiden Vorgänge sind charakteristisch und wichtig für die multimodale Interaktion. Sie sollen im Folgenden kurz erläutert werden.

Fusion

Nach[22] ist das Ziel der Fusion, „[...] eine Bedeutung aus einer Menge von Eingabemoda- litäten zu extrahieren und diese einem Mensch-Maschine-Dialogmanager zur Verfügung zu stellen“. Vereinfacht ausgedrückt könnte man also auch davon sprechen, dass in der Fusion die Informationen die über die verschiedenen Modalitäten eingehen zusammengefasst und bewertet werden. Bei diesem Vorgang können gegebenenfalls auch Widersprüche identi- fiert und aufgelöst werden.

Die Fusion kann an verschiedenen Punkten im Eingabeteil des Interaktionsprozesses statt- finden. Folgerichtig spricht man abhängig von dem Punkt, an dem die Fusion tatsächlich stattfindet von early fusion oder entsprechend late fusion. Da diese Begriffe nicht immer ein- heitlich verwendet wurden, entstanden in der Literatur zusätzlich noch einige weitere Klas- sifikationsvarianten für eine feinere Untergliederung (beispielsweise in Data Fusion, Fea- ture Fusion, Decision Fusion). Von einer early fusion (bzw. nach[55] feature level fusion) wird dann gesprochen, wenn die Zusammenführung der Daten bereits vor dem Erkennen der in den Informationen enthaltenen Semantik geschieht. Diese Methode ist insbesondere geeignet, wenn Modalitäten mit einem engen zeitlichen Bezug, zum Beispiel Lippenbewe- gungen und Sprache, zusammengeführt werden sollen. Die andere Art der Fusion, die late fusion (nach[55] semantic level fusion) ist das Gegenteil, sprich eine Fusion auf der Be- deutungsebene. Hier geschieht die Fusion nachdem die semantische Bedeutung der ein- gegebenen Information ermittelt wurde.kann hier zum Beispiel ein Kopfschütteln und ein gesprochenes „Ja“ oder „Nein“ als gleichwertig beziehungsweise als widersprüchlich erkannt werden.

Unabhängig von der Art der Fusion ist es wichtig, den Fusionsvorgang unter einer sehr genauen Zeitkontrolle durchzuführen, sprich die eingegangenen Aktionen des Benutzers mit einem eindeutigen Zeitstempel zu versehen. Dies ist nötig, um mittels mehrere Modalitäten eingegangene Aktionen in eine zeitliche Relation zu setzen, was unter Umständen für Bedeutungsunterschiede und Referenzauflösung hilfreich ist.

Fission

Im Gegensatz zur Fusion existieren nur wenige Grundlagen in der Literatur zum Thema der Fission. Dies liegt vor allem daran, dass in den Arbeiten der letzten Jahrzehnte zum Thema multimodale Interaktion der Fokus vorwiegend auf mehreren Eingabemodalitäten lag, und in vielen Fällen gar keine oder nur eine sehr einfache multimodale Ausgabe stattfand.

Eine mögliche und für diese Arbeit passende Definition liefert Foster in einer Arbeit (vgl. [26] ), die eine große Zahl bestehender Systeme auf ihre multimodalen Ausgabenmöglich- keiten hin untersucht hat. Sie definiert dort die Fission in multimodalen Systemen als „[...] process of realising an abstract message through output on some combination of the availa- ble channels.“. Die Fission dreht sich also, wie auch bereits im vorigen Abschnitt erwähnt, um den Vorgang, Informationen des Dialogmanagers, welche in einer modalitätsneutralen

Form an die Fissionskomponente übergeben werden, tatsächlich durch eine oder mehrere Ausgabemodalitäten dem Benutzer zu übermitteln.

Nach Foster (und auch anderen Quellen wie z.B.[32] ) kann der Vorgang der Fission in drei verschiedene Aufgabenbereiche bzw. Phasen unterteilt werden:

1. Auswahl und Strukturierung des auszugebenden Inhalts (kann auch außerhalb der Fission stattfinden)
2. Auswahl der Ausgabemodalitäten
3. Koordination der ausgewählten Ausgabemodalitäten

In der ersten Phase, der Auswahl- und Strukturierungsphase, ist die Hauptaktivität der Fissionskomponente das Finden einer zur Übermittelung an den Benutzer geeigneten Struktur und Repräsentationsform für die vom Dialogmanager gegebene Information. Es existieren verschiedene Ansätze für die Lösung dieses Problems, auf welche an dieser Stelle nicht näher eingegangen werden soll.

Die zweite Phase der Fission ist die Auswahl von Ausgabemodalitäten, oftmals auch beti- telt als „media allocation“ (media wird hier quasi gleichbedeutend mit Modalität verwendet). Das Ziel dieser Phase ist es laut[1], mit einem jeweils vorgegebenen Satz von Daten und Modalitäten eine Modalitätskombination zu finden, welche geeignet ist die Daten in der gegebenen Situation effektiv zu transportieren. Arens et al. werfen hierzu in[3] die Frage auf, welches Wissen und welcher Entscheidungsprozess dazu benötigt wird. Hier geben beide Autoren bezüglich des Wissens eine ähnliche Liste von Faktoren an, die die Aus- wahl beeinflussen und bereits in 2.3.2 angesprochen wurden (u.a. Benutzerprofil, Wissen über die Modalitäten, etc.). Arens schlägt hier bereits einen regelähnlichen Ansatz vor, um dieses Wissen zu bewerten und zu verknüpfen (vgl. auch[2] ), während nach[26] in den meisten Systemen dieses Wissen nicht explizit spezifiert, sondern beispielsweise in direk- ten Mappings vorliegt. Dies führt jedoch unter anderem zu schlechterer Änderbarkeit und Wartbarkeit des Systems.

Nach der Frage des Wissens ist nun noch die Frage nach dem Entscheidungsprozess von Interesse. Hier nennt Foster in[26] ebenfalls einige Beispiele bereits bestehender Systeme und deren verschiedene Ansätze. Als einfachster Vertreter kommt hier eine zur Designzeit festgelegte, starre algorithmische Entscheidung in Frage, welche beispielsweise im mul- timodalen System MAGIC[17] als eine Art einfacher, parametrisierbarer Mappings zum Einsatz kommt. Ein weiterer Ansatz ist die Komposition, welche aus dem Bereich von Infor- mationsgrafiksystemen wie PostGraphe stammt. Hier werden „kompatible“ auszugebende Informationsbausteine gruppiert, dann die dazu passenden Darstellungstechniken anhand ihrer Effektivität bewertet, und zum Schluss wird versucht die Informationskomposita via den höchstbewerteten Techniken zur Darstellung zu bringen. Weit verbreitet ist auch die Nutzung eines planbasierten Ansatzes, innerhalb welchem ebenfalls eine Modalitätsaus- wahl stattfindet. Dieser Ansatz basiert auf dem Vorhandensein mehrerer (domänenspezi- fischer) Darstellungsstrategien, welche bereits Vorgaben bezüglich der zu verwendenden Modalitäten enthalten. Eine Presentation-Planner -Komponente wählt anhand vorgegebe- ner Bedingungen dabei jeweils geeignete Strategien aus. Ein planbasierter Ansatz kommt beispielsweise auch in SmartKom (vgl.[62] ) zum Einsatz. Ein ähnlicher Ansatz, der aber anstatt nach Eignung nach der am schnellsten zur Verfügung stehenden Repräsentation auswählt, ist die Verwendung von sogenannten konkurrierenden Agenten wie im System MAGPIE (vgl.[29] ). Der für diese Arbeit interessanteste Ansatz ist jedoch sicherlich der ebenfalls in der Literatur erwähnte regelbasierte Ansatz zur Modalitätsauswahl. Hierbei wird anhand der bereits genannten Eigenschaften bzw. des Wissens und vieler mehr oder weniger komplexen Regeln eine Entscheidung herbeigeführt. Auch in[3] wird ein solcher Ansatz vertreten. Hier werden auch eine Menge an abstrakt gehaltenen Regeln vorgestellt, welche zum Einsatz kommen könnten, insbesondere bezüglich der dort ebenfalls einge- führten Informations-Eigenschaftsklassen Dimensionalität, Transienz, Dringlichkeit, Infor- mationsdichte und Umfang. Eine typische, von dort abgeleitete konkrete Regel könnte bei- spielsweise wie folgt lauten: „Wenn eine große Menge Informationen vermittelt werden soll, benutze nicht-transiente (statische) Repräsentationsformen“. In[26] werden zusätzlich zu Arens einige andere Quellen genannt, welche ebenfalls auf den Einsatz von Regeln bauen, jedoch herrscht dort meist ein einfacher Ansatz mit wenigen Regeln vor.

Der dritte und letzte Teil der multimodalen Fission besteht aus der Koordination der ge- wählten Ausgabemodalitäten. Diese sorgt einerseits für eine passende Darstellung der Informationen via den gewählten Modalitäten. Hier kann durchaus noch einmal ein der Modalitätsauswahl ähnlicher Prozess durchlaufen werden, indem die konkrete Darstellung der Informationen anhand verschiedenener Parameter oder Kontextinformationen modifi- ziert wird (Adaptierung, vgl.[18] ). Auch können hier Generierungsprozesse stattfinden, um beispielsweise Text oder Grafiken anhand der Informationen aus der Fachanwendung zu erzeugen. Weiterhin obliegt der Koordinationskomponente die temporale Kontrolle der ver- schiedenen Modalitäten, ist also beispielsweise dafür zuständig, dass Lippenbewegungen eines virtuellen Agenten präzise mit der auditiven Sprachausgabe korrespondieren. Eine weitere Aufgabe ist auch die Koordination von aufeinander referenzierenden Darstellungen. Hier wird dafür gesorgt, dass die den Sinn erzeugenden Zusammenhänge ersichtlich sind, wenn beispielsweise in der Sprachausgabe von „der unteren Hälfte dieses Bilds“ gespro- chen wird.

2.3.4 Kontextfreie Dialogrepräsentation und Dialogmanagement

Für den Aufbau eines multimodalen Systems ist auch das Dialogmanagement von großer Bedeutung. Während bei traditionellen GUIs der Dialogverlauf meist im Code der GUI selbst enthalten oder mit der Fachlogik vermischt ist, muss in multimodalen Systemen der Dialog zwischen Benutzer und System in abstrakter Modellform abgekoppelt von einer kon- kreten Darstellung vorgehalten werden. Eine zweite Schwierigkeit stellt die Übergabe einer dem Benutzer zu vermittelnden Information an die Fissionskomponente sowie auch zuvor der Empfang der semantischen Ergebnisse der Fusion dar. Hierfür bedarf es jeweils einer modalitätsneutralen Repräsentationsform. Ansätze für den Umgang mit beiden Problemen sollen nachfolgend kurz dargestellt werden.

Die Repräsentation des Dialogs kann auf mehrere Arten erfolgen. In[13] werden insgesamt vier gängige Ansatzpunkte genannt. Hierbei handelt es sich erstens um die Repräsentation mittels (teilweise erweiterten) Zustandsautomaten, zweitens um probabilistische Ansätze, drittens um planbasierte Ansätze und letztens um Ansätze mit kollaborativen Agenten. Es fällt auf, dass hier teilweise ähnliche Mittel wie auch bei der Modalitätsauswahl verwendet werden, was die oft enge Verknüpfung von Fusion, Fission und Dialogmanagement ver- deutlicht. Gleichsam besteht eine starke Verwandschaft dieser Methoden untereinander, weshalb diese in der Regel nicht getrennt voneinander betrachtet werden.

Für die Schnittstellen zwischen Fusion, Fission und Dialogmanager existierten ebenfalls mehrere Ansätze. Meist werden spezielle Sprachen für diesen Zweck konstruiert. Ein gu- tes Beispiel hierfür ist die speziell für das bereits vorgestellte SmartKom-System entworfene Sprache M3L. M3L ist eine modalitätsneutrale XML-basierte Sprache zur Spezifikation so- genannter kommunikativer Goals. Generell sind jedoch die meisten dieser Sprachen stark domänen- oder anwendungsspezifisch; es fehlt eine auf breiter Front anerkannte und stan- dardisierte Grundlage.

2.3.5 Design- und Runtime-Sicht auf Multimodalität

Vielfach wird eine Unterscheidung gemacht, ob Multimodalität zur Laufzeit betrachtet wird oder bereits bei der Entstehung eines multimodalen Systems (vgl. beispielsweise[9] ). Dies geschieht ebenso auch bei der Modalitätsauswahl.

In den meisten multimodalen Systemen aus der Literatur findet die Entscheidung über die Eignung bestimmter Modalitäten für die Ein- und Ausgabe des jeweiligen Systems schon beim Entwurf des Systems statt. Es werden spezifische Geräte und Schnittstellen bereit- gestellt, und die Software entscheidet meist nur noch wie sich die Informationen am besten auf die vorhandenen Geräte verteilen lassen. Das Wissen um die Eignung von Modali- täten für gewisse Aufgaben und Situationen liegt demnach nicht formalisiert vor, sondern wird ähnlich zu den oben beschriebenen Eigenschaften von Bernsen natürlichsprachig zwi- schen den Entwicklern ausgetauscht, welche es bei der Implementierung anwenden. Es handelt sich also um eine Multimodalität, welche bereits zur Design-Zeit in weiten Teilen festgelegt wird (Design-Time-Multimodalität).

Dem gegenüber stehen aber neuere Konzepte der Multimodalität und Entwicklungen des technischen Fortschritts.ist beispielsweise denkbar, dass es in einem zukünftigen mul- timodalen System mt einer Art Mikrokernel-Architektur zur Design-Zeit noch gar nicht alle oder so gut wie keine Informationen über die später vorhandenen Modalitäten und Gerä- te gibt (vgl.[23] für einen ähnlichen Ansatz). Es könnte beispielsweise in einem verteil- ten multimodalen System analog zu heutigen Webservices eine Art Registry existieren, welche verfügbare Modalitäten vorhält. Denkbar wäre möglicherweise auch eine Art de- zentraler Discovery-Mechanismus wie beim Multimedia-Steuerungsprotokoll UPnP heute schon üblich. In beiden Fällen jedoch gibt es ein Hindernis, welches den Kern dieser Arbeit darstellt. Dieses besteht darin, dass in einem solchen hochdynamischen System einerseits das Wissen über Ausgabe-Modalitätsentscheidungen formalisiert und maschinell verarbeit- bar vorliegen muss, und andererseits die vorhandenen Modalitäten Eigenschaften haben müssen, welche eine Entscheidungsfindung für oder gegen Modalitäten zur Laufzeit zulas- sen (Runtime-Multimodalität).

2.4 Vorteile von multimodaler Interaktion gegenüber unimodaler Interaktion

Die stetige Forschung und Entwicklung im Bereich der multimodalen Interaktion erfolgt nicht ohne einen konkreten Nutzen dieser Technologien.erhofft man sich verschiedene Vor- teile von der Nutzung multimodaler Interaktion, welche nachfolgend kurz dargelegt werden sollen.

2.4.1 Geschwindigkeit und Qualität der Interaktionsabläufe

Die Steigerung der Interaktionsgeschwindigkeit und damit der Effizienz war einer der frühen Gründe für die Entwicklung multimodaler Interfaces. Die erhoffte Steigerung basierte auf der Annahme, dass bisher sequentiell ausgeführte Aktionen nun multimodal und dadurch in Teilen parallel ausgeführt werden würden. Dies hat sich jedoch nur teilweise bewahr- heitet.gibt Oviatt in[55] zwar mit Verweis auf einige Studien eine generelle moderate Steigerung an, jedoch ist diese meist beschränkt auf bestimmte Arten von Aufgaben, wie beispielsweise die Manipulation von Grafiken mit Gesten oder ähnlichem. Dumas[22] gibt zusätzlich zur Geschwindigkeitsbetrachtung auch eine Steigerung in der Aussagekraft und Präzision der Interaktionen an, welche aber vermutlich ebenfalls abhängig von der jeweils konkreten Modalität ist. Hier blieben die multimodalen Ansätze also hinter den Erwartun- gen zurück, brachten aber an anderen Stellen dafür weitere Vorteile mit sich, wie aus den nachfolgenden Punkten ersichtlich.

2.4.2 Natürlichkeit der Interaktion

Multimodale Interfaces unterstützen im Vergleich mit den bisherigen Interaktionsformen oft- mals eine Bandbreite wesentlich natürlicherer Interaktionsarten wie Gesten oder Sprache. Dadurch tritt der Computer zunehmend in den Hintergrund und durchdringt zugleich im- mer mehr Bereiche des täglichen Lebens, in denen Computereinsatz bisher schwierig war (vgl. dazu auch[22] ). Daraus ergibt sich gleichzeitig meist auch eine erhöhte Aufgaben- angemessenheit in den meisten Situationen, weil nicht mehr versucht wird, eine möglichst universale Benutzerschnittstelle zu realisieren. Vielmehr werden mehrere unterschiedliche Schnittstellen mit höherer Spezialisierung angeboten. Zusätzlich kann auch der Einsatzkontext des Systems und die Umgebungsbedingungen herangezogen werden, um die Interaktion zu verbessern, indem sie an die Situation angemessen ausgeführt wird.

2.4.3 Fehlertoleranz und Robustheit

Ein großer, durch die Multimodalität entstandener Vorteil ist die erhöhte Fehlertoleranz und Robustheit von derartigen Systemen. Dies liegt nach[55] in verschiedenen Ursachen begründet. Einerseits werden Fehler von vorneherein vermieden, weil Nutzer dazu neigen, sich jeweils für die fehlerunanfälligste Modalität zu entscheiden, wie auch in der Menschzu-Mensch-Kommunikation zu beobachten, wenn beispielsweise Dimensionen von Gegenständen unwillkürlich mit Hilfe von Gesten vermittelt werden. Andererseits können jedoch auch vom System durch paralleles Verarbeiten der Gesamtheit der Informationen vom Nutzer Fehler korrigiert werden, wenn Angaben widersprüchlich sind. In[55] werden hierzu Verbesserungen von knapp 20 bzw. 40 Prozent angegeben.

2.4.4 Benutzeradaption

Besondere Vorteile ergeben sich auch beim Eingehen auf den jeweiligen Benutzer. Einer der naheliegendsten Vorteile eines multimodalen Systems ist hier sicherlich, dass Nutzer mit gegebenen Einschränkungen, sei es körperlicher Behinderung, Hör- oder Sehschwä- che oder auch nur einem starken Akzent das System jeweils in der für sie angenehmsten Art und Weise handhaben können. Auch ist eine Personalisierung auf den jeweiligen Be- nutzer hin wesentlich sinnvoller und häufiger anzutreffen als bei „herkömmlichen“ Anwen- dungen.

Auch aus psychologischer Sicht ergeben sich starke Gründe zur Verwendung multimoda- ler Ansätze.werden, wenn man die Working-Memory Theory von Baddeley (vgl.[4] ) zugrunde legt, die natürlichen Fähigkeiten des Gehirns bei multimodaler Interaktion we- sentlich besser ausgenutzt, weil laut Baddeley verschiedene Bereiche des Hirns mit ver- schiedenen Funktionen großteils unabhängig die einzelnen Modalitäten verarbeiten.

[...]


1 „ [...] the graphics interface can converge to provide a concerted, natural user modality [...]“

2 Die Unterteilungen im Detail unterscheiden sich in der Literatur -[7] nennt hier beispielsweise zusätzlich noch die Propriozeption (Gleichgewichtssinn/„Körpersinn“) als weitere Möglichkeit. Ebenso kommt hier theoretisch auch die protopathische Wahrnehmung (Schmerz- und Temperaturrezeptoren) in Frage.

3 Geruchssinn

4 Geschmackssinn

5 Die Semiotik ist ein wissenschaftlicher Bereich, der sich unter anderem mit den Zeichen und Codes der menschlichen Kommunikation beschäftigt

6 “Modality properties are functional properties of modalities which characterize modalities in terms that are direct- ly relevant to the choice of input/output modalities in interactive systems design, development, and evaluation.“

7 Sprach-Gesten-Systeme sind seit dem „Put-that-there“-System immer noch einer der meistverfolgten Ansätze von multimodalen Systemen, daher ist dieses Beispiel naheliegend.

8 Aus dem Lateinischen „fissio“, „Spaltung“

Ende der Leseprobe aus 155 Seiten

Details

Titel
Evaluation eines prototypischen regelbasierten Ansatzes für Modalitätsentscheidungen in der Mensch-Maschine-Interaktion
Hochschule
Universität Ulm  (Medieninformatik)
Note
1,0
Autor
Jahr
2010
Seiten
155
Katalognummer
V167522
ISBN (eBook)
9783640846115
Dateigröße
3184 KB
Sprache
Deutsch
Schlagworte
Multimodalität, HCI, Modality Decision, Mensch-Maschine-Interaktion, Interaktion, User Interfaces, Regelbasierte Systeme, Rule based systems, Multimodal, Adaptive Interfaces
Arbeit zitieren
Florian Geiselhart (Autor), 2010, Evaluation eines prototypischen regelbasierten Ansatzes für Modalitätsentscheidungen in der Mensch-Maschine-Interaktion, München, GRIN Verlag, https://www.grin.com/document/167522

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Evaluation eines prototypischen regelbasierten Ansatzes für Modalitätsentscheidungen in der Mensch-Maschine-Interaktion


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden