Inhaltsverzeichnis
Abk ürzungsverzeichnis vii
Abstract ix
1 Einleitung 1
1.1 Vision und Problemstellung 1
1.2 Zielsetzung 2
1.3 Struktur der Arbeit 2
2 Multimodale Interaktion 5
2.1 Ursprung und geschichtliche Entwicklung multimodaler Interaktionsformen 5
2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen 7
2.2.1 Definition der Modalität nach menschlicher Wahrnehmung 7
2.2.2 Definition der Modalität nach technischen Gesichtspunkten 8
2.2.3 Definition der Modalität - modularer Ansatz 9
2.2.4 Unimodalität und Multimodalität 10
2.2.5 Charakteristika und Eigenschaften von Modalitäten 11
2.3 Entwurf multimodaler Systeme 14
2.3.1 Zugrundeliegende Prinzipien 14
2.3.2 Technische Architektur 15
2.3.3 Fusion und Fission 18
Fusion 18
Fission 19
2.3.4 Kontextfreie Dialogrepräsentation und Dialogmanagement 22
2.3.5 Design- und Runtime-Sicht auf Multimodalität 23
2.4 Vorteile von multimodaler Interaktion gegenüber unimodaler Interaktion 24
2.4.1 Geschwindigkeit und Qualität der Interaktionsabläufe 24
2.4.2 Natürlichkeit der Interaktion 24
iii
Inhaltsverzeichnis
2.4.3 Fehlertoleranz und Robustheit 25
2.4.4 Benutzeradaption 25
3 Wissens- und Regelbasierte Systeme 27
3.1 Wissensbasierte Systeme 27
3.1.1 Expertensysteme 29
3.1.2 Wissensrepräsentationsformen in wissensbasierten Systemen 29
Pr ädikatenlogik erster Ordnung und Beschreibungslogiken 30
Logikprogrammierung 30
Semantische Netze und Frames 32
Regelbasierte Repräsentation - Produktionsregelsysteme 32
3.2 Regelbasierte Systeme und Rule-based Programming 33
3.2.1 Grundlagen 34
3.2.2 Vorwärtsverkettung - Forward Chaining 35
Parameter und Konfliktlösungsstrategien 36
Vor- und Nachteile der Vorwärtsverkettung 39
Der Rete-Algorithmus 39
3.2.3 Rückwärtsverkettung - Backward Chaining 41
3.2.4 Hybridlösungen 44
3.3 Typen und Einsatzfelder regelbasierter Systeme 44
3.3.1 Regelbasierte Ansätze in Anwendungssoftware 44
3.3.2 Expertensysteme 45
3.3.3 Business-Rule-Systeme 46
3.4 Diskussion 47
3.4.1 Implementierung 48
3.4.2 Wiederverwendbarkeit 48
3.4.3 Flexibilität und Erweiterbarkeit 49
3.4.4 Formulierung von Wissen durch Experten und Lesbarkeit 49
3.4.5 Erklärbarkeit 50
3.4.6 Vorwärtsverkettung oder Rückwärtsverkettung? 50
3.4.7 Grenzen und Problemfelder 50
3.4.8 Fazit der Diskussion 52
4 Phase 1 der Umsetzung - Definition 53
4.1 Verwandte Ansätze in der Literatur 53
iv
Inhaltsverzeichnis
4.2 Funktionalität des Prototypen 56
4.2.1 Szenario und Use-Cases 56
4.2.2 Konzept der Multimodalität im Prototypen 57
Fokus 58
Modalit ät und Modalitätseigenschaften 58
4.2.3 Entscheidungsverfahren 60
4.2.4 Geplante konzeptionelle Systemstruktur 60
4.2.5 Verarbeitungsabfolge 62
4.3 Abgeleitete Evaluationskriterien 62
5 Phase 2 der Umsetzung - Evaluation 65
5.1 Drools 68
5.2 Jess 70
5.3 NxBre 72
5.4 OpenRules 74
5.5 Vergleichstabelle 76
5.6 Fazit und Bewertung der Evaluation 76
5.6.1 System der Wahl 76
5.6.2 Bewertung der Evaluation 78
6 Phase 3 der Umsetzung - Implementierung 81
6.1 Wahl der technischen Architektur 81
6.1.1 Architekturvariante 1 - Enge Kopplung, keine Verteilung 81
6.1.2 Architekturvariante 2 - Lose Kopplung, Decision-Service-Modell 82
6.1.3 Verteilungsaspekte der Regelhaltung 83
6.1.4 Inferenz-Modus des Servers 84
6.1.5 Client-Anwendung 85
6.2 Konzept und GUI-Entwurf 85
6.2.1 GUI - Überblick 86
6.2.2 Eigenschaften, Faktenobjekte und Modalitäten 88
Benutzerpro fil 89
Umweltbedingungen 91
Interaktionseigenschaften und Goal 93
Repr äsentationssprachen 95
Interaktionsgeräte 96
v
Inhaltsverzeichnis
6.2.3 Topologie-Übersicht 97
6.3 Anbindung an den Drools Execution Server 97
6.4 Konfiguration und Aufbau des Drools Execution Servers 100
6.5 Implementierung von exemplarischen Regelsätzen 102
6.5.1 Regelbeispiele 104
Positivregel 105
Negativregel 105
Sonderfall CEP-Regeln 106
Beispielhafte Bewertungsrechnung 107
6.5.2 Abstufung der Rankingwerte 108
6.5.3 Funktionen in Guvnor 109
6.5.4 Queries in Guvnor 109
6.6 Aufgetretene Probleme und Schwierigkeiten 109
6.6.1 Schwächen des Drools Execution Servers 109
Resource Change Scanner des Execution Servers 110
Sessionmanagement 111
6.6.2 Guvnor und Drools Fusion / CEP 112
6.6.3 Debugging und Erklärkomponente 112
7 Fazit 115
7.1 Diskussion und Bewertung des zugrundeliegenden Ansatzes 115
7.2 Diskussion und Bewertung des Prototypen 117
7.3 Ausblick 119
7.3.1 Erweiterung und Präzisierung des Ansatzes 119
7.3.2 Grundsätzliche technische Erweiterungen des Prototypen 120
7.3.3 Lernfähigkeit 122
7.3.4 Andere Methoden aus der künstlichen Intelligenz 122
A Quelltexte 125
A.1 Konfiguration des Knowledge Service im Applikationsserver 125
A.2 Exemplarischer Regelsatz des Prototypen 126
Literaturverzeichnis 139
vi
Abkürzungsverzeichnis
BRE Business-Rule-Engine. 46
BRMS Business Rule Management System. 46, 74
BRS Business-Rule-System. 44
CEP Complex Event Processing. 55, 68, 69, 76, 123
DSL Domain Specific Language. 75
GUI Graphical User Interface, Grafische Benutzerschnittstelle. 22, 56-58, 75, 83, 85, 86, 88, 89, 97, 99, 102, 121
IDE Integrated Development Environment. 47, 63
KI Künstliche Intelligenz. 27, 40, 46, 53, 65, 70, 123
LHS Left Hand Side - Prämisse einer Regel. 34
OOP Objektorientierte Programmierung. 32
PL1 Prädikatenlogik erster Ordnung. 30
RHS Right Hand Side - Konklusion einer Regel. 34
WIMP Windows, Icons, Menus and Pointers. 5
vii
Abkürzungsverzeichnis
viii
Abstract
Deutsch
Die vorliegende Masterarbeit beschäftigt sich mit dem Entscheidungsprozess zwischen Modalitäten innerhalb des Fissionsprozesses in multimodalen Systemen. Dieser kann bereits in der Theorie aufgrund vielfältiger verschiedener für die Entscheidung relevanter Einflussfaktoren und gleichzeitigen Beschränkungen in der zeitlichen Domäne eine hohe Komplexität aufweisen. Gleichzeitig besteht jedoch im Zuge der tatsächlichen, praktischen Implementierung von multimodalen Systemen ein Bedarf für Möglichkeiten, angemessen mit der Komplexität dieses Prozessschrittes umgehen zu können.
Innerhalb dieser Arbeit wird ein prototypischer Ansatz präsentiert, welcher durch die Verwendung von herkömmlichen regelbasierten Systemen, wie beispielsweise aus dem Bereich der Business Rule Engines, einen Umgang mit diesem Problem erlaubt. Hierfür werden zunächst die Grundlagen der multimodalen Interaktion sowie der regelbasierten Systeme erläutert und vertieft. Anschließend wird auf dieser Basis ein Design für den Prototypen entworfen, welches neben der technischen Architektur auch ein spezifisches Konzept der Multimodalität zugrunde legt. Dieses Design wird im nächsten Schritt als Kriterienbasis für die Evaluation gängiger regelbasierter Systeme aus verschiedenen Einsatzdomänen herangezogen. Nach der Auswahl eines solchen Systems wird auf dessen Basis der Prototyp konstruiert. Abschließend wird basierend auf dem Implementierungsergebnis und den während der Arbeit gesammelten Erfahrungen ein Fazit gezogen und es werden Vorschläge gemacht, wie sich regelbasierte bzw. allgemeine wissensbasierte Systeme in multimodalen interaktiven Systemen praktisch einsetzen lassen.
ix
Abstract
English
This Master’s thesis covers the modality decision within the multimodal fission process in multimodal systems. This decision is, on the one hand, naturally highly complex due to multiple and different factors that contribute to the decision, but on the other hand also due to restrictions in processing time. Yet, at the same time, there is an increasing need for possibilites to cope with this complexity while implementing actual applied multimodal systems.
Within this work, a prototypical approach to this problem is presented, which allows to handle this problem by using rule based approaches like common business rule systems. For this, we start with an in-depth introduction to the basics of multimodal interaction and rule based systems. We then define a design for the prototype, which incorporates not only the technical architecture, but also a specific concept of multimodality. This design is being used as a source of criteria for an evaluation of a set of common rule based systems from different application domains. After one of those systems has been chosen, the experimental prototype is being implemented on top of it. Finally, a conclusion is drawn from the implementation result and the lessons learned throughout the implementation process. Also, some proposals are made concerning how rule-based or knowledge-based systems in general can be used practically within multimodal interactive systems.
x
1 Einleitung
1.1 Vision und Problemstellung
Nachdem Benutzerschnittstellen von Computersystemen in den vergangenen 50 Jahren kontinuierlich weiterentwickelt wurden, hat sich heute im Bereich der direkten Interaktion mit Computern weitgehend das grafische Benutzerinterface in Kombination mit Maus und Tastatur als Standard etabliert. Daher fokussiert sich die Forschung und Wirtschaftsinnovation im Bereich der Mensch-Maschine-Interaktion zunehmend auf das, was nach einhelliger Meinung die Zukunft der Interaktion darstellt - Multimodalität.
Die multimodale Interaktion verspricht sowohl erhöhte Effizienz als auch eine wesentlich einfachere und robustere Bedienung auch bei komplexen Interaktionsvorgängen durch die Verwendung mehrerer Interaktionsformen und -geräte. Diese erhöhte Leistungsfähigkeit ergibt sich jedoch nicht alleine durch die Verwendung der Interaktionsformen parallel zuein-ander, sondern vielmehr durch eine intelligent Koordination und Steuerung der Modalitäten in Abhängigkeit voneinander, sowohl was die Eingabe als auch die Ausgabe angeht. Dies ermöglicht es, adaptive Benutzerschnittstellen zu gestalten, welche versuchen, dem Benutzer immer die jeweils optimale Interaktionsform anzubieten, die der momentanen Situation am angemessensten erscheint. Computersysteme sollen sich so in immer natürlicherer Form an den Benutzer anpassen, um sich nahtloser in seinen Alltag und sein Umfeld einzubetten.
Dafür erfassen zukünftige multimodale Systeme eine Vielzahl von Umgebungsbedingungen, wie beispielsweise Umweltbedingungen oder Stimmung und Bewegungen des Benutzers. Diese müssen verarbeitet und in einen Zusammenhang gebracht werden, so dass Schlüsse gezogen werden können in welcher Situation sich System und Benutzer momentan befinden.
Um diese Eigenschaften zu erreichen bedarf es zunächst jedoch angemessenen Methoden zum Umgang mit dieser erhöhten Komplexität auf Softwareebene. Im Gegensatz zu
1
1 Einleitung
gängigen interaktiven Systemen ist hier eine wesentlich größere Menge an Informationen bei höherem Abstraktionsgrad zu verarbeiten. Ein Ansatz hierfür ist der Einsatz von Systemen aus dem Bereich der künstlichen Intelligenz, wie zum Beispiel regelbasierte Systeme. Diese sind aufgrund ihres deklarativen Umgangs mit dem in Software enthaltenen Fachwissens wesentlich besser geeignet für solche Vorhaben, bei denen mit großen Datenmengen umgegangen werden muss. Andere deklarative Ansätze wie zum Beispiel SQL im Datenbankbereich können hier bereits eine lange Erfolgsgeschichte verbuchen.
In dieser Arbeit soll daher geprüft werden, wie marktübliche regelbasierte Systeme, etwa aus dem Bereich der Business-Rule-Systeme, in multimodalen Systemen genutzt werden können, um die kontextbasierte Auswahl von Modalitäten bei der Ausgabe zu unterstützen.
1.2 Zielsetzung
Innerhalb dieser Masterthesis sollen mehrere verschiedene Fragen im Zusammenhang mit dem zum Ende des vorigen Abschnitts gestellten Oberthema geklärt werden. Zunächst soll anhand der bestehenden Literatur ermittelt werden, welche Einflussfaktoren es bei der Auswahl von Modalitäten innerhalb des Ausgabeprozesses gibt und wie diese genutzt werden können. Anschließend wird im Rahmen einer prototypischen Implementierung erprobt, wie diese Einflussfaktoren mittels einem regelbasierten System gehandhabt werden können. Hierfür bedarf es allerdings zunächst einer detaillierten Evaluation von verfügbaren Regelsystemen hinsichtlich ihrer Eignung für den Einsatz in multimodalen Systemen im Allgemeinen, sowie auch speziell für das gewählte Szenario. Hierbei soll mit Hinblick auf eine praktische Anwendung dieser Grundlagen, beispielsweise für die weitere Erforschung von komplexeren Auswahlstrategien, ein besonderes Augenmerk auch auf Umgebungsfak-toren wie einfache Benutzung oder Anschaffungskosten gelegt werden.
1.3 Struktur der Arbeit
Die Arbeit wurde organisatorisch in drei Hauptbestandteile gegliedert:
• Recherche und Definition der Umgebung des prototypischen Systems
• Evaluation der Regelsysteme
2
Um diese drei Teile herum ist auch die Gliederung der Arbeit angesiedelt. So wird zunächst in den ersten Kapiteln ein ausführlicher Überblick über die multimodale Interaktion und über regelbasierte Systeme gegeben. Dann folgt die Definition und der Entwurf für den Prototypen. Anschließend wird im Kapitel „Evaluation“ eine Beschreibung der zu evaluierenden Systeme und jeweils eine Bewertung vorgestellt. In den darauffolgenden Kapiteln wird die Planung und Implementierung des Prototypen beschrieben. Abschließend wird ein Fazit aus der Arbeit gezogen und erläutert, welche Ansatzpunkte für zukünftige Arbeiten sich in diesem Bereich anbieten.
3
1 Einleitung
4
2 Multimodale Interaktion in der
Mensch-Maschine-Kommunikation
Dieser Abschnitt der Arbeit soll eine Einführung in den Bereich der Multimodalen Mensch-Maschine-Interaktion darstellen. Er beschreibt kurz die geschichtlichen Ursprünge und versucht, eine Definition der später in dieser Arbeit verwendeten Begriffe und Konzepte zu geben, sowie gängige Beispiele für Konzepte und Interaktionsformen zu nennen. Weiterhin wird auf die Vorteile, aber auch die Herausforderungen eingegangen, welche sich bei Systemen mit multimodalen Interaktionsformen ergeben können.
2.1 Ursprung und geschichtliche Entwicklung
multimodaler Interaktionsformen
Das Aufkommen multimodaler Interaktionsformen ist eng verbunden mit der Entwicklung verschiedenartiger Interfaces für Computersysteme. Allen voran ist hier die Entwicklung grafischer Benutzeroberflächen in den frühen 80er Jahren, beginnend mit dem Xerox Alto und darauf basierenden Systemen wie Apples Mac OS, meist auf Basis eines WIMP-Paradigmas, zu nennen. Als zweiter Faktor kamen einige Jahre später Informationssysteme auf, die Sprachsteuerung und/oder Sprachfeedback beinhalteten. Insbesondere automatisierte Telefonauskunftsdienste wurden auf diese Art betrieben.
Der nächste logische Schritt dieser Entwicklung war die Vereinigung dieser beiden Interakti-onsformen, welche in ihrer ersten Form in Bolts „Put-that-there“-System (vgl. [10]) stattfand. Das von Bolt vorgeschlagene System sollte nicht nur Spracheingabe und grafische Oberflächen kombinieren, sondern beinhaltete außerdem einen Mechanismus zur Gestenerkennung, mit dem Ziel, durch das Zusammentreffen der verschiedenen Interaktionsformen eine aufeinander abgestimmte und dadurch natürlichere Benutzerinteraktionsmodalität zu
5
2 Multimodale Interaktion
erhalten (vgl. [10] 1 ). Es ermöglichte es dem Benutzer, durch Sprachkommandos in Verbindung mit Zeigegesten Objekte auf dem Bildschirm zu bewegen bzw. zu manipulieren. Hierfür musste das System nicht nur die jeweilige Semantik der einzelnen Interaktionsformen erkennen, sondern auch eine gemeinsame Bedeutung extrahieren, sowie auch die entsprechend enthaltenen deiktischen Referenzen („das“, „dort“) auflösen können. Somit kann das „Put-that-there“-System als das erste System betrachtet werden, welches das bis heute zugrundeliegende Konzept der Multimodalität aufgriff und integrierte. Es zeigte bereits die meisten der grundlegenden Eigenschaften, die beispielsweise auch Oviatt in [55] benennt:
Multimodal systems process two or more combined user input modes - such as speech, pen, touch, manual gestures, gaze, and head and body movements - in a coordinated manner with multimedia system output. [...] This new class of interfaces aims to recognize naturally occurring forms of human language and behavior, which incorporate at least one recognition-based technology (e.g., speech, pen, vision).
Seit der Entwicklung des „Put-that-there“-Systems 1980 beschäftigten sich zahlreiche Projekte und Arbeiten mit der Erweiterung des Konzeptes der Multimodalität und der Integration der immer fortgeschritteneren Möglichkeiten der Mensch-Maschine-Interaktion wie z.B. erweiterte Möglichkeiten der Kontexterfassung oder neuerer UI-Paradigmen wie Multitouch-Oberflächen. Hierzu wurden und werden nach wie vor zahlreiche Projekte vorangetrieben, wie beispielsweise ein multimodales Flugauskunftssystem namens MATIS (vgl. [15]) im Rahmen der umfassenden Multimodalitäts-Forschungsprojekte AMODEUS und AMODEUS-2, oder QuickSet (vgl. [14]) als Ansatz einer verteilten multimodalen Architektur. Ebenfalls erwähnenswert ist hier auch das aus Deutschland stammende SmartKom-Projekt (vgl. [47]) sowie zahlreiche als Paper publizierten Einzelarbeiten von Forschern weltweit. Die überwiegende Zahl dieser Arbeiten konzentrierte sich hierbei auf multimodale Eingabe, hier insbesondere auf Kombinationen aus Sprache und Zeigegesten (vgl. [22]).
1 „ [...] the graphics interface can converge to provide a concerted, natural user modality [...]“
6
2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen
2.2 Multimodale Interaktion und Multimodalität -
Begriffsdefinitionen
Trotz der bereits verhältnismäßig lange andauernden Forschungsaktivitäten in diesem Bereich (vgl. vorhergehender Abschnitt) gibt es immer noch starke Unterschiede in der Belegung der Begrifflichkeiten rund um das Thema der multimodalen Interaktion. So fehlt bisher eine anerkannte Definition was die multimodale Interaktion überhaupt ausmacht, ebenso wie auch Kernbegriffe wie Modalität, multimodal, unimodal großteils uneinheitlich verwendet werden, und stellenweise auch mit vielschichtigen Begriffen aus anderen Domänen wie dem des Mediums oder des Modus vermischt werden. Dieses Problem erfährt jedoch zunehmend große Beachtung, und es existieren mehrere Ansätze zur Lösung, welche nachfolgend kurz dargestellt werden sollen.
2.2.1 Definition der Modalität nach menschlicher Wahrnehmung
Ein gängiger und früh eingeführter Ansatz ist es, die Modalität als abhängig vom menschlichen Wahrnehmungskanal, der zur Interaktion mit dieser Modalität fähig ist, zu definieren. Mögliche Aus- und Eingabekanäle des Menschen hierfür sind nachfolgend dargestellt. Sie sind in Anlehnung an [30] (zitiert nach [40]) in sogenannte Wahrnehmungs- und Aktionsmodalitäten untergliedert, welche sie gleichzeitig auch in Eingabemodalitäten und Ausgabemodalitäten gliedern 2 . Die jeweiligen Fähigkeiten des Kanal sind hier als Ein- und Ausgabe aus menschlicher Sicht definiert.
2 Multimodale Interaktion
- Eingabe: „Fühlen“, taktile Erfassung von Vibration und Kraft durch Mechanore-zeptoren
- Ausgabe: Mechanische Anwendung von Kraft
• Olfaktorischer Kanal (bisher kaum relevant in der multimodalen Interaktion) 3
• Gustatorischer Kanal (bisher kaum relevant in der multimodalen Interaktion) 4
Zusätzlich zu dieser grundlegenden, auf sehr hohem Abstraktionsniveau gehaltenen Definition der Modalität existieren Ansätze, die hier definierten Kategorien weiter zu untergliedern, um auch semiotische 5 Gesichtspunkte zu berücksichtigen, also die Art und Weise, wie eine Information innerhalb eines Wahrnehmungskanals kodiert ist. Bernsen bezeichnet in [7] die oben dargestellten Kanäle als physical media, und definiert seinen Modalitätsbegriff wiederum basierend darauf, indem er zur Bildung einer Modalität ein solches physisches Medium verknüpft mit der Art und Weise, wie etwas in diesem Medium dargestellt wird. So können nach Bernsen beispielsweise im Bereich des physischen Mediums des Lichts und des zugehörigen Sehsinnes verschiedene Modalitäten dadurch entstehen, dass diese beiden Einheiten verknüpft werden mit „Sprachen“ wie Bildern, geschriebenem Text oder sichtbaren Gesten. Die dadurch entstehenden Modalitäten unterscheiden sich Bernsen zufolge neben der Ausdrucksweise hauptsächlich in ihrer „expressiveness“, also ihrer Ausdrucksmächtigkeit bei der Darstellung einer Information. So ist beispielsweise die Modalität „Grafische Kartendarstellung“ von potentiell höherem Informationsgehalt als die Modalität „Liste von Orten“, obwohl beide auf der visuellen (Eingabe-)Verarbeitung des Menschen aufbauen.
2.2.2 Definition der Modalität nach technischen Gesichtspunkten
Eine weitere gängige Art der Definition von Modalitäten ist die Orientierung an den technischen Fähigkeiten der Systemkomponenten multimodaler Systeme. Nigay beispielsweise macht in [42] die Definition von Modalitäten an Tupeln < d, L > fest. Hier stellt d ein Interaktionsgerät (device) dar, wobei das Gerät für ein tatsächliches, physisch vorhandenes Ein-/Ausgabegerät steht (beispielsweise Mikrofon oder Tastatur). Der zweite Teil L wiederum stellt in diesem Zusammenhang die Interaktionssprache (language) dar, in welcher
3 Geruchssinn
4 Geschmackssinn
5 Die Semiotik ist ein wissenschaftlicher Bereich, der sich unter anderem mit den Zeichen und Codes der mensch-
lichen Kommunikation beschäftigt
8
2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen
die tatsächlichen Informationen kodiert sind - d ist also nur ein Mittel, um den „rohen“ Datenstrom zu erhalten, welcher durch Kenntnis der Grammatik von L in verarbeitbare, bedeutungsvolle Informationen dekodiert werden kann. Nicht ausdrücklich festgelegt ist hingegen, auf welchem Abstraktionsniveau sich die jeweilige Interaktionssprache bewegen muss - lediglich ein gemeinsames Verständnis der benutzten Sprache von Nutzer und System ist nötig. So ergeben sich nach dieser Definition beispielsweise folgende Modalitäten (teilweise entnommen aus [42] bzw. [15]) .
So lassen sich viele „technische“ Modalitäten unterschiedlichster Art konstruieren. Lediglich die Komplexität der Sprache und die technischen Möglichkeiten der Eingabedevices stellen hier eine Beschränkung dar. Im Fall der Sprache wird eine Möglichkeit benötigt, diese sowohl maschinenlesbar auszudrücken und zu erzeugen, als auch, bei der Nutzung als Eingabesprache daraus maschinell eine Bedeutung über die Interaktion hinaus zu extrahieren. Dies ist nach [41] auch ein Charakteristikum multimodaler Systeme im Gegensatz zu reinen multimedialen Systemen.
2.2.3 Definition der Modalität - modularer Ansatz
Ein neuerer Ansatz (vgl. [31]) schlägt zunächst vor, die Betrachtung multimodaler Interaktion aufzuteilen in eine lokale und eine globale Betrachtungsweise. Hierbei handelt es sich einerseits um die Betrachtung einzelner Interaktionsschritte (lokal), denen die Betrachtung eines gesamten, multimodal-interaktiven Systems gegenüber gestellt wird (global). Der Ansatz bezieht sich dabei vorrangig auf die lokale Betrachtungsweise. Weiterhin wird in der Arbeit eine strikte Trennung von Eingabe- und Ausgabeoperationen bei der Betrachtung vorgenommen. Hierbei nimmt die intrinsische Feedback-Schleife (vgl. auch [54]) bei User-Interaktionen eine Sonderstellung ein, indem sie nicht als eigenständige Ausgabeoperation betrachtet wird, sondern auch als Teil der Eingabeoperation.
Aufbauend auf diesen Grundannahmen schlagen die Autoren vor, die Modellierung von multimodalen Interaktionen als eine Art mehrgliedrige Verarbeitungskette mit dem Zweck eines Informationsaustausches anzusehen. Diese Kette beginnt damit, dass die Informatio-
9
2 Multimodale Interaktion
nen der Quelle auf der Senderseite via eines Interpreters in eine zum Empfänger übertragbare Repräsentationsform transformiert werden. Die Seite des Empfängers bzw. der Senke besitzt wiederum einen Interpreter, um aus der übertragenen Repräsentation die ursprünglichen Informationen zurückzugewinnen. Dieser Formalismus in abwechselnd umgekehrter Richtung beschreibt dann die gesamte Interaktion, gemäß [31] sogar über den Kontext der Mensch-Maschine-Kommunikation hinaus und ohne von technischen Gegebenheiten abhängig zu sein.
Nach diesem Verarbeitungskettenansatz ist nun nach Honold et al. eine Modalität definiert als eine solche Verarbeitungskette aus Quelle → Interpreter(n) → Übertragung(en) → Interpreter(n) → Senke. Der Zweck einer Modalität ist demnach das „information mapping“ zwischen zwei Kommunikationspartnern, also die Abbildung von Informationen zwischen den Partnern. Formal wird sie definiert als ein 5-Tupel (I source , I sink , M prop , M type , M fault ). Hierbei stellen I source sowie I sink die Interpreter der beiden Seiten dar, M prop und M type stehen für die Eigenschaften und den Typ der Modalität (bzw. die Art der transportierbaren Information), und M fault für einen möglichen Informationsverlust, welche abhängig von den Defiziten eines beliebigen Interpreters der Kette auftritt.
Je nach Anzahl der Quellen, Senken, Interpreter und Übertragungswege lassen sich so verschiedene Szenarien aus Uni- und Multimodalität konstruieren, welche im nachfolgenden Abschnitt noch getrennt genannt werden.
2.2.4 Unimodalität und Multimodalität
Mit dem Aufkommen der verschiedenen Begriffe der Modalität und der tatsächlichen Verwendung mehrerer Modalitäten beispielsweise in Forschungsprojekten kam auch die Frage auf, wann genau ein System als multimodal oder umgekehrt als unimodal zu betrachten ist. Diese wurde bis heute nicht abschließend beantwortet, es gibt jedoch mehrere Ansätze zur Erklärung. So schlägt beispielsweise [11] vor, ein System genau dann als multimodal zu betrachten, wenn entweder mindestens zwei verschiedene Eingabemodalitäten oder zwei verschiedene Ausgabemodalitäten existieren. Oviatt definiert in der in Abschnitt 2.1 bereits zitierten Aussage aus [55] lediglich eine solche Bedingung für die Eingabeseite (“[...] two or more combined user input modes [...]“). Die Ausgabeseite ist hingegen in Oviatts Definition lediglich am Rande in Form eines „[...] multimedia system output [...]“ erwähnt. Bernsen hingegen lockert diese Bedingungen noch einmal etwas und definiert in seiner „multimo-
10
2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen
dality theory“ (vgl. [7]) jedes System als multimodal, welches mindestens zwei Modalitäten nutzt, unabhängig davon ob diese für Ein- oder Ausgabe benutzt werden. In diesem Zusammenhang wird in der zitierten Arbeit auch von grafischen Interfaces als multimodale Systeme gesprochen, weil diese haptische Eingaben mit graphischen Ausgaben kombinieren. Oftmals ist bei diesen Definitionen jedoch nicht klar dargelegt, ob sich die Multimodalität lediglich auf das Vorhandensein von Eingabe- und Ausgabegeräten in entsprechender Anzahl und Ausprägung bezieht, oder auch auf die konkrete Benutzung.
Neueste Ansätze [31] verfeinern diese bestehenden Definitionen wie bereits gezeigt einerseits durch eine verbesserte Beschreibung dessen, was eine Modalität ausmacht, als auch durch daraus entstehende präzisere Definitionen für Uni- und Multimodalität, welche durch die Begriffe „direkt-unimodal“, „indirekt-unimodal“, „direkt-multimodal“, „multi-unimodal“ sowie „cross-modal“ zum Tragen kommen. Diese sollen es in Zukunft wesentlich präziser erlauben, eine spezifische Interaktionsform zu kategorisieren und zu beschreiben.
2.2.5 Charakteristika und Eigenschaften von Modalitäten
Unabhängig von ihrer exakten Definition können Modalitäten meist auf verschiedene Art und Weise in Kategorien eingeteilt werden, und besitzen zudem verschiedene wichtige Eigenschaften. Dies ist insbesondere im Kontext dieser Arbeit von Bedeutung, da diese Informationen einen Teil der Wissensgrundlage ausmachen, auf welcher später die Entscheidungsprozesse im System beruhen. So können sich später Regeln beispielsweise auf konkrete Modalitäten, aber für gesteigerte Flexibilität auch nur auf Modalitäten mit gewissen Eigenschaften beziehen. Hierfür müssen den Modalitäten zunächst Eigenschaften zugeordnet werden, wofür unter anderem die nachfolgend präsentierten Ansätze in Frage kommen.
Eine erste, grobe Unterscheidung insbesondere von Eingabemodalitäten bietet die Einteilung in aktive und passive Modalitäten, wie dies beispielsweise [55, S. 417] geschieht. Hierbei sind aktive Eingabemodalitäten diejenigen, bei denen der Benutzer aktiv und willentlich einen Befehl an das Computersystem richtet. Passive Eingabemodalitäten hingegen beruhen auf einer passiven Beobachtung des Benutzers und der Interpretation von meist unwillentlichen Regungen wie Augenbewegungen, Mimik oder Gestik. Dieser Unterscheidungsansatz ist jedoch aufgrund der Fixierung auf Eingabemodalitäten für diese
11
2 Multimodale Interaktion
Arbeit eher am Rande relevant, da hier die Entscheidung zwischen Ausgabemodalitäten im Fokus steht.
Einen wesentlich weiter reichenden Ansatz präsentiert Bernsen in seiner laufend fortentwickelten Modality Theory (vgl. unter anderem [7, 8]). Dort wird einerseits versucht, eine Taxonomie, also ein Klassifikationsschema für Modalitäten zu entwickeln. Andererseits werden jedoch auch eine „Sammlung“ einschlägiger Annahmen über den Zusammenhang von Modalitätseigenschaften und deren Auswirkung auf den Einsatz der Modalitäten präsentiert, welche aus der bis dato vorhandenen Literatur zu diesem Thema herausgearbeitet und übernommen wurden.
Der erste Teil, die Modalitätstaxonomie, besteht aus einer insgesamt vierstufigen Untergliederung der möglichen Modalitäten im Bereich der auditiven, visuellen und haptischen Interfaces, mit Bezug auf symmetrische Multimodalität, also auf gleiche Ein- und Ausgabemodalitäten. Bernsen nimmt hier auf der obersten Ebene eine Untergliederung in die vier Bereiche Analogue (Darstellung durch Analogie), Linguistic (Darstellung durch Sprache), Arbitrary (freie Darstellung mit Bedeutungserklärung) und Explicit structure (Darstellung innerhalb verschachtelter Strukturen der anderen Typen) vor, gibt aber gleichzeitig an, dass diese Top-Level-Unterteilung nicht die einzig mögliche ist und gegebenenfalls beispielsweise auch die Zusammenfassung nach anderen Kriterien legitim ist. In der zweiten Hierarchieebene werden nun die Begriffe aus der ersten Ebene weiter aufgefächert und einerseits nach dem Medium differenziert (Akustisch, Grafisch, Haptisch), andererseits aber nach einigen weiteren interessanten Kriterien. Eine Unterscheidungsweise nach Bernsen ist die Gliederung in statische und dynamische Modalitäten. Statische Modalitäten sind hierbei solche, die vom Benutzer beliebig lange wahrgenommen werden können, zumeist so lange bis die durch die Modalität übermittelte Information beim Empfänger angekommen ist. Dynamische Modalitäten hingegen erlauben dies nicht; sie müssen zum Zeitpunkt ihres Auftretens wahrgenommen werden, oder die transportierte Information kommt möglicherweise nicht an. Dies könnte beispielsweise bei einer Sprachausgabe der Fall sein.
Bernsen verfeinert seine Taxonomie nach den beiden beschriebenen Ebenen noch um zwei weitere Ebenen, welche eine weitere Detaillierung erlauben. Auch hier erlaubt Bernsen aber das Vorhandensein zusätzlicher Ebenen nach „unten“. Die Bernsen-Taxonomie wurde in mehreren Arbeiten ergänzt und erweitert, beispielsweise in [61].
Der zweite Teil von Bernsens Arbeit, die Sammlung von Modalitätseigenschaften, ist insbesondere für die hier vorliegende Arbeit interessant. Bernsen stellt dabei nicht nur die
12
2.2 Multimodale Interaktion und Multimodalität - Begriffsdefinitionen
Frage in den Raum, wie beim Design einer multimodalen Anwendungen die Entscheidungen gegen, für oder zwischen Modalitäten vorgegangen werden soll. Er vertritt weiterhin die Ansicht, dass die Kriterien, anhand denen eine Entscheidung möglich ist, aus verschiedenen Bereichen stammen:
Alle diese Bereiche liefern nach Bernsen entscheidungsrelevante Informationen. Um diese mit den verfügbaren Modalitäten abzugleichen, schlägt Bernsen das Konzept der bereits genannten Modality Properties, also zu deutsch Modalitätseigenschaften, vor. Diese sind „funktionale Eigenschaften von Modalitäten, welche Modalitäten so charakterisieren, dass diese Charakterisierung direkte Relevanz für die Auswahl von Ein- und Ausgabemodalitäten beim Design, Entwicklung und Evaluation interaktiver Systeme hat“ (übersetzt aus dem Englischen nach [7], siehe Originaltext 6 ). Bernsen ermittelt einige dieser Eigenschaften in [7] anhand mehrerer hundert sogenannter claims in der einschlägigen Literatur, welche in den meisten Fällen einfache, dort getätigte Annahmen über, und Begründungen für den Einsatz einer Modalität sind. Ein Beispiel einer abgeleiteten Eigenschaft von akustischen Modalitäten wäre es hier, omnidirektional zu sein. Dies könnte für den Anwendungsentwickler beispielsweise von Nutzen sein wenn die Privatheit der Information ein Thema ist.
Neben den Arbeiten über die Charakterisierung von Modalitäten als solchen gibt es auch noch einige Ansätze, welche spezifisch auf das Nebeneinander mehrerer Modalitäten und die daraus entstehenden Querbezüge eingehen. Dies ist weniger für die Auswahl beziehungsweise „Nominierung“ konkreter, geeigneter Modalitäten relevant, sondern mehr für die Kombination von Modalitäten zur Herstellung einer multimodalen Ausgabe. Bei dieser
2 Multimodale Interaktion
wird die zu vermittelnde Information auf mehrere Kanäle aufgeteilt. Einer der verbreitetsten Ansätze zur Spezifizierung solcher Querbeziehungen zwischen Eingabemodalitäten, die sogenannten CARE-Properties, soll hier kurz der Vollständigkeit halber vorgestellt werden.
Die CARE-Properties sind ein in [16] vorgestelltes Konzept, welches das Verhältnis von mehreren Modalitäten anhand eines Zustandsüberganges eines Zustandssystems beschreiben. CARE steht hierbei für die vier Properties Complementary, Assignment, Redundancy und Equivalence. Zwei Modalitäten sind hierbei komplementär (Complementary), wenn ein Zustandsübergang nur unter Benutzung aller Modalitäten in einer Menge möglich ist, d.h. wenn sich die Modalitäten ergänzen, aber alleine nicht zur Erfüllung der Aufgabe geeignet sind. Die Zuweisung (Assignment) besagt, dass für den Zustandsübergang genau eine Modalität zugewiesen und geeignet ist, also keine Auswahl stattfinden kann. Die Redundanz (Redundancy) wiederum stuft zwei Modalitäten als gleichwertig ein, wenn sie die gleiche Aussagemächtigkeit haben und im gleichen Zeitabschnitt zum Einsatz kommen - hier findet also trotz der Verwendung mehrerer Modalitäten kein erweiterter Informationsfluß statt. Zuletzt besagt die Äquivalenz von Modalitäten (Equivalence), dass diese Modalitäten gleichwertig sind, es also egal ist welche davon benutzt wird.
2.3 Entwurf multimodaler Systeme
Der Entwurf und die Planung multimodaler Systeme sind aufgrund der vielschichtigen Aspekte, die es zu beachten gilt, eine stark interdisziplinäre Angelegenheit. Es bedarf oftmals Wissenschaftlern und Entwicklern aus verschiedenen Bereichen wie Usability- und User-Interface-Engineering, künstlicher Intelligenz, Kognitionspsychologie und hardwarewarenaher Informatik zur Umsetzung eines solchen Systems. Die Vertreter all dieser Disziplinen haben im Verlauf der bisherigen Forschung bereits diverse Ergebnisse erbracht, welche es ermöglichen, auf einigen bestehenden technischen Grundlagen aufzubauen. Diese sollen nachfolgend kurz erläutert werden.
2.3.1 Zugrundeliegende Prinzipien
Verschieden Ergebnisse aus dem Bereich der Kognitionspsychologie werden in [22] zusammengefasst vorgestellt und auf drei zentrale Punkte vereint, welche für den Entwurf multimodaler Systeme von Bedeutung sind:
14
Zusätzlich zu diesen Arbeiten existieren heute auch eine große Zahl an empirisch beim Entwurf und Einsatz multimodaler Systeme erhobenen Informationen. Diese beziehen sich einerseits auch auf die Art und Weise wie Menschen interagieren, andererseits aber auch direkt auf Eigenschaften, welche multimodale Systeme aufweisen sollten. Ein Beispiel für die erstere Kategorie stellen beispielsweise die vielzitierten „10 Myths of multimodal Interaction“ dar (vgl. u.a. [55], im Original 1999 aufgestellt von Oviatt), welche einige der häufigsten Aussagen über multimodale Interaktion aufgreifen und entkräften, beispielsweise was die Effizienz oder die Vergleichbarkeit mit unimodaler Interaktion angeht. Ein Beispiel für die zweitere Kategorie geben Reeves et al., indem sie in [46] verschiedene Guidelines für das Design multimodaler Systeme spezifizieren. Diese enthalten unter anderem Aussagen über eine notwendige erhöhte Flexibilität und Benutzeranpassbarkeit, Beachtung von Sicherheits- und Privatsphärenaspekten sowie Empfehlungen bezüglich Fehlertoleranz und -korrektur.
2.3.2 Technische Architektur
Multimodale System unterscheiden sich untereinander zumeist hinsichtlich ihrer Fachlogik, welche der Erfüllung konkreter Aufgaben (dem Zweck ihres Bestehens) Rechnung trägt. Die Interaktionslogik und die umgebenden Komponenten sind jedoch meistens recht ähnlich. In [22] wird dazu eine gängige generische Architektur präsentiert, welche diese Komponenten beschreibt (Abb. 2.1, gegenüber der Originalquelle grafisch leicht modifiziert und aus dem Englischen übersetzt). In [55] wird zusätzlich eine konkrete Instanz einer solchen Architektur für ein Sprach-Zeigegesten-System beschrieben, welches weitgehend
15
2 Multimodale Interaktion
die Unterteilung aus [22] übernimmt 7 . Ähnliche Architekturmodelle mit Fokus auf konkrete Entwicklung interaktiver Systeme sind beispielsweise auch das ARCH-Modell [5] oder die architekturbezogenen Bestandteile des WWHT-Modells [48].
Aus der Grafik sind alle wichtigen Architekturbestandteile eines multimodalen Systems ersichtlich. Ganz oben findet sich die Schnittstelle zum Benutzer in Form verschiedener Ein-und Ausgabemodalitäten (Punkt 1 in Abb. 2.1). Handlungen des Benutzers werden hier
7 Sprach-Gesten-Systeme sind seit dem „Put-that-there“-System immer noch einer der meistverfolgten Ansätze
von multimodalen Systemen, daher ist dieses Beispiel naheliegend.
16
2.3 Entwurf multimodaler Systeme
via einer oder mehrerer Eingabemodalitäten zunächst erfasst, digitalisiert (beispielsweise A/D-Wandlung für gesprochene Sprache) und verarbeitet. Dann erfolgt die Übergabe an eine Fusions-Komponente (Punkt Nr. 2), welche die Informationen aus den verschiedenen Modalitäten zusammenführt und eine gemeinsame Bedeutung extrahiert (vgl. auch folgender Abschnitt). Diese Bedeutung dient als Eingabe für die zweite Komponente des multimodalen Kerns, die Dialogmanagementkomponente (Nr. 3), welche den aktuellen Zu-stand des Dialogs mit dem Benutzer verwaltet, und beim Eintreffen einer neuen Information diesen gegebenenfalls entsprechend aktualisiert. Erfordert es der aktuelle Zustand oder Zustandswechsel, wird mit der eigentlich Fachlogik der Anwendung kommuniziert (Nr. 4). Diese erhält dann beispielsweise neue Informationen, führt Berechnungen durch und liefert dem Dialogmanager ein Ergebnis zurück. Dieser kümmert sich wiederum darum, dass dieses Ergebnis dem Benutzer übermittelt wird, indem er das Ergebnis in einer modalitätsneutralen Form an die Fissions 8 -Komponente (Nr. 5) weitergibt. Die Fissions-Komponente wählt nun eine geeignete Repräsentationsform aus (welche durchaus auch modalitätsübergreifend sein kann), bereitet die bisher modalitätsneutrale Informationsdarstellung für die spezifischen Ausgabemodalitäten auf und übergibt sie an diese, welche wiederum für die tatsächliche Darstellung der Information sorgen (Nr. 6).
Von besonderer Relevanz für diese Arbeit ist die nun eben genannte Auswahl der Reprä-sentationsform. Die Fissions-Komponente greift hierfür auf die vierte Kernkomponente (Nr. 7), die Kontextverwaltung zu. Sie verwaltet gewissermaßen ein Modell der Anwendung und ihrer Umgebung (Duarte et al. schlagen in [21] in einem ähnlichen Architekturansatz eine Aufgliederung in User Model, Platform and Devices Model, Environmental Model und Interaction Model vor, welche hier ebenfalls implizit stattfindet, und später in dieser Arbeit ähnlich gehandhabt wird). Dieses Modell hält die Interaktion betreffende Informationen über den Kontext, den Benutzer, den bisherigen Benutzungsverlauf und die Umgebungsbedingungen vor. Diese Informationen sind meist Daten aus den in Abschnitt 2.2.5 beschriebenen Kategorien. Die Kontextverwaltung erhält ihre Informationen beispielsweise direkt aus geeigneten Sensoren (wie die Benutzerposition via GPS oder andere, via Sensorik wahrgenommene Werte), aus Äußerungen und Vorlieben des Benutzers oder auch aus dem momentanen Dialogzustand. Diese Informationen bilden zusammen mit den vom Entwickler für das System vorgegebenen Informationen (beispielsweise Eigenschaften von Ausgabegeräten) und festgelegten Verhaltensweisen die Basis für die Entscheidung zwischen Ausgabemodalitäten. Durch die technische Entwicklung ist insbesondere der sensorische
2 Multimodale Interaktion
Bereich ein großes Wachstumsgebiet; die Zahl der verfügbaren Kontext- und Umgebungs-informationsquellen ist heute sehr vielfältig. Beispielsweise kann durch die Verbreitung von aktuellen Smartphones und deren Nutzung in multimodalen Systemen heute bereits eine Vielzahl von direkt den Benutzer betreffenden Parametern wie Beschleunigung, Position (via GPS/WLAN), Ausrichtung (teilweise, via Kompass), Umgebungshelligkeit oder Umgebungslautstärke erhoben werden.
Generell kann für eine solche Architektur gesagt werden, dass durch die multimodale Interaktion oftmals eine begrenzte, weiche Echtzeitfähigkeit gefordert ist, um eine natürliche Interaktion zu ermöglichen. Zusammen mit dem oftmals nicht unerheblichen Erkennungs-und Verarbeitungsaufwand beispielsweise in der Sprach- oder Gestenerkennung stellt dies bei der heutigen verfügbaren Technologie immer noch eine Herausforderung dar. Dies führte beispielsweise auch dazu, dass multimodale Systeme immer öfter als verteilte Systeme (multi-agent architectures) konzipiert werden, wodurch die Rechenlast geteilt und die Ant-wortzeit verringert werden soll.
Konkrete Ausführungen ähnlich aufgebauter Architekturen sind beispielsweise FAME [21] (mit Schwerpunkt auf Adaptierung) oder ICARE [11].
2.3.3 Fusion und Fission
Die Fission und insbesondere die Fusion von Modalitäten sind einer der Punkte, an welchen sich multimodale Systeme stark von unimodalen Systemen unterscheiden. Diese beiden Vorgänge sind charakteristisch und wichtig für die multimodale Interaktion. Sie sollen im Folgenden kurz erläutert werden.
Fusion
Nach [22] ist das Ziel der Fusion, „[...] eine Bedeutung aus einer Menge von Eingabemodalitäten zu extrahieren und diese einem Mensch-Maschine-Dialogmanager zur Verfügung zu stellen“. Vereinfacht ausgedrückt könnte man also auch davon sprechen, dass in der Fusion die Informationen die über die verschiedenen Modalitäten eingehen zusammengefasst und bewertet werden. Bei diesem Vorgang können gegebenenfalls auch Widersprüche identifiert und aufgelöst werden.
18
2.3 Entwurf multimodaler Systeme
Die Fusion kann an verschiedenen Punkten im Eingabeteil des Interaktionsprozesses stattfinden. Folgerichtig spricht man abhängig von dem Punkt, an dem die Fusion tatsächlich stattfindet von early fusion oder entsprechend late fusion. Da diese Begriffe nicht immer einheitlich verwendet wurden, entstanden in der Literatur zusätzlich noch einige weitere Klassifikationsvarianten für eine feinere Untergliederung (beispielsweise in Data Fusion, Feature Fusion, Decision Fusion). Von einer early fusion (bzw. nach [55] feature level fusion) wird dann gesprochen, wenn die Zusammenführung der Daten bereits vor dem Erkennen der in den Informationen enthaltenen Semantik geschieht. Diese Methode ist insbesondere geeignet, wenn Modalitäten mit einem engen zeitlichen Bezug, zum Beispiel Lippenbewegungen und Sprache, zusammengeführt werden sollen. Die andere Art der Fusion, die late fusion (nach [55] semantic level fusion) ist das Gegenteil, sprich eine Fusion auf der Bedeutungsebene. Hier geschieht die Fusion nachdem die semantische Bedeutung der eingegebenen Information ermittelt wurde. So kann hier zum Beispiel ein Kopfschütteln und ein gesprochenes „Ja“ oder „Nein“ als gleichwertig beziehungsweise als widersprüchlich erkannt werden.
Unabhängig von der Art der Fusion ist es wichtig, den Fusionsvorgang unter einer sehr genauen Zeitkontrolle durchzuführen, sprich die eingegangenen Aktionen des Benutzers mit einem eindeutigen Zeitstempel zu versehen. Dies ist nötig, um mittels mehrere Modalitäten eingegangene Aktionen in eine zeitliche Relation zu setzen, was unter Umständen für Bedeutungsunterschiede und Referenzauflösung hilfreich ist.
Fission
Im Gegensatz zur Fusion existieren nur wenige Grundlagen in der Literatur zum Thema der Fission. Dies liegt vor allem daran, dass in den Arbeiten der letzten Jahrzehnte zum Thema multimodale Interaktion der Fokus vorwiegend auf mehreren Eingabemodalitäten lag, und in vielen Fällen gar keine oder nur eine sehr einfache multimodale Ausgabe stattfand.
Eine mögliche und für diese Arbeit passende Definition liefert Foster in einer Arbeit (vgl. [26]), die eine große Zahl bestehender Systeme auf ihre multimodalen Ausgabenmöglichkeiten hin untersucht hat. Sie definiert dort die Fission in multimodalen Systemen als „[...] process of realising an abstract message through output on some combination of the available channels.“. Die Fission dreht sich also, wie auch bereits im vorigen Abschnitt erwähnt, um den Vorgang, Informationen des Dialogmanagers, welche in einer modalitätsneutralen
19
2 Multimodale Interaktion
Form an die Fissionskomponente übergeben werden, tatsächlich durch eine oder mehrere Ausgabemodalitäten dem Benutzer zu übermitteln.
Nach Foster (und auch anderen Quellen wie z.B. [32]) kann der Vorgang der Fission in drei verschiedene Aufgabenbereiche bzw. Phasen unterteilt werden:
1. Auswahl und Strukturierung des auszugebenden Inhalts (kann auch außerhalb der Fission stattfinden)
2. Auswahl der Ausgabemodalitäten
3. Koordination der ausgewählten Ausgabemodalitäten
In der ersten Phase, der Auswahl- und Strukturierungsphase, ist die Hauptaktivität der Fissionskomponente das Finden einer zur Übermittelung an den Benutzer geeigneten Struktur und Repräsentationsform für die vom Dialogmanager gegebene Information. Es existieren verschiedene Ansätze für die Lösung dieses Problems, auf welche an dieser Stelle nicht näher eingegangen werden soll.
Die zweite Phase der Fission ist die Auswahl von Ausgabemodalitäten, oftmals auch betitelt als „media allocation“ (media wird hier quasi gleichbedeutend mit Modalität verwendet). Das Ziel dieser Phase ist es laut [1], mit einem jeweils vorgegebenen Satz von Daten und Modalitäten eine Modalitätskombination zu finden, welche geeignet ist die Daten in der gegebenen Situation effektiv zu transportieren. Arens et al. werfen hierzu in [3] die Frage auf, welches Wissen und welcher Entscheidungsprozess dazu benötigt wird. Hier geben beide Autoren bezüglich des Wissens eine ähnliche Liste von Faktoren an, die die Auswahl beeinflussen und bereits in 2.3.2 angesprochen wurden (u.a. Benutzerprofil, Wissen über die Modalitäten, etc.). Arens schlägt hier bereits einen regelähnlichen Ansatz vor, um dieses Wissen zu bewerten und zu verknüpfen (vgl. auch [2]), während nach [26] in den meisten Systemen dieses Wissen nicht explizit spezifiert, sondern beispielsweise in direkten Mappings vorliegt. Dies führt jedoch unter anderem zu schlechterer Änderbarkeit und Wartbarkeit des Systems.
Nach der Frage des Wissens ist nun noch die Frage nach dem Entscheidungsprozess von Interesse. Hier nennt Foster in [26] ebenfalls einige Beispiele bereits bestehender Systeme und deren verschiedene Ansätze. Als einfachster Vertreter kommt hier eine zur Designzeit festgelegte, starre algorithmische Entscheidung in Frage, welche beispielsweise im multimodalen System MAGIC [17] als eine Art einfacher, parametrisierbarer Mappings zum Einsatz kommt. Ein weiterer Ansatz ist die Komposition, welche aus dem Bereich von Infor-
20
2.3 Entwurf multimodaler Systeme
mationsgrafiksystemen wie PostGraphe stammt. Hier werden „kompatible“ auszugebende Informationsbausteine gruppiert, dann die dazu passenden Darstellungstechniken anhand ihrer Effektivität bewertet, und zum Schluss wird versucht die Informationskomposita via den höchstbewerteten Techniken zur Darstellung zu bringen. Weit verbreitet ist auch die Nutzung eines planbasierten Ansatzes, innerhalb welchem ebenfalls eine Modalitätsauswahl stattfindet. Dieser Ansatz basiert auf dem Vorhandensein mehrerer (domänenspezifischer) Darstellungsstrategien, welche bereits Vorgaben bezüglich der zu verwendenden Modalitäten enthalten. Eine Presentation-Planner -Komponente wählt anhand vorgegebener Bedingungen dabei jeweils geeignete Strategien aus. Ein planbasierter Ansatz kommt beispielsweise auch in SmartKom (vgl. [62]) zum Einsatz. Ein ähnlicher Ansatz, der aber anstatt nach Eignung nach der am schnellsten zur Verfügung stehenden Repräsentation auswählt, ist die Verwendung von sogenannten konkurrierenden Agenten wie im System MAGPIE (vgl. [29]). Der für diese Arbeit interessanteste Ansatz ist jedoch sicherlich der ebenfalls in der Literatur erwähnte regelbasierte Ansatz zur Modalitätsauswahl. Hierbei wird anhand der bereits genannten Eigenschaften bzw. des Wissens und vieler mehr oder weniger komplexen Regeln eine Entscheidung herbeigeführt. Auch in [3] wird ein solcher Ansatz vertreten. Hier werden auch eine Menge an abstrakt gehaltenen Regeln vorgestellt, welche zum Einsatz kommen könnten, insbesondere bezüglich der dort ebenfalls eingeführten Informations-Eigenschaftsklassen Dimensionalität, Transienz, Dringlichkeit, Informationsdichte und Umfang. Eine typische, von dort abgeleitete konkrete Regel könnte beispielsweise wie folgt lauten: „Wenn eine große Menge Informationen vermittelt werden soll, benutze nicht-transiente (statische) Repräsentationsformen“. In [26] werden zusätzlich zu Arens einige andere Quellen genannt, welche ebenfalls auf den Einsatz von Regeln bauen, jedoch herrscht dort meist ein einfacher Ansatz mit wenigen Regeln vor.
Der dritte und letzte Teil der multimodalen Fission besteht aus der Koordination der gewählten Ausgabemodalitäten. Diese sorgt einerseits für eine passende Darstellung der Informationen via den gewählten Modalitäten. Hier kann durchaus noch einmal ein der Modalitätsauswahl ähnlicher Prozess durchlaufen werden, indem die konkrete Darstellung der Informationen anhand verschiedenener Parameter oder Kontextinformationen modifiziert wird (Adaptierung, vgl. [18]). Auch können hier Generierungsprozesse stattfinden, um beispielsweise Text oder Grafiken anhand der Informationen aus der Fachanwendung zu erzeugen. Weiterhin obliegt der Koordinationskomponente die temporale Kontrolle der verschiedenen Modalitäten, ist also beispielsweise dafür zuständig, dass Lippenbewegungen eines virtuellen Agenten präzise mit der auditiven Sprachausgabe korrespondieren. Eine
21
Arbeit zitieren:
Florian Geiselhart, 2010, Evaluation eines prototypischen regelbasierten Ansatzes für Modalitätsentscheidungen in der Mensch-Maschine-Interaktion, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Informatik - Sonstiges: neuer Titel erschienen: Evaluation eines prototypischen regelbasierten Ansatzes für Modalitätsentscheidungen in der Mensch-Maschine-Interaktion
Florian Geiselhart hat einen neuen Text hochgeladen
Intelligent User Interfaces: Adaptation and Personalization Systems an...
Constantinos Mourlas, Panagiotis Germanakos
0 Kommentare