Inhaltsverzeichnis
1. Einleitung 2
2. Gegenstand der Arbeit 5
2.1 Vorbemerkungen 5
2.2 Arbeitsthese 6
3. Das Dialogsystem als Gesprächspartner 7
3.1 Die Anfänge maschineller Sprachverarbeitung 7
3.2 Sprachtechnologie im Alltag 9
3.2.1 Gegenwärtige Einsatzgebiete 11
3.3 Formale Vorrausetzungen 12
3.4 Verständnisprobleme 15
3.5 Die Fahrplanauskunft der Bahn 16
3.5.1 Allgemeine Informationen 16
3.5.2 Technische Details 17
3.5.3 Die Dialogstruktur der Fahrplanauskunft 22
4. Grundlegende Faktoren 25
4.1 Linguistische Aspekte der MCI 25
4.1.1 Sprechhandlungen als Bausteine der MCI 27
4.1.2 Sprachliche Zeichen - Bausteine der Sprechhandlungen 29
4.2 Der kommunizierende Mensch 30
4.2.1 Die auditive Wahrnehmung 31
4.2.2 Fragen und Antworten 33
4.2.3 Denkmodelle und der Zauberer von Oz 36
4.2.4 Die Konversationsmaximen nach Grice 38
III
5. Konversationsanalytische Aspekte in der MCI 43 5.1 Dialogsteuerung 44 5.1.1 Organisation des Sprecherwechsels 45 5.1.2 Sequentialität 49 5.2 Gesprächsphasen 53 5.2.1 Der Gesprächsbeginn 54 5.2.2 Der Hauptteil 59 5.2.2.1 Parallelsprechen 60 5.2.2.2 Reparaturmaßnahmen 61 5.2.3 Die Gesprächsbeendigung 65 5.2.3.1 Abbruchkriterien einer Beendigung 67 5.3 Zusammenfassung 68
6. Diskussion 70 6.1 Gemeinsamkeiten und Unterschiede 70 6.2 Revision des Dialogbegriffes 73 6.3 Loquor ergo sum 76 6.4 Adaptionsstrategien 79
7. Schlussbemerkung 81
8. Literaturangaben 82
Anhang A: Korrespondenz Hr. Gierisch 90
Anhang B: Technische Dokumentation 97 Anhang C: Fragebogen Versuchspersonen 98 Anhang D: Transkriptionen nach GAT 101e
IV
1. Einleitung
Das Genre des Science-Fiction-Films ist seit seiner Entstehung dazu prädestiniert, seinem Publikum eine mögliche Variante der Zukunft zu offerieren. Betrachtet man die Star Trek- Reihe,so wird deutlich, wie ihr Erfinder, Gene Roddenberry, sich die Interaktion zwischen Mensch und Maschine vorstellt: mittels natürlicher Sprache. In Star Trek IV 1 wird diese Vision persifliert, indem die Hauptdarsteller in die Vergangenheit zurückreisen, in das Jahr 1986, wo ein angestrebter natürlichsprachlicher Dialog zwischen dem Chefingenieur Scott und einem Computer vom Modell Apple Macintosh SE/30 fehlschlägt. In Ridley Scott’s Alien 2 kommuniziert die Besatzung des Raumkreuzers Nostromo mit Mutter, einer Software, die sämtliche Systeme des Schiffes steuert.
In den eben genannten Beispielen dient natürliche Sprache als Mittel zwischen einem Menschen und einem Computer, der selbst jedoch nur in Form einer Stimme in Erscheinung tritt. Weitaus visionärer sind die Visionen in George Lucas’ Opus Magnum Star Wars 3 . Hier sind Hard- und Software in teilweise sogar humanoider Gestalt, wie beim wohl berühmtesten Roboterduo der Filmgeschichte, R2D2 und C3PO, mobile Begleiter des Menschen und erzeugen die perfekte Illusion von autonom denkenden, sogar emotionalen Maschinen.
Die oben angeführten Beispiele vermitteln einen ersten Eindruck des zu behandelnden Themas. Auf der einen Seite ist eine Kommunikation wie in Star Trek IV heutzutage obsolet, andererseits sind thematisch uneingeschränkte Dialoge mit einem Mutter-Programm oder sogar mit einem Roboter als Imitation des Menschen noch nicht realisierbare Science Fiction. Es stellt sich daher die Frage, inwiefern der Mensch heutzutage mit einem Computer via des scheinbar natürlichsten Mediums überhaupt, der gesprochenen Sprache, kommuniziert. Lassen sich hierbei Änderungen im kommunikativen Verhalten konstatieren? Der bereits 1992 erbrachte Nachweis von Krause und Hitzenberger, „[…] daß das Sprachverhalten von Benutzern in der natürlichsprachlichen Mensch-Maschine-Interaktion (MCI) sich signifikant von dem Sprachverhalten in der zwischenmenschlichen Kommunikation unterscheidet […]“ (Kritzenberger, 1997: 20), soll anhand von Daten verifiziert werden, die anhand von Telefonanrufen von Testpersonen mit dem automatischen Sprachdialogsystem der Deutschen Bahn erhoben wurden.
Zunächst soll das zweite Kapitel in den Gegenstand der Arbeit einführen und eine Arbeitsthese präsentieren, welche als Ausgangspunkt für die späteren Kapitel fungiert. Die
1 Star Trek IV: The Voyage Home. Leonard Nimoy. Paramount Pictures: 1986.
2 Alien. Ridley Scott. 20 th Century Fox: 1979.
3 Star Wars. George Lucas. 20 th Century Fox: 1978-2005.
2
Brockhaus Enzyklopädie definiert den Begriff ‚Dialog’ allgemein als schriftliches oder mündliches Zwiegespräch oder Unterredung zwischen zwei oder mehreren Personen. Betrachtet man die involvierten Parteien einer Mensch-Computer-Interaktion, so steht auf der einen Seite die Software und auf der anderen Seite der Nutzer. Demzufolge beschäftigt sich das dritte Kapitel mit der Software als einem von zwei Gesprächsteilnehmern. Ein kurzer Abriss der historischen Entwicklung der Sprachverarbeitung leitet zum momentanen Stand der Technik über und zeigt heutige Einsatzgebiete, ehe die Fahrplanauskunft der Bahn eingehender betrachtet werden soll. Ziel dieses Kapitels soll es sein, die heutigen Grenzen der Technik aufzuzeigen und somit einen realistischen Eindruck davon zu vermitteln, inwiefern Veränderungen in der verbalen Kommunikation notwendig sind, um mit einer Software auf sprachlicher Ebene interagieren zu können.
Das vierte Kapitel konfrontiert die Mensch-Computer-Interaktion im Allgemeinen mit Grundannahmen der Linguistik konfrontieren, wobei der Rahmen für die folgende Analyse aufgestellt wird. Zunächst werden die gesprächskonstituierenden Sprechakte vorgestellt, die wiederum auf dem Gebrauch sprachlicher Zeichen beruhen. Beide Aspekte beziehen sich schwerpunktmäßig auf das System der Bahn und sind, an geeigneter Stelle kontrastiv, zum Nutzer gestellt. Ein zweiter Teil ist dem anderen Gesprächspartner gewidmet und soll biologische und psychologische Grenzen aufzeigen, die bei der Mensch-Computer-Interaktion zum Tragen kommen. Das Kapitel schließt mit der Präsentation der Konversationsmaximen von Grice und soll Übereinstimmungen und Verletzungen in den Gesprächen mit der Fahrplanauskunft der Bahn nachweisen.
Das fünfte Kapitel untersucht konversationsanalytische Aspekte der Mensch-Computer-Interaktion auf der Basis von Transkriptionen der aufgenommenen Telefonate. Von den dialogsteuernden Mechanismen (Organisation des Sprecherwechsels sowie Charakteristik der Sequentialität) ausgehend, orientiert sich der weitere Verlauf an den Gesprächsphasen und gliedert sich dem folgend in Gesprächsbeginn, thematischen Hauptteil und Beendigungsphase. Dabei soll auf die Phänomene des Parallelsprechens und der Reparaturmaßnahmen sowie auf vorhandene Abbruchkriterien einer Gesprächsbeendigung eingegangen werden. Eine bewusst knapp gehaltene Zusammenfassung rekapituliert die gewonnenen Erkenntnisse.
Die im vierten und fünften Kapitel gewonnenen Resultate rechtfertigen die in Kapitel 6 diskutierte prinzipielle Frage, ob die Andersartigkeit der Mensch-Computer-Interaktion einen direkten Vergleich mit zwischenmenschlicher Kommunikation überhaupt zulässt und, wenn nicht, inwieweit erklärende Aussagen darüber möglich sind.
3
Die Arbeit schließt mit einer knappen Zusammenfassung und einem vierteiligen Anhang, der den Fragebogen sowie die Korrespondenz mit Herrn Stefan Gierisch von der DB Personenverkehr GmbH, eine technische Dokumentation über die Entstehung des Corpus, den Fragebogen für die Versuchspersonen sowie die vollständigen Transkriptionen der aufgenommenen Telefonate nach den formalen Vorgaben des gesprächsanalytischen Transkriptionssystems GAT (Selting, 1998) bereitstellt.
4
2. Gegenstand der Arbeit
2.1 Vorbemerkungen
Die vorliegende Arbeit beschäftigt sich mit einer speziellen Art von Kommunikation, die sich aufgrund lokaler Distanz von der direktiven face-to-face Kommunikation unterscheidet. Durch die Verwendung des Mediums Telefon handelt es sich nach Wagner (2002: 103-105) um eine non-interaktive Kommunikation, die statt reflexiver Wahrnehmung eine reflexive Erwartungs- und Wissensstruktur beider Gesprächspartner aufweist. Zusätzlich ist einer der beiden Gesprächspartner ein Computersystem, so dass im Folgenden der Terminus Interaktion verwendet wird, der die wechselseitigen und aufeinander aufbauenden Handlungen bzw. Operationen von Mensch und technischem System treffend formuliert. Die Mensch-Computer-Interaktion (im Folgenden: MCI) definiert Neuhaus (2003: 24) als „[…] ein Zusammenspiel von drei beteiligten Faktoren: dem Benutzer, der zu erledigenden Aufgabe und dem hierfür benötigten Werkzeug - dem Computersystem.“ Diese Interaktion geschieht nach Neuhaus (ebd.) in zwei Dimensionen: zunächst bedarf es Benutzerschnittstellen bzw. -oberflächen, also Komponenten eines Computersystems, mit denen der Benutzer Informationen übermitteln und aufnehmen kann 4 , ehe der Mensch-Computer-Dialog als Grundlage informationsverarbeitender Prozesse beider Kommunikanten den wechselseitigen Austausch zwischen Nutzer und System gewährleistet. [Medien gelten] als Mittler, durch die in kommunikativen Zusammenhängen bestimmte Zeichen mit technischer Unterstützung übertragen, gespeichert, wiedergegeben oder verarbeitet und in abbildhafter oder symbolischer Form präsentiert werden. Die Zeichen fungieren dabei als Träger von Bedeutungen für die an der Kommunikation beteiligten Personen. (Tulodziecki, 1997: 37)
Neuhaus (2003: 6) leitet daraus den Hauptzweck der Medien ab: die Übertragung von Informationen. Soll der Versuch unternommen werden, medial vermittelte MCI genauer zu untersuchen, so muss vorab erwähnt werden, dass diese Technologie, obschon in einem relativ breiten Spektrum, lediglich in klar abgegrenzten Teilbereichen zur Anwendung kommt (Wooffitt et.al., 1997: 4) 5 . Darauf aufbauend stellt der folgende Abschnitt die Arbeitsthese auf, die im weiteren Verlauf bestätigt werden soll.
4 Ein guter Überblick findet sich beispielsweise bei Heinecke (2004: 94-129).
5 Es kann also keine Rede von uneingeschränkter natürlichsprachlicher MCI sein, wie sie in den Beispielen der Einleitung erwähnt ist [Anm. d. Verf.].
5
2.2 Arbeitsthese
Kochendörfer (1991: 263) erwähnt in einem frühen Aufsatz: „Sprecher passen sich dem Gesprächspartner an, auch wenn es sich bei diesem Gesprächspartner um eine Maschine handelt. […] Im Dialog wird der Maschine der Status eines vollgültigen Gesprächspartners nicht zugestanden.“ Wenn diese Anpassung, von der hier die Rede ist, auf der Basis einer impliziten Abgrenzung vorgenommen wird, der Sprecher also zum einen erkennt, dass er nicht mit einem Menschen kommuniziert und zum anderen, als Folge dessen, seine verbale Verhaltensweise modifiziert, so ergeben sich zwangsläufig Änderungen bei der MCI im Vergleich zur face-to-face Kommunikation.
In einer moderneren Untersuchung konstatiert Kritzenberger (1997: 152), verglichen mit den Konventionen zwischenmenschlicher Kommunikation, signifikante Abweichungen im Sprachverhalten des Nutzers in der natürlichsprachlichen MCI.
Der primär auslösende Faktor, der bereits zu Sprachvariationen führte, war das Computerbild des Benutzers, denn die Sprachvariationen traten bereits dann auf, wenn das Computersystem keinerlei Unterschiede im sprachlichen und kooperativen Verhalten zur parallelen zwischenmenschlichen Kommunikationssituation zeigte. Der Benutzer wechselte von sich aus zum Gebrauch anderer Mittel über, die […] als Abweichungen in der Interaktionserfahrung interpretiert werden können. Diese abweichende Erfahrungswirklichkeit war durch keine äußerlichen Veränderungen, sondern nur durch die Vorstellungen des Benutzers über die Funktionsweise des Computersystems bewirkt. (Kritzenberger, 1997: 152)
Sowohl nach Kochendörfer als auch nach Kritzenberger sind Variationen im kommunikativen Verhalten Ausdruck eines mentalen Nutzermodells über die MCI. Der Nutzer macht seine eigenen Vorstellungen von der Funktionsweise eines Computersystems zur Grundlage seiner MCI, ungeachtet dessen, ob diese mit der tatsächlichen Funktionsweise des Systems übereinstimmen. Damit stellen sich dem Leser zwei grundlegende Fragen: a. Inwiefern unterscheidet sich natürlichsprachliche MCI von der face-to-face Kommunikation, und
b. wie sind diese Variationen im konkreten Dialog realisiert? Den Rahmen, in welchem diese Fragen untersucht werden sollen, bildet, wie einleitend bereits erwähnt, die medial vermittelte Kommunikation in Form von Telefongesprächen. Da man keinen Einblick in die Gedanken der Nutzer haben kann, sind Aussagen über etwaige konzeptuelle Modelle eher Spekulation, so dass die Arbeitsthese sowie die oben angeführten Fragen anhand eines Vergleiches der MCI mit der zwischenmenschlichen Kommunikation verifiziert werden müssen. Dies wird in den Kapiteln 4 und 5 angestrebt.
6
3. Das Dialogsystem als Gesprächspartner
Nach Vorstellung der Arbeitsthese, an der sich die vorliegende Arbeit orientiert und welche im weiteren Verlauf durch die erhobenen Daten verifiziert werden soll, will dieses Kapitel den ersten Gesprächspartner vorstellen, um dem Leser einen ersten Eindruck von MCI zu vermitteln. Es kann nicht Ziel einer solchen Arbeit sein, ein detailliertes und umfangreiches Bild der modernen Sprachtechnologie zu präsentieren. Daher werden hier nur relevante Bereiche exemplarisch vorgestellt.
3.1 Die Anfänge maschineller Sprachverarbeitung
Die Anfänge natürlichsprachlicher MCI lassen sich grob in den 1950er Jahren datieren, als erste Versuche auf diesem Gebiet durchgeführt wurden. Auslösende Faktoren waren nach Schukat-Talamazzini (1995: 11) die Entwicklung des Klangspektrographen zur visuellen Darstellung von Schallsignalen (1946), eine akustische Theorie der Sprachproduktion (1948) und die Einführung des kommerziellen Digitalrechners (um 1958). Nach Lyre (2002: 12 ff.) ist der Beginn der moderner Kommunikationsforschung nach dem 2. Weltkrieg eng mit dem Beginn der Computerforschung verbunden und wurde zunächst eher als natur- und ingenieurswissenschaftliche Disziplin aufgefasst 6 . Wegweisend war die Informationstheorie der amerikanischen Mathematiker Shannon und Weaver (1948):
Ein denkender Mensch wählt eine bestimmte Nachricht aus einer Vielzahl von möglichen Botschaften (information source) aus, die in eine Folge von Symbolen, z.B. Lauten umgewandelt wird (transmitter). Das Signal wird aufgrund von vielfältigen Störgeräuschen (noise source) im Kommunikationskanal z.B. der Luftsäule verändert, so dass das erhaltene Signal (received signal) nicht mit dem Original identisch ist. Shannon beschreibt die
6 In Deutschland waren mathematisch orientierte Kommunikationsmodelle Teil der Neuorientierung der Sprachwissenschaft in den späten 60er und beginnenden 70er Jahren (Auer, 1999: 8).
7
Weiterleitung einer ‚Information’ im Modell, i.e. die physikalische Seite der übertragenden Daten, welche im streng mathematischen Sinn kein Derivat der Nachricht ist, d.h. die semantische Bedeutung einer Information bleibt unberücksichtigt 7 . Information ist nach Lyre (2002: 197) ein Maß für den Grad an Unterscheidbarkeit, d.h. der Wert einer Information basiert auf den möglichen zur Auswahl stehenden Alternativen. Je größer die Anzahl alternativer Möglichkeiten, umso relevanter ist die Nachricht, d.h. umso mehr Informationen enthält sie - umso höher ist der Informationswert. 8 Einheit einer Information ist die Binärziffer (binary digit bzw. bit), d.h. der Logarithmus zur Basis 2. Eine gesprochene Nachricht besteht normalerweise aus verketteten Lauten und ist somit eine Sequenz von informationstragenden Einheiten, deren linearer Kontext die Informationshaltigkeit der einzelnen Einheiten determiniert 9 . Wird eine Nachricht kodiert, so werden die einzelnen Informationseinheiten miteinander verkettet, z.B. ‚Obst’ = O+B+S+T. Aufgrund phonologischer bzw. morphosyntaktischer Gesetzmäßigkeiten einer Sprache existieren unterschiedliche Wahrscheinlichkeiten bei den Übergängen von einer Einheit zur anderen, so verdeutlicht Auer (1999: 10) die große Differenz der Anzahl möglicher Folgewörter nach ‚ein’ und nach einem Nomen wie z.B. ‚Frühstück’. Davon abhängig ist wiederum die grammatische Information der Folgewörter: stehen prinzipiell viele zur Auswahl, ist sie hoch, sind es nur wenige Optionen wie bei dem unbestimmten Artikel 10 , ist sie weitaus geringer. Produziert man einen Satz, so ist dieser nach dem mathematischen Modell der ‚finite state Markov processes’ beschreibbar und auf genau dieser Theorie der so genannten ‚markov chains’ bauen die Hidden-Markov-Modelle auf, die für die Spracherkennung unverzichtbar waren und immer noch sind.
In den 70er Jahren gab es erste Erfolge bei der Einzelworterkennung, doch waren die Systeme in ihrem Wortschatz extrem begrenzt, relativ benutzerunfreundlich und schlichtweg zu teuer. Entscheidend vorangetrieben wurde die Forschung zwischen 1971-76 durch Projekte im Auftrag des amerikanischen Verteidigungsministeriums (Schukat-Talamazzini, 1995: 12 ff.). In den 1980er Jahren setzten sich die o.g. Hidden-Markov-Modelle (im Folgenden: HMM) durch, welche gesprochene Sprache in kurze Zeitabschnitte (ca. 10 ms) segmentieren und anhand von Wahrscheinlichkeitsberechnungen
„[…] Beschränkungen für erlaubte Sequenzen von zu einem Satz kombinierbaren Wörtern enthalten. Für die Phoneme eines Wortes ist eine entsprechende Anzahl von Zuständen
7 vgl. auch Wagner (2002: 99 f.).
8 vgl. Lyre (2002: 19).
9 Zur Unterscheidung zwischen syntaktischen, semantischen und pragmatischen Aspekten von Information siehe Lyre (2002: 16, 198).
10 Gemäß Duden (2005: 337-344) sind im Deutschen nur ein oder mehrere Adjektive/Partizipien oder ein Nomen als korrekte Folgewörter erlaubt.
8
reserviert […]. An jeden Zustand […] ist eine statistische Ausgabefunktion gebunden, welche die phonetischen Realisierungsalternativen (unterschiedliche Wortaussprachen) gewichtet.“ (Kritzenberger, 1997: 47)
Ein HMM besteht also primär aus Zuständen und Übergängen zwischen den Zuständen 11 . Nach Hänggi et. al. (2002: 11) folgt im Deutschen beispielsweise einem l mit großer Wahrscheinlichkeit ein Vokal, wohingegen es eher unwahrscheinlich ist, dass auf ein p ein z folgt. Solche Modelle erstellen also Aussagen über Wahrscheinlichkeiten von gespeicherten Daten wie beispielsweise Lautabfolgen und ermöglichen damit eine beinahe parallele automatische Spracherkennung.
1997 veröffentlichte IBM die Software Via Voice und setzte damit Standards in der digitalen Spracherkennung (Hänggi et. al., 2002: 16). Das Programm ermöglicht die Befehlseingabe sowie das Diktieren von Texten durch natürliche Sprache und ist in der aktuellen Version Via Voice 10 eine der am meisten verbreiteten Applikationen. Diese und andere Software (u.a. von der Firma Linguatec 12 ) liegt nach einem sprecherabhängigen Training bei einer Geschwindigkeit von bis zu 150 Worten pro Minute und einer Worterkennungsrate von 90 % (Wahlster, 1999).
Im Folgenden soll ein bestimmtes Anwendungsgebiet dieser Technologie vorgestellt werden.
3.2 Sprachtechnologie im Alltag
Das vielleicht gewichtigste Argument aber betrifft die Aussicht, ein weltweit bereits vorhandenes, weitverzweigtes und […] bis zur Ebene der Privathaushalte ausgebautes Kommunikationssystem, das öffentliche Telefonnetz, für einen praktisch ortsungebundenen und rund um die Uhr und rund um den Globus verfügbaren Zugang zu rechnergestützen Informationen und Dienstleistungen nutzbar zu machen. (Schukat-Talamazzini, 1995: 2)
1861 konstruierte Johann Philipp Reis in Deutschland das erste Gerät zur Übertragung von Tönen durch elektromagnetische Wellen, das von Alexander Graham Bell zum Telefon weiterentwickelt und 1876 patentiert wurde. Mit der Erfindung des Selbstwahlsystems 1889 und dem weltweiten Telefonboom in den 1970er Jahren war der Siegeszug dieser Technologie nicht mehr aufzuhalten, die in der modernen Gesellschaft eine vitale Rolle einnimmt 13 . Nach Rabiner (1997: 507) wurde die Spracherkennung im Telefonnetzwerk zu Beginn der 1990er Jahre eingeführt. Eine Dekade später sieht Maracke (2003) in der modernen Sprachtechnologie „[…] immense Kostenvorteile, […], Realisierung von Rundum-die-Uhr-Services ohne zusätzliche Kosten oder behördliche Genehmigungen und gleich
11 vgl. dazu auch Class et. al. (1992).
12 siehe dazu http://www.linguatec.de/ (25.08.05).
13 vgl. dazu u.a. die Forschungsgruppe Telekommunikation (1989).
9
bleibende Servicequalität, auch nach dem tausendsten Gespräch und tief in der Nacht.“ Land (2004) weist darauf hin, dass gemäß der im Oktober 2003 veröffentlichten Untersuchung Sprachapplikationen auf dem Prüfstand bereits pro Tag 1,8 Mio. Vorgänge auf deutschsprachigen Sprachdialogplattformen ablaufen.
Der von Strateco (2004) veröffentlichte Praxisreport Sprachanwendungen auf dem Vormarsch zeigt die Notwendigkeit des Einsatzes von Sprachapplikationen in der Zukunft, um einfache Standardanrufe mit hohem Anrufaufkommen als Self Service via Sprache zu automatisieren. Die folgende Abbildung vermittelt einen Eindruck von relevanten Einsatzbereichen 14 .
Es kann festgestellt werden, dass die Automatisierungsrate durch den Einsatz von Sprachapplikationen zu einem höheren Service-Level führt 15 , was letztlich ein entscheidender Grund dafür sein wird, dass jedes Vierte der befragten Unternehmen den Einsatz von Sprachdialogsystemen plant 16 . Einer der entscheidenden Gründe hierfür ist, dass das Telefon den wichtigsten Kanal der Kundeninteraktion darstellt. Nach einer Umfrage der Gartner Group (2004) hat die Spracherkennungstechnologie im Hype Circle for Emerging Technologies die ausgereifte Stufe der Produktivität erreicht, was, zusammen mit den oben erwähnten Ergebnissen, belegt, dass der Einsatz von Sprachapplikationen nicht nur in Deutschland, sondern weltweit in eine neue Marktphase eintritt: „The speech technology and solution markets are moving from the early to the mass adoption stage” (Frost & Sullivan, 2004).
14 Interessant ist, dass knapp 40% der befragten Unternehmen bereits komplexere Vorgänge wie z.B. Buchungen, Reservierungen, Bestellen oder Kaufen über das Sprachdialogsystem abwickeln (Strateco, 2004: 21).
15 vgl. Strateco (2004: 24 f.). Die Automatisierungsrate (Call Completion Rate) gibt den Anteil der Anrufe wieder, die erfolgreich durch eine Sprachapplikation abgewickelt wurde.
16 vgl. Strateco (2004: 26 ff.). Die Prognose für 2005 sieht einen Anteil von Unternehmen mit einem Sprachdialogsystem in Höhe von 41%.
10
Das folgende Kapitel präsentiert einen kurzen Überblick über aktuelle Einsatzgebiete. Aufgrund der Vielfalt kann dies nur exemplarisch geschehen und verzichtet auf den Anspruch einer umfassenden Darstellung.
3.2.1 Gegenwärtige Einsatzgebiete
Sprachverarbeitende Anwendungen sind heute bereits in vielen unterschiedlichen Bereichen im Einsatz und lassen sich in zwei grundsätzlich verschiedene Gruppen unterteilen. Die eine dient zur Steuerung von Maschinen durch Spracheingabe, die andere wird zum Erfassen von gesprochenen Texten eingesetzt (Gurevych, 2004: 34; Ihm, 2005: 4). Die Technologie für Spracherkennung ist in der zweiten Gruppe heutzutage ausgereift und bietet relativ wenig Raum für Innovationen, wohingegen die erste Gruppe weit reichende Potenziale aufweist 17 . Der Wortschatz von Steuerungssystemen, also die Anzahl der Worte, die solch ein System in der Lage ist zu verstehen, ist relativ begrenzt und setzt keinen direkten Kontakt des Nutzers mit dem System voraus. Dies ermöglicht Steuerung aus der Distanz, im vorliegenden Fall durch indirekte Spracheingaben per Telefon. Sprachsteuerung kann beispielsweise die herkömmliche Bedienung von Maschinen via Knopfdruck 18 ersetzen oder den Anrufer bei der Bundesversicherungsanstalt für Angestellte (BfA) 19 begrüßen. Sprachgesteuerte Systeme übernehmen den kompletten Kundendialog eines Kinos 20 oder informieren über Nachrichten in der Mailbox von Mobilfunknetzen (z.B. Vodafone). Der Contact Manager der Clarity AG nimmt Anrufe entgegen, fragt ggf. nach, welchen Mitarbeiter der Kunde zu sprechen wünscht (z.B. im Falle einer Namensdopplung) und informiert diesen bei Abwesenheit über eine vorab individuell festgelegte Verbindung (SMS, Email, FAX etc.) automatisch über den erfolglosen Anruf bzw. der hinterlassenen Nachricht 21 . Einige der weltweit führenden Entwicklungen entstehen im Deutschen Forschungszentrum für Künstliche Intelligent (DFKI) in Saarbrücken. Der Leiter sowie Preisträger des Deutschen Zukunftspreises 2001, Wolfgang Wahlster, war maßgebend an der Entwicklung des Verbmobil-Systems beteiligt, das, Ende 2000, realisiert jedoch nie in der Praxis eingesetzt, als multilinguale Verarbeitungsplattform von Spontansprache für ausgewählte Themenbereiche bidirektional übersetzen kann 22 . Das
17 vgl. hierzu Kap. 3.2 [Anm. d. Verf.].
18 z.B. sprachgesteuerter Kaffeeautomat: http://www.heise.de/newsticker/data/anw-17.03.03-012/ (25.08.05).
19 BfA: Tel. 0800-3331919.
20 Kinopolis Filmpalast: Sprachdialogsystem Felix, Tel. 069-3140314.
21 Clarity AG Contact Manager: http://www.clarity-ag.net; Tel. 06172-138850. Abhängig von der Art der Weiterleitung kommt hierbei auch die zweite Funktion, das Erfassen und Verschriftlichen von Texten, zum Einsatz [Anm. d. Verf.].
22 http://www.deutscher-zukunftspreis.de/archiv/01_pt.htm.
11
Nachfolgeprojekt SmartKom benötigt, sofern die Software in einem PC-System implementiert wird, lediglich Mikrofon, Lautsprecher und Kamera, und kann zusätzliche Artikulationsmöglichkeiten wie z.B. Handgesten interpretieren bzw. fragt selbstständig nach, wenn es einen Befehl nicht versteht 23 . Die aktuelle Generation der S-Klasse von Mercedes-Benz kommuniziert mit dem Fahrer über das Comand bzw. Comand II System, welches nicht nur das Navigationssystem via Sprache steuert, sondern auch Telefonbedienung und Informationsabruf rund um das Fahrzeug ermöglicht 24 . Damit beschreitet das Unternehmen den Weg zur Vision von der nahen Zukunft des Automobils (Connected Car 25 ). Nach Hänggi et. al. (2002: 19 f.) erschien 2000 mit Seaman von Sega das erste PC-Spiel mit Spracherkennung - obwohl dies ein eher exotisches und womöglich sogar einzigartiges Beispiel aus der Unterhaltungsindustrie darstellt. Schließlich wird Sprachsteuerung ebenso in ganzen Lebensräumen verwendet, beispielhaft hierfür ist das so genannte intelligente Haus 26 , welches individuell anpass- und steuerbar ist.
Auch in der oben erwähnten zweiten Gruppe kommt Sprachtechnologie zum Einsatz. Bei der Spracherkennung zur Texterfassung werden gesprochene Worte bzw. Sätze verschriftlicht. Hierbei ist ein weitaus größerer Wortschatz notwendig, um zufrieden stellende Ergebnisse zu erhalten. So unterstützen beispielsweise Spracheingabeprogramme körperbehinderte Menschen in ihrer Arbeit mit dem Computer 27 .
3.3 Formale Vorraussetzungen
Wenn man Abweichungen von einer konventionalisierten Form im verbalen Verhalten betrachten will, wie es diese Arbeit anstrebt, so müssen zunächst die partizipierenden Sprecher in der jeweiligen Kommunikationssituation vorgestellt werden. Darüber hinaus muss geklärt sein, ob es formale Vorraussetzungen gibt, die für beide Dialogpartner gleichermaßen gültig sind. Dies soll anhand der gewonnenen Daten weiter unten geschehen 28 , hier geht es zunächst darum, allgemeine Vorgaben anzuführen.
23 siehe dazu u.a.: http://www.heise.de/newsticker/data/wst-19.04.02-000/ (25.08.05), Gurevych (2004: 51 ff.).
24 siehe dazu: http://www.mercedes-benz.de/content/germany/mpc/mpc_germany_website/de/home_mpc/ passenger_cars/home/products/new_cars/s-class_saloon/overview/comfort.0003.html.
25 vgl. dazu u.a.: http://www.ce.org/publications/vision/2005/julaug/p18.asp; http://www.iee.org/oncomms/ sector/transport/Articles/Object/6BA5D6C4-CDE2-2CD8-9EF93F52C46DA9E0; http://www.autofieldguide.com/articles/030403.html (26.08.05).
26 siehe dazu u.a.: http://www.intellihome.com; http://www.crestron.de.
27 z.B. Audio-Desktop für Sehbehinderte in Linux-Systemen: http://emacspeak.sourceforge.net/ (25.08.05), bzw. Diktiersysteme wie u.a. IBM Via Voice.
28 vgl. Kap. 5 [Anm. d. Verf.].
12
Wooffitt et al. (1997: 15) betonen die Notwendigkeit der weitgehenden Kompatibilität eines Sprachdialogsystems mit den Erwartungen, die der Nutzer an solch ein System stellt und die bereits in der Entwicklung berücksichtigt werden müssen. Solche Erwartungen beruhen auf den alltäglichen Erfahrungen des Nutzers, d.h. individuelle und konventionelle Erkenntnisse aus unzähligen Kommunikationsformen. Kamm et. al. (1997: 19) betonen, dass der durchschnittliche Nutzer sich zwar einige Befehle merken kann, jedoch stets Unterstützung brauchen wird 29 . Diese muss durch ein gutes Systemdesign gewährleistet sein und idealerweise Auskünfte über die möglichen Optionen, Bestätigungen über die eingegebenen Befehle zur Rückmeldung des erfolgreichen Dialogverlaufs sowie eine quantitativ begrenzte Menge an Informationen umfassen. Der Begriff Design hat nach Wagner (2002: 55 f.) eine Bedeutungserweiterung erfahren und bezieht sich nicht mehr exklusiv auf konkrete Dinge, die in ihren Eigenschaften so gestaltet sind, dass sie ohne Mehraufwand und intuitiv gebraucht werden können, sondern umfasst u.a. auch sprachliche Elemente, die als Benutzeroberfläche verwendet werden, um Gegenstände wie Computer oder andere technische Geräte zu manipulieren.
Andere formale Vorgaben lassen sich in Form von Normen finden. Sie beschreiben konventionalisierte und formulierte Standards und haben keinen Gesetzescharakter, d.h. die Befolgung ist grundsätzlich freiwillig und ohne rechtliche Grundlage. In der Norm DIN EN ISO 9241-10 (1996) 30 beschreibt die Internationale Organisation für Standardisierung (ISO), als Teil der ergonomischen Anforderungen für Bürotätigkeiten mit Bildschirmgeräten, die allgemeinen Leitlinien der Dialoggestaltung, unabhängig von Dialogart oder Interaktionsstil. Darunter werden sieben Punkte aufgelistet, die als empfehlenswert gelten, wenn man z.B. eine effiziente Software für elektronische Sprachverarbeitung schreiben möchte. „Ein Dialog ist aufgabenangemessen, wenn er den Benutzer unterstützt, seine Arbeitsaufgabe effektiv und effizient zu erledigen.“ 31 Darunter wird auch angeführt, dass nur notwendige Informationen präsentiert und nicht-relevante Arbeitsschritte vermieden werden sollen.
Selbstbeschreibungsfähigkeit 32 (Feedback) macht jeden einzelnen Dialogschritt durch Rückmeldung des Systems unmittelbar verständlich und garantiert somit, dass der Nutzer jederzeit nachvollziehen kann, was das System bis zur aktuellen Situation durchgeführt hat und welche Handlungsoptionen für das weitere Vorgehen zur Verfügung stehen bzw. welche Konsequenzen diese haben können. Steuerbarkeit 33 berücksichtigt die Notwendigkeit, den
29 Zur graduellen Differenzierung von Experten und Laien siehe Wagner (2002: 47-54).
30 vgl. dazu Heinecke (2004: 168-175).
31 DIN EN ISO 9241-10 (1996), Abs. 3.2.
32 ebd., Abs. 3.3.
33 ebd., Abs. 3.4.
13
Dialogablauf zu starten sowie seine Richtung und Geschwindigkeit zu beeinflussen, bis das Arbeitsziel erreicht ist. Unter Erwartungskonformität 34 versteht man die einheitliche bzw. konventionalisierte Darstellung gleicher Elemente und umfasst Wörter, die dem Nutzer ungeachtet möglicher Wissensdifferenzen aus Arbeitsgebiet, Ausbildung und Erfahrung bekannt sind. Der Punkt Fehlertoleranz 35 gewährleistet, dass das intendierte Arbeitsergebnis trotz erkennbar fehlerhafter Eingaben mit keinem oder minimalem Korrekturaufwand des Nutzers erreicht und dieser dabei vom System unterstützt wird. Individualisierbarkeit 36 beschreibt das Zulassen von Anpassungen an die Erfordernisse, Vorlieben und Fähigkeiten des Nutzers von Seiten des Systems. Schließlich wird unter Lernförderlichkeit 37 die Unterstützung und Anleitung des Nutzers durch das System zusammengefasst. Das Problem in der Anwendung von Normen besteht für Neuhaus (2003: 110 f.) darin, dass diese, zeitlich veraltet, den tatsächlichen Gegebenheiten moderner Entwicklung und Technik nicht entsprechen, technisch nicht exakt genug definiert sind und somit eher allgemeinen Charakter haben und keine Garantie für die optimale Benutzbarkeit einer Anwendung geben. Dennoch geben sie durch ihre intern abhängige Struktur eine Orientierungshilfe in der Entwicklung bestimmter Produkte.
Eine weitere Rahmenbedingung an moderne Sprachtechnologie wird mit Usability beschrieben, die gemäß DIN EN ISO Norm 9241-11 (1999) mit Gebrauchstauglichkeit als „[…] das Ausmaß, in dem ein Produkt durch bestimmte Benutzer in einem bestimmten Kontext genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufrieden stellend zu erreichen […]" 38 definiert ist. In seinem Konzept der Psychologie von Gebrauchsgegenständen führt Norman (1989: 14 ff.) Sichtbarkeit als ein zentrales Prinzip an, dessen Verwendung die Usability des Systemdesigns steigert. Darunter versteht er vom System vermittelte Signale oder Hinweise, die vom Nutzer interpretiert werden können, ohne darüber bewusst nachdenken zu müssen 39 . Sichtbarkeit, im Sinne von Wahrnehmbarkeit, ist bei telefonischen Auskunftssystemen wie der Fahrplanauskunft der Bahn wichtig und umfasst nach Wagner (2002: 57) neben bestimmten Aspekte wie angemessene Lautstärke und Sprechgeschwindigkeit auch redestrukturierende Signale, d.h. es muss für den Anrufenden intuitiv erfassbar sein, wann er zuzuhören und wann zu sprechen hat. Dies ist vor allem bei Telefongesprächen wichtig, da in dieser Art der Kommunikation nonverbale
34 DIN EN ISO 9241-10 (1996), Abs. 3.5.
35 ebd., Abs. 3.6.
36 ebd., Abs. 3.7.
37 ebd., Abs. 3.8.
38 zitiert nach Marazidou (2003: 13) [Hervorhebungen im Original].
39 z.B. durch die Vermeidung von Fremdwörtern oder komplexen Satzstrukturen [Anm. d. Verf.].
14
Begleithandlungen wie Blickkontakte, Gesten (z.B. Kopfnicken) oder Geräusche (z.B. Räuspern) entfallen und explizite Aussagen darüber getroffen werden müssen, um die Aufmerksamkeit des Anrufers auf den entsprechenden Redebeitrag (turn) zu lenken 40 . Ein Dialog in der zwischenmenschlichen Kommunikation orientiert sich zwar an normativen Konventionen, ist jedoch nicht durch Regeln festgelegt (Wooffitt et al., 1997: 14). Anders der MCI-Dialog mit dem System der Bahn, welcher durch seine vorab geplante und programmierte Frage-Antwort-Struktur eindeutig festgelegt und definierbar ist 41 , was letztlich ein Maximum an Funktionalität und Usability gewährleisten soll.
3.4 Verständnisprobleme
Schukat-Talamazzini (1995: 6 f.) verdeutlicht exemplarisch den notwendigen Umfang des Wortschatzes einer Software in Kommunikation mit einem Menschen. Die Spannbreite reicht von einem einelementigem Wortschatz Stopp zur Unterbindung eines Weckalarms über Ja/Nein einer Menüsteuerung bis hin zu 8000-20.000 Wörter der Alltagssprache. Ein typischer Auskunftsdialog, wie im Folgenden näher betrachtet, wird in einem notwendigen Umfang von immerhin durchschnittlich 500-2000 Worten beschrieben. Es wird deutlich, dass mit ansteigender Dialogkomplexität auch die Wahrscheinlichkeit von Fehlern in der Spracherkennung zunimmt.
Dabei ist der Fehlerfaktor Mensch zwar heutzutage die häufigste, nicht jedoch die einzige mögliche Quelle für Verständnisprobleme. Nach Schukat-Talamazzini (1995: 8 ff.) sind vier Aspekte zu unterscheiden, die dem System Probleme bereiten können. Zunächst ist der Sprachschall kontinuierlich und macht es einem Programm somit schwer, eindeutige Grenzen, z.B. zwischen Worten oder Sätzen, zu identifizieren 42 . Der Begriff Koartikulation beschreibt nach Schwitalla (1997: 34 f.) eine Überlappung der Artikulationsbewegungen im kontinuierlichen Redefluss 43 . Diese nimmt mit ansteigender Sprechgeschwindigkeit zu und bewirkt Verschiebungen in den Frequenzen einzelner Segmente, so dass man, streng genommen, die Vorstellung von Lauten als diskrete Einheiten aufgeben kann, sie jedoch aus praktischen Gründen beibehält 44 . Mit hoher Variabilität mündlicher Sprache wird die Unmöglichkeit bezeichnet, akustisch eindeutige Referenzprototypen zu finden, die für jeden Nutzer eine reibungslose Kommunikation gewähren könnten. Beispiel hierfür ist die
40 vgl. dazu Kap. 4.2.1 [Anm. d. Verf.].
41 vgl. dazu Kap. 3.4.2 [Anm. d. Verf.].
42 vgl. auch Rabiner (1997: 501 f.).
43 vgl. auch Wooffitt et. al. (1997: 170).
44 Schroeder (2004: 132) erweitert das Problem der Koartikulation auch auf Worte und Phrasen.
15
variierende Artikulationsgeschwindigkeit einzelner Laute in unterschiedlichen Kontexten und Positionen 45 . „Die größte Schwierigkeit bei der Spracherkennung besteht darin, dass ein und dasselbe Wort nie ein zweites Mal absolut identisch ausgesprochen werden kann […]“ (Ihm, 2005: 7). Schließlich müssen irrelevante Geräusche wie Räuspern oder Husten als diese erkannt und gefiltert werden. Automatische Spracherkennung benötigt aufgrund ihrer Komplexität eine hohe Rechenleistung sowie große Speicherkapazitäten, und letztlich
verursacht die Ambiguität zwischen Worten und ihren entsprechenden Realisierungen
Irreführungen in der Erkennung und Identifizierung. So bereitet das Auftreten von Homophonen wie Rat und Rad einer Software Probleme, ein Extrembeispiel wie Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen hinterher dürfte selbst leistungsstarke Systeme an ihre Grenzen führen.
Neben diesen linguistischen Schwierigkeiten führt Pröll (2004: 2) auch sprachexterne Probleme an, welche die MCI negativ beeinträchtigen können. So ist die beschränkte Bandbreite der Sprachfrequenzen einer Telefonleitung (300-3400 Hz) eine Beeinträchtigung, hinzu kommen weitere erschwerende Faktoren wie Störgeräusche in der Telefonleitung, unterschiedliche Kodierungsverfahren der Telefongesellschaften, Qualität des eingebauten Mikrofons und Umgebungsgeräusche bzw. Übertragungsfehler vor allem in Mobilfunknetzen. Nach dieser knappen Einführung in mögliche Probleme möchte das anschließende Kapitel das Sprachdialogsystem der Bahn, den virtuellen Gesprächspartner, vorstellen.
Die Fahrplanauskunft der Bahn 46 3.5
Zunächst sollen allgemeine Informationen den Leser mit peripheren Aspekten des Systems bekannt machen, ehe im Anschluss ein Überblick über die technischen Details angestrebt wird. Das Kapitel wird mit der Darstellung der Dialogstruktur abgerundet.
3.5.1 Allgemeine Informationen
Das Sprachdialogsystem der Bahn wurde im Mai 1999 nach elfmonatiger Projektlaufzeit und einer intensive Testphase mit 200 Probanden erstmalig in Betrieb genommen. Umgesetzt wurde es von der Firma Periphonics (heute: Nortel Networks). Die Datenbank wurde stetig
45 z.B. / k / relativ gleich, wohingegen / a / in rattern oder / a: / in Rathaus artikuliert wird [Anm. d. Verf.].
46 Die hier enthaltenen Informationen über die Fahrplanauskunft der Bahn sind durch einen Fragebogen an Herrn Stefan Gierisch, DB Personenverkehr GmbH / Automaten u. systembasierter Eigenvertrieb/Call Center, gewonnen worden. Der Fragebogen sowie die Korrespondenz sind im Anhang A enthalten [Anm. d. Verf.].
16
ausgebaut und erkennt sämtliche ca. 6600 deutsche Bahnhöfe und Bahnhaltepunkte sowie eine beachtliche Anzahl ausländischer Destinationen 47 . Im September 2002 kam es zum Neustart des Systems unter der bis heute aktuellen Telefonnummer 0800-1507090, wodurch eine Steigerung der Usability durch die Anpassung an DIN ISO Norm 9241-11 (1999) erzielt wurde. Des Weiteren werden fortlaufend Verbesserungen vorgenommen, um die Fehler bei der Spracherkennung zu minimieren. Die Kundenakzeptanz wird durch permanente Messung des Anrufervolumens festgestellt, darüber hinaus unternimmt die Bahn interne Mitarbeiterbefragungen, Einzelfragen in übergreifenden Studien und bemüht sich um ein Feedback durch den Kundendialog DB.
Im Januar 2004 führte die Bahn das barge-in (Unterbrechung der Ansage seitens des Anrufers) ein, jedoch steht diese Option nicht immer zur Verfügung, da das System nicht permanent duplexfähig ist, d.h. dass während einer Ausgabe des Computers keine Eingaben des Benutzers erfolgen können 48 . Das System verfügt über 120 Ports und bedient 10.000 Anrufer pro Tag mit einer Task Completion Rate von 51% 49 . Eine Erweiterung der Funktionalität z.B. Kauf und Reservierung ist in Konzeption, eine Umsetzung derzeit aber noch nicht beschlossen. Die automatisierte Auskunft der DB wurde für den VOICE Award 2004 in der Kategorie Bestes Voice User Interface nominiert 50 . Der folgende Abschnitt soll die der Fahrplanauskunft zugrunde liegende Technologie näher vorstellen. Dabei werden Verweise auf mögliche Varianten bewusst knapp gehalten, um den Fokus auf die Fahrplanauskunft der Bahn zu setzen und den Leser nicht unnötig zu irritieren.
3.5.2 Technische Details
Pröll (2004: 12) erklärt den Begriff der automatischen Spracherkennung als „[…] Umsetzung des gemessenen akustischen Sprachsignals in eine symbolische Form […], die mehr oder weniger den übermittelten Informationsgehalt des Sprachsignals repräsentiert. Im besten Fall ist es eine Kette der tatsächlich gesprochenen Wörter.“ Ist die Spracherkennung erfolgreich, so kann das System dem Nutzer Informationen geben oder andere Dienstleistungen wie Telefonbanking, Reservierungen oder Weitervermittlungen anbieten. Die folgende Abbildung fasst sämtliche Schritte eines Spracherkennungsprozesses am Beispiel eines Telefonates zusammen:
47 in z.T. sogar unterschiedlicher Bezeichnung und Aussprache.
48 vgl. Anhang A [Anm. d. Verf.].
49 http://www.voice-community.de/index.aspx?page=160 (24.08.05).
50 jedoch erfolglos, für die Preisträger siehe: http://www.voiceaward.de/index.aspx?page=128 (26.08.05).
17
Zunächst werden die Schallwellen vom Mikrophon des Telefons in elektrische Signale umgewandelt, die in digitaler Form das Spracherkennungssystem erreichen. Die Spracherkennung lässt sich aufgrund der Komplexität in eine Abfolge von Teilprozessen untergliedern, die je nach Programmierung unterschiedlich arbeiten. Sprachdialogsysteme sind in vielen technischen Variationen realisiert, dienen jedoch alle demselben Ziel: natürliche Spracheingaben zu verstehen, gemäß ihren Programmierungen für die jeweiligen Anwendungsgebiete umzusetzen und Informationen sprachlich zu vermitteln. Dies ist nur dann möglich, wenn eine hochkomplexe Systemarchitektur aus unterschiedlichen Modulen optimal funktioniert. Man differenziert grundsätzlich sprecherabhängige von sprecherunabhängigen
Sprachdialogsystemen (Schukat-Talamazzini, 1995: 7). Die erste Kategorie (z.B. IBM Via Voice) ist technisch ausgereift und bezeichnet Software, welche, durch individuelles Training mit dem Programm, optimal auf den Nutzer abgestimmt wird, um einen zuverlässigen Dialog zu gewährleisten. Sprecherunabhängige Systeme wie das der Bahn sollen grundsätzlich mit jedem Nutzer fehlerfrei und ohne vorherige Anpassung kommunizieren können. Die Sprachausgabe erfolgt bei der Fahrplanauskunft der Bahn durch modifizierte und optimierte Wortkonkatenation (Schroeder, 2004: 104) 51 . Der Einsatz von vorab aufgenommenen Audiodateien ermöglicht eine perfekte Anpassung an die jeweiligen
51 Die Alternative zu Audiofiles, eine synthetische Sprachgenerierung durch Text-To-Speech-Programme (TTS), war zum Zeitpunkt der Inbetriebnahme des Systems noch nicht ausgereift. Hierbei werden schriftliche Texte, die in der Datenbank gespeichert sind, in gesprochene Sprache umgewandelt. Der Prozess beginnt mit einer Normierung von Varianten, beispielsweise muss „2.00“, „02:00“ oder „14.00“ in „zwei Uhr nachmittags“ / „vierzehn Uhr“ transformiert werden. Dann wird der Text gemäß den Regeln der jeweiligen Sprache in Laute oder ganze Worte transkribiert und mit dem passenden Gegenstück gesprochener Sprache in der Datenbank abgeglichen. Die Lautfragmente dienen nun als Vorlage für eine neu zu generierende sprachliche Äußerung, welche gemäß den Regeln auch prosodisch, z.B. Anhebung der Stimme in einem Fragesatz, optimiert wird [Anm. d. Verf.].
18
Bedürfnisse des Einsatzgebietes. Beispielsweise hat ein Unternehmen, dass sich für den Einsatz eines Sprachportals entscheidet, die totale Kontrolle über das akustische Erscheinungsbild, indem es professionelle Sprecher wie Schauspieler oder Synchronsprecher, so genannte Voice Talents, engagiert. Der Anrufer kann dann z.B. mit der ruhigen deutschen Synchronstimme Harrison Fords oder, wie im Fall der Bahn, von einer angenehm klingenden, weiblichen Stimme willkommen geheißen werden 52 . Nach Schwitalla (1997: 27 f.) repräsentiert die Stimme immer den ganzen Menschen mitsamt Aspekten wie Stimmung, Emotionen, Geschlecht, Autorität etc. Umso bedeutender ist die Wahl des richtigen Voice Talents. Ein gutes Beispiel dafür, wie schnell man zu Erkenntnissen über jemanden gelangt, dessen Stimme man wahrnimmt, bietet das Voice Talent der Fahrplanauskunft der Bahn. Nach der Eingabe des Abfahrtsbahnhofes gibt das System die Bestätigungsfrage [Name des Bahnhofes], korrekt / richtig? als Feedback aus. Auffallend ist, dass die Aussprache der Endsilbe -ig in diesem Fall gemäß IPA Notation als [ IÇ ] realisiert wird. Diese Variable in der Standardlautung kommt nach Schwitalla (1997: 43) nur nördlich der Linie Köln-Fulda vor, was ein Anrufer aus dem Süden Deutschlands als Variante seiner Standardlautung verstehen und die Stimme sukzessive als stigmatisiert klassifizieren könnte. Ein Nachteil von Audiofiles ist deren Flexibilität: eine Erweiterung des Systems ist nicht einfach realisierbar und kurzfristige Änderungen, z.B. bei variablen Inhalten, sind nicht möglich 53 . Der Einsatz von Audiofiles erklärt auch die unnatürlich anmutenden Pausen zwischen einzelnen Phrasen oder Wörtern bei der Ansage, da an solchen Stellen Audiodateien vom System aneinander gebaut werden.
Die Nutzereingabe erfolgt durch natürliche Sprache (Natural Language Understanding, NLU). Im Vergleich zum dual tone multifrequency dialing (DTMF), bei dem Informationen über das Betätigen der Telefontasten übermittelt werden 54 , ist NLU wesentlich einfacher und komfortabler zu bedienen und kommt damit der Forderung nach Usability nach. NLU macht eine Anpassung des Nutzers an das System unnötig, da er wie bei der face-to-face Kommunikation in ganzen Sätzen spricht, um Informationen zu übermitteln bzw. abzufragen. Durch den Einsatz moderner Automatic Speech Recognition-Programme (ASR) ist das System der Bahn in der Lage, bestimmte, vorab definierte Stichworte oder Wendungen, so
52 Die sanfte und beruhigende Stimme der ausgewählten Sprecherin soll auch bei mehrfacher Nachfrage des System dafür sorgen, dass die Kunden nicht die Geduld verlieren. Dieser Faktor kann aufgrund der individuell verschiedenen Reaktionen natürlich keine allgemeine Gültigkeit für sich beanspruchen [Anm. d. Verf.].
53 Bei Änderungen, z.B. Aufnahme neuer Bahnhöfe, muss aufwändig ein Studiotermin vereinbart werden, um die Aktualisierungen in die Datenbank übernehmen zu können [Anm. d. Verf.].
54 vgl. Sprachportal der BfA, Kap. 2.2.3 [Anm. d. Verf.].
19
genannte Schlüsselwörter, zu erkennen und zu verarbeiten 55 . Komplexe Menüs und umständliche sowie zeitraubende Menüführung sind hierbei überflüssig, da sie durch die Parallelität der Anfrage abgelöst werden 56 .
Nach Erbach (2000: 113) ist die Programmierung des Dialogablaufs ein kritischer Faktor, da sie umso komplizierter wird, je mehr Initiative und Variationen von Seiten des Nutzers bei der Eingabe zugelassen werden 57 . Der Dialog kann unterschiedliche Formen annehmen, wobei sich die Fahrplanauskunft der Bahn des systemgesteuerten bzw. systeminitiierten Dialogs (directed dialogue) bedient 58 . Hierbei wird der Nutzer vom System mit Hilfe von vordefinierten Fragen durch den Dialog geleitet (Wooffitt et. al., 1997: 18). Die Zuverlässigkeit bei der Spracherkennung wird durch die Beschränkung der Nutzereingabe auf einen begrenzten Wortschatz optimiert.
Die eigentliche Sprachanalyse bei sprecherunabhängigen Systemen wird derzeit von HMM dominiert 59 . Nach Gurevych (2004: 44 f.) versteht man darunter die nicht beobachtbare Analyse von Segmenten eines sprachlichen Ausdrucks auf der Basis von Wahrscheinlichkeitsalgorithmen. Auf der untersten Ebene werden Allophone analysiert, die als Segmente von Worten, Wortketten, syntaktisch/semantischen Einheiten und schließlich Sätzen erkannt werden. Nach Proell (2004: 14) wird das Sprachsignal zunächst in kurze Zeitintervalle unterteilt, welche dann nach charakteristischen Merkmalen interpretiert und durch einen so genannten Merkmalsvektor dargestellt werden können. Die Abfolge dieser Merkmalsvektoren ermöglicht es dann via HMM das gesprochene Wort bzw. in einem weiteren Schritt die Wortfolge akustisch-phonetisch zu klassifizieren 60 .
55 Zu Schlüsselwörtern vgl. Wilpon et. al. (1990), Lyre (2002: 126-130) und Gurevych (2004: 60-157).
56 z.B. „Nennen sie mir alle Abflüge von Lufthansa am 15.12.2005 zwischen 16 und 17 Uhr von Basel und Zürich nach London Heathrow.“ Für Shneiderman (2004: 102) sind solche Befehlssätze mit mehreren Informationen allerdings „[…] still a research challenge rather than a commercial success story.“
57 vgl. auch Rabiner (1997: 505).
58 Daneben gibt es Dialoge mit gemischter Initiative (mixed-initative dialogue), die der natürlichen zwischenmenschlichen Kommunikation sehr ähnlich sind [vgl. dazu Nöth et. el. (2004); bzw. Horndasch et. al. (2005)], sowie den nutzergesteuerten Dialog (user-driven dialogue), der hauptsächlich bei Sprachsteuerungssystemen (z.B. „Starte Microsoft Excel“) realisiert ist [Anm. d. Verf.].
59 vgl. auch Kap. 3.1, bzw. u.a. Schroeder (2004: 51 ff.), Wooffitt et. al. (1997: 173 f.), Ihm (2005: 9 f.).
60 vgl. dazu Proell (2004: 16 ff.).
20
Die Abbildung zeigt ein HMM für ein Wort mit vier Phonemen, wobei der Übergang a24 (durch Pfeil markiert) möglich ist, wenn ein Sprecher das e nicht ausspricht. Diese Flexibilität 61 gewährleistet die Erkennung von Worten via HMM trotz der typischen Merkmale gesprochener Sprache (z.B. Ellisionen) 62 . Hat die Sprachmodellierung ein mögliches Modell von den Signalen erstellt, wird dieses durch einen rechenaufwändigen Abgleich mit den wahrscheinlichsten gespeicherten Wortfolgen verifiziert. Ein gutes Beispiel 63 für die Funktionsweise dieser Modelle bietet Anruf Nr. 21:
04 S1 05
06 S2 07 S1 08 S2
09 S1
10 S2
11 S1
Das Wortfragment in Z. 06 wird vom System als Eingabe Schweiz verstanden (Z. 09), was vermutlich auf die Störungen während des Parallelsprechens zurückzuführen ist. Demnach wird die wiederholte Eingabe in Z. 10 auch als Friburg interpretiert, da es ein Freiburg in der Schweiz nicht gibt.
Geht man von der Erkennung einzelner Worte einen Schritt weiter, so ergibt sich die Frage nach der Grammatik. Gemäß Gurevych (2004: 60 ff.) versteht man unter Grammatik traditionell die vollständige und ideale Darstellung der morphologischen und syntaktischen Regularitäten einer Sprache. Im technischen Kontext hingegen „[…] wird dem Wort ‚Grammatik’ eine weitere Bedeutung zugewiesen. Insbesondere ist damit ein Grammatikformalismus gemeint, ein System struktureller Regeln, das eine Grundlage der Generierung und des Verstehens natürlicher Sprache bildet“ (Gurevych, 2004: 60). Zum einen ist Grammatik also die Beschreibung einer Submenge 64 natürlicher Sprache, die im Idealfall sämtliche möglichen Anfragen eines bzw. mehrerer Nutzer umfasst, zum anderen handelt es sich dabei um eine formalisierte Darstellung der Syntax dieser möglichen Sprachausschnitte,
61 z.B. ist ‚Ich brauche Rad’ unwahrscheinlicher als ‚Ich brauche Rat’, außerdem können Aussprachefehler wie Elisionen ausgeglichen werden: anstatt ‚Ich Fahrrad’ wird ‚Ich fahre Rad’ erkannt [Anm. d. Verf.].
62 Eine Alternative zu solchen Modellen sind künstliche neuronale Netze, die die Informationsverarbeitung im Zentralnervensystem simulieren (Schukat-Talamazzini, 1995: 82 ff.). Das System lernt autonom und gewichtet bestimmte Verbindungen zwischen Merkmalen eines Wortes unterschiedlich. Werden alle Merkmale eines Wortes erfüllt, so „feuert“ das Neuron und das Wort gilt als erkannt (vgl. dazu Schroeder, 2004: 55 ff.). Teilweise werden diese beiden Ansätze auch miteinander kombiniert, in diesem Fall spricht man von hybriden Netzen (vgl. dazu Schukat-Talamazzini, 1995: 161 f.).
63 S1 bezeichnet das System, S2 den Nutzer, bezeichnet die im Text behandelte Zeile (Selting, 1998: 116).
64 Der Begriff Submenge erklärt sich daraus, dass einer Software stets nur ein begrenzter Ausschnitt einer Sprache in der Datenbank zur Verfügung stehen kann. Ein allumfassendes Corpus des Deutschen zu einem bestimmten Zeitpunkt ist reine Utopie [Anm. d. Verf.].
21
die am ehesten als Programm-Code bezeichnet werden kann. Es ist ersichtlich, dass eine Grammatik ein elementarer Teil einer Spracherkennung und Vorraussetzung für jegliche Interaktion ist. Dabei unterscheidet man regelbasierte von statistischen Grammatiken. Regelbasierte Grammatiken werden manuell erstellt und sind dadurch nicht vom System erweiterbar. Sie sind thematisch begrenzt und arbeiten, ähnlich den Audiofiles, sehr effizient in ihrem Bereich, da sie im Idealfall alle möglichen Äußerungen abdecken. Im Gegensatz dazu beruht eine statistische Grammatik, wie sie bei der Fahrplanauskunft der Bahn zum Einsatz kommt, auf Wahrscheinlichkeiten. Das System lernt selbständig, bestimmte Strukturen zu erkennen und zu kategorisieren, benötigt dazu jedoch eine große Menge an Daten 65 . Vorteil hierbei ist, dass die Bahn eine offene, also erweiterbare Grammatik einsetzt. Der aus den formalen und technischen Vorraussetzungen gewonnene Eindruck lässt auf den ersten Blick die Schlussfolgerung zu, dass es von Seiten des ersten Dialogpartners prinzipiell keine Behinderungen der Kommunikation gibt. Das System arbeitet effizient und ist in sich optimal entwickelt und auf das jeweilige Anwendungsgebiet abgestimmt. Im Folgenden soll nun die Struktur des Dialoges mit dem System der Bahn vorgestellt werden.
3.5.3 Die Dialogstruktur der Fahrplanauskunft
Abbildung 5 zeigt die Struktur des Dialogs mit dem System. Hierbei sind die grünen Menüpunkte obligatorisch für den Dialog, wohingegen die schwarz gedruckten fakultativ sind.
Zu Beginn der Ansage wird der Nutzer darauf hingewiesen, durch die Eingabe des Befehls Anleitung weitere Informationen zu diesem Menüpunkt anfordern zu können. Nachdem Abfahrts- und Zielbahnhof eingegeben wurden, steht es dem Nutzer frei, eine Verbindung anhand der intendierten Ankunfts- oder Abfahrtszeit suchen zu lassen. Der Menüpunkt Datum/Uhrzeit ist vom System so angelegt, dass der Nutzer beide Angaben gleichzeitig machen kann. Wird dies nicht genutzt, so erfolgt zunächst die Datumseingabe und im Anschluss das Nennen der Uhrzeit.
Nach erfolgter Spracheingabe des Abfahrts- und Ankunftsbahnhofes, des Datums und der Uhrzeit lässt sich das System jede Eingabe durch Rückfrage erneut bestätigen, um Missverständnisse auszuschließen. Hierbei ist es interessant zu erwähnen, dass eine präzise Eingabe wie in Anruf Nr. 9 (Z. 07) nur eine Bestätigungsfrage erforderlich macht,
65 Eine Möglichkeit besteht darin, das System mit einem Call-Center oder ähnlichen Institutionen zu vernetzen. Zwangsläufig ergeben sich daraus sehr umfangreiche Datenbestände, die wiederum die benötigte Rechenzeit erhöhen [Anm. d. Verf.].
22
wohingegen die umgangssprachliche Nennung des Rufnamens der Stadt zwei Rückfragen benötigt 66 .
Macht die gewünschte Verbindung einen oder mehrere Umstiege notwendig, so lassen sich diese optional ansagen. Nachdem die gesuchte Verbindung erklärt wurde, stellt das System dem Anrufer zur Auswahl, die Information zu wiederholen, sich frühere oder spätere Verbindungen ansagen zu lassen oder mit dem Befehl Weiter in ein finales Menü zu wechseln. Dort wählt der Nutzer zwischen Rückfahrt suchen bzw. andere Zeit eingeben und wird vom System zum früheren Menüpunkt Abfahrts- oder Ankunftszeit weitergeleitet. Entscheidet man sich für die Suche nach einer neuen Verbindung, gelangt man automatisch zum Ausgangspunkt Abfahrtsbahnhof zurück, wählt der Nutzer die Option Buchung und Kauf, so wird er vom System an eine kostenpflichtige Hotline der Deutschen Bahn verwiesen, wo ihm ein persönlicher Kundenberater weiterhilft 67 . Mit dem Befehl Ende verabschiedet sich das Sprachdialogsystem signifikant mit auf Wiederhören.
66 vgl. dazu Anruf Nr.2 (Z. 07-12).
67 Durch die Spezialisierung des Systems auf reine Ansage erfüllt sich Wagners (2002: 353) Forderung nach Kontextualisierung: durch eine Funktionsreduktion erhöht sich der Usability-Wert. Die kostenpflichtige Servicehotline Tel. 11861, bzw. www.bahn.de [Anm. d. Verf.].
23
Arbeit zitieren:
Christopher Golz, 2006, Kommunikation mit der Fahrplanauskunft der Bahn? Eine kritische Gesprächsanalyse, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Zum Aussagewert alternativer A...
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Referat (Ausarbeitung), 22 Seiten
Bilanzierung und Bewertung von Finanzanlagen nach HGB und IAS/IFRS
BWL - Rechnungswesen, Bilanzierung, Steuern
Diplomarbeit, 84 Seiten
Brand Potential Index - Darstellung und Anwendungsmöglichkeiten
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Hausarbeit (Hauptseminar), 23 Seiten
Allgemeiner Kündigungsschutz in Deutschland im Vergleich zu ausgewählt...
Diplomarbeit, 88 Seiten
Der Wert einer Marke - Markenbewertungsmodelle und deren kritische Wür...
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Diplomarbeit, 118 Seiten
Rechnungslegungskonzeptionen nach IAS/IFRS und HGB im kritischen Vergl...
BWL - Rechnungswesen, Bilanzierung, Steuern
Masterarbeit, 67 Seiten
Die 'Big Five' - Fünf-Faktoren-Modell zur Beschreibung der Per...
Psychologie - Persönlichkeitspsychologie
Seminararbeit, 30 Seiten
Markenmanagement im Medienbereich - Identitätsorientierte Markenführun...
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Diplomarbeit, 109 Seiten
Projektmanagement zur Einführung einer mobilen Datenerfassung
Studienarbeit, 40 Seiten
Das Experiment in der Medienwirkungsforschung
Medien / Kommunikation - Methoden und Forschungslogik
Seminararbeit, 20 Seiten
Der Moderator als Manipulator - Schlingensiefs U3000, eine Analyse
Soziologie - Methodologie und Methoden
Hausarbeit, 33 Seiten
Der Künstler als Unternehmer?!
Eine theoriebasierte Analyse i...
Medien / Kommunikation - Medienökonomie, -management
Diplomarbeit, 63 Seiten
Sean O'Casey's Dublin Trilogy: A closer look on how social set...
Seminararbeit, 18 Seiten
Regelungstechnik und Flugregler
2. ergänzte Auflage
Ingenieurwissenschaften - Luft- und Raumfahrttechnik
Skript, 155 Seiten
Auswirkungen der Umstellung von HGB auf IAS/IFRS auf Gewinnausweis und...
BWL - Rechnungswesen, Bilanzierung, Steuern
Hausarbeit (Hauptseminar), 19 Seiten
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Hausarbeit (Hauptseminar), 25 Seiten
Grenztöne im Deutschen - eine empirische Studie spontansprachlicher Te...
Magisterarbeit, 119 Seiten
Das Big-Five-Modell der Persönlichkeit - Anwendung im organisationspsy...
BWL - Personal und Organisation
Diplomarbeit, 64 Seiten
Christopher Golz's Text Kommunikation mit der Fahrplanauskunft der Bahn? Eine kritische Gesprächsanalyse ist nun auf dem Buchmarkt erhältlich
Christopher Golz hat den Text Kommunikation mit der Fahrplanauskunft der Bahn? Eine kritische Gesprächsanalyse veröffentlicht
Christopher Golz hat einen neuen Text hochgeladen
Alle Münchner U-Bahnhöfe in Fa...
Florian Schütz, Robert Schwandl, Mark Davies
Studyguide for Archaeology by Renfrew & Bahn, ISBN 9780500281475
&. Bahn Renfrew &. Bahn, Cram101 Textbook Reviews
DIE DTHIOPISCHE JOHANNES-APOKA
J Hoffmann
MARTYRIUM POLYCARPI EEN LITERA
B Dehandschutter
Gesprächsanalyse und dokumentarische Methode
Qualitative Auswertung von Ges...
Aglaja Przyborski
0 Kommentare