Die Spracherkennung hat sich in den letzten drei bis vier Jahren sehr entwickelt: Die künstliche Stimme ist lebendiger, aktiver und vielseitiger nutzbar. Computer, Smartphones und sogar Autos lassen sich heute immer stärker mit der Stimme steuern. Lohnt sich diese Investition? Was steckt hinter dem von Amazon entwickelten Sprachassistenten für das Haus und ist Amazon ein Fortschritt im Bereich der künstlichen Intelligenz gelungen?
Seit 2011 verbreitete sich die Spracherkennung zunächst in den Smartphones. Hervor trat Apple Inc. mit dem sogenannten „Mobile Assistenten“ namens „Siri“. Auch Google, Samsung und Microsoft Corporation zogen mit dem Mobile Assistenten nach. Am 23. Juni 2015 brachte Amazon.com, Inc. die 1. Generation vom „Amazon Echo“ heraus. Zunächst in den Vereinigten Staaten von Amerika, mehr als ein Jahr später auch in Deutschland. Die Skepsis war zunächst groß: Was für einen Nutzen hat der große Zylinder mit Lautsprecher und Mikrofon?
Inhaltsverzeichnis
1 Einleitung - Vorwort
2 Was ist künstliche Intelligenz und Spracherkennung?
3 Amazon Echo, 1.Generation (2016)
3.1 Aufbau der Hardware
3.2 Wie funktioniert der Amazon Echo?
4 Experiment der Sprachsteuerung
4.1 Durchführung des Experimentes
4.2 Auswertung der Ergebnisse
4.3 Deutung der Ergebnisse
5 Fazit und zukünftige Entwicklung der Sprachsteuerung
6 Literaturverzeichnis
7 Glossar / Begriffserklärungen
8 Anhang Teil I
9 Anhang Teil II
1. Einleitung - Vorwort
Die Welt der Technologie wird immer moderner. Neue Spitzentechnologien wie die virtuelle Realität (VR), autonome Fahrzeuge oder der 3D-Druck begeistern uns täglich mehr und mehr. Ziel dieser Technologien ist es, unseren Alltag zu vereinfachen und lebendiger zu gestalten.
Auch die Spracherkennung hat sich in den letzten drei bis vier Jahren sehr entwickelt: Die künstliche Stimme ist lebendiger, aktiver und vielseitiger nutzbar. Computer, Smartphones und sogar Autos lassen sich heute immer stärker mit der Stimme steuern.
Seit 2011 verbreitete sich die Spracherkennung zunächst in den Smartphones. Hervor trat Apple Inc. mit dem sogenannten „Mobile Assistenten“ namens „Siri“.1 Auch Google, Samsung und Microsoft Corporation zogen mit dem Mobile Assistenten nach.
Am 23.Juni 2015 brachte Amazon.com, Inc. (im Folgenden „Amazon“) die 1.Generation vom „Amazon Echo“ heraus. Zunächst in den Vereinigten Staaten von Amerika, mehr als ein Jahr später auch in Deutschland.2 Die Skepsis war zunächst groß: Was für einen Nutzen hat der große Zylinder mit Lautsprecher und Mikrofon?
Lohnt sich diese Investition? Was steckt hinter dem von Amazon entwickelte Sprachassistenten für das Haus und ist Amazon ein Fortschritt im Bereich der künstlichen Intelligenz gelungen?
2. Was ist künstliche Intelligenz und Spracherkennung?
Der Begriff „künstliche Intelligenz" (Abk. KI, im englischen artificial intelligence, Abk. AI) stammt aus der frühen Informatik. Dieses Teilgebiet lässt sich wie folgt definieren: „[...] der Erforschung von Mechanismen des intelligenten menschlichen Verhaltens [...]. Dieses geschieht durch Simulation mit Hilfe künstlicher Artefakte, gewöhnlich mit Computerprogrammen auf einer Rechenmaschine.“. 1
Dieser Zweig befasst sich mit der Entwicklung von menschlichem Verhalten, beispielsweise logisches Denken oder Problemlösungen finden, mittels Computersystemen.
Marvin Minsky, amerikanischer Forscher auf dem Gebiet der künstlichen Intelligenz, führte den Begriff in seinem englischen Artikel „Steps toward Artificial Intelligence" (übersetzt: „Schritte zur künstlichen Intelligenz") ein. In seiner Einleitung beschreibt Marvin Minsky folgendes Problem:
„A computer can do, in a sense, only what it is told to do. But even when we do not know how to solve a certain problem, we may program a machine (computer) to search through some large space of solution attempts. Unfortunately, this usually leads to an enormously inefficient process.“. 2
Mit diesem theoretischen Ansatz befasste er sich, zusammen mit weiteren Informatikern, darunter John McCarthy, Mitbegründer des Artificial Intelligence Laboratory am Massachusetts Institute of Technology. John McCarthy stellte 1956 Programme vor, welche eine eigene künstliche Intelligenz besaßen und Schach oder Dame spielen konnten.
Als Spracherkennung definiert man die Entwicklung und Untersuchung, Daten mittels der gesprochenen Stimme zu erfassen. Die Forschung begann im Jahr 1960, zunächst jedoch erfolglos. 1984 stellte IBM (International Business Machines Corporation, amerikanisches IT-Unternehmen) das erste Spracherkennungssystem vor.3
3. Amazon Echo, 1.Generation (2016)
„Alexa“, der Amazon Echo, ist in Deutschland seit 2016 durch Werbung im Fernseher oder auf dem Online-Versandhändler Amazon bereits sehr bekannt. Das ästhetische und futuristische Design wirkte wie aus einem Scients Fiction Thriller, jedoch ist der Amazon Echo Realität geworden. 3
Der Amazon Echo ist ein zylinderförmiges Gerät mit einer Spracherkennungssoftware, welches mit sieben Mikrofonen und zwei Lautsprechern ausgestattet ist. Amazon beschreibt den Amazon Echo als ein Gerät, welches sich „[.] mit dem cloudbasierten Alexa Voice Service [.]“ verbindet, „[.] um Musik abzuspielen, Anrufe zu tätigen, Wecker und Timer zu stellen, den Kalender, das Wetter, die Verkehrslage und Sportergebnisse abzurufen, Fragen zu stellen, To-do- und Einkaufslisten zu verwalten, kompatible Smart Home-Geräte zu bedienen und mehr.“. 4
Amazon investierte rund 100 Millionen US-Dollar in die Entwicklung des Amazon Echos, insbesondere für die Spracherkennungssoftware.4
3.1 Aufbau der Hardware
In ihrem englischen Artikel „How Amazon Echo Works“ 5 beschreibt Bernadette Johnson den Amazon Echo detailreich. Der Amazon Echo ist mit einer Höhe von 23,5 Zentimetern und einem Durchmesser von 8,3 Zentimeter noch sehr kompakt. Der Amazon Echo besitzt im inneren sieben Mikrofone, welche durch eine Aktionstaste am Kopf aktiviert werden. Ein- oder ausgeschaltet werden diese durch eine weitere Taste. Ein Ring am Kopf, welcher die Lautstärke reguliert, ist an der Außenkante mit einem LED-Streifen versehen. Dieser wechselt der Situation entsprechend die Farbe, beispielsweise beim einkommenden Signalwort „Alexa“ wird der Ring zyan und blau.5 Der Amazon Echo muss durchgehend mit Strom versorgt werden. Die Stromzufuhr kommt am unteren Teil über ein 21-Watt-Netzteil an.6
Im Inneren des Gerätes7 befinden sich zwei nach unten abstrahlende8 Lautsprecher: Einen ca. 6 Zentimeter-Tieftöner und einen ca. 5 Zentimeter-Hochtöner. Der WooferSound wird durch ein Bassreflexsystem verbessert und Verzerrungen vermieden. Das Gerät besitzt drei Platinen: Die erste dient als Strom- und Lautsprechertreiber. Diese wurde vom amerikanischem Unternehmen Texas Instruments Incorporated (auch bekannt als TI) entwickelt. Eine kreisförmige Platine sorgt für die Funktionalität der Bedientasten, dem Lautstärkerad, Status-LEDs und den Mikrofonen. Die rechteckige, seitlich angebrachte Platine über den Lautsprechern enthält die Gehirne und Kommunikationskomponenten (Anhang Teil I, Grafik 1).9
Für die Funktionalität der Kommunikation sorgen folgende Hardware-Geräte:
Abbildung in dieser Leseprobe nicht enthalten
3.2 Wie funktioniert der Amazon Echo?
Der Amazon Echo ist durch die programmierte Sprachsteuerung komplett mit der Stimme zu steuern. Mithilfe des Signalwortes „Alexa“ (umstellbar auf „Echo“, „Amazon“ und „Computer“)10 reagiert das Gerät mit einem Lichtsignal über den Lichtring. Der Lichtring wird blau, in der Richtung, aus der die Stimme kommt, wird ein Sechstel des Lichtrings zyan.
Der Lichtring ist ein Zeichen, dass „Alexa“ (die künstliche Intelligenz hinter dem Amazon Echo) aufmerksam geworden ist und nun Befehle, Fragen oder Ähnliches hört und darauf reagieren kann.
Sagt man beispielsweise „Alexa, Hallo!“, blinkt der Ring in blau und zyan und Alexa antwortet nach nur einer Sekunde (durch WLAN-Geschwindigkeit auch abweichend) mit „Hallöle. “. Wiederholt man diesen Satz hintereinander, dann kommen verschiedene Antworten, darunter „ Hallo.“, „Hi.“ oder „ Hallo. Wie geht es dir?“.
Weitere Funktionen (Es gibt auch unzählige weitere Fragen und Funktionen):
Abbildung in dieser Leseprobe nicht enthalten
Durch Amazons Echo spart man sich das Suchen mithilfe von Suchmaschinen, das Rechnen mit dem Taschenrechner, das Anschalten der Lichter, das Abspielen der Musik oder das Lesen von Nachrichten auf sozialen Medien und mehr.
Auch Spaß bringt der Amazon Echo mit: Alexa ist eine humorvolle Intelligenz. Sie erzählt Witze, macht Tiergeräusche nach und reagiert zudem auf alles, beispielsweise „Alexa, Glückwunsch!" - Alexa antwortet mit einem lauten „Wohooo!“
Auch die sogenannten „Skills“ erweitern Alexa um weitere Funktionen.
„Skills sind zusätzliche Fähigkeiten, welchen Alexa aufgewertet wird. [...] Insgesamt gibt es in der Zwischenzeit mehr als 3.000 Skills für den Amazon Echo. Diese können sie bequem [.] über die kompatible Alexa App aktivieren. [.] Die häufigsten Kategorien dieser Skills belaufen sich auf Spiele, Quizz, Lustiges, Wissenswerten und Bildung. [.] Diese „Skills“ machen Alexa zu einen Allround Talent.“. 6
4. Experiment der Sprachsteuerung
Der Amazon Echo wird über die menschliche Stimme gesteuert: Egal ob im Wohnzimmer, in der Küche oder im Badezimmer.
Die menschliche Stimme, am Beispiel der deutschen Sprache, kann jedoch sehr verschieden sein. Dialekte oder Sprachfehler unterscheidet die menschliche Sprache. Diese Faktoren werden im Experiment untersucht, denn es fängt schon bei der Geschwindigkeit unserer Sprache an: Wir Menschen haben überwiegend eine kontinuierliche Sprache, dies bedeutet, dass „[.] die Worte ohne Pause aneinandergereiht [.]“ 11 sind.
Die Gegenüberstellung von der kontinuierlichen Sprache ist die diskrete Sprache, welche man von älteren Computersystemen kennt. In der Sprache werden einzelne Wörter laut, deutlich und langsam ausgesprochen.
Mit diesem theoretischen Ansatz habe ich mir Gedanken gemacht, wie Spracherkennungssoftware mit
a. Diskreter und kontinuierlicher Sprache
b. Deutschen Dialekten
c. Sprachstörungen
d. Grammatikalische Fehler
umgeht.
Somit habe ich 6 Tabellen erstellt (Anhang Teil II), mit denen ich das Experiment anhand meines eigenen Amazon Echos getestet habe.
4.1 Durchführung des Experimentes
Die Tabellen 1 - 6 zeigen zufällige Sätze, die genauso gesprochen wie verschriftlicht worden sind. Es gab insgesamt 5 Durchläufe. In jedem Durchlauf wurde jeder Satz einmal in der dazu beschriebenen Sprache gesprochen. Die Verbindung zum WLAN war stabil, es gab keine Störungen.
Die Antworten von Alexa worden gehört, jedoch war für das Experiment interessant, was Alexa verstanden hat. Durch die verbundene Alexa-App konnte man die von mir gesprochenen Sätze durch eine Audio-Datei wiederholen und lesen, welchen Satz Alexa verstanden hat. Dieser Satz wurde in die Tabelle eingetragen, auch die Grammatik (Zeichensetzung, Groß- und Kleinschreibungen) wurden übernommen.
Das dazu verwendete Amazon Echo-Gerät wurde auf die Werkseinstellung zurückgestellt und standardmäßig konfiguriert (WLAN eingerichtet, keine „Skills“ oder ähnliches vorhanden).
Sollte die Spracherkennung menschlich und eine künstliche Intelligenz sein, erwarten wir menschliche Antworten und auch, dass Sätze überwiegend verstanden werden.
[...]
1 Wikipedia: Siri (Software)
2 Wikipedia: Amazon Echo
3 Stefan Buschmann, Stefan Krause: Computerlinguistik I Sprachliche Informationsverarbeitung
4 Volker Zota: Amazon: 100 Millionen US-Dollar für sprachgesteuerte Produkte
5 Amazon, Hilfe und Kundenservice: Informationen zum Lichtring
6 Texas Instruments Incorporated, Produktbeschreibung von DM3725 ARM Cortex-A8
7 Texas Instruments Incorporated, Power-Management: Übersicht
8 Wikipedia: NAND-Flash
9 Qualcomm: Produktbeschreibung von QCA6174A Chipset
10 Amazon, Hilfe und Kundenservice: Aktivierungswort ändern
11 FH-Wedel: Technische Problemstellung - Seminare, Ausarbeitung
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.