Chatbots – Tokenisierung der Eingabe


Hausarbeit, 2009

13 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Chatbots
2.1 Begriffserklarung
2.2 Bekannte Chatbots
2.2.1 ELIZA
2.2.2 ALICE
2.2.3 Jabberwacky
2.3 weiterfuhrende Entwicklungen

3 Tokenisierung
3.1 Begriffserklarung
3.2 Einzelaufgaben der Tokenisierung
3.2.1 Abkurzungen erkennen
3.2.2 Sonder- und Satzzeichen erkennen
3.2.3 Kontraktionen behandeln
3.2.4 komplexe Tokens erkennen
3.2.5 Normalisieren von Token
3.2.6 Klassifizieren von Token

4 Zusammenfassung und Fazit

I. Abbildungsverzeichnis

II. Quellenverzeichnis

1 Einleitung

Das Internet ist ein Medium bzw. hat sich innerhalb kurzester Zeit zu diesem entwickelt, welches sich aus dem Leben von hunderten Millionen Menschen nicht mehr wegdenken lasst. Fur Unternehmen, die sich auf dem E-Commerce-Markt, welches den elektronische Handel im Internet meint, einen Anteil sichern wollen, ist es wichtig, den Benutzern eine Oberflache bzw. eine Umgebung bereitzustellen, die es ihnen einfach macht, die gesuchten Informationen zu finden und ihren Bedurfnissen entspricht. Der steigende Umfang des Internets ist also auch ein Grund dafur, dass der Wunsch nach personifizierten Gesprachspartnern wachst.

Obwohl einer Website so viel Bedeutung angerechnet wird, sie also ein wichtiges Instrument fur Unternehmen sein sollte, ist an der Benutzeroberflache immer noch ein groBes Defizit zu erkennen.

Das Internet ist zwar ein alltagliches Werkzeug fur jedermann geworden und trotzdem ist es fur die Mehrheit der Benutzer zu kompliziert und unubersichtlich. Zum Beispiel der Umgang mit Suchmaschinen, dort ergeben sich oft Probleme mit der umfangreichen Trefferliste von Ergebnissen. Weiter Probleme die immer wieder auftauchen konnen ergeben sich direkt auf den Webseiten. Sucht ein Nutzer Informationen auf einer dieser Websites, ist es ihm oft nicht moglich das gesuchte auch zu finden. Die Informationen sind oft nicht gut strukturiert bzw. dargestellt oder aus dem Kontext nicht in Erfahrung zu bringen. In einer Studie uber 15 groBe kommerzielle Websites haben Jared Spool and colleagues herausgefunden, das bei der Suche nach einer konkreten Information nur 42 Prozent aller Besucher erfolgreich waren (Braun, 2003, S.3, Vgl. Nielsen, 1998a). Das Ergebnis, dass sich daraus ergibt ist, dass die Nutzer die Suche nach Produkten oder ahnlichem abbrechen, weil sie zu Benutzerunfreundlich sind. Dadurch ergibt sich die Gefahr, dass viele Kunden vom Angebot des Onlinekaufs wieder abspringen. Ein weiter Grund ist auch, dass es viele Kunden gibt, die es einfach vermissen beim Einkaufen Fragen stellen zu konnen.

Die Probleme im Umgang mit dem Computer bzw. dem Internet lassen sich in drei Hauptbereiche (Braun, 2003, S.8) einteilen. Als erstes gibt es da den Bereich der „Sprachproblematik“ (Braun, 2003, S.8), welches das Kommunikationsproblem zwischen Mensch und Maschine widerspiegelt. Dieses resultiert daraus, dass sie einfach nicht auf dieselbe Art und Weise kommunizieren.

Das zweite Problem ist die ,,Divergenz der Bedurfnisse“ (Braun, 2003, S.8), was die unterschiedlichen Anforderungen von Mensch und Maschine darstellt. Um eine optimale Software fur ein System zu entwickeln, muss diese moglichst genau auf das System zugeschnitten werden, um eine bestmogliche Handhabung zu garantieren. Nun sind aber die Anforderungen des Systems andere als sie sich vielleicht der Benutzer wunscht und somit ergibt sich eine nicht gerade unkomplizierte Kommunikation zwischen den beiden Parteien. Das dritte Hauptproblem, was sich ergibt ist die bereits genannte ,,Komplexitat verteilter Systeme“ (Braun, 2003, S.8). Hiermit ist das Internet mit seinem Umfang und der Fulle an Informationen gemeint. Die Menschen bekommen ein Gefuhl von ,,lost in hyperspace“ (Braun, 2003, S.11), was bedeutet, sie verlieren die Obersicht, sind dadurch desorientiert und folglich verlieren sie ihre eigentlichen Absichten aus den Augen. Dadurch zeigt sich wiederholt, dass es nicht nur die Informationen selber sind, die fur den Benutzer wichtig sind, sondern auch, dass der Nutzer Informationen uber gesuchtes bekommt.

Entgegen der Anfange des Internets, wo die Anzahl der Nutzer noch gering und ihr Know­how uber die Anwendung hoher war, sind die Nutzerzahlen heute enorm gestiegen und oftmals nicht erfahren in den technischen Gegebenheiten. Aus diesem Grund ist die Bedeutung der Benutzerfreundlichkeit heute umso groBer und die Unternehmen konnen es sich nicht leisten alle Nutzer zu schulen. Sie mussen ihre Mittel also nicht in Schulungen sondern in die moglichst einfache Handhabung der Oberflache einflieBen lassen. Mit diesen Erkenntnissen und naturlich auch im Rahmen der technischen Entwicklung finden die Chatbots, auch bekannt als Chatterbots, in die Welt der Computer und Benutzeroberflachen einlass. Diese sind auf der Basis der naturlichen Sprache entwickelte virtuelle Berater. In der folgenden Arbeit wird intensiv auf den Bereich der Chatbots eingegangen und erlautert, in wie fern die Tokenisierung der Eingabe im Bereich der Chatbots Anwendung findet.

2 Chatbots

2.1 Begriffserklarung

Chatbots sind Softwareprogramme, die die Fahigkeit haben mit einem Benutzer in naturlicher Sprache zu kommunizieren. Sie simulieren dem Anwender in gewisser Weise einen authentischen Gesprachspartner.

Sie sollen ,,[...] Benutzern sowohl bei der Navigation durch komplexe Beschreibungen der Welt helfen als auch AnstoB dazu geben, bereits existierende Vorstellungsbilder automatisch anzuwenden, anstatt Zeit fur die Konstruktion unbeholfener Theorien uber die Intelligenz der Maschine aufzuwenden." (Braun, 2003, S. 17, Vgl. Cassell, 2001, S.6)

Die Voraussetzungen an ein solches Programm sind dass sie Anfragen von Benutzern analysieren konnen, Zugriff auf eine gewisse Basis an Wissen haben, sie mussen in der Lage sein ganze Satze und richtige Satze bilden zu konnen und ihnen muss eine ungefaire Vorstellung implementiert sein, wie eine Konversation abzulaufen hat.

Ziel ist es in der Chatbot- Entwicklung eines Tages den Turing-Test (Turing, 1950) zu bestehen. Der Turing-Test auch als ..Imitation Game" (Braun, 2003, S.22) bekannt, ist ein Test der die Intelligenz von Maschinen zu ermitteln. Ein Interviewer stellt Fragen an zwei fur ihn nicht sichtbare Gesprachspartner, von denen der eine ein Mensch und der zweite eine Maschine ist. Kann er nicht unterscheiden welcher der beiden Gesprachspartner wer ist, ist de Turing-Test bestanden und die Maschine kann als intelligent bezeichnet werden. Das ein Chatbot so weit entwickelt ist, liegt heute hingegen noch in weiter Ferne. Oft geht die Konversation mit einem Chatbot uber ein formelhaftes Frage-Antwort-Gesprach nicht hinaus. Sie finden ihre Anwendung in automatischen Kundenauskunften, wie z.B. Fahrplanauskunften, Navigation auf Webseiten und ahnlichen Verwendungen. AuBerdem wird er oft fur die Unterhaltung des Benutzers eingesetzt.

Man kann sie zu einer Untergruppe der Dialogsysteme zahlen, wobei sie entgegen der Dialogsysteme weder eine gesprochene Frage verstehen noch sprechend antworten. Sie konnen demzufolge ,,lesen und schreiben" (Thony, 2007, S.1)

2.2 Bekannte Chatbots

2.2.1 ELIZA

Der alteste und wahrscheinlich bekannteste Chatbot ist ELIZA, der 1966 von Weizenbaum entwickelt wurde. Dieser Chatbot stellt einen Psychotherapeuten da und fand laut Weizenbaum groBen Anklang bei seinen Benutzern.

Er gehort zu Kategorie der schlusselwortbasierten Chatbots. Es ist ein eher einfach gestricktes Verfahren. Die Eingabe durch den Benutzer wird nach den Schlusselwortern durchsucht, woraufhin der Bot dann auf eine Datenbank zugreift, aus der er dann die passende Antwort zum jeweiligen Schlusselwort findet. Diese Art von Bots hat demzufolge kein richtiges Grammatikverstandnis, da die Antworten vorgefertigt sind.

2.2.2 ALICE

Mit der Entwicklung von ALICE hat Wallage gleich auch eine Markupsprachen entwickelt. Dieses ist die AIML (Artificial Intelligence Markup Language) und ist eine auf XML Basierende Frage-Antwort-Definition. Interpretiert kann diese dann durch sogenannte Interpretiersprachen wie, Java, C++ oder auch Ruby. Heute basieren viele der gangigen Chatbots auf einer solchen AIML. Aber auch ALICE ist ein Schlusselwortbasierender Bot, zwar mit wesentlichen Verbesserungen, wie einer erheblich groBeren Datenbank und trotzdem bleibt es eine Sprache die sich nur auf regulare Ausdrucke bezieht, weshalb es auch hier noch lange an Intelligenz fehlt.

[...]

Ende der Leseprobe aus 13 Seiten

Details

Titel
Chatbots – Tokenisierung der Eingabe
Hochschule
Technische Hochschule Köln, ehem. Fachhochschule Köln  (Fakultät für Informations- und Kommunikationswissenschaften)
Veranstaltung
Mensch, Computer, Interaktion und Benutzeroberflächen
Note
1,7
Autor
Jahr
2009
Seiten
13
Katalognummer
V149984
ISBN (eBook)
9783640611997
ISBN (Buch)
9783640612314
Dateigröße
524 KB
Sprache
Deutsch
Schlagworte
Chat, Chatbot, Token, Tokenisierung, Interaktion, Kommunikation, Informationsaustausch, Benutzeroberfläche
Arbeit zitieren
Astrid Seefeld (Autor:in), 2009, Chatbots – Tokenisierung der Eingabe, München, GRIN Verlag, https://www.grin.com/document/149984

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Chatbots – Tokenisierung der Eingabe



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden