Chatbots Tokenisierung der Eingabe
Inhaltsverzeichnis
1 Einleitung 3
2 Chatbots 4
2.1 Begriffserklärung 4
2.2 Bekannte Chatbots 4
2.2.1 ELIZA 4
2.2.2 ALICE 4
2.2.3 Jabberwacky 5
2.3 weiterführende Entwicklungen 5
3 Tokenisierung 6
3.1 Begriffserklärung 6
3.2 Einzelaufgaben der Tokenisierung 6
3.2.1 Abkürzungen erkennen 6
3.2.2 Sonder- und Satzzeichen erkennen 6
3.2.3 Kontraktionen behandeln 7
3.2.4 komplexe Tokens erkennen 7
3.2.5 Normalisieren von Token 7
3.2.6 Klassifizieren von Token 7
4 Zusammenfassung und Fazit 7
I. Abbildungsverzeichnis 8
II. Quellenverzeichnis 8
Chatbots ± Tokenisierung der Eingabe 3
1 Einleitung
Das Internet ist ein Medium bzw. hat sich innerhalb kürzester Zeit zu diesem entwickelt, welches sich aus dem Leben von hunderten Millionen Menschen nicht mehr wegdenken lässt. Für Unternehmen, die sich auf dem E-Commerce-Markt, welches den elektronische Handel im Internet meint, einen Anteil sichern wollen, ist es wichtig, den Benutzern eine Oberfläche bzw. eine Umgebung bereitzustellen, die es ihnen einfach macht, die gesuchten Informationen zu finden und ihren Bedürfnissen entspricht. Der steigende Umfang des Internets ist also auch ein Grund dafür, dass der Wunsch nach personifizierten Gesprächspartnern wächst.
Obwohl einer Website so viel Bedeutung angerechnet wird, sie also ein wichtiges Instrument für Unternehmen sein sollte, ist an der Benutzeroberfläche immer noch ein großes Defizit zu erkennen.
Das Internet ist zwar ein alltägliches Werkzeug für jedermann geworden und trotzdem ist es für die Mehrheit der Benutzer zu kompliziert und unübersichtlich. Zum Beispiel der Umgang mit Suchmaschinen, dort ergeben sich oft Probleme mit der umfangreichen Trefferliste von Ergebnissen. Weiter Probleme die immer wieder auftauchen können ergeben sich direkt auf den Webseiten. Sucht ein Nutzer Informationen auf einer dieser Websites, ist es ihm oft nicht möglich das gesuchte auch zu finden. Die Informationen sind oft nicht gut strukturiert bzw. dargestellt oder aus dem Kontext nicht in Erfahrung zu bringen. In einer Studie über 15 große kommerzielle Websites haben Jared Spool and colleagues herausgefunden, das bei der Suche nach einer konkreten Information nur 42 Prozent aller Besucher erfolgreich waren (Braun, 2003, S.3, Vgl. Nielsen, 1998a). Das Ergebnis, dass sich daraus ergibt ist, dass die Nutzer die Suche nach Produkten oder ähnlichem abbrechen, weil sie zu Benutzerunfreundlich sind. Dadurch ergibt sich die Gefahr, dass viele Kunden vom Angebot des Onlinekaufs wieder abspringen. Ein weiter Grund ist auch, dass es viele Kunden gibt, die es einfach vermissen beim Einkaufen Fragen stellen zu können. Die Probleme im Umgang mit dem Computer bzw. dem Internet lassen sich in drei Hauptbereiche (Braun, 2003, S.8) einteilen. Als erstes gibt es da den Bereich der ÄSprachproblematik³ (Braun, 2003, S.8), welches das Kommunikationsproblem zwischen Mensch und Maschine widerspiegelt. Dieses resultiert daraus, dass sie einfach nicht auf dieselbe Art und Weise kommunizieren.
Das zweite Problem ist die ÄDivergenz der Bedürfnisse³ (Braun, 2003, S.8), was die unterschiedlichen Anforderungen von Mensch und Maschine darstellt. Um eine optimale Software für ein System zu entwickeln, muss diese möglichst genau auf das System zugeschnitten werden, um eine bestmögliche Handhabung zu garantieren. Nun sind aber die Anforderungen des Systems andere als sie sich vielleicht der Benutzer wünscht und somit ergibt sich eine nicht gerade unkomplizierte Kommunikation zwischen den beiden Parteien. Das dritte Hauptproblem, was sich ergibt ist die bereits genaQQWH Ä.RPSOH[LWlW YHUWHLOWHU 6\VWHPH³ %UDXQ 6 +LHUPLW LVW GDV ,QWHUQHW PLW VHLQHP 8PIDQJ XQG GHU )OOH DQ Informationen gemeint. Die Menschen bekommen HLQ *HIKO YRQ ÄORVW LQ K\SHUVSDFH³ (Braun, 2003, S.11), was bedeutet, sie verlieren die Übersicht, sind dadurch desorientiert und folglich verlieren sie ihre eigentlichen Absichten aus den Augen. Dadurch zeigt sich wiederholt, dass es nicht nur die Informationen selber sind, die für den Benutzer wichtig sind, sondern auch, dass der Nutzer Informationen über gesuchtes bekommt. Entgegen der Anfänge des Internets, wo die Anzahl der Nutzer noch gering und ihr Knowhow über die Anwendung höher war, sind die Nutzerzahlen heute enorm gestiegen und oftmals nicht erfahren in den technischen Gegebenheiten. Aus diesem Grund ist die Bedeutung der Benutzerfreundlichkeit heute umso größer und die Unternehmen können es sich nicht leisten alle Nutzer zu schulen. Sie müssen ihre Mittel also nicht in Schulungen sondern in die möglichst einfache Handhabung der Oberfläche einfließen lassen. Mit diesen Erkenntnissen und natürlich auch im Rahmen der technischen Entwicklung finden die Chatbots, auch bekannt als Chatterbots, in die Welt der Computer und Benutzeroberflächen einlass. Diese sind auf der Basis der natürlichen Sprache entwickelte virtuelle Berater. In der folgenden Arbeit wird intensiv auf den Bereich der Chatbots eingegangen und erläutert, in wie fern die Tokenisierung der Eingabe im Bereich der Chatbots Anwendung findet.
Chatbots ± Tokenisierung der Eingabe 4
2 Chatbots
2.1 Begriffserklärung
Chatbots sind Softwareprogramme, die die Fähigkeit haben mit einem Benutzer in natürlicher Sprache zu kommunizieren. Sie simulieren dem Anwender in gewisser Weise einen authentischen Gesprächspartner.
6LH VROOHQ Ä>«@ %HQXW]HUQ VRZRKO EHL GHU 1DYLJDWLRQ Gurch komplexe Beschreibungen der Welt helfen als auch Anstoß dazu geben, bereits existierende Vorstellungsbilder automatisch anzuwenden, anstatt Zeit für die Konstruktion unbeholfener Theorien über die Intelligenz der 0DVFKLQHDXI]XZHQGHQ³%UDXQ6. 17, Vgl. Cassell, 2001, S.6)
Die Voraussetzungen an ein solches Programm sind dass sie Anfragen von Benutzern analysieren können, Zugriff auf eine gewisse Basis an Wissen haben, sie müssen in der Lage sein ganze Sätze und richtige Sätze bilden zu können und ihnen muss eine ungefaire Vorstellung implementiert sein, wie eine Konversation abzulaufen hat. Ziel ist es in der Chatbot- Entwicklung eines Tages den Turing-Test (Turing, 1950) zu bestehen. Der Turing-Test DXFK DOV Ä,PLWDWLRQ *DPH³ %UDXQ 622) bekannt, ist ein Test der die Intelligenz von Maschinen zu ermitteln. Ein Interviewer stellt Fragen an zwei für ihn nicht sichtbare Gesprächspartner, von denen der eine ein Mensch und der zweite eine Maschine ist. Kann er nicht unterscheiden welcher der beiden Gesprächspartner wer ist, ist de Turing-Test bestanden und die Maschine kann als intelligent bezeichnet werden. Das ein Chatbot so weit entwickelt ist, liegt heute hingegen noch in weiter Ferne. Oft geht die Konversation mit einem Chatbot über ein formelhaftes Frage-Antwort-Gespräch nicht hinaus. Sie finden ihre Anwendung in automatischen Kundenauskünften, wie z.B. Fahrplanauskünften, Navigation auf Webseiten und ähnlichen Verwendungen. Außerdem wird er oft für die Unterhaltung des Benutzers eingesetzt. Man kann sie zu einer Untergruppe der Dialogsysteme zählen, wobei sie entgegen der Dialogsysteme weder eine gesprochene Frage verstehen noch sprechend antworten. Sie N|QQHQGHP]XIROJHÄOHVHQXQGVFKUHLEHQ³7K|Q\6
2.2 Bekannte Chatbots
2.2.1 ELIZA
Der älteste und wahrscheinlich bekannteste Chatbot ist ELIZA, der 1966 von Weizenbaum entwickelt wurde. Dieser Chatbot stellt einen Psychotherapeuten da und fand laut Weizenbaum großen Anklang bei seinen Benutzern.
Er gehört zu Kategorie der schlüsselwortbasierten Chatbots. Es ist ein eher einfach gestricktes Verfahren. Die Eingabe durch den Benutzer wird nach den Schlüsselwörtern durchsucht, woraufhin der Bot dann auf eine Datenbank zugreift, aus der er dann die passende Antwort zum jeweiligen Schlüsselwort findet. Diese Art von Bots hat demzufolge kein richtiges Grammatikverständnis, da die Antworten vorgefertigt sind.
2.2.2 ALICE
Mit der Entwicklung von ALICE hat Wallage gleich auch eine Markupsprachen entwickelt. Dieses ist die AIML (Artificial Intelligence Markup Language) und ist eine auf XML Basierende Frage-Antwort-Definition. Interpretiert kann diese dann durch sogenannte Interpretiersprachen wie, Java, C++ oder auch Ruby. Heute basieren viele der gängigen Chatbots auf einer solchen AIML. Aber auch ALICE ist ein Schlüsselwortbasierender Bot, zwar mit wesentlichen Verbesserungen, wie einer erheblich größeren Datenbank und trotzdem bleibt es eine Sprache die sich nur auf reguläre Ausdrücke bezieht, weshalb es auch hier noch lange an Intelligenz fehlt.
Arbeit zitieren:
Astrid Seefeld, 2009, Chatbots – Tokenisierung der Eingabe, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Grammatische Inkorporation substantivischer Anglizismen in der deutsch...
Hausarbeit, 28 Seiten
Avatare - Voraussetzungen für den erfolgreichen Einsatz virtueller Ber...
Informationswissenschaften, Informationsmanagement
Diplomarbeit, 120 Seiten
Bildkommunikation in der Werbung
Medien / Kommunikation - Public Relations, Werbung, Marketing
Hausarbeit (Hauptseminar), 18 Seiten
Visuelle Kommunikation - Entwicklung der Bildkommunikation in der Anze...
Soziologie - Medien, Kunst, Musik
Bachelorarbeit, 78 Seiten
Der Prozess der Bildverarbeitu...
Medien / Kommunikation - Sonstiges
Hausarbeit (Hauptseminar), 23 Seiten
Text/Bild-Verknüpfung: Visualisierungsmethoden, Verdichtung und Mehrde...
Hausarbeit (Hauptseminar), 116 Seiten
Astrid Seefeld hat einen neuen Text hochgeladen
Der aufgabenbezogene Informationsaustausch - zeitwillige partizipative...
Mit besonderem Blick auf Organ...
Frank Pietzcker, Peggy Looks
Behavior Management at Home: A Token Economy Program for Children and ...
PH. D. Parker, Harvey C. Parker
0 Kommentare