Lernen von Handlungsfolgen durch Imitation


Diplomarbeit, 2004

123 Seiten, Note: 1


Leseprobe


Inhaltsverzeichnis

1 Einleitung

2 Zielsetzung
2.1 Lernen durch Imitation
2.2 Bedürfnisse und Emotionen
2.3 Verhaltensbasierte Architekturen

3 Lösungsansatz

4 Existierende Lösungsansätze
4.1 Handhabung von Wissen in der Imitation
4.1.1 Klassifizierung von Wissen allgemein
4.1.2 Speicherung von Episoden
4.1.3 Identifikation von vorteilhaften Episoden
4.2 Modellierung von Emotionen und Bedürfnissen
4.2.1 Emotionen und Bedürfnisse beim Menschen
4.2.2 MEXI
4.2.2.1 MEXIs Verhaltenssystem
4.2.2.2 MEXIs Emotionssystem
4.2.2.3 Beziehung zwischen Emotions- und Verhaltenssystem
4.2.3 Kismet
4.2.3.1 Kismets Motivationen
4.2.3.2 Kismets Emotionen
4.2.3.3 Von der Stimulation zur Emotion
4.3 Verhaltensbasierte Systeme
4.3.1 Motor Schema Architektur
4.3.2 Subsumption Architektur
4.3.3 Motor Schemes vs. Subsumption Architektur
4.4 Vorhandene Simulationsumgebungen und Toolkits

5 Methodik
5.1 Imitation
5.1.1 Von der Beobachtung zur Anwendung
5.1.1.1 Erkennung erfolgreicher Episoden
5.1.1.2 Verhaltensinferenz und Transformation der Episode
5.1.1.3 Episodenspeicherung
5.1.1.4 Erzeugung der entsprechenden Handlung
5.1.2 Beobachtungsschnittstelle
5.2 Steuerung der Agenten mittels Emotionen und Bedürfnissen
5.2.1 Bedürfnisse und Emotionen
5.2.2 Dynamik in Emotionen und Bedürfnissen
5.2.2.1 Anregungsfunktionen
5.2.2.2 Emotionale Reaktion auf äußere Ereignisse
5.2.2.3 Aktivierungsschwellwerte
5.2.3 Zustandsbewertung und vorteilhafte Episoden
5.3 Agenten und Kulturen
5.3.1 Diversität und Entropie
5.3.2 Verhaltensdifferenzen
5.3.3 Clusterbildung der Agenten
5.3.4 Messung der Diversität einer Gesellschaft

6 Anwendungsbeispiel
6.1 Das Emotionssystem der simulierten Agenten
6.1.1 Bedürfnisse
6.1.2 Emotionen
6.1.3 Auswirkung der Stimuli auf die Emotionen
6.1.4 Schwellwerte der Bedürfnisse und Emotionen
6.1.5 Auswirkung der Verhalten auf die Emotionen
6.2 Das Verhaltenssystem der Agenten
6.2.1 Standardverhalten
6.2.2 Imitationsverhalten
6.2.2.1 OBSERVE
6.2.2.2 APPLY
6.3 Nichtdeterminismus in der Verhaltenssteuerung
6.4 Differenzen unter den Agenten

7 Simulationsergebnisse
7.1 Wellness-Test
7.2 Diversität der Agentengesellschaft
7.2.1 Beispiel
7.2.2 Beispiel
7.3 Bewertung der Heterogenität

8 Zusammenfassung und Ausblick

A Anleitung zur Simulationsanwendung

B Auswertung der Daten
B.1 Wellness-Auswertung
B.2 Zusammenfassen der Episoden in den letzten Runden aller Läufe .
B.3 Clusterbildung
B.4 Histogramm der Heterogenität

C Inhalt der CD

Abbildungsverzeichnis

Tabellenverzeichnis

Literaturverzeichnis

1 Einleitung

So sehr auch wissenschaftlich versucht wird, den Menschen in der Rolle eines weiter- entwickelten Tieres zu sehen, so muss man doch fest stellen, dass er eine Fähigkeit besitzt, die keinem Tier in der Weise zugeschrieben werden kann: die Imitation. Hiermit ist nicht die die klassische Form der Imitation einzelner Bewegungsabläufe gemeint, bei der hauptsächlich das Demonstrator-Imitator-Verhältnis und die Per- formance zwischen beiden erforscht wird, wie z.B. die Armbewegung eines Tenniss- pielers. Einen guten Einstieg zu dieser Form der Imitation erhält man unter anderem in 1,4,7,16,18 und 21. Um einiges komplexer und damit auch interessan- ter ist das intelligente Imitieren einer Folge von Handlungen, die erst noch für den Imitator selbst als sinnvolle Handlungssequenz erkannt werden muss.

Auch wenn einige Tierarten bekannt sind, die die Handlungsweisen ihrer Artgenossen scheinbar “nachäffen” — es ist nicht die Art der Imitation, die den Menschen befähigt, für ihn vorteilhafte Handlungsfolgen eines anderen zu erkennen und zu speichern, um sie später in einer ähnlichen Situation abzurufen.

Weiter kann fest gestellt werden, dass in dem Bereich der künstlichen Intelligenz, in dem über Jahrzehnte hinweg Verfahren und Algorithmen entwickelt wurden, die es der Software ermöglichen, sich an verändernde Umgebungen dynamisch anzupas- sen, der Bereich der Imitation sehr vernachlässigt worden ist. Softwareagenten, die nicht nur künstlich lernen, sondern auch einander beobachten, für den anderen posi- tive Verhaltensweisen erkennen und diese für den eigenen Gebrauch in der Zukunft zwischenspeichern, müssten “normal” lernenden Agenten überlegen sein, da sie so zusagen Lern-Abkürzungen nehmen. Handlungsstränge, auch Episoden genannt, die sich bei einem Nachbarn als vorteilhaft herausgestellt haben, könnten dann übernommen werden und müssten nicht erst selber gelernt werden.

Diesen Aspekt der Imitation erforschten auch Susan Blackmore in ihrem Buch “Die Macht der Meme” und Richard Aunger in “The electric Meme”5, die aufbau- end auf Richard Dawkins Standardwerk “Das egoistische Gen”15, einen weiteren Replikator neben dem Gen, das Mem, als Mittel der Imitation vertiefend unter- sucht haben. Unter Zuhilfenahme interdisziplinärer Erkenntnisse aus der Biologie, Soziobiologie, Psychologie, Neurophysiologie, Philosophie, Anthropologie und den Kognitions- und Neurowissenschaften stellt Blackmore folgende Eigenschaften eines Mems fest:

Wenn eine Information mittels eines Prozesses kopiert werden kann, der im weitesten Sinne als Imitation bezeichnen werden kann, so gilt sie als Mem.8

Ein Mem ist somit alles, was sich irgendwie kopieren lässt — eine Idee, eine Me- lodie, ein Zeitungsartikel — oder eine Handlungsfolge. Auf den ersten Blick ist es erstaunlich, dass in der Mem-Definition von Blackmore kein Hinweis auf den Vorteil des Mem-Wirts gegeben wird. Wenn jedoch z.B. unsere Medienlandschaft einmal daraufhin untersucht wird, welche Informationen sich in ihr am rasantesten verbrei- ten, so kann fest gestellt werden, dass es nicht immer die nützlichsten Informationen sind. Es ist eben die leichte und originalgetreue Kopierbarkeit, die diese Informatio- nen auszeichnen: Aufsehenerregendes, Schockierendes, Neues. Dies wird außerdem noch dadurch begünstigt, dass Information dieser Art massive Auswirkungen auf die Emotionen des Empfängers haben und damit auf dessen Motivation, die Informa- tionen weiter zu verbreiten.

Ähnlichwie die Memtheorie den Menschen als memverarbeitende Maschine auf- fasst, so können Softwareagenten als Maschinen angesehen werden, die die erfolgrei chen Episoden anderer Agenten erkennen und für sich kopieren. Hier können zahlreiche Parallelen aufgestellt werden: Wenn eine Handlungsfolge wenig Erfolg gebracht hat, so wird sie, wenn alle Agenten den Misserfolg dieser Handlungsfolge korrekt erkennen, nicht kopiert werden — oder in der Memtheorie: sterben. Sie wird einfach nicht mehr weitergegeben werden. So gesehen kann dann eine Welt voller Agenten mit der Fähigkeit Episoden zu kopieren als Nährboden für eben diese sich verbreitenden Handlungsfolgen angesehen werden.

Nach einiger Zeit und ausreichend vielen Kopierversuchen müssten die Episoden verschiedener Agenten Ähnlichkeiten aufweisen, was ein Indiz für erfolgreiches Ko- pieren wäre. Wenn nun die Agenten für das Kopieren “negativer” Episoden noch bestraft werden würden, so müsste dies den folgenden Effekt haben: der Selektions- druck müsste genau die Agenten länger leben lassen, die für gerade diese Umgebung hervorragende Handlungsfolgen besitzen — die anderen Agenten würden beim Über- schreiten eines Schmerzgrenzen-Schwellwertes gelöscht werden. Somit würden gute Episoden automatisch häufiger kopiert werden als weniger gute und damit würde der Selektionsdruck auch dafür sorgen, dass sich die besten Episoden in der Umgebung durchsetzen.

Diese Art der Imitation ließe sich dann als Add-On zu bereits vorhandenen und gut erforschten Lernverfahren wie Reinforcement Learning [29, 32, 33, 25] oder Evolutionären Algorithmen 34 verwenden.

2 Zielsetzung

Das Ziel dieser Arbeit ist es, ein neues Lernverfahren zu entwickeln, mit dem Software-Agenten durch Imitation ihre Performance kontinuierlich verbessern kön- nen. Imitation geschieht dabei durch gegenseitiges Beobachten der Agenten unter- einander: Indem ein beobachtender Agent, der Imitator, den inneren Zustand eines anderen Agenten, des Demonstrators, zusammen mit dessen gerade ausgeführten Verhalten beobachtet, soll er einen Vorher-Nachher-Effekt aus diesen Daten ableiten: Zustand vor der Beobachtung, angewandte Verhalten, Zustand nach der Beobach- tung. Je öfter ein Agent Datensätze dieser Art gesammelt hat, desto häufiger sollte er dann in zukünftigen Situationen entscheiden können, welche zuvor gelernte Verhal- tensfolge er jeweils anwenden kann, um seine Performance zu verbessern. Ausgehend von der Erkenntnis, dass erfolgreiche Handlungsfolgen leichter und häufiger kopiert werden als erfolglose, sollen die Agenten auf diese Weise versuchen, ihr Verhalten mit der Zeit zu verbessern, ohne auf dedizierte Lernalgorithmen zurückzugreifen.

Der oben erwähnte innere Zustand eines Agenten besteht aus Bedürfnissen und Emotionen, die der Agent stets in einem angenehmen Bereich zu halten versucht. Die Performance eines Agenten wird daran gemessen, wie erfolgreich er dabei ist. Im Laufe der Zeit sollte der Agent durch mehr und mehr gelernte Episoden es verstehen, seine Bedürfnisse und Emotionen immer besser zu kontrollieren.

Bei erfolgter Imitation einer Handlungsfolge oder Episode, kann der imitierende Agent auch als ein “Episodenvervielfältiger” aufgefasst werden, die imitierte Episode demzufolge gemäß Blackmores Definition als “Mem”. Die Software-Agenten werden damit als sog. “Mem-Wirte” benutzt. Es ist zu untersuchen, in welchem Ausmaß Episoden vervielfältigt werden und ob sich in gewisser Weise Episoden-“Schulen” herausbilden, ob sich also die Agentengesellschaft in Gruppierungen oder Cluster aufteilen lässt. Diese Cluster enthalten dann nur solche Agenten, die zu einem be- stimmten Grade die gleichen Episoden in gleichen Situationen anwenden, in ihren Verhaltensweisen also ähnlich sind. Die Ergebnisse des hier entwickelten Lernverfah- rens und der darauf aufbauenden Architektur sollen mittels einer Simulationsumge- bung ermittelt werden.

Um dieses Ziel — das Lernen von Handlungsfolgen durch Imitation — zu errei- chen, müssen in dieser Arbeit drei Themenblöcke zusammengebracht werden. Zuerst ist da die Fähigkeit der Imitation von Episoden und der dadurch erreichte Lerneffekt. Diese erfolgreich gelernten und angewandten Episoden wirken sich dann mittelbar auf die Bedürfnisse und Emotionen des Agenten aus. Daraufhin kontrolliert der Agent auf diese Weise beeinflusst seine verhaltensbasierte Architektur, die indirekt über die Umwelt rückgekoppelt seinen emotionalen Zustand verändert.

Die detaillierten Zielsetzungen in diesen drei Themen Lernen durch Imitation, Bedürfnisse und Emotionen und verhaltensbasierte Architekturen werden im Folgenden eingehender vorgestellt.

2.1 Lernen durch Imitation

Lernen, Intelligenz, selbständiges Ausarbeiten von Strategien, Anpassen der eigenen Verhalten an veränderte Umgebungen — dies alles sind Anforderungen, die an State-Of-The-Art-Softwareagenten gestellt werden. Ein Agent zeichnet sich dadurch aus, dass er nicht nur starr die einmal spezifizierte Aufgabe auf vorgegebene Weise erledigt. Statt dessen versucht er, dem Benutzer ein optimales Ergebnis zu liefern, indem er sich ständig an die verändernde Umwelt anpasst.

Die Anpassung der Agenten an die Umwelt geschieht in dieser Arbeit durch geschicktes Imitieren Erfolg versprechender Handlungsfolgen. Die Agenten lernen dadurch, dass sie günstige Handlungsweisen anderer Agenten imitieren, wenn sie in Zukunft in einer ähnlichen Situation sind.

Imitation, so stellt sich bei genauerem Hinsehen heraus, ist aber alles andere als simpel. Was Kleinkinder scheinbar mühelos ohne weiteres beherrschen und erfolgreich einsetzen, erweist sich bei der softwaretechnischen Realisierung als äußerst komplex. Zu einer erfolgreichen Imitation gehören folgende Schritte8:

1. Erkennung erfolgreicher Handlungsfolgen
2. Transformation der Handlungsfolge aus der Perspektive des Demonstrators in die des Imitators.
3. Erzeugung der entsprechenden Handlung.

Bevor der Imitator mit dem ersten Imitations-Schritt Erkennung beginnt, muss er selber entscheiden, wann sich eine Imitation überhaupt lohnt. Er benötigt also klar definierte Startbedingungen für die komplette Imitationsprozedur.

Schon der erste Schritt, die Erkennung gibt genug Rätsel auf. Ein Kind, das seinen Vater beobachtet, wie er seine Hände zu einem Trichter formt und dadurch spricht, weiß sofort, was zu imitieren ist. Es wird nicht die Stellung der Beine, die übereinander geschlagen sind, und auch nicht die gerunzelte Stirn imitieren. Aber woher weiß es, dass es die Hände sind, auf die es bei dieser Imitationsleistung ankommt?

Auch die Transformation verlangt nach komplexen, mentalen Fähigkeiten. Der Imitator muss sich in die Position des Demonstrators hinein versetzen können. Die Erzeugung entsprechender Handlungssequenzen letztendlich vervollständigt die Imitation. Hier werden außerdem noch Informationen benötigt, wie die Akto- ren zu bewegen sind, um den Demonstrator imitieren zu können. Die Erzeugung einer Handlungssequenz ist deshalb abhängig von den entsprechenden Aktoren und deshalb abhängig vom jeweiligen Agenten.

Die Imitation der Verhaltensweisen kann auch aus der Perspektive der Ausbreitung eines Mems betrachtet werden. Zur Wiederholung sei noch einmal die Definition eines Mems in abgewandelter Form aufgeführt:

Ein Mem ist jede Information, die mittels eines Prozesses kopiert werden kann, der im weitesten Sinne als Imitation bezeichnen werden kann.

Es sei z.B. angenommen, dass ein Agent einen anderen Agenten dabei beobachtet, wie er eine bestimmte Folge von Aktionen ausführt und daraufhin emotional glück- licher ist. Anschließend speichert er die soeben beobachtete Handlungsfolge für den Fall einer möglichen späteren Verwendung. Dieser Prozess ist dann eine typische Verbreitungsart von Memen. Wenn der Agent dieses Mem, also die erfolgreich beob- achtete Episode, in Form einer Handlungsfolge in einer späteren Situation anwendet und dabei wiederum von einem weiteren Agenten erfolgreich beobachtet wird, so hat sich dieses Mem wieder weiter ausgebreitet. Wie dieses Beobachten und Anwenden von bereits beobachteten Episoden praktisch aussieht, wird in Abschnitt 6.2 gezeigt.

Der Kern dieser Arbeit ist es, die Verbreitung von Memen dieser Art zu erforschen — die im Folgenden beschriebene emotionale Schicht hat dabei eine untergeordnete, steuernde Funktion.

2.2 Bedürfnisse und Emotionen

Die Auswahl der zu imitierenden Handlungssequenzen durch den Agenten ist von dessen gefühlsmäßigem Zustand abhängig, der durch Bedürfnisse und Emotionen repräsentiert wird. Das in dieser Arbeit einzige Bedürfnis, das Imitations-Bedürfnis, pendelt dabei zwischen zwei festgelegten Extremen hin und her, die jeweils für Neu- gier nach weiteren Episoden bzw. für das Bedürfnis nach Anwendung von bereits

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Regelkreislauf der Architektur aus der Emotions-Bedürfnis-Sicht. Weitere wichtige Komponenten (wie z.B. das Verhaltens- oder Imi- tationsmodul) sind hier ausgeblendet. beobachteten Episoden stehen. Somit kann ein entsprechender Bedürfniswert den Agenten in seiner Einstellung dazu veranlassen, entweder nach neuen Handlungsse- quenzen Ausschau zu halten bzw. bereits beobachtete Abfolgen anzuwenden. Dabei werden die Bedürfnis- und Emotions-Werte des Agenten unmittelbar durch seine Aktionen beeinflusst. Der Agent muss nun dafür sorgen, dass er dementsprechend Aktionen ausführt, die seine Bedürfnisse immer in einem ausgeglichenen Umfeld, auch Homöostase genannt9, und seine Emotionen auf einem für den Agenten po- sitiven Gefühlsniveau halten.

Die Anzahl, Art und Bedeutung der Bedürfnisse und Emotionen stellen dabei einen wichtigen Punkt dar. Da sie eine äußerst wichtige Komponente in dem Regelkreislauf Umwelt-Sensorik-Gefühlszustand-Aktorik-Umwelt darstellen (Abb. 2.1), muss eine große Sorgfalt darauf verwendet werden, diese Gefühlswelt für das Experiment sinnvoll zu modellieren.

2.3 Verhaltensbasierte Architekturen

Um auf seine Simulationsumgebung einwirken zu können, wird auf eine verhaltensbasierte Architektur aufgebaut. Die Aktionen, die der Agent durchführen kann, werden mittels dieser Verhaltensbasierung in Vektoren umgewandelt, die in der Simulationsumgebung dann in die jeweilige Zustandsänderung umgerechnet werden. Die verhaltensbasierte Architektur, die in dieser Diplomarbeit verwendet wird, basiert auf den Motor Schemes von Arkin [2, 3].

Wenn eine Gruppe von Agenten mittels Verhaltensbasierung agiert, so stellt der erste Schritt in der Imitation in Abschnitt 2.1, die Erkennung der Aktionen anderer Agenten, eine besondere Schwierigkeit dar: Um aus einer Sequenz von Bewegungsvektordaten die dahinter liegende Absicht zu erkennen, muss auf die- ser Ebene entweder ein bedeutender Anteil Mehrarbeit geleistet werden oder in der richtigen Weise vereinfacht werden. Die Einbindung einer vollständigen, automati- schen Bewegungserkennungseinheit stellt allerdings einen weiteren Forschungszweig dar und würde den Umfang dieser Diplomarbeit sprengen, sodass hier ein einfa- cherer Weg gefunden werden muss. Hinzu kommt, dass nicht nur Bewegungsdaten erkannt werden müssten, sondern vollständige Erkennungsalgorithmen für den ge- samten Aktorik-Katalog des Agenten benötigt werden würden.

Im folgenden Kapitel wird nun ein der Lösungsansatz vorgestellt, der die in diesem Kapitel behandelten Ziele verwirklichen soll. Ausführlich wird dann auf die Architektur und die in ihr angewandten Methodiken in Kapitel 5 eingegangen.

3 Lösungsansatz

Um die Ziele in Kapitel 2 zu erreichen, wird eine Architektur benötigt, deren verhal- tensbasierte Steuerung durch Emotionen und Bedürfnisse beeinflussbar ist. Diesem Ideal kommt bereits MEXI mit seiner Triple-Tower-Architektur sehr nahe. Es ist ein Roboterkopf, der Emotionen ausdrücken kann und wird in Abschnitt 4.2.2 noch aus- führlich vorgestellt werden (s. auch Abb. 4.2 auf Seite 24). Das MEXI-Modell muss jedoch noch um eine Imitations-Komponente erweitert werden, die die folgenden Aufgaben erledigt:

1. Agenten in Sichtweite beobachten. Dafür muss zunächst ein Agent aus al- len sich im Sichtbereich befindenden Agenten ausgewählt werden. Für die- sen Agenten müssen dessen Episoden und aktuelle emotionale Verfassung (Bedürfnis- und Emotionszustand) beobachtet werden.

2. Aus diesen Daten kann dann eine Handlungsepisode extrahiert werden, dessen Qualität anhand der emotionalen Verfassungsänderung während der Anwen- dung der Handlungsepisode beurteilt wird. Es entsteht ein Datensatz der Art (Emotionaler Zustand 1 → Angewandte Episode → Emotionaler Zustand 2).

3. Bei einer positiven Bewertung, wenn also Zustand 2 gegenüber Zustand 1 als besser bewertet wird, soll die Episode derart abgelegt werden, dass sie später in einem ähnlichen emotionalen Zustand korrekt als für diesen Zustand vor- teilhafte Episode gefunden wird. Durch Ausführung dieser Episode soll dann eine ähnliche emotionale Verfassungsänderung eintreten, wie sie zuvor bei dem beobachteten Agenten aufgetreten ist.

Diese Aufgaben entsprechen den in Abschnitt 2.1 vorgestellten drei Phasen Erken- nung, Transformation und Erzeugung, die eine erfolgreiche Imitation ermöglichen und sind für dieses Projekt entsprechend angepasst. Eine erfolgreiche Abarbeitung dieser drei Phasen soll dann eine spürbar positive Auswirkung auf das Emotionssys- tem des Agenten zeigen.

Ähnlich wie MEXIs Emotionssystem (Abb. 4.3 auf Seite 29) setzt sich auch in dieser Arbeit die Motivation der Agenten aus Bedürfnissen und Emotionen zusam- men, deren Befriedigung das Hauptziel des Agenten ist. Mit dem Imitationssystem als Erweiterung zu MEXIs Emotionssystem (Abb. 4.2) ist der Agent darüber hinaus in der Lage, Rückschlüsse aus den Zuständen anderer Agenten auf die Qualität der jeweiligen, gerade ausgeführten Verhalten zu ziehen. Dabei greift das Imitationsmo- dul des Agenten aus der Emotionseinheit den aktuellen emotionalen Zustand ab und stellt bei Handlungsbedarf, wenn also die Emotionen negativ gefühlt oder Bedürf- nisse den homöostatischen Bereich verlassen, das entsprechende Verhalten ein. Das um das Imitationssystem erweiterte Modell ist in Abb. 3.1 zu sehen.

Beispielhaft sei im Folgenden ein typischer Zyklus aus dem “Leben eines Agenten” dargestellt. Bei ihm dreht sich alles um seinen inneren Zustand — seine Emotionen und Bedürfnisse. Um die Realität teilweise anzunähern, werden sämtliche Emotio- nen durch eine Anregungsfunktion entweder in ihrer Intensität verstärkt oder ab- geschwächt (s. Abschnitt 5.2.2), was z.B. einem Nachlassen von Ärger oder einem Verstärken der Neugier mit der Zeit entspricht. Dies hat zur Folge, dass bestimm- te Emotionen schon bald einen festgelegten Schwellwert über- bzw. unterschreiten, was der Agent als negativ “empfindet”. Nun kann er versuchen, passende Verhal- ten auszuführen (Aktorik in Abb. 3.1), in der Hoffnung, diese würden nun auf die Umwelt dermaßen einwirken, dass die darauf empfangenen perzeptionell Eindrücke

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: Das Lösungsmodell mit Imitationsmodul

dafür sorgen, dass seine Werte für Emotionen und Bedürfnisse wieder in angenehme Bereiche zurückkehren. Hat er jedoch in der Vergangenheit bereits anderen Agenten dabei zugesehen, wie diese mit den unangenehmen Werten für ihre Emotionen um- gehen, so hat er vielleicht eine für seine aktuelle emotionale Situation interessante Handlungsfolge beobachtet und sich gemerkt. Diese könnte er nun anwenden und überprüfen, ob sie bei ihm die gleichen positiven Effekte verursacht, wie bei dem dem beobachteten Agenten.

Es kann nun der Fall eintreten, dass der Agent eine gute, aber nicht optimale Handlungsfolge beobachtet hat. Damit er mit dieser Episode nicht in einem loka- len Maximum gefangen ist, wechseln sich die Beobachtungs- und Anwendungsphase zyklisch ab. Dies geschieht innerhalb des einzigen Bedürfnisses des Agenten — das Imitationsbedürfnis. Im Gegensatz zu den Emotionen kann es positiv und negativ werden und besitzt zwei Schwellwerte, einen positiven und einen negativen. Befin- det sich der Wert dieses Bedürfnisses zwischen diesen beiden Schwellwerten, so wird kein Verhalten von beiden Imitationsverhalten (Beobachten und Anwenden) ausge- führt. Der Agent kann hier selbständig versuchen, seine Emotionen unter Kontrolle zu halten. Angeregt durch eine Sinus-ähnliche Funktion ist es jedoch oft der Fall, dass einer der Schwellwerte überschritten wird, sodass der Agent nun zu beobachten bzw. anzuwenden beginnt.

Damit ist der Kreislauf geschlossen: Das Wohlbefinden des Agenten, der Zustand seines Emotionssystems, wird durch gezielte Einwirkungen der Anregungsfunktionen mit der Zeit aus dem für den Agenten angenehmen Bereich gebracht. Der Agent kann entweder direkt Verhalten einleiten, die seine Emotionen wieder positiv stellen oder er kann andere Agenten dabei beobachten bzw. bereits beobachtete Verhalten anwenden. Dies bewirkt über die verhaltensbasierte Architektur eine Einwirkung auf die Umwelt, die der Agent über seine Perzeption wahrnimmt, was wiederum sein Emotionssystem beeinflusst.

Abhängig von dem Erfolg der beobachteten Episoden, verbreiten sich diese schnell weiter, oder sterben aus, wodurch eine Parallele zu der Vererbung von Memen her- gestellt wird. Diese Vererbung kann anschließend anhand der Vielfältigkeit existie- render Episoden untersucht werden. Ein ähnliches Problem hat Shannon mit der Entropie der Information28 untersucht. Ursprünglich benutzte er diese Entropie als das Maß der benötigten Bandbreite eines Übertragungskanals in der Informati- onstheorie. Danach gilt für die Entropie H einer Information I über einem Alphabet

Abbildung in dieser Leseprobe nicht enthalten

pj ist dabei die Wahrscheinlichkeit, mit der das jte Symbol zj des Alphabet Z im Informationtext I auftritt. Um die mindestens notwendige Anzahl von Bits, die zur Darstellung der Information notwendig sind, zu erhalten, muß H nur noch mit der Anzahl der Zeichen im Informationstextes multipliziert werden.

Die Übertragung von Shannons Informationsentropie aus dem Bereich der Infor- mationstheorie in die Bewertung von Agentengesellschaften hat bereits Balch in 6 erfolgreich untersucht. pi steht hier allerdings nicht direkt für eine Wahrscheinlich keit, sondern für den Anteil von Agenten aus der gesamten Agentengesellschaft, die sich in Cluster i befinden. Mit dieser Entropie kann so aus der Cluster-Einteilung der Agentengesselschaft die Entropie dieser Gesellschaft berechnet werden, woraus ein Rückschluss auf den Grad des Lernens der Agenten gezogen werden kann. Die Einteilung der Agentengesellschaft in Cluster wird dermaßen durchgeführt, dass die gelernten Handlungsfolgen aller Agenten miteinander verglichen werden.

Im nächsten Kapitel werden nun die in der Literatur bereits existierenden Lösungen für einige Teilprobleme dieser Arbeit vorgestellt.

4 Existierende Lösungsansätze

Nicht alle Modelle und Methoden, die zur Erreichung der oben beschriebenen Ziele notwendig sind, müssen von Grund auf neu entwickelt werden, sondern können aus den Forschungsergebnissen in den verschiedenen Bereichen herangezogen werden. So ist für die Imitation die adäquate Speicherung und vor allem die Identifikation vorteilhafter Episoden wichtig. Hier kann teilweise auf bereits vorhandene Studien in der Erkenntnistheorie zurückgegriffen werden — in diesem Bereich ist jedoch auch der größte Teil dieser Forschungsarbeit anzusiedeln.

Ein weiterer Bereich, aus dem hier Anleihen gemacht werden, ist die Modellierung von Emotionen und Bedürfnissen. Es werden die Projekte MEXI19 und Kismet12 vorgestellt, in denen erfolgreich gezeigt werden konnte, wie Emotionen und Bedürfnisse modelliert werden können.

Damit diese Emotionen und Bedürfnisse sich auf den Agenten auch sichtbar auswirken können, werden sie in einer engen Verbindung zu dem Verhaltenssystem des Agenten modelliert. Dieses Verhaltenssystem basiert auf der Motor Schema Architektur3, mit der die Agenten auf bequeme Weise auf die unmittelbare Umwelt reagieren können und verschiedene Aktionen ausführen können, die über die Umwelt wiederum auf die Emotionen eine rückkoppelnde Wirkung haben.

Zur Evaluierung des im Folgenden noch vorzuschlagenden Imitationsmodells wird eine Umwelt mit Agenten simuliert, die über diese Imitationsfähigkeit und das oben erwähnte Emotions- und Bedürfnissystem verfügen. Es wird die für diesen Zweck sehr gut geeignete Simulationsumgebung TeamBots vorgestellt.

4.1 Handhabung von Wissen in der Imitation

Das Wissen, das sich die Agenten aneignen sollen und das dann von anderen Agenten imitiert werden kann, muss in einer Form gespeichert werden, die auch für die anderen Agenten zugreifbar ist. Es muss gewährleistet sein, dass die Agenten gegenseitig ihr Verhalten beobachten und bewerten können, in wie fern das beobachtete Verhalten für ihre aktuelle oder für eine spätere Situation nützlich ist.

Darüber hinaus ist es nützlich, wenn Episoden in einer Weise gespeichert werden, die es leicht macht, darin Verhaltensmuster zu erkennen, diese zu kopieren und später wieder in Aktionsepisoden zurück zu konvertieren. Dies führt zu einer grundlegenden Überlegung zur Klassifizierung und Speicherung von Wissen im Allgemeinen.

4.1.1 Klassifizierung von Wissen allgemein

Tulving charakterisiert in seinem Modell der multiplen Gedächtnissysteme30 die verschiedenen Wissensarten folgendermaßen:

Deklaratives Wissen ist explizites Wissen, das bewusst vorhanden ist (Kurzzeit- gedächtnis beim Menschen). Als deklaratives Wissen kann man deshalb nicht die gespeicherten Aktionsfolgen bezeichnen, die die Agenten während der Si- mulation lernen und gegenseitig zu imitieren versuchen.

Episodisches Wissen ist jede persönlich gemachte, kontextabhängige Erfahrung einer Person die aufgrund ihrer Natur episodisch, d.h. als Folge von Einze- lerfahrungen, vorliegt. Dieser Wissenstyp wird deshalb oft auch autobiogra- phisches Wissen genannt. Episodisches Wissen wird anhand von Zeit und Ort intern organisiert und beinhaltet oft perzeptive Charakteristika, wie z.B. auf- fällige Eigenheiten. Indem das Gehirn den persönlichen Bezug zum erworbenen Wissen vergisst, wird dieses Wissen mit der Zeit in semantisches, d.h. episoden- unabhängiges Wissen umgewandelt. Es ist deshalb in der Fachwelt umstritten, ob episodisches und semantisches Wissen überhaupt zu trennen sind.

Semantisches Wissen ist kontextfreies, enzyklopädisches Faktenwissen ohne spe- ziellen Zeitbezug. Es wird in Kategorien organisiert. Beispiele für semantisches Wissen sind Wörter, linguistische Symbole und Bedeutungen und Prozeduren zur Manipulation derselben. Somit scheidet diese Wissensart als Modell der Speicherung der Agentenhandlungen auch aus.

Prozedurales Wissen ist unbewusstes, implizites Wissen über Verfahrensweisen, die sich über häufiges Wiederholen oder häufige Übung“eingeschliffen”haben. Unter diese Wissensart fallen Tätigkeiten wie z.B. Schuhe zubinden oder Auto fahren.

McGraw und Harbison-Briggs haben in22 versucht, für die verschiedenen Wis- sensarten aufzuzeigen, welche Aktivität durchgeführt werden muss, um an das be- treffende Wissen heranzukommen. Ihre Ergebnisse sind in Tabelle 4.1 zusammenge- fasst.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 4.1: Wissensarten nach McGraw und Harbison-Briggs22

In 31 änderte Tulving diese Einteilung, indem er das episodische und semanti- sche Wissen zum deklarativen Wissen zusammenfasste und diesem das prozedurale Wissen gegenüberstellte. So muss bei der Klassifikation des zu lernenden und imitie- renden Wissen zwischen der deskriptiven und prozeduralen Wissensart unterschieden werden.

Das Wissen der Agenten-Aktionsfolgen ist von der Art her demnach deskriptiv, genauer gesagt episodisch, also aus der Sicht des Agenten gemachte Erfahrung. Die Agenten müssen erkennen, welche Episoden zu einer bestimmten Problemlösung beigetragen haben und diese Episoden sozusagen als verallgemeinerte Antwort auf das Problem abspeichern. Dabei ist es von Vorteil, wenn der Agent durch Beobachtung die Episoden anderer Agenten als betreffende Problemlösung erkennen und so für sich gewinnbringend verwenden kann. Auf diese Weise erspart er es sich, die gleichen Episoden durch langwieriges, eigenes Lernen an zueignen.

Ziel der Imitation ist es deshalb, diese episodischen Erfahrungen zu identifizieren und für den beobachtenden Agenten brauchbar zu machen. Dies führt bei längerer Beobachtung jedoch zu einem Datenberg, der nur zum Teil für den Agenten inter- essante Episoden enthält. Es ist also ein Modell gefragt, das die Daten in komprimiert relevanter und trotzdem schnell zugreifbarer Form für den Agenten bereithält.

4.1.2 Speicherung von Episoden

Ein Modell zur Komprimierung von episodischem Wissen schlagen Schank und Abelson in 26 vor. Ausgehend von der Vorgehensweise, wie der Mensch sich un- bewusst an in der Vergangenheit liegende Begebenheiten erinnert, vermuten sie, dass im Unterbewusstsein mit der Zeit so genannte Skripten (engl. scripts) ange- fertigt werden, die Schablonen oder Prototypen für Standardsituationen darstellen. Als Beispiel führen sie einen Restaurantbesuch an: Wenn der Mensch mit der Zeit verschiedene Restaurants besucht hat entsteht in seinem Gedächtnis ein Skript “Re- staurantbesuch”, das alle “normalen” Aspekte eines Restaurantbesuchs enthält (Gar- derobe aufsuchen, Platz aufsuchen, Speisekarte lesen, Bestellung aufgeben, . . . ). Je- der weitere Restaurantbesuch wird nun im Gedächtnis derart abgelegt, dass nur die herausragenden, besonderen Ereignisse und Auffälligkeiten extra gespeichert wer- den — zusammen mit einer Verknüpfung auf das “Restaurantbesuch”-Skript. Auf diese Weise kann der Mensch sich zwar nicht mehr so genau an jeden Restaurant- besuch erinnern, die besonderen — und damit sehr wahrscheinlich wichtigen und interessanten — Aspekte sind jedoch mit hoher Wahrscheinlichkeit zugreifbar.

Mit dieser kostengünstigen und zeiteffektiven Speicherungsart für Episoden kön- nen die Agenten jedoch nur dann sinnvoll arbeiten, wenn sie über eine korrekte Episodenbewertungs-Einheit verfügen und Episoden allgemein überhaupt erkennen können.

4.1.3 Identifikation von vorteilhaften Episoden

Wenn ein Agent einen anderen Agenten beobachtet, so sieht er zuerst nur eine Folge von Einzelaktionen und als Folge daraus, ob diese Einzelaktionen für den ausfüh- renden Agenten nützlich waren oder nicht. Was er nicht sieht: Wann begann die Episode, die zu dem jeweiligen Vorteil führte, und wann endete sie? Die Identifikati- on von beobachteten Episoden, die für den Agenten günstig sind, ist deshalb für den beobachtenden Agenten essentiell. Ein Falsches Erkennen und Bewerten von Episo- den führt dazu, dass das imitierte Verhalten des Beobachters dem Zufall überlassen wird.

Die Aufgabe, vorteilhafte Episoden während einer Beobachtungsphase zu identifizieren, kann in drei grundsätzliche Fragen aufgeteilt werden, die der beobachtende Agent permanent während der Beobachtung beantworten muss:

Wo beginnt und wo endet die Episode? Die Abgrenzung einer Episode von dem restlichen Aktionsstrang kann der Agent nur vermuten. Erschwerend kommt hinzu, dass der Beobachter möglicherweise nur einen Teil der Episode beob- achten konnte und unter Umständen überhaupt keinen Vorteil aus der Be- obachtung ziehen kann. Die Wahrscheinlichkeit, dass der Agent mit seiner Vermutung richtig liegt, kann dadurch erhöht werden, dass er z.B. das En- de der Episode auf die Aktion unmittelbar nach einem starken Ansteigen des Gesamtwohlbefindens des beobachteten Agenten legt.

Aus welchen Einzelverhalten besteht die Episode? Der Beobachter wird später nach erfolgreicher Evaluierung nicht die einzelnen Aktionen, sondern die zu ihnen führenden komplexen Verhalten anwenden. Diese sind erfolgreich zu ex- trahieren.

Welche Verhalten haben maßgeblich zum Erfolg beigetragen? Die Lösung die- ses Problems ist für ein erfolgreiches Imitieren nicht erforderlich, kann die Per- formance aber erhöhen, da überflüssige Verhalten ignoriert werden. Es sei z.B. angenommen, dass der Demonstrator die Aktionssequenz (V1, V2, V3, V4) aus- führt, nach der er sich sichtlich besser “fühlt”. Wenn nun die beiden Verhalten V2 und V3 nichts Positives zum Gesamterfolg beigetragen haben, wäre es für den Beobachter nützlich dies zu erkennen, um dann in Zukunft nur noch die Aktionssequenz (V1, V4) auszuführen.

So können alle beobachtenden Agenten aus der Veränderung des emotionalen Zustandes über die Zeit Rückschlüsse über die Fähigkeit der gerade beobachteten Episode ziehen, wie sehr sie in einer ähnlichen Situation den eigenen emotionalen Zustand verbessern könnte.

Wie dieser emotionale Zustand aus Emotionen und Bedürfnissen modelliert wer- den kann, zeigt der nächste Abschnitt, in dem zuerst grob einige für diese Arbeit relevanten Erkenntnisse über Emotionen und Bedürfnisse beim Menschen dargelegt und anschließend zwei mögliche Modelle anhand von MEXI und Kismet vorgestellt werden.

4.2 Modellierung von Emotionen und Bedürfnissen

Auch nach Abklingen des KI-Hypes hat die Motivation der KI-Forscher, Robotern soziales Verhalten beizubringen, nicht nachgelassen. Damit der Mensch sein Gegen über als soziales Wesen wahrnimmt, muss das Wesen den Menschen dazu bringen, zu glauben, dass sein Gegenüber über Glauben, Wünsche und Absichten verfügt — es muss “Absichtlichkeit” (engl. intentionality) zeigen12.

Dies konnte sehr deutlich in dem Projekt MEXI1 des C-LAB und Kismet2 durch das MIT gezeigt werden. Beide Modelle basieren auf dem humanoiden Roboteremotionsmodell von Breazeal11. Es hat sich herausgestellt, dass das MEXI -Modell durch die Triple-Tower-Architektur für diese Diplomarbeit wegen der hier gewählten Verhaltensbasierung mehr geeignet ist, während der Prozess des eindeutigen Bewertens von verschiedenartigen Wahrnehmungen bei Kismet sehr gut zu sehen ist. Nach einem kurzen Exkurs über Emotionen und Bedürfnisse beim Menschen wird im Folgenden deshalb MEXI ausführlich besprochen, während im Anschluss eine kurze Übersicht über das Kismet-Modell gegeben wird.

4.2.1 Emotionen und Bedürfnisse beim Menschen

Emotionen und Bedürfnisse scheinen als Motivation für komplexe Systeme eine inhärent wichtige Rolle zur Steuerung der verhaltensbasierten Reaktion zu spielen. Eine Emotion ist eine Tendenz zu einer bestimmten Handlungsweise oder einer Menge möglicher Verhalten24. Positive Emotionen sind dabei oft die Folge von Ereignissen, die ein Bedürfnis befriedigen, die eigene Überlebensfähigkeit steigern oder die eigenen Fähigkeiten erfolgreich demonstrieren — negative Emotionen sind häufig die Reaktion auf schmerzhafte Ereignisse oder bedrohliche Situationen20. Eine negative Emotion kann aber auch die Reaktion auf die Überbefriedigung eines Bedürfnisses sein. Während Emotionen die Folge äußerer Stimuli sind und auch wieder nach außen gerichtet sind, ist ein Bedürfnis (wie z.B. Hunger) der Zustand eines Organismus, der von der Umwelt unabhängig ist.

Für die Konstruktion des Emotionsmodells von MEXI und Kismet wird in beiden Projekten unter Berufung auf entwicklungspsychologische Forschungen [11, 24, 17] angenommen, dass Emotionen aus Basisemotionen zusammengesetzt werden. Zu den Basisemotionen zählen Ärger, Ekel, Angst, Freude, Schmerz und Erstaunen. Ziel jeder einzelnen Basisemotion ist es, zu einer bestimmten passenden Reaktion vorzubereiten und zu motivieren.

Plutchik fasst die Eigenschaften und Unterschiede von Emotionen und Bedürfnisse folgendermaßen zusammen24:

- Emotionen werden im Allgemeinen durch externe Stimuli wachgerufen.
- Emotionale Äußerungen sind meistens an den betreffenden Stimulus in der Umwelt gerichtet, der ihn stimuliert hat.
- Emotionen können durch die physiologischen Zustände hervorgerufen werden.
- Emotionale Äußerungen sind an keine “natürlichen” Objekte wie Wasser oder Nahrung gerichtet.
- Ein emotionaler Zustand wird verursacht nachdem ein Objekt wahrgenommen und verarbeitet worden ist, nicht vorher.
- Viele emotionale Zustände sind flüchtig und verschwinden wieder so schnell, wie sie gekommen sind.
- Bedürfnisse werden durch schrittweise Veränderungen des internen Zustandes des Organismus hervorgerufen.
- Die Grundbedingung für die Erregung eines Bedürfnisses ist Abwesenheit von etwas (Emotionen i. A. durch Anwesenheit).
- Es gibt einige Objekte, gegen die Bedürfnisse in der Regel gerichtet sind (Nahrung, Wasser, etc.).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4.1: Plutchiks Modell der Basisemotionen mit ihren Intensitätsschattie- rungen [24, S. 111]

- Die meisten Bedürfnisse haben rhythmischen Charakter und zeigen dadurch Minima und Maxima der Intensität.

In seinem Modell in Abb. 4.1 stellt Plutchik die prototypischen Dimensionen Aufnahme, Abweisung, Zerstörung, Beschützung, Reproduktion, Entbehrung, Orien- tierung und Erforschung3 der Basisemotionen und deren Schattierungen als Halb- kugelmodell vor, bei dem verwandte Emotionen auf einer horizontalen Kreisebene nebeneinander angeordnet sind und deren Intensitätsschattierungen vertikal ange- ordnet sind.

Die Fähigkeit des Menschen, einen Mix dieser Basisemotionen durch Gestik, Mi- mik, Körperhaltung und Tonfall zu kommunizieren dient dabei zwei Zielen: Erstens,

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4.2: Überblick:MEXIsArchitektur,19

um Emotionen dem Gegenüber mitzuteilen und zweitens, um das Gegenüber für seine Ziele zu beeinflussen (z.B. Schrei eines Babys bei aufkommenden Hunger). So dienen die nach außen gerichteten Emotionen dazu, Verhaltensweisen einzuleiten, die die Bedürfnisse des Organismus zufrieden stellen.

4.2.2 MEXI

MEXI ist ein Roboterkopf, der Emotionen künstlich durch seine Gestik zum Ausdruck bringen kann. Er verfügt über zwei Kameras in den Augen, Mikrophone in den Ohren und einem Lautsprecher im Mund. Mit seinen 15 Freiheitsgraden verfügt er über ausreichend Möglichkeiten, um bei dem Betrachter den Eindruck zu bewirken, dieser Roboterkopf besäße Emotionen.

Die Entwicklung von MEXI wurde von vornherein konstruktiv um die TripleTower-Architektur in Abb. 4.2 bestehend aus Perzeption/Verhalten/Aktorik gestaltet. So konnte das Emotionsmodul in die Agentenarchitektur integriert werden, ohne auf die Vorteile der Verhaltensbasierung verzichten zu müssen.

Die drei Blöcke Perzeption, Verhalten/Emotionen und Aktorik formen dabei die Bahn einen Datenflusses, dessen grobe Verarbeitungsabfolge wie folgt aussieht:

Perzeption Das Perzeptionsmodul verarbeitet die Kamerabilder und Mikrophon- eingänge, um daraus in den zwei Phasen Charakteristikanalyse (engl. feature analysis) und Objekterkennung Objektdaten (z.B. menschliches Gesicht, der Linuxpinguin TUX oder andere Spielsachen) zu generieren. Zusätzlich zu den Objektdaten wird aus der Größe und der Geschwindigkeit des betreffenden Objektes noch der strength-Faktor des Objektes ermittelt, der darüber Auskunft gibt, wie “wichtig” dieses Objekt zu behandeln ist. Ein schnell bewegtes Spielzeug, das sich dazu noch ganz nah vor MEXIs Kamera befindet, hat einen größeren strength-Wert als ein weit entferntes Gesicht.

Verhalten/Emotion Diese Daten werden parallel in das Verhaltens- und das Emo- tionsmodul geschickt. Der Vorteil von MEXI ist hierbei, dass beide Modu- le ohne ein Weltmodell auskommen. So verarbeitet das Verhaltenssystem die Daten des Perzeptionsmoduls rein reaktiv. Nach dem Prinzip von Arkins Mo- tor Schemes2 werden im Verhaltensmodul verschiedene Basisverhalten (z.B. FollowFace oder Smile) durch eine Akkumulatorfunktion koordiniert an das Aktorikmodul weitergeben. Welches Verhalten wie stark in dem Akkumula- torblock behandelt wird, entscheidet das Emotionsmodul. Dieses modelliert MEXIs internen Zustand anhand von Emotionen und Bedürfnissen, die es zu- frieden zu stellen gilt. So sorgt die gegenseitige Abhängigkeit des Verhaltens- und Emotionssystem dafür, dass Verhalten durch den aktuellen Emotions- und Bedürfniszustand abgeschwächt oder verstärkt werden, was durch die endgül- tige Verhaltensauswahl wieder Auswirkung auf die Emotionen und Bedürfnisse hat.

Aktorik Das Aktorikmodul hat die Aufgabe, aus sämtlichen Verhalten Nennwer- te oder Stellgrößen zu errechnen, die dann auf die entsprechenden Motoren angewandt werden. Dabei muss das Aktorik-Modul dafür sorgen, dass z.B. Kopfbewegungen nicht zu abgehackt, sondern weich durchgeführt werden.

Wichtig für die Diplomarbeit ist hier vor allem der Verhaltens- und Emotions- block, der nun im Detail dargelegt wird.

4.2.2.1 MEXIs Verhaltenssystem

Aufbauend auf Arkins Verhaltensbasierung3 werden im Verhaltensmodul komplexe Verhalten aus Basisverhalten (s. Abschnitt 4.3.1) in so genannten Akkumulatoren zusammengesetzt. Diese Zusammensetzung kann grundsätzlich kooperativ oder kompetitiv geschehen. Im ersten Fall werden die einzelnen Basisverhalten gewichtet aufsummiert, im zweiten wird nach der Winner-Takes-All-Strategie verfahren. Das heißt, dass das Verhalten mit der größten Intensität (z.B. größter Vektorbetrag) angewandt wird und alle anderen Verhalten ignoriert werden.

Beide Arten der Verhaltenskomposition werden in MEXI angewandt, da einige Verhalten aufgrund weicher Bewegungsabläufe kooperativ generiert werden müssen, andere jedoch kompetitiv. Der Roboterkopf kann sich z.B. entweder nach links oder nach rechts drehen, was einen Anwendungsfall für eine kompetitive Verhaltenskom- position darstellt.

Jedes Basisverhalten b errechnet unabhängig von den anderen Basisverhalten aus den Objektdaten des Perzeptionsmoduls einen Vektor Cb, der einen 3-Tupel für jeden der 15 Freiheitsgrade enthält. Dieser 3-Tupel besteht aus der Stellgröße cs,b für das Servo s, einem Abstimmungswert (engl. vote) vs,b für diese Stellgröße und einer Kompositionsmodusangabe ms,b, die über die Anwendung der kooperativen oder kompetitiven Komposition bestimmt19:

[...]


1 http://www.c-lab.de/mexi

2 http://www.ai.mit.edu/projects/humanoid-robotics-group/kismet/kismet.html

3 Engl.: incorporation, rejection, destruction, protection, reproduction, deprivation, orientation, exploration.

Ende der Leseprobe aus 123 Seiten

Details

Titel
Lernen von Handlungsfolgen durch Imitation
Hochschule
Universität Paderborn
Note
1
Autor
Jahr
2004
Seiten
123
Katalognummer
V30455
ISBN (eBook)
9783638317122
Dateigröße
1847 KB
Sprache
Deutsch
Anmerkungen
In dieser Arbeit wird ein neues Lernverfahren entwickelt, mit dem Agenten in einer Simulationsumgebung neue Verhaltensweisen durch Imitation lernen können. Diese imitierten Verhaltensweisen werden unter dem Blickwinkel der Evolution als "Meme" untersucht. Als Bewertungssystem werden hier Emotionen und Bedürfnisse verwendet. Die Arbeit ist in Java/Python implementiert.
Schlagworte
Lernen, Handlungsfolgen, Imitation
Arbeit zitieren
Willi Richert (Autor:in), 2004, Lernen von Handlungsfolgen durch Imitation, München, GRIN Verlag, https://www.grin.com/document/30455

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Lernen von Handlungsfolgen durch Imitation



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden