Diese Arbeit untersucht den Einsatz agentenbasierter Lernalgorithmen im wiederholten Cournot-Spiel. Es werden zwei unterschiedliche Implementierungen (eine nach Roth-Erev, die andere nach Watkins Q-Learning) des sogenannten Reinforcement Learning untersucht. Diese Implementierungen werden in die Modellwelt des bekannten Cournot-Spiels gesetzt, um gegeneinander zu spielen. Es sind Arbeiten bekannt, in denen Q-Learning Agengenten, kooperierendes Verhalten lernen. Es ist Ziel dieser Arbeit, die Unterschiede theoretisch herauszuarbeiten und praktisch in Java zu implementieren. Dabei soll die Frage geklärt werden, warum nur Q-Learning kooperierendes Verhalten erzeugt.
Inhaltsverzeichnis
1 Einführung
2 Computersimuliertes Lernen
2.1 Das Basismodell
2.2 Q-Learning
2.2.1 Lernmodell
2.2.2 Primitives Lernen
2.2.3 Entscheidungen treffen
2.2.4 Parameter
2.3 Roth-Erev Methode
2.3.1 Entscheidungen treffen
2.3.2 Parameter
3 Vergleich der Modelle
4 Implementierung für das Cournot-Spiel
4.1 Komplexität
4.2 Agentenbasiertes Design
4.3 Stationäre Umwelt
4.4 Dynamische Umwelt
4.4.1 Standard Q-Learning Parameterbereiche
4.4.2 Standard Q-Learning Sequenzen
4.4.3 Zustandsloses Q-Learning
4.4.4 Roth-Erev
5 Kooperationsähnliches Verhalten
6 Zusammenfassung
7 Literatur
8 Anhang
Zielsetzung & Themen
Diese Arbeit untersucht den Einsatz von Reinforcement Learning Algorithmen, speziell Q-Learning und die Roth-Erev-Methode, innerhalb eines wiederholten Cournot-Duopol-Spiels, um Bedingungen für kooperatives Verhalten zwischen Agenten zu identifizieren.
- Vergleich von Q-Learning und Roth-Erev Lernalgorithmen.
- Analyse von Parametrisierung und Komplexität bei agentenbasierten Modellen.
- Untersuchung von Lernverhalten in stationären und dynamischen Umwelten.
- Simulation von Marktentscheidungen und Konvergenz zu stabilen Ergebnissen.
- Erforschung der theoretischen Voraussetzungen für Kooperation.
Auszug aus dem Buch
1 Einführung
Diese Arbeit untersucht den Einsatz einer Klasse agentenbasierter Lernalgorithmen im wiederholten Cournot-Spiel. Es werden zwei unterschiedliche Implementierungen des sogenannten Reinforcement Learning untersucht, die eine von Alvin E. Roth und Ido Erev [12, S. 171 ff.], die andere von Christopher J.C.H. Watkins [17, S. 95 ff.]. Letztere ist als Q-Learning in die Literatur eingegangen, erstere werde ich im Folgenden kurz als RE bezeichnen. Diese Implementierungen werden in die Modellwelt des bekannten Cournot-Spiels gesetzt, um das Verhalten über den Spielverlauf zu untersuchen, um folgende Fragen zu beantworten: Gibt es Konvergenz zu stabilen Punkten, wenn ja, wie geschieht dies und wann stellt sie sich ein? Diese Fragen werden immer in Abhängigkeit der Parametrisierung der beiden verschiedenen Implementierungen erörtert.
Zusammenfassung der Kapitel
1 Einführung: Die Arbeit führt in die Fragestellung ein, wie verschiedene Reinforcement Learning Algorithmen in einem Cournot-Spiel zu kooperativem Verhalten führen können.
2 Computersimuliertes Lernen: Es werden die theoretischen Grundlagen des Reinforcement Learning dargelegt, insbesondere das Q-Learning und die Roth-Erev-Methode inklusive ihrer spezifischen Parameter.
3 Vergleich der Modelle: Dieser Abschnitt analysiert die konzeptionellen Unterschiede und Gemeinsamkeiten zwischen Q-Learning und dem Roth-Erev-Ansatz.
4 Implementierung für das Cournot-Spiel: Das Kapitel beschreibt die technische Umsetzung, von der Komplexitätsbetrachtung bis hin zu den Ergebnissen in stationären und dynamischen Umwelten.
5 Kooperationsähnliches Verhalten: Es wird diskutiert, unter welchen Voraussetzungen die simulierten Agenten kooperative Marktstrategien entwickeln.
6 Zusammenfassung: Die Ergebnisse werden gebündelt und die Schlussfolgerungen zur Anwendbarkeit der Algorithmen zusammengefasst.
Schlüsselwörter
Reinforcement Learning, Q-Learning, Roth-Erev-Methode, Cournot-Spiel, Spieltheorie, Agentenbasierte Modellierung, Kooperation, Marktwettbewerb, Algorithmen, Simulation, Konvergenz, Parameteroptimierung, Boltzmann-Statistik, Marktmenge, Dynamische Umwelt.
Häufig gestellte Fragen
Worum geht es in dieser Diplomarbeit grundlegend?
Die Arbeit untersucht, wie computergestützte Lernverfahren (Reinforcement Learning) in wirtschaftlichen Spieltheorie-Modellen, speziell dem Cournot-Duopol, eingesetzt werden können, um das Entstehen von kooperativem Verhalten zu simulieren.
Welche zentralen Lernalgorithmen werden verglichen?
Der Fokus liegt auf dem von Watkins entwickelten Q-Learning und der von Roth und Erev (RE) vorgeschlagenen Methode, die beide aus der Verhaltenspsychologie und Künstlichen Intelligenz abgeleitet sind.
Was ist das primäre Forschungsziel?
Das Hauptziel ist es, die Unterschiede zwischen diesen beiden Lernansätzen herauszuarbeiten und zu erklären, warum bestimmte Algorithmen im Gegensatz zu anderen kooperatives Verhalten im Markt erzeugen.
Welche wissenschaftliche Methode kommt zum Einsatz?
Es wird eine agentenbasierte Simulation (Bottom-Up-Ansatz) verwendet, bei der Software-Agenten in tausenden von Spielrunden durch Belohnung und Bestrafung ihre Strategien optimieren.
Welche Aspekte stehen im Hauptteil der Arbeit?
Der Hauptteil befasst sich mit der technischen Implementierung, dem Vergleich der mathematischen Update-Regeln und der systematischen Untersuchung, wie Parameter wie Lernrate, Weitsicht und Temperatur das Endergebnis beeinflussen.
Welche Schlüsselbegriffe charakterisieren die Arbeit?
Die Arbeit lässt sich durch Begriffe wie Reinforcement Learning, Cournot-Spiel, Konvergenz, Kooperation und agentenbasierte Modellierung charakterisieren.
Warum ist das Cournot-Spiel als Anwendungsfall gewählt worden?
Es dient als bekanntes Modell der Spieltheorie, um zu prüfen, ob einfache, lokales Lernen verfolgende Agenten komplexe ökonomische Gleichgewichte oder kollusive Marktergebnisse erreichen können.
Was ist die Schlussfolgerung bezüglich des Roth-Erev-Modells?
Im Gegensatz zu Q-Learning bietet der Roth-Erev-Ansatz in der vorliegenden Untersuchung keine starken Anhaltspunkte für die Entstehung von kooperativem Verhalten im betrachteten Cournot-Szenario.
- Quote paper
- Sandro Bahn (Author), 2007, Reinforcement Learning im Cournot Duopol, Munich, GRIN Verlag, https://www.grin.com/document/75589