Diese Arbeit untersucht den Einsatz agentenbasierter Lernalgorithmen im wiederholten Cournot-Spiel. Es werden zwei unterschiedliche Implementierungen (eine nach Roth-Erev, die andere nach Watkins Q-Learning) des sogenannten Reinforcement Learning untersucht. Diese Implementierungen werden in die Modellwelt des bekannten Cournot-Spiels gesetzt, um gegeneinander zu spielen. Es sind Arbeiten bekannt, in denen Q-Learning Agengenten, kooperierendes Verhalten lernen. Es ist Ziel dieser Arbeit, die Unterschiede theoretisch herauszuarbeiten und praktisch in Java zu implementieren. Dabei soll die Frage geklärt werden, warum nur Q-Learning kooperierendes Verhalten erzeugt.

Excerpt

Inhaltsverzeichnis

1 Einführung

2 Computersimuliertes Lernen

2.1 Das Basismodell

2.2 Q-Learning

2.2.1 Lernmodell

2.2.2 Primitives Lernen

2.2.3 Entscheidungen treffen

2.2.4 Parameter

2.3 Roth-Erev Methode

2.3.1 Entscheidungen treffen

2.3.2 Parameter

3 Vergleich der Modelle

4 Implementierung für das Cournot-Spiel

4.1 Komplexität

4.2 Agentenbasiertes Design

4.3 Stationäre Umwelt

4.4 Dynamische Umwelt

4.4.1 Standard Q-Learning Parameterbereiche

4.4.2 Standard Q-Learning Sequenzen

4.4.3 Zustandsloses Q-Learning

4.4.4 Roth-Erev

5 Kooperationsähnliches Verhalten

6 Zusammenfassung

7 Literatur

8 Anhang

Zielsetzung & Themen

Diese Arbeit untersucht den Einsatz von Reinforcement Learning Algorithmen, speziell Q-Learning und die Roth-Erev-Methode, innerhalb eines wiederholten Cournot-Duopol-Spiels, um Bedingungen für kooperatives Verhalten zwischen Agenten zu identifizieren.

Vergleich von Q-Learning und Roth-Erev Lernalgorithmen.
Analyse von Parametrisierung und Komplexität bei agentenbasierten Modellen.
Untersuchung von Lernverhalten in stationären und dynamischen Umwelten.
Simulation von Marktentscheidungen und Konvergenz zu stabilen Ergebnissen.
Erforschung der theoretischen Voraussetzungen für Kooperation.

Auszug aus dem Buch

1 Einführung

Diese Arbeit untersucht den Einsatz einer Klasse agentenbasierter Lernalgorithmen im wiederholten Cournot-Spiel. Es werden zwei unterschiedliche Implementierungen des sogenannten Reinforcement Learning untersucht, die eine von Alvin E. Roth und Ido Erev [12, S. 171 ff.], die andere von Christopher J.C.H. Watkins [17, S. 95 ff.]. Letztere ist als Q-Learning in die Literatur eingegangen, erstere werde ich im Folgenden kurz als RE bezeichnen. Diese Implementierungen werden in die Modellwelt des bekannten Cournot-Spiels gesetzt, um das Verhalten über den Spielverlauf zu untersuchen, um folgende Fragen zu beantworten: Gibt es Konvergenz zu stabilen Punkten, wenn ja, wie geschieht dies und wann stellt sie sich ein? Diese Fragen werden immer in Abhängigkeit der Parametrisierung der beiden verschiedenen Implementierungen erörtert.

Zusammenfassung der Kapitel

1 Einführung: Die Arbeit führt in die Fragestellung ein, wie verschiedene Reinforcement Learning Algorithmen in einem Cournot-Spiel zu kooperativem Verhalten führen können.

2 Computersimuliertes Lernen: Es werden die theoretischen Grundlagen des Reinforcement Learning dargelegt, insbesondere das Q-Learning und die Roth-Erev-Methode inklusive ihrer spezifischen Parameter.

3 Vergleich der Modelle: Dieser Abschnitt analysiert die konzeptionellen Unterschiede und Gemeinsamkeiten zwischen Q-Learning und dem Roth-Erev-Ansatz.

4 Implementierung für das Cournot-Spiel: Das Kapitel beschreibt die technische Umsetzung, von der Komplexitätsbetrachtung bis hin zu den Ergebnissen in stationären und dynamischen Umwelten.

5 Kooperationsähnliches Verhalten: Es wird diskutiert, unter welchen Voraussetzungen die simulierten Agenten kooperative Marktstrategien entwickeln.

6 Zusammenfassung: Die Ergebnisse werden gebündelt und die Schlussfolgerungen zur Anwendbarkeit der Algorithmen zusammengefasst.

Schlüsselwörter

Reinforcement Learning, Q-Learning, Roth-Erev-Methode, Cournot-Spiel, Spieltheorie, Agentenbasierte Modellierung, Kooperation, Marktwettbewerb, Algorithmen, Simulation, Konvergenz, Parameteroptimierung, Boltzmann-Statistik, Marktmenge, Dynamische Umwelt.

Häufig gestellte Fragen

Worum geht es in dieser Diplomarbeit grundlegend?

Die Arbeit untersucht, wie computergestützte Lernverfahren (Reinforcement Learning) in wirtschaftlichen Spieltheorie-Modellen, speziell dem Cournot-Duopol, eingesetzt werden können, um das Entstehen von kooperativem Verhalten zu simulieren.

Welche zentralen Lernalgorithmen werden verglichen?

Der Fokus liegt auf dem von Watkins entwickelten Q-Learning und der von Roth und Erev (RE) vorgeschlagenen Methode, die beide aus der Verhaltenspsychologie und Künstlichen Intelligenz abgeleitet sind.

Was ist das primäre Forschungsziel?

Das Hauptziel ist es, die Unterschiede zwischen diesen beiden Lernansätzen herauszuarbeiten und zu erklären, warum bestimmte Algorithmen im Gegensatz zu anderen kooperatives Verhalten im Markt erzeugen.

Welche wissenschaftliche Methode kommt zum Einsatz?

Es wird eine agentenbasierte Simulation (Bottom-Up-Ansatz) verwendet, bei der Software-Agenten in tausenden von Spielrunden durch Belohnung und Bestrafung ihre Strategien optimieren.

Welche Aspekte stehen im Hauptteil der Arbeit?

Der Hauptteil befasst sich mit der technischen Implementierung, dem Vergleich der mathematischen Update-Regeln und der systematischen Untersuchung, wie Parameter wie Lernrate, Weitsicht und Temperatur das Endergebnis beeinflussen.

Welche Schlüsselbegriffe charakterisieren die Arbeit?

Die Arbeit lässt sich durch Begriffe wie Reinforcement Learning, Cournot-Spiel, Konvergenz, Kooperation und agentenbasierte Modellierung charakterisieren.

Warum ist das Cournot-Spiel als Anwendungsfall gewählt worden?

Es dient als bekanntes Modell der Spieltheorie, um zu prüfen, ob einfache, lokales Lernen verfolgende Agenten komplexe ökonomische Gleichgewichte oder kollusive Marktergebnisse erreichen können.

Was ist die Schlussfolgerung bezüglich des Roth-Erev-Modells?

Im Gegensatz zu Q-Learning bietet der Roth-Erev-Ansatz in der vorliegenden Untersuchung keine starken Anhaltspunkte für die Entstehung von kooperativem Verhalten im betrachteten Cournot-Szenario.

Excerpt out of 62 pages - scroll top

Details

Title: Reinforcement Learning im Cournot Duopol
Subtitle: Anwendung agentenbasierter Lern-Algorithmen im Cournot-Spiel
College: University of Heidelberg (Alfred-Weber-Institut)
Course: Wirtschaftstheorie
Grade: 1,7
Author: Sandro Bahn (Author)
Publication Year: 2007
Pages: 62
Catalog Number: V75589
ISBN (eBook): 9783638786201
ISBN (Book): 9783638795500
Language: German
Tags: Reinforcement Learning Cournot Duopol Wirtschaftstheorie
Product Safety: GRIN Publishing GmbH

Quote paper: Sandro Bahn (Author), 2007, Reinforcement Learning im Cournot Duopol, Munich, GRIN Verlag, https://www.grin.com/document/75589

Reinforcement Learning im Cournot Duopol

Anwendung agentenbasierter Lern-Algorithmen im Cournot-Spiel