Deep Traffic Reinforcement Learning. Steuern eines Fahrzeugs durch eine simulierte Straßenumgebung mit dichtem Verkehr


Seminararbeit, 2019

35 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

Inhaltsverzeichnis

Abkürzungs-, Abbildungs- und Tabellenverzeichnis
Abkürzungen
Abbildungen
Tabellen

1 Einleitung
1.1 Problemstellung
1.2 Zielsetzung
1.3 Vorgehensweise

2 Reinforcement Learning
2.1 Grundlagen
2.2 Beispiele
2.3 Algorithmen

3 Praxisbeispiel
3.1 Abgrenzung
3.2 Beschreibung
3.3 Implementierung
3.4 Ergebnis

4 Schlussbetrachtung

Literaturverzeichnis
Monographien
Sammelwerke
Internetquellen

Abkürzungs-, Abbildungs- und Tabellenverzeichnis

Abkürzungen

Abbildung in dieser Leseprobe nicht enthalten

Abbildungen

Abbildung 1: Traditionelle Programme vs. Machine Learning

Abbildung 2: Verstärktes Lernen eines Agenten aus seiner Umgebung

Abbildung 3: Ergebnisse in Balkendiagramm-Darstellung

Abbildung 4: Submission History

Tabellen

Tabelle 1: Parameter-Tabelle

Tabelle 2: Testlauf 1 vs. Testlauf 2

Tabelle 3: Testlauf 2 vs. Testlauf 3

Tabelle 4: Testlauf 3 vs. Testlauf 4

Tabelle 5: Testlauf 4 vs. Testlauf 5

Tabelle 6: Testlauf 4 vs. Testlauf 6

Tabelle 7: Testlauf 6 vs. Testlauf 7

Tabelle 8: Testlauf 7 vs. Testlauf 8

Tabelle 9: Testlauf 8 vs. Testlauf 9

Tabelle 10: Testlauf 9 vs. Testlauf 10

Tabelle 11: Testlauf 10 vs. Testlauf 11

Tabelle 12: Testlauf 11 vs. Testlauf 12

Tabelle 13: Testlauf 11 vs. Testlauf 13

Tabelle 14: Testlauf 13 vs. Testlauf 14

Tabelle 15: Testlauf 14 vs. Testlauf 15

1 Einleitung

„Wir stehen am Vorabend einer weiteren mobilen Revolution. In Zukunft werden autonome Fahrzeuge aktiv am Straßenverkehr teilnehmen.“1

Durch die ansteigende Anzahl der Teilnehmer am Straßenverkehr wird es immer voller und enger auf den Straßen Deutschlands. Typischer Wochenbeginn – alle auf dem Weg zur Arbeit - PKWs, LKWs, Busse und an sonnigen Tagen, die Motorradfahrer. An Teilnehmern am Straßenverkehr fehlt es keines Wegs. Bei dichtem Verkehr steigt dadurch des Risikos eines Unfalls oder eines Staus. Mit autonom fahrenden Fahrzeugen wird sich in naher Zukunft einiges ändern – voraussichtlich auch zum Vorteil aller Autofahrer, wie beispielsweise das Erledigen von Aufgaben oder das Vorbereiten auf ein Kundengespräch während der Fahrt.2 Dem Autofahrer werden Schritt für Schritt mehr und mehr Aufgaben beim Autofahren abgenommen. Aber auch negative Folgeerscheinungen können entstehen.3 Beispielsweise die Abhängigkeit der Technik und das Vertrauen in das System. Um das autonome Fahren ermöglichen zu können, benötigten die Fahrzeuge viele notwendige Daten. Diese werden beispielsweise von Sensoren, Kameras oder auch Positionierungssystemen geliefert und in Echtzeit mittels Prozessoren und Kommunikationsschnittstellen anderer Fahrzeuge verarbeiten. Unter anderem ist auch die Verkehrsinfrastruktur ein bedeutender Teil des Ganzen Vorhabens. So müssen die Verkehrsinfrastruktur sowie die Kommunikationsinfrastruktur zusammen harmonieren und mit einander kollaborieren.4 Hierfür könnte Reinforcement Learning eine entscheidende Rolle beim autonomen Fahren übernehmen.

In den folgenden Abschnitten dieser Arbeit sollen die Themen rund um Reinforcement Learning und ein Praxisbeispiel mit Hilfe von Reinforcement Learning dargestellt werden. Das Praxisbeispiel bezieht sich auf ein simuliertes Verkehrssystem, welches mit Hilfe von Reinforcement Learning selbstständig lernt, ob und wann ein Fahrzeug eigenständig überholen soll.

1.1 Problemstellung

„Die technologische Perspektive des autonomen Fahrens ist gleichwohl nur eine Seite der Medaille.“5 Die Wirkungen auf unsere Gesellschaft durch autonomes Fahren können wir nur gegenwärtig erahnen.6 Dabei entstehen zahlreiche kritische Fragen rund um die Thematik autonomes Fahren und die dazugehörige Technologie und Gesetzeslage:7

- Wie wird es um das Thema Datensicherheit bestellt sein?
- Wie werden wir mit weitreichenden Eingriffen in unsere mobile Autonomie umgehen?
- Welche Probleme ergeben sich, wenn ein autonomes Fahrzeug Ländergrenzen überschreitet?
- In welcher Form haften künftig Versicherungen bei Unfällen durch autonome Fahrzeuge?
- Oder umgekehrt gefragt: Dürfen wir überhaupt noch Menschen ans Steuer lassen, sollten Fahrroboter die Sicherheit im Straßenverkehr nachweislich erhöhen?

Deshalb müssen wir uns heute solchen Fragen stellen und diesen tiefgreifenden Wandel der Mobilität nicht einfach als gegeben hinnehmen. Um die ethischen, sozialen, juristischen, psychologischen und verkehrstechnischen Rahmenbedingungen dieses Prozesses anzuleuchten, müssen sich Experten und Wissenschaftler aus verschiedenen Fachbereichen, sich dem Thema annehmen.8 Ohne eine Art von Entscheidungsethik, wird es dem autonomen Fahren erschwert, sich in der Praxis behaupten zu können.9 Deshalb gilt es für sogenannte Dilemma-Situationen, in denen eine Abwägung getroffen werden muss, welches Verhalten im Falle einer unvermeidbaren Kollision den beteiligten Personen innerhalb und außerhalb des Fahrzeugs den geringsten Schaden zufügt. Eine weitere Problemstellung ist die Gesetzgebung, wie beispielsweise die Straßenverkehrsordnung, welche Konsequenzen resultieren könnten.10

1.2 Zielsetzung

Ziel dieser Arbeit ist es ein grundlegendes Verständnis über Reinforcement Learning zu vermitteln und die Möglichkeiten zu veranschaulichen die Reinforcement Learning bietet. Des Weiteren sollen einige Beispiele wie die Künstliche Intelligenz (KI) arbeitet und welche Algorithmen veranschaulicht werden. Anschließend wird ein Praxisbeispiel anhand eines Verkehrssystems beschrieben, welche die Evaluierung, Implementierung und das Ergebnis darstellen. Im Praxisbeispiel geht es darum, verschiedene Testläufe zu absolvieren, um das bestmögliche Ergebnis zu erzielen, indem verschiedene Testläufe miteinander verglichen werden und die Paramater optimiert werden. Ziel ist es mit Hilfe einer Simulationsumgebung die Parameter des Modells zu optimieren und die Ergebnisse der Testläufe bewerten zu lassen.

1.3 Vorgehensweise

Die vorliegende Arbeit soll zeigen, inwieweit Reinforcement Learning dabei helfen kann, dass Fahrzeuge wie beispielsweise PKWs oder LKWs, autonom im Straßenverkehr selbstständig fahren, bremsen, überholen und parken können. Dabei sollen die Grundlagen rund um Reinforcement Learning erläutert werden und im Praxisteil soll ein Beispiel für ein Verkehrssystem mit Hilfe von Reinforcement Learning veranschaulicht werden.

In Kapitel 2 werden die allgemeinen Grundlagen, Beispiele und Algorithmen zu Reinforcement Learning beschrieben werden. Diese dienen für die weiteren Kapitel als Leitfaden für die Entwicklung eines Algorithmus und einiger Testläufe.

Kapitel 3 widmet sich beispielhaft dem Praxisteil anhand eines Verkehrssystem, welches mit Hilfe von Reinforcement Learning erstellt wurde. Evaluierung, Implementierung und Ergebnis bilden den Aufbau des Kapitels. Dabei werden verschiedenen Testläufe absolviert, um das beste Ergebnis bei den Testdurchläufen zu erzielen. Abschließend wird das eigene beste Ergebnis mit anderen Testläufen von anderen Anwendern verglichen.

Die Schlussbetrachtung in Kapitel 4 schließt die Arbeit anhand einer Zusammenstellung der wichtigsten Erkenntnisse und eines Ausblicks ab.

2 Reinforcement Learning

2.1 Grundlagen

Das verstärkte Lernen (Reinforcement Learning) ist eine von drei Hauptkategorien bei Machine Learning.11 In diesen Abschnitt wird nur auf Reinforcement Learning näher eingegangen. Machine Learning unterteilt sich in die drei Hauptkategorien: überwachtes Lernen (Supervised Learning), unüberwachtes Lernen (Unsupervised Learning) und verstärktes Lernen (Reinforcement Learning). Zusätzlich unterscheidet man zwischen einem Offline- und Online-Lernsystem.12 Beim Offline-Lernsystem findet das Lernen von Verhalten zunächst offline statt, also getrennt vom dem Anwendungsszenario. Erst danach wird das Gelernte angewendet und nicht mehr verändert.13 Im Online-Lernsystem hingegen wird das Verhalten gelernt und verändert und passt sich innerhalb des Anwendungsszenarios beständig an. Veranschaulicht wird das in Abbildung 1, wie gezeigt wird, wo der Unterschied zwischen einem traditionellen Programm und Machine Learning besteht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Traditionelle Programme vs. Machine Learning14

Beim verstärkten Lernen lernt ein Computerprogramm direkt aus den Erfahrungen.15 Hier arbeitet das Programm mit seiner Umgebung zusammen und erhält für die richtigen Ergebnisse ein Feedback in Form einer Belohnung. Das Programm ist wie mit einem dressierten Tier zu vergleichen, indem es beispielsweise in einer Spielsituation dafür belohnt wird, wenn es das Spiel gewinnt. Das Lernmuster des Programmes ist der Natur konzeptionell nachgebildet.16 Das Ziel des Programmes besteht darin, sich die Konsequenzen seiner Handlung zu merken und mit dem erlernten Wissen versucht es, seine Belohnung zu maximieren.17 Die Belohnung ist dementsprechend die Regelgröße, die in diesem Verfahren optimiert wird.18 Darüber hinaus geht es beim verstärkten Lernen darum, dass das System neben den richtungsweisenden Belohnungen und Bestrafungen, eigene Lösungen finden muss, die sich deutlich von Menschen erdachten Lösungen unterscheiden können.19 So entsteht der Unterschied zu den anderen genannten Modellen, dass beim verstärkten Lernen zu Beginn der Lernphase kein optimaler Lösungsweg vorliegt.20 Das bedeutet, dass das Modell versucht selbstständig den besten Lösungsweg zu finden oder zumindest scheinbar intuitiv zu handeln.21 Die Situation beim Reinforcement Learning ist schwieriger als bei den anderen Modellen, weil beim verstärkten Lernen keine Trainingsdaten existieren.22 Das bedeutet, dass die Aufgabe des Modells darin besteht, durch Versuch und Irrtum oder auch Erfolg herauszufinden, welche Aktionen in einem bestimmten Fall gut sind und welche nicht.23 In vielen Situationen lernen wir Menschen ähnlich. Zum Beispiel wenn ein Kind das aufrechte Gehen lernt, erfolgt dies meist ohne Anleitung, einfach durch Verstärkung.24 Erfolgreiche Gehversuche werden belohnt und fehlgeschlagene Versuche bestraft, indem das Kind mit schmerzvollen Stürzen hinfällt.

2.2 Beispiele

In diesem Abschnitt sollen einige Beispiele zum verstärkten Lernen beschrieben werden, die heute schon bekannt sind. Eines der wohl bekanntesten Beispiele für Reinforcement Learning ist Googles DeepMinds AlphaGo Zero.25 Hier besiegte das Programm von Google die weltbesten Spieler im asiatischen Brettspiel Go. Für den Sieg verwendete es den Monte Carlo Tree Search Algorithmus zum Erzeugen von Trainingsdaten, Deep Learning zur Bewertung von Brettstellungen und Reinforcement Learning in Spielen des Programms gegen sich selbst zur Verbesserung der Spielstrategie.26 Ein weiteres Beispiel ist ein Roboterarm der Firma Fanuc. Dort konnte mit Hilfe von verstärktem Lernen der Roboterarm binnen weniger Stunden, ihm bislang unbekannte Objekte sicher greifen und bewegen.27 Durch das Beispiel von Fanuc, zeigt, dass Reinforcement Learning eine wichtige Rolle in der Zukunft von Automatisierung und Robotik eingenommen hat.28 Ein drittes Beispiel stammt ebenfalls aus dem Themengebiet der Robotik. Hierbei soll ein Roboter, der aus einem quadratischen Klotz und einem Arm besteht, eine Strategie entwickeln, mit welcher er sich schnellstmöglich vorwärtsbewegen kann.29 Auch die Daimler AG beschäftigt sich mit Reinforcement Learning und setzt das Modell für autonomes Fahren ein.30 Lernen durch Verstärkung wird dahingehend verwendet, um den Lernprozess zu verbessern, indem ein Agent die dafür benötigten Trainingsdaten erzeugt.31 Ein weiteres Beispiel der Firma Daimler, ist die Airbagauslösung in einem Fahrzeug. So setzt sich ein Lernproblem aus der Zuordnung von Sensorwerten zu dem Befehl der Auslösung eines Airbags.32 Um das Lernproblem in den Griff zu bekommen, wird ein Klassifikator eingesetzt, indem der Klassifikator selbstständig lernt, Unfälle entweder der Klasse auslösen oder nicht auslösen zu zuordnen.33

2.3 Algorithmen

Mathematisch gesehen handelt es sich beim verstärkten Lernen um ein dynamisches System aus einem Agenten und seiner Umgebung mit diskreten Zeitschritten (t = 0,1,2, ...).34 Zu jedem Zeitpunkt t ist die Welt in einem Zustand zt. Das bedeutet der Agent wählt eine Aktion at aus. Dann wechselt das System in den Zustand zt+1 und der Agent erhält hierfür die Belohnung bt. In folgender Abbildung wird dies dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Verstärktes Lernen eines Agenten aus seiner Umgebung35

Die Strategie des Agenten wird mit πt bezeichnet, wobei πt (z,a) die Wahrscheinlichkeit ist, dass die Aktion at = a ist, falls der Zustand zt = z ist.36 Die Algorithmen des verstärkten Lernens bestimmen, wie der Agent seine Strategie aufgrund seiner Erfahrungen verändert.37 Das Ziel des Agenten ist es dabei, seine Rückmeldungen zu optimieren, damit er sein Ziel erreichen kann. Idealerweise ist ein Agent in einem Zustand, bei dem er alle vergangenen Erfahrungen aufsummiert, die für die Erreichung seines Ziels notwendig sind.38 Mehr als die vollständige Geschichte von allen vergangenen Wahrnehmungen sind auch nicht notwendig und reichen somit vollkommen aus.39 „Wenn die Wahrscheinlichkeit eines Zustands nur vom vorausgehenden Zustand und einer vorausgehenden Aktion des Agenten in diesem Zustand abhängt, erfüllt der Entscheidungsprozess die Markov-Eigenschaft.“40

Die Markov-Entscheidungsprozesse sind durch die Markov-Eigenschaft bestimmt:41

P(zt+1, rt+1 | z0:t, a0:t, b0:t) = P(zt+1, rt+1 | zt, at)

Das Aktionsmodell P(zt+1 | zt, at) ist die bedingte Wahrscheinlichkeitsverteilung, dass die Welt vom Zustand zt in den Zustand zt+1 übergeht, falls der Agent die Aktion at auswählt – rt+1 ist die erwartete Belohnung im nächsten Schritt.42

Ein weiterer Lernalgorithmus wird mit Hilfe des Satzes von Bayes realisiert. Beim Satz von Bayes lassen sich bedingte Wahrscheinlichkeiten berechnen.43 D.h. die bedingte Wahrscheinlichkeit P (A|B) von Ereignis A nach Eintreten von Ereignis B ist durch den Quotienten der Wahrscheinlichkeit P (A ∩ B) und der Wahrscheinlichkeit P (B) von Ereignis B definiert.44

Abbildung in dieser Leseprobe nicht enthalten 45

Daher besagt der Satz von Bayes

Abbildung in dieser Leseprobe nicht enthalten

dass die Wahrscheinlichkeit von A nach Eintreten von B berechnet sich aus der bedingten Wahrscheinlichkeit von B unter der Voraussetzung von A und den Wahrscheinlichkeiten P (A) und P (B).46

3 Praxisbeispiel

3.1 Abgrenzung

Das Beispiel orientiert sich spielerisch an der Problematik, nach welcher sich die Amerikaner, die meiste Zeit im Stau befinden. Die Geschwindigkeit wird in Miles per hour (mph) gemessen. Zudem herrscht eine Höchstgeschwindigkeit von 80 mph, an welcher sich die Fahrzeuge halten müssen.

Der gegebene Quellcode ist kurz und die Codepassagen sind kaum kommentiert, weshalb es sich empfiehlt die direkt verlinkte Dokumentation vor dem programmieren zu lesen. Simuliert ist eine 2D Umgebung, welche eine sieben spurige Straße, eine zufällige Anzahl an weiteren Fahrzeugen sowie die vom Deep Traffic Algorithmus (DTA) gesteuerten Fahrzeuge visualisiert.

Die Not-Player-Charaktere (NPC) fahren eine Geschwindigkeit von durchschnittlich 42 mph bis 47 mph und werden zufällig auf der Strecke simuliert. Die NPCs führen zufällige Spurwechsel durch.

Ziel der vom DTA gesteuerter Fahrzeuge ist es, mit der gefahrenen Durchschnittsgeschwindigkeit möglichst nah an die Höchstgeschwindigkeit zu gelangen. Dies soll durch überholen anderer Fahrzeuge realisiert werden. Die Neuronalen Netze, welche für das Lernen der Maschine verantwortlich sind, sind bereits vom Massachusetts Institute of Technology (MIT) gegeben. Die Verwendung wird ausdrücklich empfohlen. Die Verfasser nutzen die gegeben Funktion für das Deep Learning. Mittels Klicks auf einen Button in der Weboberfläche lässt sich das Modell mit dem optimierten Code trainieren. Im Anschluss lässt sich das Modell evaluieren. Das Ergebnis ist die durchschnittliche gefahrene Geschwindigkeit. In den folgenden Versuchen werden die durch die Verfasser getroffene Optimierungen mittels dem default Code verglichen. Das Ergebnis dient somit als Indikator für die Qualität des Optimierten Codes.

3.2 Beschreibung

Das folgende Beispiel basiert auf dem vom MIT bereitgestellten Deep Learning Algorithmus47. Ziel ist es, in einem simulierten 2D Umfeld den Verkehrsfluss mittels Deep Learning zu verstehen und zu optimieren. Die Verfasser haben sich für dieses Beispiel entschieden, da es außer einem Webbrowser keine anderen technischen Hilfsmittel bedarf. Es bietet eine vordefinierte Umgebung, welche für Programmiereinsteiger geeignet ist. Außerdem sind die downloadbaren Codes mittels GitHub repository bereitstellt, welche jedoch nicht genauer betrachtet werden. Im folgenden Abschnitt werden Implementierungen an der Oberfläche vorgenommen, welche zur Verbesserung des Algorithmus und somit zu einem besseren Verkehrsfluss beitragen sollen. Im folgenden Abschnitt werden die Versuche der Verfasser inhaltlich detailliert beschrieben. Das MIT betreibt einen Wettkampf mit einer Rangliste, auf welchem die Programmierer gelistet sind. Ziel ist es, das eigene Fahrzeug an anderen Verkehrsteilnehmern vorbeifahren zu lassen. Die Verfasser haben sich auf der Rangliste listen lassen. Der aktuell im Wettkampf führende ist mit einer Durchschnittsgeschwindigkeit, am 20. Februar 2019, mit 76,60 mph48 gelistet.

[...]


1 Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 5

2 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 5

3 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 6

4 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 6

5 Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 5

6 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 5

7 Entnommen aus: Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 5

8 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 5

9 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 6

10 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 6

11 Vgl. Wittpahl, V. (2019), S. 24

12 Vgl. Wittpahl, V. (2019), S. 25

13 Vgl. Wittpahl, V. (2019), S. 25

14 Entnommen aus: Wittpahl, V. (2019), S. 25

15 Vgl. Wittpahl, V. (2019), S. 29

16 Vgl. Gentsch, P. (2018), S. 38

17 Vgl. Gentsch, P. (2018), S. 38

18 Vgl. Wittpahl, V. (2019), S. 29

19 Vgl. Gentsch, P. (2018), S. 39

20 Vgl. Gentsch, P. (2018), S. 38

21 Vgl. Gentsch, P. (2018), S. 39

22 Vgl. Ertel, W. (2016), S. 313

23 Vgl. Ertel, W. (2016), S. 313

24 Vgl. Ertel, W. (2016), S. 313

25 Vgl. Gentsch, P. (2018), S. 39

26 Vgl. Ertel, W. (2016), S. 331

27 Vgl. Wittpahl, V. (2019), S. 29

28 Vgl. Wittpahl, V. (2019), S. 29

29 Vgl. Ertel, W. (2016), S. 314

30 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 470

31 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 470

32 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 471

33 Vgl. Maurer, M., Gerdes, J.C., Lenz, B., Winner, H. (2015), S. 471

34 Vgl. Mainzer, K. (2016), S. 119

35 Entnommen aus: Mainzer, K. (2016), S. 120

36 Vgl. Mainzer, K. (2016), S. 119

37 Vgl. Mainzer, K. (2016), S. 119

38 Vgl. Mainzer, K. (2016), S. 120

39 Vgl. Mainzer, K. (2016), S. 121

40 Mainzer, K. (2016), S. 121

41 Entnommen aus: Mainzer, K. (2016), S. 121

42 Vgl. Mainzer, K. (2016), S. 121

43 Vgl. Mainzer, K. (2016), S. 122

44 Vgl. Mainzer, K. (2016), S. 122

45 Entnommen aus: Mainzer, K. (2016), S. 122

46 Vgl. Mainzer, K. (2016), S. 122

47 Vgl. MIT (2019), Self Driving Cars, https://selfdrivingcars.mit.edu/deeptraffic/

48 Vgl. MIT (2019), Self Driving Cars, https://selfdrivingcars.mit.edu/deeptraffic-leaderboard/

Ende der Leseprobe aus 35 Seiten

Details

Titel
Deep Traffic Reinforcement Learning. Steuern eines Fahrzeugs durch eine simulierte Straßenumgebung mit dichtem Verkehr
Hochschule
FOM Essen, Hochschule für Oekonomie & Management gemeinnützige GmbH, Hochschulleitung Essen früher Fachhochschule
Veranstaltung
Big Data & Data Science
Note
1,7
Autoren
Jahr
2019
Seiten
35
Katalognummer
V514309
ISBN (eBook)
9783346108005
ISBN (Buch)
9783346108012
Sprache
Deutsch
Schlagworte
BigData, Deep Learning, Reinforcement Learning, autonomes Fahren
Arbeit zitieren
Andreas Schurr (Autor)Reinhold Ackermann (Autor), 2019, Deep Traffic Reinforcement Learning. Steuern eines Fahrzeugs durch eine simulierte Straßenumgebung mit dichtem Verkehr, München, GRIN Verlag, https://www.grin.com/document/514309

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Deep Traffic Reinforcement Learning. Steuern eines Fahrzeugs durch eine simulierte Straßenumgebung mit dichtem Verkehr



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden