gdrl -Download - gdrl -Quellcode -Download

gdrl

Python

1.0.0

Herunterladen

Trokking tiefes Verstärkungslernen

HINWEIS: Im Moment wird nur der Code aus dem Docker -Container (unten) ausgeführt. Docker ermöglicht die Erstellung einer einzelnen Umgebung, die eher auf allen Systemen funktioniert. Grundsätzlich installiere und konfiguriere ich alle Pakete für Sie, außer Docker selbst, und Sie führen einfach den Code in einer getesteten Umgebung aus.

Um Docker zu installieren, empfehle ich eine Web -Suche nach "Installieren von Docker unter <Ihr Betriebssystem hier>". Um den Code auf einer GPU auszuführen, müssen Sie zusätzlich Nvidia-Docker installieren. Nvidia Docker ermöglicht die Verwendung eines Host -GPUs in Docker -Containern. Nachdem Sie Docker (und Nvidia-Docker bei Verwendung einer GPU) installiert haben, befolgen Sie die drei folgenden Schritte.

Ausführen des Codes

Klonen Sie dieses Repo:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl
Ziehen Sie das GDRL -Bild mit:
docker pull mimoralea/gdrl:v0.14
Einen Container drehen:
- Auf Mac oder Linux:
  docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14
- Unter Windows:
  docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14
- HINWEIS: Verwenden Sie nvidia-docker oder add --gpus all nach --rm zum Befehl, wenn Sie eine GPU verwenden.
Öffnen Sie einen Browser und gehen Sie in die im Terminal gezeigte URL (wahrscheinlich ist: http: // localhost: 8888). Das Passwort ist: gdrl

Über das Buch

Website des Buches

https://www.manning.com/books/grokking-yep-inforcement-learning

Inhaltstabelle

Einführung in das tiefe Verstärkungslernen
Mathematische Grundlagen des Verstärkungslernens
Sofortige und langfristige Ziele ausbalancieren
Ausgleich der Sammlung und Nutzung von Informationen auszugleichen
Bewertung von Verhaltensweisen der Agenten
Verhaltensweisen der Agenten verbessern
Ziele effektiver und effizienter erreichen
Einführung in wertbasierte tiefe Verstärkungslernen
Stabilere wertbasierte Methoden
Beispieleffizient wertbasierte Methoden
Politikgradient und Akteur-kritische Methoden
Fortgeschrittene Schauspieler-kritische Methoden
Auf künstliche allgemeine Intelligenz

Detaillierte Inhaltstabelle

1. Einführung in das tiefe Verstärkungslernen

(LiveBook)
(Kein Notizbuch)

2. Mathematische Grundlagen des Verstärkungslernens

(LiveBook)
(Notizbuch)
- Implementierungen mehrerer MDPs:
  - Bandit Walk
  - Banditen -Slippery Walk
  - Slippery Walk Drei
  - Zufallsspaziergang
  - Russell und Norvigs Gridworld aus Aima
  - Frozenlake
  - FROZENLAKE8X8

3.. Gleiche sofortige und langfristige Ziele ausbalancieren

(LiveBook)
(Notizbuch)
- Implementierungen von Methoden zum Auffinden optimaler Richtlinien:
  - Richtlinienbewertung
  - Politikverbesserung
  - Richtlinien -Iteration
  - Wert -Iteration

4. Ausgleichung der Sammlung und Nutzung von Informationen

(LiveBook)
(Notizbuch)
- Implementierungen von Explorationsstrategien für Bandit -Probleme:
  - Zufällig
  - Gierig
  - E-Greedy
  - E-Greedy mit linear verfallener Epsilon
  - E-Greedy mit exponentiell verfallener Epsilon
  - Optimistische Initialisierung
  - Softmax
  - Oberes Vertrauen gebunden
  - Bayesian

5. Bewertung der Verhaltensweisen der Agenten

(LiveBook)
(Notizbuch)
- Implementierung von Algorithmen, die das Vorhersageproblem lösen (Richtlinienschätzung):
  - Monte-Carlo-Vorhersage von Monte-Carlo
  - On-Policy Jedes-besuchte Monte-Carlo-Vorhersage
  - Temporal-Difference-Vorhersage (TD)
  - N-Schritt-Vorhersage der Temporal-Difference (N-Schritt TD)
  - TD (λ)

6. Verbesserung der Verhaltensweisen der Agenten

(LiveBook)
(Notizbuch)
- Implementierung von Algorithmen, die das Kontrollproblem lösen (Richtlinienverbesserung):
  - Monte-Carlo-Kontrolle der On-Policy-Erstversuche
  - On-Policy Jedes-besuchte Monte-Carlo-Kontrolle
  - On-Policy TD Control: Sarsa
  - Off-Policy-TD-Kontrolle: Q-Learning
  - Doppel-Q-Learning

7. Ziele effektiver und effizienter erreichen

(LiveBook)
(Notizbuch)
- Implementierung von effektiveren und effizienteren Algorithmen zur Verstärkung:
  - Sarsa (λ) durch Ersetzen von Spuren
  - Sarsa (λ) mit akkumulierenden Spuren
  - Q (λ) durch Ersetzen von Spuren
  - Q (λ) mit akkumulierenden Spuren
  - Dyna-Q
  - Trajektorienabtastung

8. Einführung in wertbasierte tiefe Verstärkungslernen

(LiveBook)
(Notizbuch)
- Implementierung einer wertorientierten Basislinie für tiefe Verstärkungslernen:
  - Neuronal angepasste Q-Ireation (NFQ)

9. Stabilere wertbasierte Methoden

(LiveBook)
(Notizbuch)
- Implementierung von "klassischen" wertbasierten Methoden zur Lernmethoden für die Lernverstärkung:
  - Deep q-Networks (DQN)
  - Doppelte tiefe Q-Networks (DDQN)

10. Probeneffizient wertbasierte Methoden

(LiveBook)
(Notizbuch)
- Implementierung von Hauptverbesserungen für wertbasierte Tiefverstärkungslernmethoden:
  - Duelling Deep Q-Networks (Duelling DQN)
  - Priorisierte Erfahrungen Wiederholung (per)

11. Politikgradient und Akteurkritische Methoden

(LiveBook)
(Notizbuch)
- Implementierung klassischer politischen und auf Schauspieler kritischen Lernmethoden für die Deep-Verstärkungs-Lernmethoden:
  - Richtliniengradienten ohne Wertfunktion und Monte-Carlo Returns (verstärken)
  - Richtliniengradienten mit Wertfunktionsbasis mit Monte-Carlo-Renditen (VPG)
  - Asynchroner Vorteil Schauspieler-Kritik (A3C)
  - Verallgemeinerte Vorteilsschätzung (GAE)
  - [Synchron] Advantage Actor-Critic (A2C)

12. Advanced Actor-Critic Methoden

(LiveBook)
(Notizbuch)
- Implementierung fortschrittlicher Akteur-kritischer Methoden:
  - Deep Deterministic Policy Gradient (DDPG)
  - Twin verzögerte tiefe deterministische politische Gradienten (TD3)
  - Weicher Schauspielerkritiker (SAC)
  - Proximale Politikoptimierung (PPO)