Trokking tiefes Verstärkungslernen
HINWEIS: Im Moment wird nur der Code aus dem Docker -Container (unten) ausgeführt. Docker ermöglicht die Erstellung einer einzelnen Umgebung, die eher auf allen Systemen funktioniert. Grundsätzlich installiere und konfiguriere ich alle Pakete für Sie, außer Docker selbst, und Sie führen einfach den Code in einer getesteten Umgebung aus.
Um Docker zu installieren, empfehle ich eine Web -Suche nach "Installieren von Docker unter <Ihr Betriebssystem hier>". Um den Code auf einer GPU auszuführen, müssen Sie zusätzlich Nvidia-Docker installieren. Nvidia Docker ermöglicht die Verwendung eines Host -GPUs in Docker -Containern. Nachdem Sie Docker (und Nvidia-Docker bei Verwendung einer GPU) installiert haben, befolgen Sie die drei folgenden Schritte.
Ausführen des Codes
- Klonen Sie dieses Repo:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - Ziehen Sie das GDRL -Bild mit:
docker pull mimoralea/gdrl:v0.14 - Einen Container drehen:
- Auf Mac oder Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - Unter Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - HINWEIS: Verwenden Sie
nvidia-docker oder add --gpus all nach --rm zum Befehl, wenn Sie eine GPU verwenden.
- Öffnen Sie einen Browser und gehen Sie in die im Terminal gezeigte URL (wahrscheinlich ist: http: // localhost: 8888). Das Passwort ist:
gdrl
Über das Buch
Website des Buches
https://www.manning.com/books/grokking-yep-inforcement-learning
Inhaltstabelle
- Einführung in das tiefe Verstärkungslernen
- Mathematische Grundlagen des Verstärkungslernens
- Sofortige und langfristige Ziele ausbalancieren
- Ausgleich der Sammlung und Nutzung von Informationen auszugleichen
- Bewertung von Verhaltensweisen der Agenten
- Verhaltensweisen der Agenten verbessern
- Ziele effektiver und effizienter erreichen
- Einführung in wertbasierte tiefe Verstärkungslernen
- Stabilere wertbasierte Methoden
- Beispieleffizient wertbasierte Methoden
- Politikgradient und Akteur-kritische Methoden
- Fortgeschrittene Schauspieler-kritische Methoden
- Auf künstliche allgemeine Intelligenz
Detaillierte Inhaltstabelle
1. Einführung in das tiefe Verstärkungslernen
- (LiveBook)
- (Kein Notizbuch)
2. Mathematische Grundlagen des Verstärkungslernens
- (LiveBook)
- (Notizbuch)
- Implementierungen mehrerer MDPs:
- Bandit Walk
- Banditen -Slippery Walk
- Slippery Walk Drei
- Zufallsspaziergang
- Russell und Norvigs Gridworld aus Aima
- Frozenlake
- FROZENLAKE8X8
3.. Gleiche sofortige und langfristige Ziele ausbalancieren
- (LiveBook)
- (Notizbuch)
- Implementierungen von Methoden zum Auffinden optimaler Richtlinien:
- Richtlinienbewertung
- Politikverbesserung
- Richtlinien -Iteration
- Wert -Iteration
4. Ausgleichung der Sammlung und Nutzung von Informationen
- (LiveBook)
- (Notizbuch)
- Implementierungen von Explorationsstrategien für Bandit -Probleme:
- Zufällig
- Gierig
- E-Greedy
- E-Greedy mit linear verfallener Epsilon
- E-Greedy mit exponentiell verfallener Epsilon
- Optimistische Initialisierung
- Softmax
- Oberes Vertrauen gebunden
- Bayesian
5. Bewertung der Verhaltensweisen der Agenten
- (LiveBook)
- (Notizbuch)
- Implementierung von Algorithmen, die das Vorhersageproblem lösen (Richtlinienschätzung):
- Monte-Carlo-Vorhersage von Monte-Carlo
- On-Policy Jedes-besuchte Monte-Carlo-Vorhersage
- Temporal-Difference-Vorhersage (TD)
- N-Schritt-Vorhersage der Temporal-Difference (N-Schritt TD)
- TD (λ)
6. Verbesserung der Verhaltensweisen der Agenten
- (LiveBook)
- (Notizbuch)
- Implementierung von Algorithmen, die das Kontrollproblem lösen (Richtlinienverbesserung):
- Monte-Carlo-Kontrolle der On-Policy-Erstversuche
- On-Policy Jedes-besuchte Monte-Carlo-Kontrolle
- On-Policy TD Control: Sarsa
- Off-Policy-TD-Kontrolle: Q-Learning
- Doppel-Q-Learning
7. Ziele effektiver und effizienter erreichen
- (LiveBook)
- (Notizbuch)
- Implementierung von effektiveren und effizienteren Algorithmen zur Verstärkung:
- Sarsa (λ) durch Ersetzen von Spuren
- Sarsa (λ) mit akkumulierenden Spuren
- Q (λ) durch Ersetzen von Spuren
- Q (λ) mit akkumulierenden Spuren
- Dyna-Q
- Trajektorienabtastung
8. Einführung in wertbasierte tiefe Verstärkungslernen
- (LiveBook)
- (Notizbuch)
- Implementierung einer wertorientierten Basislinie für tiefe Verstärkungslernen:
- Neuronal angepasste Q-Ireation (NFQ)
9. Stabilere wertbasierte Methoden
- (LiveBook)
- (Notizbuch)
- Implementierung von "klassischen" wertbasierten Methoden zur Lernmethoden für die Lernverstärkung:
- Deep q-Networks (DQN)
- Doppelte tiefe Q-Networks (DDQN)
10. Probeneffizient wertbasierte Methoden
- (LiveBook)
- (Notizbuch)
- Implementierung von Hauptverbesserungen für wertbasierte Tiefverstärkungslernmethoden:
- Duelling Deep Q-Networks (Duelling DQN)
- Priorisierte Erfahrungen Wiederholung (per)
11. Politikgradient und Akteurkritische Methoden
- (LiveBook)
- (Notizbuch)
- Implementierung klassischer politischen und auf Schauspieler kritischen Lernmethoden für die Deep-Verstärkungs-Lernmethoden:
- Richtliniengradienten ohne Wertfunktion und Monte-Carlo Returns (verstärken)
- Richtliniengradienten mit Wertfunktionsbasis mit Monte-Carlo-Renditen (VPG)
- Asynchroner Vorteil Schauspieler-Kritik (A3C)
- Verallgemeinerte Vorteilsschätzung (GAE)
- [Synchron] Advantage Actor-Critic (A2C)
12. Advanced Actor-Critic Methoden
- (LiveBook)
- (Notizbuch)
- Implementierung fortschrittlicher Akteur-kritischer Methoden:
- Deep Deterministic Policy Gradient (DDPG)
- Twin verzögerte tiefe deterministische politische Gradienten (TD3)
- Weicher Schauspielerkritiker (SAC)
- Proximale Politikoptimierung (PPO)
13. Auf dem Weg zu künstlicher allgemeine Intelligenz
- (LiveBook)
- (Kein Notizbuch)