pytorch a2c ppo acktr gail DOWNLOAD - pytorch a2c ppo acktr gail Quellcode Download

pytorch a2c ppo acktr gail

Python

1.0.0

Herunterladen

Pytorch-A2C-PPO-ACKTR

Update (12. April 2021)

PPO ist großartig, aber ein weicher Schauspielerkritiker kann für viele kontinuierliche Kontrollaufgaben besser sein. Bitte schauen Sie sich mein neues RL -Repository in JAX an.

Bitte verwenden Sie Hyperparameter aus diesem Readme. Mit anderen Hyperparametern funktionieren die Dinge möglicherweise nicht (es ist schließlich RL)!

Dies ist eine Pytorch -Implementierung von

Advantage Actor Critic (A2C), eine synchrone deterministische Version von A3C
PPO der proximalen Politikoptimierung
Skalierbare Trust-Region-Methode zum Tiefenverstärkungslernen mithilfe von Kronecker-faktoriertem Annäherung ACKTR
Generative kontroverse Nachahmung Lerngail

Weitere Informationen finden Sie in den OpenAI -Posts: A2C/ACKTR und PPO.

Diese Implementierung ist von den OpenAI -Baselines für A2C, ACKTR und PPO inspiriert. Es verwendet die gleichen Hyperparameter und das Modell, da sie für Atari -Spiele gut abgestimmt waren.

Bitte verwenden Sie dieses Bibtex, wenn Sie dieses Repository in Ihren Veröffentlichungen zitieren möchten:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

Unterstützte (und getestete) Umgebungen (über Openai Gym)

Atari -Lernumgebung
Mujoco
Pybullet (einschließlich Rennfahrer, Minitaur und Kuka)
DeepMind Control Suite (über DM_CONTROL2GYM)

Ich empfehle Pybullet als kostenlose Open -Source -Alternative zu Mujoco für kontinuierliche Kontrollaufgaben.

Alle Umgebungen werden mit genau derselben Fitnessoberfläche betrieben. Eine umfassende Liste finden Sie in ihren Dokumentationen.

Um die DeepMind Control Suite-Umgebungen zu verwenden, setzen Sie das Flag --env-name dm.<domain_name>.<task_name> , wobei domain_name und task_name der Name einer Domäne (z. B. hopper ) und eine Aufgabe innerhalb dieser Domäne (z. B. stand ) aus der DeepMind Control Suite sind. In ihrem Repo und ihrem Tech -Bericht finden Sie eine vollständige Liste der verfügbaren Domänen und Aufgaben. Abgesehen von der Aufgabe ist die API für die Interaktion mit der Umgebung genau das gleiche wie für alle Fitnessumgebungen dank DM_CONTROL2GYM.

Anforderungen

Python 3 (es könnte mit Python 2 funktionieren, aber ich habe es nicht getestet)
Pytorch
Stabile Baselines3

Um Anforderungen zu installieren, folgen Sie:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

Beiträge

Beiträge sind sehr willkommen. Wenn Sie wissen, wie Sie diesen Code besser machen können, öffnen Sie bitte ein Problem. Wenn Sie eine Pull -Anfrage einreichen möchten, öffnen Sie bitte zuerst ein Problem. Siehe auch eine Todo -Liste unten.

Außerdem suche ich nach Freiwilligen, um alle Experimente auf Atari und Mujoco (mit mehreren zufälligen Samen) durchzuführen.

Haftungsausschluss

Es ist äußerst schwierig, Ergebnisse für Verstärkungslernen zu reproduzieren. Weitere Informationen finden Sie in "Deep verstärktes Lernen, das zählt". Ich habe versucht, OpenAI -Ergebnisse so genau wie möglich zu reproduzieren. Die Leistungsunterschiede in den Hauptfächern können jedoch auch durch geringfügige Unterschiede in den Tensorflow- und Pytorch -Bibliotheken verursacht werden.

Todo

Verbessern Sie diese Readme -Datei. Bilder neu ordnen.
Verbesserung der Leistung von KFAC, siehe KFAC.py für weitere Informationen
Führen Sie die Bewertung für alle Spiele und Algorithmen aus

Visualisierung

Um die Ergebnisse zu visualisieren, verwenden Sie visualize.ipynb .

Ausbildung

Atari

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

Mujoco

Bitte versuchen Sie immer --use-proper-time-limits die Flagge zu verwenden. Es behandelt die teilweisen Trajektorien ordnungsgemäß (siehe https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

ACKTR erfordert einige Änderungen, die speziell für MUJOCO vorgenommen werden können. Aber im Moment möchte ich diesen Code so einig wie möglich halten. Daher gehe ich bessere Möglichkeiten, um es in die Codebasis zu integrieren.

Genießen

Atari

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

Mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

Ergebnisse

A2C

BreakoutnoFrameskip-V4

SeaquestnoFrameskip-V4

Qbertnoframeskip-V4

BeamridenernoFrameskip-V4

PPO

BreakoutnoFrameskip-V4

SeaquestnoFrameskip-V4

Qbertnoframeskip-V4

BeamridenernoFrameskip-V4

Acktr

BreakoutnoFrameskip-V4

SeaquestnoFrameskip-V4

Qbertnoframeskip-V4

BeamridenernoFrameskip-V4

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Python
Aktualisierungszeit 2025-07-13
Größe 8.52MB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01