pytorch a2c ppo acktr gail下載pytorch a2c ppo acktr gail源代碼下載

pytorch a2c ppo acktr gail

Python

1.0.0

下載

pytorch-a2c-ppo-acktr

更新（2021年4月12日）

PPO很棒，但是軟演員評論家對於許多連續的控制任務可以更好。請在JAX中查看我的新RL存儲庫。

請使用此讀數中的超級參數。使用其他超級參數，情況可能無法使用（畢竟是RL）！

這是Pytorch的實現

優勢演員評論家（A2C），A3C的同步確定性版本
近端策略優化PPO
可擴展的信任區域方法，用於使用kronecker-fircored近似ACKTR進行深度加固學習
生成的對抗性模仿學習蓋爾

另請參閱OpenAI帖子：A2C/ACKTR和PPO以獲取更多信息。

該實現的靈感來自A2C，ACKTR和PPO的OpenAI基準。它使用相同的超級參數和模型，因為它們在Atari遊戲中進行了很好的調整。

如果您想在出版物中引用此存儲庫，請使用此Bibtex：

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

支持（和測試的）環境（通過OpenAi Gym）

Atari學習環境
mujoco
pybullet（包括賽車，迷你龍和庫卡）
DeepMind Control Suite（通過dm_control2gym）

我強烈建議Pybullet作為持續控制任務的Mujoco的免費開源替代品。

所有環境均使用完全相同的健身房接口進行操作。請參閱他們的文檔以獲取全面列表。

要使用DeepMind Control Suite環境，請設置標誌--env-name dm.<domain_name>.<task_name> ，其中domain_name和task_name是域名（例如hopper stand和該域中的任務（例如，來自DeepMind Control Suite）。請參閱他們的回購及其技術報告，以獲取可用域和任務的完整列表。除了設置任務外，與DM_Control2Gym相互交互的API與所有健身房環境完全相同。

要求

Python 3（可能與Python 2一起使用，但我沒有測試）
Pytorch
穩定的基線3

為了安裝要求，請參見：

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

貢獻

貢獻非常歡迎。如果您知道如何使此代碼更好，請打開問題。如果您想提交拉動請求，請首先打開問題。另請參閱下面的待辦事項列表。

另外，我正在尋找志願者在Atari和Mujoco上運行所有實驗（帶有多個隨機種子）。

免責聲明

重現增強學習方法的結果非常困難。有關更多信息，請參見“重要的強化學習”。我試圖盡可能地重現OpenAI結果。但是，即使是由於Tensorflow和Pytorch庫的較小差異，績效的大滿貫差異也可能引起。

托多

改進此讀數文件。重新排列圖像。
提高KFAC的性能，有關更多信息，請參見KFAC.PY
對所有遊戲和算法進行評估

可視化

為了可視化結果，請使用visualize.ipynb 。

訓練

atari

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

mujoco

請始終嘗試使用--use-proper-time-limits標誌。它正確處理部分軌跡（請參閱https://github.com/sfujim/td3/blob/master/mains.py.py#l123）。

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

acktr

ACKTR需要專門為Mujoco進行一些修改。但是目前，我想保持此代碼盡可能統一。因此，我將採用更好的方法將其集成到代碼庫中。

享受

atari

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

結果

A2C

BreakoutNofRamesKip-V4

seaquestNoframeskip-v4

QbertNoframesKip-V4

beamridernoframeskip-v4

PPO

BreakoutNofRamesKip-V4

seaquestNoframeskip-v4

QbertNoframesKip-V4

beamridernoframeskip-v4

acktr

BreakoutNofRamesKip-V4

seaquestNoframeskip-v4

QbertNoframesKip-V4

beamridernoframeskip-v4

展開

附加信息

版本 1.0.0
類型 Python
更新時間 2025-07-13
大小 8.52MB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部