pytorch a3c
1.0.0
這是從“深度強化學習的異步方法”中實施異步優勢演員評論家(A3C)的pytorch實施。
該實現受環球入門代理的啟發。與初學者相反,它使用具有共享統計信息的優化器,如原始論文所示。
如果您想在出版物中引用此存儲庫,請使用此Bibtex:
@misc{pytorchaaac,
author = {Kostrikov, Ilya},
title = {PyTorch Implementations of Asynchronous Advantage Actor Critic},
year = {2018},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/ikostrikov/pytorch-a3c}},
}
我強烈建議您檢查Syschronous版本和其他算法:Pytorch-A2C-PPPO-ACKTR。
根據我的經驗,A2C的效果比A3C更好,而ACKTR比兩個都更好。此外,PPO是連續控制的絕佳算法。因此,我建議您首先嘗試A2C/PPO/ACKTR,並僅在需要某些原因的情況下使用A3C。
還請閱讀OpenAI博客以獲取更多信息。
貢獻非常歡迎。如果您知道如何使此代碼更好,請隨時發送拉動請求。
# Works only wih Python 3.
python3 main.py --env-name " PongDeterministic-v4 " --num-processes 16此代碼除了16個過程外,還在單獨的線程中運行評估。
通過16個過程,它會在15分鐘內收斂於Pongdeterministic-V4。 
對於BreakoutDeterministic-V4,它花費了幾個多小時。