Download de PPO PyTorch - PPO PyTorch Download do código -fonte

PPO PyTorch

Pitão

1.0.0

Baixar

PPO-Pytorch

Atualização [abril de 2021]:

algoritmos discretos e contínuos mesclados
Adicionado em decomposição linear para o espaço de ação contínuo action_std ; para tornar o treinamento mais estável para ambientes complexos
adicionaram diferentes taxas de aprendizado para ator e crítico
Episódios, Timesteps e recompensas agora estão conectados nos arquivos .csv
Utils para plotar gráficos de arquivos de log
Utils para testar e fazer GIFs de redes pré -treinadas
PPO_colab.ipynb combinando todos os arquivos para treinar / test / plot gráficos / fazer gifs no Google colab em um conveniente Jupyter-Notebook

Abrir `PPO_colab.ipynb` no google colab

Introdução

Este repositório fornece uma implementação mínima de Pytorch da otimização de políticas proximais (PPO) com o objetivo cortado para ambientes de academia OpenAI. É destinado principalmente a iniciantes no aprendizado de reforço para entender o algoritmo PPO. Ele ainda pode ser usado para ambientes complexos, mas pode exigir alguns ajustes de hiperparâmetro ou alterações no código. Uma explicação concisa do algoritmo PPO pode ser encontrada aqui e uma explicação completa de todos os detalhes para implementar o melhor PPO com melhor desempenho pode ser encontrada aqui (todos ainda não foram implementados neste repositório).

Para manter o procedimento de treinamento simples:

Possui um desvio padrão constante para a distribuição da ação de saída ( normais multivariada com matriz de covariância diagonal ) para os ambientes contínuos, ou seja, é um hiperparâmetro e não um parâmetro treinável. No entanto, é linearmente deteriorado . (Action_Std afeta significativamente o desempenho)
Ele usa a estimativa simples de Monte-Carlo para calcular vantagens e não uma estimativa de vantagem generalizada (confira a implementação do OpenAi Spinning Up para isso).
É uma única implementação encadeada , ou seja, apenas um trabalhador coleta experiência. Um dos garfos mais antigos deste repositório foi modificado para ter trabalhadores paralelos

Uso

Para treinar uma nova rede: Run train.py
Para testar uma rede pré -traida: execute test.py
Para plotar gráficos usando arquivos de log: execute plot_graph.py
Para salvar imagens para gif e fazer gif usando uma rede pré -treinada: execute make_gif.py
Todos os parâmetros e hiperparamters para controlar o treinamento / teste / gráficos / GIFs estão em seu respectivo arquivo .py
PPO_colab.ipynb combina todos os arquivos em um jupyter-notebook
Todos os hiperparâmetros usados para o treinamento (pré -terenciados) políticas estão listados no README.md no diretório PPO_PRESTRADE

Observação :

Se o ambiente executar na CPU, use a CPU como dispositivo para obter um treinamento mais rápido. Box-2D e Roboschool são executados na CPU e treiná-los no dispositivo GPU serão significativamente mais lentos porque os dados serão movidos entre a CPU e a GPU com frequência

Citando

Por favor, use este Bibtex se você deseja citar este repositório em suas publicações:

 @misc{pytorch_minimal_ppo,
    author = {Barhate, Nikhil},
    title = {Minimal PyTorch Implementation of Proximal Policy Optimization},
    year = {2021},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {url{https://github.com/nikhilbarhate99/PPO-PyTorch}},
}