pytorch a2c ppo acktr gail Download - pytorch a2c ppo acktr gail Código fonte download

pytorch a2c ppo acktr gail

Pitão

1.0.0

Baixar

Pytorch-A2C-PPO-ACKTR

Atualização (12 de abril de 2021)

O PPO é ótimo, mas o crítico de atores suave pode ser melhor para muitas tarefas de controle contínuo. Confira meu novo repositório RL em Jax.

Use parâmetros hiper -hiper deste readme. Com outros parâmetros de hiper, as coisas podem não funcionar (afinal é RL)!

Esta é uma implementação de Pytorch de

Crítico do ator Advantage (A2C), uma versão determinística síncrona do A3C
Otimização de política proximal PPO
Método escalável da região de confiança para aprendizado de reforço profundo usando a aproximação de Kronecker ACKTR
Imitação adversária generativa Aprendendo Gail

Consulte também as postagens do OpenAI: A2C/ACKTR e PPO para obter mais informações.

Esta implementação é inspirada nas linhas de base do Openai para A2C, ACKTR e PPO. Ele usa os mesmos parâmetros hiper e o modelo, pois eles estavam bem sintonizados para os jogos Atari.

Por favor, use este Bibtex se você deseja citar este repositório em suas publicações:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

Ambientes suportados (e testados) (via academia OpenAi)

Ambiente de aprendizagem Atari
Mujoco
Pybullet (incluindo corrida, Minitaur e Kuka)
Suíte de Controle DeepMind (via DM_Control2GYM)

Eu recomendo o Pybullet como uma alternativa gratuita de código aberto ao Mujoco para tarefas de controle contínuo.

Todos os ambientes são operados usando exatamente a mesma interface de ginástica. Veja suas documentações para uma lista abrangente.

Para usar os ambientes hopper stand Control Suite, defina task_name sinalizador --env domain_name --env-name dm.<domain_name>.<task_name> Consulte o repositório e o relatório técnico para obter uma lista completa de domínios e tarefas disponíveis. Além de definir a tarefa, a API para interagir com o ambiente é exatamente a mesma que para todos os ambientes de academia graças ao DM_Control2GYM.

Requisitos

Python 3 (pode funcionar com o Python 2, mas eu não testei)
Pytorch
Linhas de base estáveis3

Para instalar os requisitos, siga:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

Contribuições

As contribuições são muito bem -vindas. Se você souber melhorar esse código, abra um problema. Se você deseja enviar uma solicitação de tração, abra um problema primeiro. Veja também uma lista de TODO abaixo.

Também estou procurando voluntários para executar todas as experiências em Atari e Mujoco (com várias sementes aleatórias).

Isenção de responsabilidade

É extremamente difícil reproduzir resultados para métodos de aprendizado de reforço. Consulte "Aprendizagem de reforço profundo que importa" para obter mais informações. Tentei reproduzir os resultados do OpenAI o mais próximo possível. No entanto, as diferenças de desempenho no desempenho podem ser causadas mesmo por pequenas diferenças nas bibliotecas Tensorflow e Pytorch.

PENDÊNCIA

Melhore este arquivo ReadMe. Reorganizar imagens.
Melhore o desempenho do KFAC, consulte Kfac.py para obter mais informações
Execute avaliação para todos os jogos e algoritmos

Visualização

Para visualizar os resultados, use visualize.ipynb .

Treinamento

Atari

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

Mujoco

Por favor, tente sempre usar o sinalizador --use-proper-time-limits . Ele lida adequadamente trajetórias parciais (consulte https://github.com/sfujim/td3/blob/master/main.py#l123).

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

O ACKTR exige que algumas modificações sejam feitas especificamente para Mujoco. Mas, no momento, quero manter esse código o mais unificado possível. Assim, vou para obter melhores maneiras de integrá -lo à base de código.

Aproveitar

Atari

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

Mujoco

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

Resultados

A2C

Breakoutnoframeskip-v4

SeaQuestnoframeskip-v4

Qbertnoframeskip-v4

BeamridernOframeskip-v4

PPO

Breakoutnoframeskip-v4

SeaQuestnoframeskip-v4

Qbertnoframeskip-v4

BeamridernOframeskip-v4

Acktr

Breakoutnoframeskip-v4

SeaQuestnoframeskip-v4

Qbertnoframeskip-v4

BeamridernOframeskip-v4

Expandir

Informações adicionais

Versão 1.0.0
Tipo Pitão
Data da Última Atualização 2025-07-13
tamanho 8.52MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ToDo Co

Pitão

1.0.0
Python Portfolio

Pitão
Ferramenta de gráfico de dados de código aberto Redash v24.10.0

Pitão

24.10.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos