Download stable baselines - stable baselines download de código fonte

stable baselines

Outro código-fonte

1.0.0

Baixar

AVISO: Este pacote está no modo de manutenção, use o estábulo Baselines3 (SB3) para uma versão atualizada. Você pode encontrar um guia de migração na documentação do SB3.

Linhas de base estáveis

As linhas de base estáveis são um conjunto de implementações aprimoradas de algoritmos de aprendizado de reforço baseados em linhas de base Openai.

Você pode ler uma apresentação detalhada de linhas de base estáveis no artigo médio.

Esses algoritmos facilitarão a replicar, refinar e identificar novas idéias e criarão boas linhas de base para criar projetos para criar projetos. Esperamos que essas ferramentas sejam usadas como base em que novas idéias podem ser adicionadas e como uma ferramenta para comparar uma nova abordagem contra as existentes. Também esperamos que a simplicidade dessas ferramentas permita que os iniciantes experimentem um conjunto de ferramentas mais avançado, sem serem enterrados nos detalhes da implementação.

Nota: Apesar da simplicidade de uso, as linhas de base estáveis (SB) assumem que você tem algum conhecimento sobre o aprendizado de reforço (RL). Você não deve utilizar esta biblioteca sem alguma prática. Nesse ponto, fornecemos bons recursos na documentação para começar com o RL.

Principais diferenças com linhas de base Openai

Este conjunto de ferramentas é um garfo de linhas de base Openai, com uma grande refatoração estrutural e limpeza de código:

Estrutura unificada para todos os algoritmos
Compatível com Pep8 (estilo de código unificado)
Funções e classes documentadas
Mais testes e mais cobertura de código
Algoritmos adicionais: SAC e TD3 (+ seu apoio ao DQN, DDPG, SAC e TD3)

Características	Linhas de base estável	Linhas de base Openai
Métodos de última geração	✔️ ⁽¹⁾	✔️
Documentação	✔️
Ambientes personalizados	✔️	✔️
Políticas personalizadas	✔️	➖ ⁽²⁾
Interface comum	✔️	➖ ⁽³⁾
Suporte ao Tensorboard	✔️	➖ ⁽⁴⁾
Ipython / notebook amigável	✔️
Estilo de código pep8	✔️	✔️ ⁽⁵⁾
Retorno de chamada personalizado	✔️	➖ ⁽⁶⁾

^{^{(1): bifurcado da versão anterior do OpenAi Basilines, com agora SAC e TD3 além}}
^{^{(2): Atualmente não está disponível para DDPG e apenas no script de execução.}}
^{^{(3): Somente através do script de execução.}}
^{^{(4): Registro rudimentar de informações de treinamento (sem perda nem gráfico).}}
^{^{(5): Editar: Você fez isso OpenAI! ?}}
^{^{(6): Passar uma função de retorno de chamada está disponível apenas para DQN}}

Documentação

A documentação está disponível online: https://stable-baselines.readthedocs.io/

Zoológico de linhas de base rl: uma coleção de mais de 100 agentes de RL treinados

Zoológico de linhas de base rl. é uma coleção de agentes de aprendizado de reforço pré-treinado usando linhas de base estável.

Ele também fornece scripts básicos para treinamento, avaliação de agentes, ajustando hiperparâmetro e gravação de vídeos.

Objetivos deste repositório:

Forneça uma interface simples para treinar e desfrutar de agentes RL
Comparar os diferentes algoritmos de aprendizado de reforço
Forneça hiperparâmetros ajustados para cada ambiente e algoritmo RL
Divirta -se com os agentes treinados!

Github Repo: https://github.com/araffin/rl-baselines-zoo

Documentação: https://stable-baselines.readthedocs.io/en/master/guide/rl_zoo.html

Instalação

Nota: As linhas de base estável suportam versões Tensorflow de 1.8.0 a 1.14.0. O suporte à API do TensorFlow 2 está planejado.

Pré -requisitos

As linhas de base requer Python3 (> = 3,5) com os cabeçalhos de desenvolvimento. Você também precisará de pacotes de sistemas CMake, OpenMPI e Zlib. Aqueles podem ser instalados da seguinte forma

Ubuntu

sudo apt-get update && sudo apt-get install cmake libopenmpi-dev python3-dev zlib1g-dev

Mac OS X.

A instalação de pacotes do sistema no Mac requer homebrew. Com o homebrew instalado, execute o seguinte:

brew install cmake openmpi

Windows 10

Para instalar linhas de base estável no Windows, consulte a documentação.

Instale usando PIP

Instale o pacote estável de linhas de base:

 pip install stable-baselines[mpi]

Isso inclui uma dependência opcional do MPI, ativando algoritmos DDPG, GAIL, PPO1 e TRPO. Se você não precisar desses algoritmos, poderá instalar sem MPI:

 pip install stable-baselines

Leia a documentação para obter mais detalhes e alternativas (da fonte, usando o Docker).

Exemplo

A maior parte da biblioteca tenta seguir uma sintaxe do tipo Sklearn para os algoritmos de aprendizado de reforço.

Aqui está um exemplo rápido de como treinar e executar o PPO2 em um ambiente de carrinho:

 import gym

from stable_baselines . common . policies import MlpPolicy
from stable_baselines . common . vec_env import DummyVecEnv
from stable_baselines import PPO2

env = gym . make ( 'CartPole-v1' )
# Optional: PPO2 requires a vectorized environment to run
# the env is now wrapped automatically when passing it to the constructor
# env = DummyVecEnv([lambda: env])

model = PPO2 ( MlpPolicy , env , verbose = 1 )
model . learn ( total_timesteps = 10000 )

obs = env . reset ()
for i in range ( 1000 ):
    action , _states = model . predict ( obs )
    obs , rewards , dones , info = env . step ( action )
    env . render ()

env . close ()

Ou basta treinar um modelo com um revestimento único se o ambiente estiver registrado na academia e se a política estiver registrada:

 from stable_baselines import PPO2

model = PPO2 ( 'MlpPolicy' , 'CartPole-v1' ). learn ( 10000 )

Leia a documentação para mais exemplos.

Experimente online com os notebooks da Colab!

Todos os exemplos a seguir podem ser executados on -line usando notebooks do Google Colab:

Tutorial completo
Todos os cadernos
Começando
Treinamento, economia, carregamento
Multiprocessamento
Monitorar o treinamento e plotagem
Jogos Atari
Zoológico de linhas de base rl

Algoritmos implementados

Nome	Refatorado ⁽¹⁾	Recorrente	`Box`	`Discrete`	`MultiDiscrete`	`MultiBinary`	Multi processamento
A2C	✔️	✔️	✔️	✔️	✔️	✔️	✔️
Acer	✔️	✔️	⁽⁵⁾	✔️			✔️
Acktr	✔️	✔️	✔️	✔️			✔️
Ddpg	✔️		✔️				✔️ ⁽⁴⁾
Dqn	✔️			✔️
Gail ⁽²⁾	✔️		✔️	✔️			✔️ ⁽⁴⁾
Ela ⁽³⁾	✔️		✔️	✔️		✔️
PPO1	✔️		✔️	✔️	✔️	✔️	✔️ ⁽⁴⁾
PPO2	✔️	✔️	✔️	✔️	✔️	✔️	✔️
SACO	✔️		✔️
TD3	✔️		✔️
TRPO	✔️		✔️	✔️	✔️	✔️	✔️ ⁽⁴⁾

^{^{(1): Se o algoritmo foi ou não refaturado para se ajustar à classe BaseRLModel .}}
^{^{(2): implementado apenas para TRPO.}}
^{^{(3): Reimplementado do zero, agora suporta DQN, DDPG, SAC e TD3}}
^{^{(4): Multi processamento com MPI.}}
^{^{(5): TODO, no escopo do projeto.}}

NOTA: O ator-crítico (SAC) suave e o DDPG tardio (TD3) não faziam parte das linhas de base originais e ela foi reimplementada do zero.

Ações gym.spaces :

Box : uma caixa N-dimensional que contém todos os pontos do espaço de ação.
Discrete : uma lista de ações possíveis, onde cada tempo de tempo só pode ser usado.
MultiDiscrete : uma lista de ações possíveis, em que cada tempo de timestep apenas uma ação de cada conjunto discreto pode ser usado.
MultiBinary : uma lista de ações possíveis, onde cada um dos timestep qualquer uma das ações pode ser usado em qualquer combinação.

Mujoco

Alguns dos exemplos de linhas de base usam o simulador de física Mujoco (dinâmica de jonto múltiplo em contato), que é proprietário e requer binários e uma licença (a licença temporária de 30 dias pode ser obtida em www.mujoco.org). As instruções sobre a configuração do Mujoco podem ser encontradas aqui

Testando a instalação

Todos os testes de unidade nas linhas de base podem ser executados usando Pytest Runner:

 pip install pytest pytest-cov
make pytest

Projetos usando linhas de base estável

Tentamos manter uma lista de projeto usando linhas de base estável na documentação, diga-nos quando você deseja que seu projeto apareça nesta página;)

Citando o projeto

Para citar este repositório em publicações:

 @misc{stable-baselines,
  author = {Hill, Ashley and Raffin, Antonin and Ernestus, Maximilian and Gleave, Adam and Kanervisto, Anssi and Traore, Rene and Dhariwal, Prafulla and Hesse, Christopher and Klimov, Oleg and Nichol, Alex and Plappert, Matthias and Radford, Alec and Schulman, John and Sidor, Szymon and Wu, Yuhuai},
  title = {Stable Baselines},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/hill-a/stable-baselines}},
}

Mantenedores

A Stable-Baselines é atualmente mantida por Ashley Hill (também conhecida como @Hill-A), Antonin Raffin (também conhecida como @araffin), Maximilian Ernestus (também conhecido como @ernestum), Adam Gleave (@adamgleave) e Anssi Kanervisto (@miffyli).

NOTA IMPORTANTE: Não fazemos suporte técnico, nem consultando e não respondemos a perguntas pessoais por e -mail.

Como contribuir

Para qualquer interesse em melhorar as linhas de base, ainda há alguma documentação que precisa ser feita. Se você deseja contribuir, leia o guia contribuinte.md primeiro.

Agradecimentos

As linhas de base estáveis foram criadas no Robotics Lab U2IS (equipe de Inria Flowers) na ENSTA Paristech.

Créditos do logotipo: LM Tenkes

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-04
tamanho 2.38MB
Vindo de Github

Aplicativos Relacionados

stable diffusion webui forge

2024-11-08
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
stable diffusion webui

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos