omnisafe Download - omnisafe , download do código -fonte

omnisafe

Pitão

v0.5.0

Baixar

Documentação | Algoritmos implementados | Instalação | Introdução | Licença

O Omnisafe é uma estrutura de infra -estrutura projetada para acelerar a pesquisa de aprendizado de reforço seguro (RL). Ele fornece uma referência abrangente e confiável para algoritmos seguros de RL e também um kit de ferramentas modular fora da caixa para os pesquisadores. O SAFERL pretende desenvolver algoritmos que minimizem o risco de danos não intencionais ou comportamento inseguro.

Omnisafe permanece como a estrutura de aprendizado unificada inaugural no domínio da aprendizagem de reforço seguro, com o objetivo de promover o crescimento da comunidade de aprendizado segura. As principais características do Omnisafe:

Estrutura altamente modular. Omnisafe apresenta uma estrutura altamente modular, incorporando uma extensa coleção de dezenas de algoritmos adaptados para o aprendizado de reforço seguro em diversos domínios. Essa estrutura é versátil devido à sua abstração de vários tipos de algoritmos e API bem projetada, usando os componentes de design do adaptador e do wrapper para preencher lacunas e permitir interações perfeitas entre diferentes componentes. Esse design permite uma extensão e personalização fáceis, tornando -o uma ferramenta poderosa para desenvolvedores que trabalham com diferentes tipos de algoritmos.
Aceleração de computação paralela de alto desempenho. Ao aproveitar as capacidades da torch.distributed . Isso permite que o Omnisafe não apenas apoie o paralelismo assíncrono no nível do meio ambiente, mas também incorpora o aprendizado assíncrono do agente. Essa metodologia reforça a estabilidade do treinamento e agiliza o processo de treinamento por meio da implantação de um mecanismo de exploração paralelo. A integração da aprendizagem assíncrona do agente na Omnisafe ressalta seu compromisso em fornecer uma plataforma versátil e robusta para avançar na pesquisa segura.
Kits de ferramentas fora da caixa. O Omnisafe oferece kits de ferramentas personalizáveis para tarefas como treinamento, benchmarking, análise e renderização. Os tutoriais e as APIs fáceis de usar facilitam para iniciantes e usuários comuns, enquanto os pesquisadores avançados podem melhorar sua eficiência sem código complexo.

Se você achar o Omnisafe útil ou usar o Omnisafe em sua pesquisa, cite -a em suas publicações.

 @article { JMLR:v25:23-0681 ,
  author  = { Jiaming Ji and Jiayi Zhou and Borong Zhang and Juntao Dai and Xuehai Pan and Ruiyang Sun and Weidong Huang and Yiran Geng and Mickel Liu and Yaodong Yang } ,
  title   = { OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research } ,
  journal = { Journal of Machine Learning Research } ,
  year    = { 2024 } ,
  volume  = { 25 } ,
  number  = { 285 } ,
  pages   = { 1--6 } ,
  url     = { http://jmlr.org/papers/v25/23-0681.html }
}

Índice

Início rápido
- Instalação
  - Pré -requisitos
  - Instale da fonte
  - Instale a partir de Pypi
Algoritmos implementados
- Exemplos
  - Registro de algoritmos
  - Ambientes suportados
  - Personalizando seu ambiente
  - Tente com CLI
Começando
- Dicas importantes
- QuickStart: Colab na nuvem
Changelog
Citando omnisafe
Publicações usando Omnisafe
A equipe Omnisafe
Licença

Início rápido

Instalação

Pré -requisitos

Omnisafe requer Python 3.8+ e Pytorch 1.10+.

Apoiamos e testamos o Python 3.8, 3.9, 3.10 no Linux. Enquanto isso, também apoiamos as versões M1 e M2 do macOS. Aceitaremos os PRs relacionados ao Windows, mas não o apoiaremos oficialmente.

Instale da fonte

 # Clone the repo
git clone https://github.com/PKU-Alignment/omnisafe.git
cd omnisafe

# Create a conda environment
conda env create --file conda-recipe.yaml
conda activate omnisafe

# Install omnisafe
pip install -e .

Instale a partir de Pypi

Omnisafe está hospedado em /.

pip install omnisafe

Algoritmos implementados

Os documentos mais seguras

[AAAI 2023] Otimização de política proximal aumentada para aprendizado de reforço seguro (APPO)
[Neurips 2022] Abordagem de projeção de atualização restrita para otimização de políticas seguras (CUP)
[Neurips 2022] Efeitos do aumento do estado de segurança na exploração segura (SIMMER)
[Neurips 2022] Aprendizagem de reforço profundo baseado em modelo por meio de um algoritmo de otimização de políticas proximais restrito
[ICML 2022] Sauté RL: Aprendizagem de reforço quase certamente segura usando o aumento do estado (Sauterl)
[IJCAI 2022] Penalizar a otimização de políticas proximais para o aprendizado de reforço seguro
[AAAI 2022] Pena conservadora e adaptativa para o aprendizado de reforço seguro baseado em modelo (CAP)

Lista de algoritmos

Sobre política segura

Fora da política segura

[Preprint 2019] A versão Lagrangiana do DDPG (DDPGLAG)
[Preprint 2019] A versão Lagrangiana do TD3 (TD3LAG)
[Preprint 2019] A versão lagrangiana do SAC (Saclag)
[ICML 2020] Segurança responsiva no aprendizado de reforço por métodos PID Lagrangian (DDPGPID)
[ICML 2020] Segurança responsiva no aprendizado de reforço por métodos PID Lagrangian (TD3PID)
[ICML 2020] Segurança responsiva no aprendizado de reforço por métodos PID Lagrangiano (SACPID)

Saferl baseado em modelo

[Neurips 2021] Aprendizagem de reforço seguro imaginando o futuro próximo (SMBPO)
[CORL 2021 (oral)] Aprendendo fora da política com planejamento on-line (Safeloop)
[AAAI 2022] Pena conservadora e adaptativa para o aprendizado de reforço seguro baseado em modelo (CAP)
[Neurips 2022] Aprendizagem de reforço profundo baseado em modelo por meio de um algoritmo de otimização de políticas proximais restrito
[ICLR 2022] Otimização de políticas restritas via Modelos Mundiais Bayesianos (LA-MBDA)
[Workshop ICML 2022] Aprendizagem de reforço baseado em modelo com método robusto de entropias cruzadas (RCE)
[Neurips 2018] Método de entropia cruzada restrita para aprendizado de reforço seguro (CCE)

Offline segura

A versão Lagrange do BCQ (BCQ-LAG)
A versão restrita do CRR (C-CRR)
[AAAI 2022] Restrições penalizadas q-learning para aprendizado de reforço offline seguro CPQ
[ICLR 2022 (Spotlight)] Coptidice: Aprendizagem de reforço restrito offline por meio da estimativa de correção de distribuição estacionária
[ICML 2022] Otimização de política offline restrita (COPO)

Outros

[RA-L 2021] Recuperação RL: Aprendizagem de reforço seguro com zonas de recuperação aprendidas
[ICML 2022] Sauté RL: Aprendizagem de reforço quase certamente segura usando o aumento do estado (Sauterl)
[Neurips 2022] Efeitos do aumento do estado de segurança na exploração segura

Exemplos

 cd examples
python train_policy.py --algo PPOLag --env-id SafetyPointGoal1-v0 --parallel 1 --total-steps 10000000 --device cpu --vector-env-nums 1 --torch-threads 1

Registro de algoritmos

Domínios	Tipos	Registro de algoritmos
Sobre política	Primal Dual	Trpolag; Ppolag; PDO; RCPO
	Primal Dual	Trpopid; Cppopid
	Otimização convexa	CPO; PCPO; Focops; XÍCARA
	Função de penalidade	IPO; P3o
	Primal	ONCRPO
Política off off	Primal-dual	DdpGlag; Td3lag; Saclag
Política off off	Primal-dual	Ddpgpid; Td3pid; Sacpid
Baseado em modelo	Plano online	Safeloop; Ccepets; Ricepets
Baseado em modelo	Estimativa pessimista	Cappets
Offline	Baseado em Q-Learning	Bcqlag; C-CRR
Offline	Baseada em dados	Cotdice
Outra formulação mdp	ET-MDP	PPO terminado precocemente; TRPOEARLYMERLIALIDADO
	Sauterl	PPOSAUTE; Trposaute
	SimMerrl	Pposimmerpid; Trposimmerpid

Ambientes suportados

Aqui está uma lista de ambientes que a segurança-gymnasium suporta:

Categoria	Tarefa	Agente	Exemplo
Navegação segura	Objetivo [012]	Ponto, carro, corrida, formiga	SafeTypointGoal1-V0
	Botão [012]
	Empurrar [012]
	Círculo [012]
Velocidade segura	Velocidade	Halfheetah, Hopper, Nadim, Walker2d, Ant, Humanóide	Segurançahumanoidvelocity-V1
Ginásio Isaac seguro	Superfefing	Shadowhand	ShadowHandoversofefinger
	Supersegunda
	CAPACOVER2UNDERARMSAFEFINGER
	CAPACOVER2UNDERARMSAFEJONT

Para obter mais informações sobre ambientes, consulte a segurança-gymnasium.

Personalizando seu ambiente

Oferecemos uma interface de ambiente personalizado flexível que permite aos usuários alcançar o seguinte sem modificar o código -fonte Omnisafe :

Use Omnisafe para treinar algoritmos em ambientes personalizados.
Crie o ambiente com parâmetros personalizados especificados.
Preencha a gravação de informações específicas do ambiente no Logger.

Fornecemos tutoriais passo a passo sobre a personalização do ambiente a partir da personalização do zero e do ambiente da comunidade para fornecer uma introdução detalhada sobre como usar esse recurso extraordinário do OmniSafe.

Nota: Se você encontrar problemas para personalizar seu ambiente, sinta -se à vontade para abrir um problema ou discussão. As solicitações de tração também são bem -vindas se você estiver disposto a contribuir com a implementação da sua interface de ambientes.

Tente com CLI

pip install omnisafe

omnisafe --help  # Ask for help

omnisafe benchmark --help  # The benchmark also can be replaced with 'eval', 'train', 'train-config'

# Quick benchmarking for your research, just specify:
# 1. exp_name
# 2. num_pool(how much processes are concurrent)
# 3. path of the config file (refer to omnisafe/examples/benchmarks for format)

# Here we provide an exampe in ./tests/saved_source.
# And you can set your benchmark_config.yaml by following it
omnisafe benchmark test_benchmark 2 ./tests/saved_source/benchmark_config.yaml

# Quick evaluating and rendering your trained policy, just specify:
# 1. path of algorithm which you trained
omnisafe eval ./tests/saved_source/PPO-{SafetyPointGoal1-v0} --num-episode 1

# Quick training some algorithms to validate your thoughts
# Note: use `key1:key2`, your can select key of hyperparameters which are recursively contained, and use `--custom-cfgs`, you can add custom cfgs via CLI
omnisafe train --algo PPO --total-steps 2048 --vector-env-nums 1 --custom-cfgs algo_cfgs:steps_per_epoch --custom-cfgs 1024

# Quick training some algorithms via a saved config file, the format is as same as default format
omnisafe train-config ./tests/saved_source/train_config.yaml

Começando

Dicas importantes

Fornecemos resultados de referência para vários algoritmos, incluindo abordagens na política, fora da política, baseadas em modelos e offline, juntamente com a análise de ajuste de parâmetros. Consulte o seguinte:

Na política
Fora da política
Baseado em modelo
Offline

QuickStart: Colab na nuvem

Explore Omnisafe de maneira fácil e rápida através de uma série de notebooks do Google Colab:

Introduzir o uso básico do Omnisafe para que os usuários possam entregá -lo rapidamente.
Comando da CLI Apresente como usar a ferramenta CLI da OmniSafe.

Temos um grande prazer em colaborar com nossos usuários para criar tutoriais em vários idiomas. Consulte a nossa lista de idiomas atualmente suportados. Se você estiver interessado em traduzir o tutorial em um novo idioma ou melhorar uma versão existente, envie um PR para nós.

Changelog

Veja Changelog.md.

Publicações usando Omnisafe

Compilamos uma lista de artigos que usam OmniSafe para implementação ou experimentação do algoritmo. Se você estiver disposto a incluir seu trabalho nesta lista, ou se deseja que sua implementação integrasse oficialmente ao Omnisafe, não hesite em entrar em contato conosco.

Papéis	Editor
Aprendizagem de reforço seguro primal-dual de política fora da política	ICLR 2024
Aprendizagem de reforço off-line segura com modelo de difusão guiado por viabilidade	ICLR 2024
Estimativa de acessibilidade iterativa para aprendizado de reforço seguro	Neurips 2023
Recompensa de equilíbrio e otimização de segurança para aprendizado de reforço seguro: uma perspectiva de manipulação de gradiente	AAAI 2024
Aprendendo restrições de segurança da demonstração usando árvores de decisão de uma classe	Workshops AAAI 2024

A equipe Omnisafe

Omnisafe é desenvolvido principalmente pela equipe de pesquisa Saferl, dirigida pelo Prof. Yaodong Yang. Nossos membros da equipe de pesquisa segura incluem Borong Zhang, Jiayi Zhou, Jtao Dai, Weidong Huang, Ruiyang Sun, Xuehai Pan e Jiaming Ji. Se você tiver alguma dúvida no processo de usar o Omnisafe, não hesite em fazer suas perguntas na página de problemas do Github, responderemos a você em 2-3 dias úteis.