Descarga omnisafe - Descargar el código fuente de omnisafe

omnisafe

Pitón

v0.5.0

Descargar

Documentación | Algoritmos implementados | Instalación | Comenzando | Licencia

Omnisafe es un marco de infraestructura diseñado para acelerar la investigación de aprendizaje de refuerzo seguro (RL). Proporciona un punto de referencia integral y confiable para algoritmos RL seguros, y también un conjunto de herramientas modular fuera de caja para los investigadores. Saferl tiene la intención de desarrollar algoritmos que minimicen el riesgo de daño no deseado o un comportamiento inseguro.

Omnisafe se erige como el marco inaugural de aprendizaje unificado en el ámbito del aprendizaje seguro de refuerzo, con el objetivo de fomentar el crecimiento de la comunidad de aprendizaje más seguro. Las características clave de Omnisafe:

Marco altamente modular. Omnisafe presenta un marco altamente modular, que incorpora una extensa colección de decenas de algoritmos adaptados para el aprendizaje de refuerzo seguro en diversos dominios. Este marco es versátil debido a su abstracción de varios tipos de algoritmos y una API bien diseñada, utilizando los componentes de diseño de adaptador y envoltorio para unir huecos y habilitar interacciones sin costuras entre diferentes componentes. Este diseño permite una fácil extensión y personalización, lo que lo convierte en una herramienta poderosa para los desarrolladores que trabajan con diferentes tipos de algoritmos.
Aceleración informática paralela de alto rendimiento. Al aprovechar las capacidades de torch.distributed Distribuido, Omnisafe acelera el proceso de aprendizaje de los algoritmos con el paralelismo del proceso. Esto permite a Omnisafe no solo apoyar el paralelismo asincrónico a nivel de medio ambiente, sino que también incorpora el aprendizaje asíncrono del agente. Esta metodología refuerza la estabilidad de la capacitación y acelera el proceso de capacitación a través del despliegue de un mecanismo de exploración paralelo. La integración del aprendizaje asincrónico del agente en Omnisafe subraya su compromiso de proporcionar una plataforma versátil y robusta para avanzar en la investigación SAFERL.
Kits de herramientas salientes. OMNISAFE ofrece kits de herramientas personalizables para tareas como capacitación, evaluación comparativa, análisis y representación. Los tutoriales y las API fáciles de usar facilitan los usuarios de principiantes y promedio, mientras que los investigadores avanzados pueden mejorar su eficiencia sin un código complejo.

Si encuentra omnisafe útil o usa omnisafe en su investigación, cíquelo en sus publicaciones.

 @article { JMLR:v25:23-0681 ,
  author  = { Jiaming Ji and Jiayi Zhou and Borong Zhang and Juntao Dai and Xuehai Pan and Ruiyang Sun and Weidong Huang and Yiran Geng and Mickel Liu and Yaodong Yang } ,
  title   = { OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research } ,
  journal = { Journal of Machine Learning Research } ,
  year    = { 2024 } ,
  volume  = { 25 } ,
  number  = { 285 } ,
  pages   = { 1--6 } ,
  url     = { http://jmlr.org/papers/v25/23-0681.html }
}

Tabla de contenido

Comienzo rápido
- Instalación
  - Requisitos previos
  - Instalar desde la fuente
  - Instalar desde PYPI
Algoritmos implementados
- Ejemplos
  - Registro de algoritmos
  - Entornos compatibles
  - Personalizando su entorno
  - Prueba con CLI
Empezando
- Sugerencias importantes
- QuickStart: Colab en la nube
Colegio de cambios
Citando omnisafe
Publicaciones que usan omnisafe
El equipo omnisafe
Licencia

Comienzo rápido

Instalación

Requisitos previos

Omnisafe requiere Python 3.8+ y Pytorch 1.10+.

Apoyamos y probamos para Python 3.8, 3.9, 3.10 en Linux. Mientras tanto, también apoyamos las versiones M1 y M2 de MacOS. Aceptaremos PR relacionados con Windows, pero no lo admitiremos oficialmente.

Instalar desde la fuente

 # Clone the repo
git clone https://github.com/PKU-Alignment/omnisafe.git
cd omnisafe

# Create a conda environment
conda env create --file conda-recipe.yaml
conda activate omnisafe

# Install omnisafe
pip install -e .

Instalar desde PYPI

Omnisafe está alojado en /.

pip install omnisafe

Algoritmos implementados

Últimos documentos Saferl

[AAAI 2023] Optimización de políticas proximales aumentadas para el aprendizaje de refuerzo seguro (APP)
[Neurips 2022] Enfoque de proyección de actualización restringida para la optimización segura de políticas (CUP)
[Neurips 2022] Efectos del aumento del estado de seguridad en la exploración segura (Simmer)
[Neurips 2022] Aprendizaje seguro de refuerzo profundo basado en modelos a través de un algoritmo de optimización de política proximal restringida
[ICML 2022] Sauté RL: Learning de refuerzo casi seguro usando el aumento de estado (Sauterl)
[IJCAI 2022] Optimización de políticas proximales penalizadas para el aprendizaje de refuerzo seguro
[AAAI 2022] Penalización conservadora y adaptativa para el aprendizaje de refuerzo seguro basado en modelos (CAP)

Lista de algoritmos

Sobre la política Saferl

Off Policy Saferl

[Preprint 2019] La versión lagrangiana de DDPG (DDPGlag)
[Preprint 2019] La versión lagrangiana de TD3 (TD3LAG)
[Preprint 2019] La versión lagrangiana de SAC (SACLAG)
[ICML 2020] Seguridad receptiva en el aprendizaje de refuerzo por Métodos Lagrangianos PID (DDPGPID)
[ICML 2020] Seguridad receptiva en el aprendizaje de refuerzo por Métodos Pid Lagrangian (TD3PID)
[ICML 2020] Seguridad receptiva en el aprendizaje de refuerzo por Métodos Lagrangianos de PID (SACPID)

Saferl basado en modelos

[Neurips 2021] Aprendizaje de refuerzo seguro al imaginar el futuro cercano (SMBPO)
[Corl 2021 (oral)] Aprendizaje de la política con planificación en línea (Safeloop)
[AAAI 2022] Penalización conservadora y adaptativa para el aprendizaje de refuerzo seguro basado en modelos (CAP)
[Neurips 2022] Aprendizaje seguro de refuerzo profundo basado en modelos a través de un algoritmo de optimización de política proximal restringida
[ICLR 2022] Optimización de políticas restringida a través de Bayesian World Models (LA-MBDA)
[Taller ICML 2022] Aprendizaje de refuerzo basado en modelos restringidos con un método robusto de entropía cruzada (RCE)
[Neurips 2018] Método de entropía cruzada restringida para el aprendizaje seguro de refuerzo (CCE)

Saferl fuera de línea

La versión LaGrange de BCQ (BCQ-Lag)
La versión restringida de CRR (C-CRR)
[AAAI 2022] Restricciones Penalizado Q-learning para el aprendizaje seguro de refuerzo fuera de línea CPQ
[ICLR 2022 (Spotlight)] Coptidice: aprendizaje de refuerzo restringido fuera de línea mediante estimación de corrección de distribución estacionaria
[ICML 2022] Optimización de política fuera de línea restringida (COPO)

Otros

[RA-L 2021] RECOVERSE RL: Aprendizaje de refuerzo seguro con zonas de recuperación aprendidas
[ICML 2022] Sauté RL: Learning de refuerzo casi seguro usando el aumento de estado (Sauterl)
[Neurips 2022] Efectos del aumento del estado de seguridad en la exploración segura

Ejemplos

 cd examples
python train_policy.py --algo PPOLag --env-id SafetyPointGoal1-v0 --parallel 1 --total-steps 10000000 --device cpu --vector-env-nums 1 --torch-threads 1

Registro de algoritmos

Dominio	Tipos	Registro de algoritmos
Sobre política	Primal Dual	Trpolag; Ppolag; PDO; RCPO
	Primal Dual	Trpopid; Cpopido
	Optimización convexa	CPO; PCPO; Focops; TAZA
	Función de penalización	IPO; P3O
	Primitivo	Oncrpo
Política fuera de lugar	Primario-dual	Ddpglag; Td3lag; Saclag
Política fuera de lugar	Primario-dual	Ddpgpid; Td3pid; Sacpid
Basado en modelo	Plan en línea	Safeloop; Ccepets; Rcepets
Basado en modelo	Estimación	Pájaros
Desconectado	Basado en Q-learning	Bcqlag; C-CRR
Desconectado	A base de dados	Coptdice
Otro MDP de formulación	ET-MDP	PPO terminado temprano; TRPOEARLYTERMINADO
	Sauterl	Pposaute; Trposaute
	Simmerrl	Pposimmerpid; Trposimmerpid

Entornos compatibles

Aquí hay una lista de entornos que admite la seguridad-Gymnasium:

Categoría	Tarea	Agente	Ejemplo
Navegación segura	Objetivo [012]	Punto, coche, carreras, hormiga	SafetyPointgoal1-v0
	Botón [012]
	Push [012]
	Círculo [012]
Velocidad segura	Velocidad	Halfcheetah, tolva, nadador, walker2d, hormiga, humanoide	SafetyHumanoidVelocity-V1
Gimnasio Safe Isaac	Sobrefefitoso	Mano de sombra	Shadowhandoversafinger
	Demasiado sabroso
	Catchover2underarmsafefinger
	Catchover2underarmsafeJoint

Para obtener más información sobre entornos, consulte Safety-Gymnasium.

Personalizando su entorno

Ofrecemos una interfaz de entorno personalizada flexible que permite a los usuarios lograr lo siguiente sin modificar el código fuente Omnisafe :

Use Omnisafe para entrenar algoritmos en entornos personalizados.
Cree el entorno con parámetros personalizados especificados.
Complete la grabación de información específica del entorno en Logger.

Proporcionamos tutoriales paso a paso sobre la personalización del entorno desde cero y la personalización del entorno de la comunidad para brindarle una introducción detallada sobre cómo usar esta característica extraordinaria de Omnisafe.

Nota: Si encuentra problemas para personalizar su entorno, no dude en abrir un problema o discusión. Las solicitudes de extracción también son bienvenidas si está dispuesto a contribuir con la implementación de la interfaz de su entorno.

Prueba con CLI

pip install omnisafe

omnisafe --help  # Ask for help

omnisafe benchmark --help  # The benchmark also can be replaced with 'eval', 'train', 'train-config'

# Quick benchmarking for your research, just specify:
# 1. exp_name
# 2. num_pool(how much processes are concurrent)
# 3. path of the config file (refer to omnisafe/examples/benchmarks for format)

# Here we provide an exampe in ./tests/saved_source.
# And you can set your benchmark_config.yaml by following it
omnisafe benchmark test_benchmark 2 ./tests/saved_source/benchmark_config.yaml

# Quick evaluating and rendering your trained policy, just specify:
# 1. path of algorithm which you trained
omnisafe eval ./tests/saved_source/PPO-{SafetyPointGoal1-v0} --num-episode 1

# Quick training some algorithms to validate your thoughts
# Note: use `key1:key2`, your can select key of hyperparameters which are recursively contained, and use `--custom-cfgs`, you can add custom cfgs via CLI
omnisafe train --algo PPO --total-steps 2048 --vector-env-nums 1 --custom-cfgs algo_cfgs:steps_per_epoch --custom-cfgs 1024

# Quick training some algorithms via a saved config file, the format is as same as default format
omnisafe train-config ./tests/saved_source/train_config.yaml

Empezando

Sugerencias importantes

Hemos proporcionado resultados de referencia para varios algoritmos, incluidos los enfoques en política, fuera de la política, basados en modelos y fuera de línea, junto con el análisis de ajuste de parámetros. Consulte lo siguiente:

En la política
Desconocido
Basado en modelo
Desconectado

QuickStart: Colab en la nube

Explore Omnisafe fácil y rápidamente a través de una serie de cuadernos Google Colab:

Comenzando introducir el uso básico de Omnisafe para que los usuarios puedan entregarlo rápidamente.
Comando CLI Introducir cómo usar la herramienta CLI de Omnisafe.

Nos complace colaborar con nuestros usuarios para crear tutoriales en varios idiomas. Consulte nuestra lista de idiomas actualmente compatibles. Si está interesado en traducir el tutorial en un nuevo idioma o mejorar una versión existente, envíenos un PR a nosotros.

Colegio de cambios

Ver ChangeLog.md.

Publicaciones que usan omnisafe

Hemos compilado una lista de documentos que usan Omnisafe para la implementación o experimentación del algoritmo. Si está dispuesto a incluir su trabajo en esta lista, o si desea que su implementación se integre oficialmente en Omnisafe, no dude en contactarnos.

Papeles	Editor
Aprendizaje de refuerzo seguro de reflejo primario no político	ICLR 2024
Aprendizaje seguro de refuerzo fuera de línea con modelo de difusión guiada por viabilidad	ICLR 2024
Estimación de accesibilidad iterativa para el aprendizaje de refuerzo seguro	Neurips 2023
La recompensa de equilibrio y la optimización de seguridad para el aprendizaje de refuerzo seguro: una perspectiva de la manipulación de gradiente	AAAI 2024
Aprender limitaciones de seguridad de la demostración utilizando árboles de decisión de una clase	AAAI 2024 Talleres

El equipo omnisafe

Omnisafe está desarrollado principalmente por el equipo de investigación Saferl dirigido por el Prof. Yaodong Yang. Los miembros de nuestro equipo de investigación Saferl incluyen Borong Zhang, Jiayi Zhou, Jtao Dai, Weidong Huang, Ruiyang Sun, Xuehai Pan y Jiaming Ji. Si tiene alguna pregunta en el proceso de usar Omnisafe, no dude en hacer sus preguntas en la página de problemas de GitHub, le responderemos en 2-3 días hábiles.