ดาวน์โหลด omnisafe - ดาวน์โหลดซอร์สโค้ด omnisafe

omnisafe

หลาม

v0.5.0

ดาวน์โหลด

เอกสาร ใช้อัลกอริทึม การติดตั้ง เริ่มต้นใช้งาน | ใบอนุญาต

Omnisafe เป็นกรอบโครงสร้างพื้นฐานที่ออกแบบมาเพื่อเร่งการวิจัยการเรียนรู้เสริมแรงอย่างปลอดภัย (RL) มันมีเกณฑ์มาตรฐานที่ครอบคลุมและเชื่อถือได้สำหรับอัลกอริทึม RL ที่ปลอดภัยและยังเป็นชุดเครื่องมือแบบแยกส่วนนอกกล่องสำหรับนักวิจัย Saferl ตั้งใจที่จะพัฒนาอัลกอริทึมที่ลดความเสี่ยงของการอันตรายที่ไม่ได้ตั้งใจหรือพฤติกรรมที่ไม่ปลอดภัย

Omnisafe ย่อมาจากกรอบการเรียนรู้แบบครบวงจรครั้งแรกในขอบเขตของการเรียนรู้การเสริมแรงที่ปลอดภัยโดยมีวัตถุประสงค์เพื่อส่งเสริมการเติบโตของชุมชนการเรียนรู้ที่ปลอดภัย คุณสมบัติสำคัญของ Omnisafe:

เฟรมเวิร์กโมดูลาร์สูง Omnisafe นำเสนอเฟรมเวิร์กแบบแยกส่วนสูงโดยรวมการรวบรวมอัลกอริทึมมากมายที่เหมาะสำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัยในโดเมนที่หลากหลาย เฟรมเวิร์กนี้มีความหลากหลายเนื่องจากเป็นนามธรรมของอัลกอริทึมประเภทต่างๆและ API ที่ออกแบบมาอย่างดีโดยใช้อะแดปเตอร์และส่วนประกอบการออกแบบ wrapper เพื่อเชื่อมช่องว่างและเปิดใช้งานการโต้ตอบที่ไร้รอยต่อระหว่างส่วนประกอบที่แตกต่างกัน การออกแบบนี้ช่วยให้สามารถขยายและปรับแต่งได้ง่ายทำให้เป็นเครื่องมือที่ทรงพลังสำหรับนักพัฒนาที่ทำงานกับอัลกอริทึมประเภทต่างๆ
การเร่งความเร็วการคำนวณแบบขนานประสิทธิภาพสูง ด้วยการควบคุมความสามารถของ torch.distributed Omnisafe เร่งกระบวนการเรียนรู้ของอัลกอริทึมด้วยกระบวนการขนานกระบวนการ สิ่งนี้ช่วยให้ Omnisafe ไม่เพียง แต่สนับสนุนการขนานกันแบบอะซิงโครนัสระดับสภาพแวดล้อมเท่านั้น วิธีการนี้ช่วยเสริมเสถียรภาพการฝึกอบรมและเร่งกระบวนการฝึกอบรมผ่านการปรับใช้กลไกการสำรวจแบบขนาน การบูรณาการการเรียนรู้แบบอะซิงโครนัสเอเจนต์ใน Omnisafe เน้นย้ำความมุ่งมั่นในการจัดหาแพลตฟอร์มที่หลากหลายและแข็งแกร่งสำหรับการวิจัย Saferl
ชุดเครื่องมือนอกกรอบ Omnisafe เสนอชุดเครื่องมือที่ปรับแต่งได้สำหรับงานต่าง ๆ เช่นการฝึกอบรมการเปรียบเทียบการวิเคราะห์และการแสดงผล บทช่วยสอนและ API ที่ใช้งานง่ายทำให้เป็นเรื่องง่ายสำหรับผู้เริ่มต้นและผู้ใช้โดยเฉลี่ยในขณะที่นักวิจัยขั้นสูงสามารถปรับปรุงประสิทธิภาพโดยไม่ต้องใช้รหัสที่ซับซ้อน

หากคุณพบว่า Omnisafe มีประโยชน์หรือใช้ omnisafe ในการวิจัยของคุณโปรดอ้างอิงในสิ่งพิมพ์ของคุณ

 @article { JMLR:v25:23-0681 ,
  author  = { Jiaming Ji and Jiayi Zhou and Borong Zhang and Juntao Dai and Xuehai Pan and Ruiyang Sun and Weidong Huang and Yiran Geng and Mickel Liu and Yaodong Yang } ,
  title   = { OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research } ,
  journal = { Journal of Machine Learning Research } ,
  year    = { 2024 } ,
  volume  = { 25 } ,
  number  = { 285 } ,
  pages   = { 1--6 } ,
  url     = { http://jmlr.org/papers/v25/23-0681.html }
}

สารบัญ

เริ่มต้นอย่างรวดเร็ว
- การติดตั้ง
  - ข้อกำหนดเบื้องต้น
  - ติดตั้งจากแหล่งที่มา
  - ติดตั้งจาก PYPI
ใช้อัลกอริทึม
- ตัวอย่าง
  - อัลกอริทึมรีจิสทรี
  - สภาพแวดล้อมที่รองรับ
  - ปรับแต่งสภาพแวดล้อมของคุณ
  - ลองใช้ CLI
เริ่มต้น
- คำแนะนำที่สำคัญ
- Quickstart: colab บนคลาวด์
การเปลี่ยนแปลง
อ้างถึง Omnisafe
สิ่งพิมพ์โดยใช้ omnisafe
ทีม Omnisafe
ใบอนุญาต

เริ่มต้นอย่างรวดเร็ว

การติดตั้ง

ข้อกำหนดเบื้องต้น

Omnisafe ต้องการ Python 3.8+ และ Pytorch 1.10+

เราสนับสนุนและทดสอบ Python 3.8, 3.9, 3.10 บน Linux ในขณะเดียวกันเรายังสนับสนุน MacOS รุ่น M1 และ M2 เราจะยอมรับ PRS ที่เกี่ยวข้องกับ Windows แต่ไม่สนับสนุนอย่างเป็นทางการ

ติดตั้งจากแหล่งที่มา

 # Clone the repo
git clone https://github.com/PKU-Alignment/omnisafe.git
cd omnisafe

# Create a conda environment
conda env create --file conda-recipe.yaml
conda activate omnisafe

# Install omnisafe
pip install -e .

ติดตั้งจาก PYPI

Omnisafe เป็นเจ้าภาพใน /

pip install omnisafe

ใช้อัลกอริทึม

เอกสาร SAFERL ล่าสุด

[AAAI 2023] เพิ่มประสิทธิภาพนโยบายที่เพิ่มขึ้นสำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัย (APPO)
[Neurips 2022] วิธีการฉายภาพการอัปเดตที่ จำกัด เพื่อเพิ่มประสิทธิภาพนโยบายที่ปลอดภัย (CUP)
[Neurips 2022] ผลของการเพิ่มสถานะความปลอดภัยต่อการสำรวจอย่างปลอดภัย (Simmer)
[Neurips 2022] การเรียนรู้การเสริมแรงแบบลึกแบบจำลองที่ใช้แบบจำลองผ่านอัลกอริทึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียงที่ จำกัด
[ICML 2022] Sauté RL: การเรียนรู้การเสริมแรงอย่างปลอดภัยเกือบแน่นอนโดยใช้การเพิ่มสถานะ (Sauterl)
[IJCAI 2022] ลงโทษการเพิ่มประสิทธิภาพนโยบายใกล้เคียงเพื่อการเรียนรู้การเสริมแรงอย่างปลอดภัย
[AAAI 2022] การลงโทษแบบอนุรักษ์นิยมและปรับตัวสำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัยตามแบบจำลอง (CAP)

รายการอัลกอริทึม

เกี่ยวกับนโยบาย Saferl

ปิดนโยบาย saferl

[Preprint 2019] DDPG เวอร์ชัน Lagrangian (DDPGLAG)
[Preprint 2019] รุ่น Lagrangian ของ TD3 (TD3LAG)
[Preprint 2019] SAC (Saclag) รุ่นลากรองจ์ (Saclag)
[ICML 2020] ความปลอดภัยที่ตอบสนองในการเรียนรู้การเสริมแรงโดยวิธี PID Lagrangian (DDPGPID)
[ICML 2020] ความปลอดภัยที่ตอบสนองในการเรียนรู้การเสริมแรงโดยวิธี PID Lagrangian (TD3PID)
[ICML 2020] ความปลอดภัยที่ตอบสนองในการเรียนรู้การเสริมแรงโดยวิธี PID Lagrangian (SACPID)

Saferl ที่ใช้โมเดล

[Neurips 2021] การเรียนรู้การเสริมแรงอย่างปลอดภัยโดยการจินตนาการถึงอนาคตอันใกล้ (SMBPO)
[CORL 2021 (ปาก)] การเรียนรู้นอกนโยบายด้วยการวางแผนออนไลน์ (SAFELOOP)
[AAAI 2022] การลงโทษแบบอนุรักษ์นิยมและปรับตัวสำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัยตามแบบจำลอง (CAP)
[Neurips 2022] การเรียนรู้การเสริมแรงแบบลึกแบบจำลองที่ใช้แบบจำลองผ่านอัลกอริทึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียงที่ จำกัด
[ICLR 2022] การเพิ่มประสิทธิภาพนโยบายที่ จำกัด ผ่านแบบจำลอง Bayesian World (LA-MBDA)
[ICML 2022 Workshop] การเรียนรู้การเสริมแรงแบบใช้แบบจำลองแบบแบบ จำกัด ด้วยวิธีการข้ามสายพันธุ์ที่แข็งแกร่ง (RCE)
[Neurips 2018] วิธีการข้ามสายไฟที่ จำกัด สำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัย (CCE)

saferl ออฟไลน์

BCQ เวอร์ชัน LaGrange (BCQ-LAG)
CRR (C-CRR) รุ่น จำกัด
[AAAI 2022] ข้อ จำกัด ที่ลงโทษ Q-Learning สำหรับการเรียนรู้การเสริมแรงแบบออฟไลน์ที่ปลอดภัย CPQ
[ICLR 2022 (สปอตไลท์)] Coptidice: การเรียนรู้เสริมแรงแบบออฟไลน์ผ่านการประเมินการแก้ไขการกระจายแบบหยุดนิ่งแบบออฟไลน์
[ICML 2022] การเพิ่มประสิทธิภาพนโยบายออฟไลน์ที่ จำกัด (COPO)

คนอื่น

[RA-L 2021] การกู้คืน RL: การเรียนรู้การเสริมแรงอย่างปลอดภัยด้วยโซนการกู้คืนที่เรียนรู้
[ICML 2022] Sauté RL: การเรียนรู้การเสริมแรงอย่างปลอดภัยเกือบแน่นอนโดยใช้การเพิ่มสถานะ (Sauterl)
[Neurips 2022] ผลของการเพิ่มสถานะความปลอดภัยต่อการสำรวจอย่างปลอดภัย

ตัวอย่าง

 cd examples
python train_policy.py --algo PPOLag --env-id SafetyPointGoal1-v0 --parallel 1 --total-steps 10000000 --device cpu --vector-env-nums 1 --torch-threads 1

อัลกอริทึมรีจิสทรี

โดเมน	ประเภท	อัลกอริทึมรีจิสทรี
เกี่ยวกับนโยบาย	คู่แรก	trpolag; ppolag; PDO; RCPO
	คู่แรก	trpopid; CPPOPID
	การเพิ่มประสิทธิภาพแบบนูน	CPO; PCPO; โฟกัส; ถ้วย
	ฟังก์ชั่นการลงโทษ	การเสนอขายหุ้น; p3o
	ครั้งแรก	oncrpo
นโยบายปิด	ครั้งแรก	ddpglag; td3lag; saclag
นโยบายปิด	ครั้งแรก	DDPGPID; TD3PID; sacpid
อิงตามแบบจำลอง	แผนออนไลน์	Safeloop; Ccepets; rcepets
อิงตามแบบจำลอง	ประมาณการในแง่ร้าย	เครื่องประดับ
ออฟไลน์	q-learning	bcqlag; C-CRR
ออฟไลน์	ตามลูกเต๋า	coptdice
สูตรอื่น ๆ MDP	ET-MDP	PPO arefersterminated; trpoearlyterminated
	ซิ่งไม้	pposaute; trposaute
	ซิมเมอร์ล	pposimmerpid; trposimmerpid

สภาพแวดล้อมที่รองรับ

นี่คือรายการสภาพแวดล้อมที่ความปลอดภัย-Gymnasium รองรับ:

หมวดหมู่	งาน	ตัวแทน	ตัวอย่าง
การนำทางที่ปลอดภัย	เป้าหมาย [012]	จุด, รถยนต์, รถแข่ง, มด	safetypointgoal1-v0
	ปุ่ม [012]
	กด [012]
	วงกลม [012]
ความเร็วที่ปลอดภัย	ความเร็ว	Halfcheetah, Hopper, นักว่ายน้ำ, Walker2d, Ant, Humanoid	SafetyHumanoidVelocity-V1
Safe Isaac Gym	เกินจริง	ขนนก	ShadowHandoVersafefinger
	oversafejoint
	catchover2underarmsafefinger
	catchover2underarmsafejoint

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับสภาพแวดล้อมโปรดดูที่ Safety-Gymnasium

ปรับแต่งสภาพแวดล้อมของคุณ

เรานำเสนออินเทอร์เฟซสภาพแวดล้อมที่ปรับแต่งได้ที่ยืดหยุ่นซึ่งช่วยให้ผู้ใช้สามารถทำสิ่งต่อไปนี้ ได้โดยไม่ต้องแก้ไขซอร์สโค้ด Omnisafe :

ใช้ Omnisafe เพื่อฝึกอัลกอริทึมในสภาพแวดล้อมที่กำหนดเอง
สร้างสภาพแวดล้อมด้วยพารามิเตอร์ส่วนบุคคลที่ระบุ
กรอกการบันทึกข้อมูลเฉพาะสภาพแวดล้อมใน Logger

เราให้ บริการแบบทีละขั้นตอน เกี่ยวกับการปรับแต่งสภาพแวดล้อมตั้งแต่เริ่มต้นและปรับแต่งสภาพแวดล้อมจากชุมชนเพื่อให้คุณแนะนำรายละเอียดเกี่ยวกับวิธีการใช้คุณสมบัติพิเศษของ Omnisafe

หมายเหตุ: หากคุณพบปัญหาในการปรับแต่งสภาพแวดล้อมของคุณโปรดเปิดปัญหาหรือการอภิปราย การร้องขอแบบดึงยังได้รับการต้อนรับหากคุณยินดีที่จะมีส่วนร่วมในการใช้งานอินเทอร์เฟซสภาพแวดล้อมของคุณ

ลองใช้ CLI

pip install omnisafe

omnisafe --help  # Ask for help

omnisafe benchmark --help  # The benchmark also can be replaced with 'eval', 'train', 'train-config'

# Quick benchmarking for your research, just specify:
# 1. exp_name
# 2. num_pool(how much processes are concurrent)
# 3. path of the config file (refer to omnisafe/examples/benchmarks for format)

# Here we provide an exampe in ./tests/saved_source.
# And you can set your benchmark_config.yaml by following it
omnisafe benchmark test_benchmark 2 ./tests/saved_source/benchmark_config.yaml

# Quick evaluating and rendering your trained policy, just specify:
# 1. path of algorithm which you trained
omnisafe eval ./tests/saved_source/PPO-{SafetyPointGoal1-v0} --num-episode 1

# Quick training some algorithms to validate your thoughts
# Note: use `key1:key2`, your can select key of hyperparameters which are recursively contained, and use `--custom-cfgs`, you can add custom cfgs via CLI
omnisafe train --algo PPO --total-steps 2048 --vector-env-nums 1 --custom-cfgs algo_cfgs:steps_per_epoch --custom-cfgs 1024

# Quick training some algorithms via a saved config file, the format is as same as default format
omnisafe train-config ./tests/saved_source/train_config.yaml

เริ่มต้น

คำแนะนำที่สำคัญ

เราได้ให้ผลลัพธ์มาตรฐานสำหรับอัลกอริทึมที่หลากหลายรวมถึงวิธีการตามนโยบาย, นอกนโยบาย, แบบจำลองและวิธีการออฟไลน์พร้อมกับการวิเคราะห์การปรับพารามิเตอร์ โปรดดูต่อไปนี้:

ตามนโยบาย
นอกนโยบาย
อิงตามแบบจำลอง
ออฟไลน์

Quickstart: colab บนคลาวด์

สำรวจ Omnisafe ได้อย่างง่ายดายและรวดเร็วผ่านชุดของสมุดบันทึก Google Colab:

การเริ่มต้นใช้งานแนะนำการใช้งานขั้นพื้นฐานของ Omnisafe เพื่อให้ผู้ใช้สามารถส่งมอบได้อย่างรวดเร็ว
คำสั่ง CLI แนะนำวิธีใช้เครื่องมือ CLI ของ Omnisafe

เรามีความสุขอย่างยิ่งในการร่วมมือกับผู้ใช้ของเราเพื่อสร้างแบบฝึกหัดในภาษาต่างๆ โปรดดูรายการภาษาที่รองรับในปัจจุบันของเรา หากคุณสนใจที่จะแปลการสอนเป็นภาษาใหม่หรือปรับปรุงเวอร์ชันที่มีอยู่โปรดส่ง PR ให้เรา

การเปลี่ยนแปลง

ดู Changelog.md

สิ่งพิมพ์โดยใช้ omnisafe

เราได้รวบรวมรายการเอกสารที่ใช้ Omnisafe สำหรับการใช้อัลกอริทึมหรือการทดลอง หากคุณยินดีที่จะรวมงานของคุณไว้ในรายการนี้หรือหากคุณต้องการนำไปใช้อย่างเป็นทางการใน Omnisafe โปรดติดต่อเรา

เอกสาร	ผู้จัดพิมพ์
การเรียนรู้การเสริมแรงอย่างปลอดภัยแบบไม่ปลอดภัย	ICLR 2024
การเรียนรู้การเสริมแรงแบบออฟไลน์อย่างปลอดภัยด้วยรูปแบบการแพร่กระจายที่เป็นไปได้	ICLR 2024
การประมาณความสามารถในการเข้าถึงซ้ำสำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัย	Neurips 2023
ความสมดุลของรางวัลและการเพิ่มประสิทธิภาพความปลอดภัยสำหรับการเรียนรู้การเสริมแรงอย่างปลอดภัย: มุมมองของการจัดการไล่ระดับสี	Aaai 2024
การเรียนรู้ข้อ จำกัด ด้านความปลอดภัยจากการสาธิตโดยใช้ต้นไม้ตัดสินใจชั้นเดียว	AAAI 2024 เวิร์กช็อป

ทีม Omnisafe

Omnisafe ส่วนใหญ่ได้รับการพัฒนาโดยทีมวิจัย Saferl กำกับโดยศาสตราจารย์ Yoodong Yang สมาชิกทีมวิจัย Saferl ของเรา ได้แก่ Borong Zhang, Jiayi Zhou, Jtao Dai, Weidong Huang, Ruiyang Sun, Xuehai Pan และ Jiaming Ji หากคุณมีคำถามใด ๆ ในกระบวนการใช้ Omnisafe อย่าลังเลที่จะถามคำถามของคุณในหน้าปัญหา GitHub เราจะตอบกลับคุณใน 2-3 วันทำการ