pytorch a2c ppo acktr gail ดาวน์โหลด - pytorch a2c ppo acktr gail ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

pytorch a2c ppo acktr gail

หลาม

1.0.0

ดาวน์โหลด

Pytorch-A2C-PPO-ACKTR

อัปเดต (12 เมษายน 2021)

PPO นั้นยอดเยี่ยม แต่นักวิจารณ์นักแสดงที่อ่อนนุ่มสามารถดีกว่าสำหรับงานควบคุมอย่างต่อเนื่องจำนวนมาก โปรดตรวจสอบที่เก็บ RL ใหม่ของฉันใน JAX

โปรดใช้พารามิเตอร์ไฮเปอร์จาก readme นี้ ด้วยพารามิเตอร์ไฮเปอร์อื่น ๆ สิ่งต่าง ๆ อาจไม่ได้ผล (เป็น RL หลังจากทั้งหมด)!

นี่คือการใช้งาน pytorch ของ

Advantage Advantage Actor Critic (A2C) ซึ่งเป็นรุ่นที่กำหนดแบบซิงโครนัสของ A3C
การเพิ่มประสิทธิภาพนโยบายใกล้เคียง PPO
วิธีการที่เชื่อถือได้ในภูมิภาคสำหรับการเรียนรู้การเสริมแรงอย่างลึก
การเรียนรู้การเลียนแบบของฝ่ายตรงข้าม

ดูโพสต์ OpenAI: A2C/ACKTR และ PPO สำหรับข้อมูลเพิ่มเติม

การใช้งานนี้ได้รับแรงบันดาลใจจาก OpenAI baselines สำหรับ A2C, ACKTR และ PPO มันใช้พารามิเตอร์ไฮเปอร์เดียวกันและโมเดลเนื่องจากพวกเขาได้รับการปรับแต่งอย่างดีสำหรับเกมอาตาริ

โปรดใช้ bibtex นี้หากคุณต้องการอ้างถึงที่เก็บนี้ในสิ่งพิมพ์ของคุณ:

 @misc{pytorchrl,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Reinforcement Learning Algorithms},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a2c-ppo-acktr-gail}},
}

สภาพแวดล้อมที่รองรับ (และทดสอบ) (ผ่าน Openai Gym)

สภาพแวดล้อมการเรียนรู้ของอาตาริ
มูจาโกะ
Pybullet (รวมถึง Racecar, Minitaur และ Kuka)
ชุดควบคุม DeepMind (ผ่าน DM_CONTROL2GYM)

ฉันขอแนะนำ Pybullet เป็นทางเลือกโอเพ่นซอร์สฟรีสำหรับ Mujoco สำหรับงานควบคุมอย่างต่อเนื่อง

สภาพแวดล้อมทั้งหมดดำเนินการโดยใช้อินเทอร์เฟซยิมเดียวกัน ดูเอกสารของพวกเขาสำหรับรายการที่ครอบคลุม

หากต้องการใช้สภาพแวดล้อมชุดควบคุม DeepMind ให้ตั้งค่าสถานะ --env-name dm.<domain_name>.<task_name> โดยที่ domain_name และ task_name เป็นชื่อของโดเมน (เช่น hopper ) และงานภายในโดเมนนั้น (เช่น stand ) จากห้องควบคุม DeepMind อ้างถึง Repo และรายงานเทคโนโลยีของพวกเขาสำหรับรายการเต็มรูปแบบของโดเมนและงานที่มีอยู่ นอกเหนือจากการตั้งค่างาน API สำหรับการโต้ตอบกับสภาพแวดล้อมนั้นเหมือนกับสภาพแวดล้อมในโรงยิมทั้งหมดด้วย DM_CONTROL2GYM

ความต้องการ

Python 3 (อาจใช้งานได้กับ Python 2 แต่ฉันไม่ได้ทดสอบ)
pytorch
baselines ที่มั่นคง 3

ในการติดตั้งข้อกำหนดให้ติดตาม:

 # PyTorch
conda install pytorch torchvision -c soumith

# Other requirements
pip install -r requirements.txt

# Gym Atari
conda install -c conda-forge gym-atari

ผลงาน

ยินดีต้อนรับการมีส่วนร่วมอย่างมาก หากคุณรู้วิธีทำให้รหัสนี้ดีขึ้นโปรดเปิดปัญหา หากคุณต้องการส่งคำขอดึงโปรดเปิดปัญหาก่อน ดูรายการสิ่งที่ต้องทำด้านล่าง

นอกจากนี้ฉันกำลังค้นหาอาสาสมัครเพื่อทำการทดลองทั้งหมดใน Atari และ Mujoco (มีเมล็ดสุ่มหลายชนิด)

คำเตือน

เป็นเรื่องยากมากที่จะทำซ้ำผลลัพธ์สำหรับวิธีการเรียนรู้การเสริมแรง ดู "การเรียนรู้การเสริมแรงอย่างลึกซึ้งที่สำคัญ" สำหรับข้อมูลเพิ่มเติม ฉันพยายามทำซ้ำผลลัพธ์ของ OpenAI ให้ใกล้เคียงที่สุด อย่างไรก็ตามความแตกต่างของวิชาเอกในการแสดงอาจเกิดขึ้นได้แม้จะมีความแตกต่างเล็กน้อยในห้องสมุด Tensorflow และ Pytorch

สิ่งที่ต้องทำ

ปรับปรุงไฟล์ readme นี้ จัดเรียงภาพใหม่
ปรับปรุงประสิทธิภาพของ KFAC ดู kfac.py สำหรับข้อมูลเพิ่มเติม
เรียกใช้การประเมินผลสำหรับเกมและอัลกอริทึมทั้งหมด

การแสดงภาพ

เพื่อให้เห็นภาพผลลัพธ์ให้ใช้ visualize.ipynb

การฝึกอบรม

อาตาริ

A2C

python main.py --env-name " PongNoFrameskip-v4 "

PPO

python main.py --env-name " PongNoFrameskip-v4 " --algo ppo --use-gae --lr 2.5e-4 --clip-param 0.1 --value-loss-coef 0.5 --num-processes 8 --num-steps 128 --num-mini-batch 4 --log-interval 1 --use-linear-lr-decay --entropy-coef 0.01

Acktr

python main.py --env-name " PongNoFrameskip-v4 " --algo acktr --num-processes 32 --num-steps 20

มูจาโกะ

โปรดลองใช้เสมอ --use-proper-time-limits เวลา มันจัดการวิถีบางส่วนอย่างถูกต้อง (ดู https://github.com/sfujim/td3/blob/master/main.py#l123)

A2C

python main.py --env-name " Reacher-v2 " --num-env-steps 1000000

PPO

python main.py --env-name " Reacher-v2 " --algo ppo --use-gae --log-interval 1 --num-steps 2048 --num-processes 1 --lr 3e-4 --entropy-coef 0 --value-loss-coef 0.5 --ppo-epoch 10 --num-mini-batch 32 --gamma 0.99 --gae-lambda 0.95 --num-env-steps 1000000 --use-linear-lr-decay --use-proper-time-limits

Acktr

ACKTR ต้องการการดัดแปลงบางอย่างที่จะทำโดยเฉพาะสำหรับ Mujoco แต่ในขณะนี้ฉันต้องการให้รหัสนี้เป็นแบบครบวงจรมากที่สุด ดังนั้นฉันจะหาวิธีที่ดีกว่าในการรวมเข้ากับ codebase

สนุก

อาตาริ

python enjoy.py --load-dir trained_models/a2c --env-name " PongNoFrameskip-v4 "

มูจาโกะ

python enjoy.py --load-dir trained_models/ppo --env-name " Reacher-v2 "

ผลลัพธ์

A2C

Breakoutnoframeskip-v4

SeaquestNoframeskip-V4

qbertnoframeskip-v4

BeamriderNoframeskip-V4

PPO

Breakoutnoframeskip-v4

SeaquestNoframeskip-V4

qbertnoframeskip-v4

BeamriderNoframeskip-V4

Acktr

Breakoutnoframeskip-v4

SeaquestNoframeskip-V4

qbertnoframeskip-v4

BeamriderNoframeskip-V4

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท หลาม
เวลาอัปเดต 2025-07-13
ขนาด 8.52MB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ToDo Co

หลาม

1.0.0
Python Portfolio

หลาม
datamule python

หลาม
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด