ดาวน์โหลด DeepRL - ดาวน์โหลดซอร์สโค้ด DeepRL

DeepRL

หลาม

1.0.0

ดาวน์โหลด

deeprl

หากคุณมีคำถามใด ๆ หรือต้องการรายงานข้อผิดพลาดโปรดเปิดปัญหาแทนการส่งอีเมลถึงฉันโดยตรง

การใช้งานแบบแยกส่วนของอัลกอริทึม RL Deep ที่เป็นที่นิยมใน Pytorch
สลับง่ายระหว่างงานของเล่นและเกมที่ท้าทาย

อัลกอริทึมที่ใช้งาน:

(Double/Dueling/จัดลำดับความสำคัญ) Deep Q-Learning (DQN)
หมวดหมู่ DQN (C51)
Quantile การถดถอย DQN (QR-DQN)
(ต่อเนื่อง/ไม่ต่อเนื่อง) นักวิจารณ์นักแสดง Advantage Synchronous (A2C)
Synchronous N-Step Q-Learning (N-Step DQN)
การไล่ระดับสีเชิงลึกเชิงลึก (DDPG)
การเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO)
สถาปัตยกรรมตัวเลือก-นักวิจารณ์ (OC)
ddpg ล่าช้า twined (TD3)
OFF-PAC-KL/TRUNCATEDETD/DIMANTERIALGQ/MVPI/REVERSERL/COF-PAC/GRADIENDDICE/BI-RES-DDPG/DAC/GEOFF-PAC/OUTA/ACE

ตัวแทน DQN เช่นเดียวกับ C51 และ QR-DQN มีนักแสดงแบบอะซิงโครนัสสำหรับการสร้างข้อมูลและบัฟเฟอร์การเล่นซ้ำแบบอะซิงโครนัสสำหรับการถ่ายโอนข้อมูลไปยัง GPU การใช้ 1 RTX 2080 TI และ 3 เธรดเอเจนต์ DQN ทำงานเป็นระยะ 10 ม. (เฟรม 40 ม., การอัปเดตการไล่ระดับสี 2.5 ม.) สำหรับการฝ่าวงล้อมภายใน 6 ชั่วโมง

การพึ่งพาอาศัยกัน

Pytorch v1.5.1
ดู Dockerfile และ requirements.txt สำหรับรายละเอียดเพิ่มเติม

การใช้งาน

examples.py มีตัวอย่างสำหรับอัลกอริทึมที่ใช้งานทั้งหมด
Dockerfile มีสภาพแวดล้อมสำหรับการสร้างเส้นโค้งด้านล่าง
โปรดใช้ bibtex นี้หากคุณต้องการอ้างอิง repo นี้

 @misc{deeprl,
  author = {Zhang, Shangtong},
  title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}

เส้นโค้ง (ส่ง `9e811e` )

BreakoutNoframeskip-V4 (1 รัน)

มูจาโกะ

ประสิทธิภาพการประเมิน DDPG/TD3 (5 รัน, ค่าเฉลี่ย + ข้อผิดพลาดมาตรฐาน)
ประสิทธิภาพการทำงานออนไลน์ของ PPO (5 รัน, ค่าเฉลี่ย + ข้อผิดพลาดมาตรฐาน, เรียบโดยหน้าต่างขนาด 10)

การอ้างอิง

การควบคุมระดับมนุษย์ผ่านการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
วิธีการแบบอะซิงโครนัสสำหรับการเรียนรู้การเสริมแรงลึก
การเรียนรู้การเสริมแรงอย่างลึกล้ำด้วยการเรียนรู้สองครั้ง
การดวลสถาปัตยกรรมเครือข่ายเพื่อการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
เล่นอาตาริด้วยการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
Hogwild !: วิธีการล็อคแบบไร้ล็อคในการสืบเชื้อสายการไล่ระดับสีแบบสุ่มแบบขนาน
อัลกอริทึมการไล่ระดับสี
การควบคุมอย่างต่อเนื่องด้วยการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
การควบคุมอย่างต่อเนื่องในมิติสูงโดยใช้การประมาณค่าความได้เปรียบทั่วไป
สถาปัตยกรรมรางวัลไฮบริดสำหรับการเรียนรู้การเสริมแรง
ทรัสต์นโยบายการเพิ่มประสิทธิภาพ
อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียง
การเกิดขึ้นของพฤติกรรมการเคลื่อนไหวในสภาพแวดล้อมที่อุดมสมบูรณ์
การทำนายวิดีโอแอ็คชั่น-เงื่อนไขโดยใช้เครือข่ายลึกในเกม Atari
มุมมองการกระจายเกี่ยวกับการเรียนรู้การเสริมแรง
การเรียนรู้การเสริมแรงแบบกระจายด้วยการถดถอยแบบควอนไทล์
สถาปัตยกรรมตัวเลือก-นักวิจารณ์
การแก้ไขข้อผิดพลาดการประมาณฟังก์ชั่นในวิธีการนักแสดงนักวิจารณ์
พารามิเตอร์ไฮเปอร์บางแห่งมาจาก DeepMind Control Suite, Openai Baselines และ Ilya Kostrikov

รหัสเอกสารของฉัน

พวกเขาอยู่ในสาขาอื่น ๆ ของ repo นี้และดูเหมือนจะเป็นตัวอย่างที่ดีสำหรับการใช้ codebase นี้

การเพิ่มประสิทธิภาพทั่วโลกและการวิเคราะห์ตัวอย่าง จำกัด ของนักวิจารณ์นักแสดงนอกนโยบาย Softmax ภายใต้การกระจายของรัฐไม่ตรงกัน [Off-Pac-KL]
วิธีการที่แตกต่างทางโลกที่ถูกตัดทอนสำหรับการทำนายและการควบคุม [TRUNCATEDETD]
ดูการลดความไม่ตรงกันในอัลกอริธึมนักแสดงนักแสดง [การลดราคา]
ทำลายกลุ่มผู้ตายด้วยเครือข่ายเป้าหมาย [TargetNetwork]
การประเมินนโยบายนอกนโยบายที่ให้รางวัลโดยเฉลี่ยด้วยการประมาณฟังก์ชั่น [DIMANTERIALGQ]
การทำซ้ำนโยบายความแปรปรวนเฉลี่ยสำหรับการเรียนรู้การเสริมแรงที่ไม่จำเป็น [MVPI]
การเรียนรู้ความรู้ย้อนหลังด้วยการเรียนรู้การเสริมแรงแบบย้อนกลับ [Reverserl]
คอนเวอร์เจนซ์คอนเวอร์เจนซ์นักแสดงนอกนโยบายสองเท่าที่มีการประมาณฟังก์ชั่น [COF-PAC, TD3-Random]
การไล่ระดับสี: ทบทวนการประมาณค่าแบบออฟไลน์ทั่วไปของค่าคงที่ [ไล่ระดับสี]
การเรียนรู้การเสริมแรงที่เหลืออยู่ลึก [BI-RES-DDPG]
นักแสดงนอกนโยบายทั่วไป [Geoff-Pac, TD3-Random]
DAC: สถาปัตยกรรมนักแสดงสองคนสำหรับตัวเลือกการเรียนรู้ [DAC]
โควต้า: สถาปัตยกรรมตัวเลือกควอนไทล์สำหรับการเรียนรู้การเสริมแรง [โควต้า-ดิจิตอล, โควต้าต่อเนื่อง]
ACE: อัลกอริทึมชุดนักแสดงสำหรับการควบคุมอย่างต่อเนื่องกับการค้นหาต้นไม้ [ACE]

ขยาย

ข้อมูลเพิ่มเติม