deeprl
หากคุณมีคำถามใด ๆ หรือต้องการรายงานข้อผิดพลาดโปรดเปิดปัญหาแทนการส่งอีเมลถึงฉันโดยตรง
การใช้งานแบบแยกส่วนของอัลกอริทึม RL Deep ที่เป็นที่นิยมใน Pytorch
สลับง่ายระหว่างงานของเล่นและเกมที่ท้าทาย
อัลกอริทึมที่ใช้งาน:
- (Double/Dueling/จัดลำดับความสำคัญ) Deep Q-Learning (DQN)
- หมวดหมู่ DQN (C51)
- Quantile การถดถอย DQN (QR-DQN)
- (ต่อเนื่อง/ไม่ต่อเนื่อง) นักวิจารณ์นักแสดง Advantage Synchronous (A2C)
- Synchronous N-Step Q-Learning (N-Step DQN)
- การไล่ระดับสีเชิงลึกเชิงลึก (DDPG)
- การเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO)
- สถาปัตยกรรมตัวเลือก-นักวิจารณ์ (OC)
- ddpg ล่าช้า twined (TD3)
- OFF-PAC-KL/TRUNCATEDETD/DIMANTERIALGQ/MVPI/REVERSERL/COF-PAC/GRADIENDDICE/BI-RES-DDPG/DAC/GEOFF-PAC/OUTA/ACE
ตัวแทน DQN เช่นเดียวกับ C51 และ QR-DQN มีนักแสดงแบบอะซิงโครนัสสำหรับการสร้างข้อมูลและบัฟเฟอร์การเล่นซ้ำแบบอะซิงโครนัสสำหรับการถ่ายโอนข้อมูลไปยัง GPU การใช้ 1 RTX 2080 TI และ 3 เธรดเอเจนต์ DQN ทำงานเป็นระยะ 10 ม. (เฟรม 40 ม., การอัปเดตการไล่ระดับสี 2.5 ม.) สำหรับการฝ่าวงล้อมภายใน 6 ชั่วโมง
การพึ่งพาอาศัยกัน
- Pytorch v1.5.1
- ดู
Dockerfile และ requirements.txt สำหรับรายละเอียดเพิ่มเติม
การใช้งาน
examples.py มีตัวอย่างสำหรับอัลกอริทึมที่ใช้งานทั้งหมด
Dockerfile มีสภาพแวดล้อมสำหรับการสร้างเส้นโค้งด้านล่าง
โปรดใช้ bibtex นี้หากคุณต้องการอ้างอิง repo นี้
@misc{deeprl,
author = {Zhang, Shangtong},
title = {Modularized Implementation of Deep RL Algorithms in PyTorch},
year = {2018},
publisher = {GitHub},
journal = {GitHub Repository},
howpublished = {url{https://github.com/ShangtongZhang/DeepRL}},
}
เส้นโค้ง (ส่ง 9e811e )
BreakoutNoframeskip-V4 (1 รัน)
มูจาโกะ
ประสิทธิภาพการประเมิน DDPG/TD3 (5 รัน, ค่าเฉลี่ย + ข้อผิดพลาดมาตรฐาน)
ประสิทธิภาพการทำงานออนไลน์ของ PPO (5 รัน, ค่าเฉลี่ย + ข้อผิดพลาดมาตรฐาน, เรียบโดยหน้าต่างขนาด 10)
การอ้างอิง
- การควบคุมระดับมนุษย์ผ่านการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- วิธีการแบบอะซิงโครนัสสำหรับการเรียนรู้การเสริมแรงลึก
- การเรียนรู้การเสริมแรงอย่างลึกล้ำด้วยการเรียนรู้สองครั้ง
- การดวลสถาปัตยกรรมเครือข่ายเพื่อการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- เล่นอาตาริด้วยการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- Hogwild !: วิธีการล็อคแบบไร้ล็อคในการสืบเชื้อสายการไล่ระดับสีแบบสุ่มแบบขนาน
- อัลกอริทึมการไล่ระดับสี
- การควบคุมอย่างต่อเนื่องด้วยการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- การควบคุมอย่างต่อเนื่องในมิติสูงโดยใช้การประมาณค่าความได้เปรียบทั่วไป
- สถาปัตยกรรมรางวัลไฮบริดสำหรับการเรียนรู้การเสริมแรง
- ทรัสต์นโยบายการเพิ่มประสิทธิภาพ
- อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียง
- การเกิดขึ้นของพฤติกรรมการเคลื่อนไหวในสภาพแวดล้อมที่อุดมสมบูรณ์
- การทำนายวิดีโอแอ็คชั่น-เงื่อนไขโดยใช้เครือข่ายลึกในเกม Atari
- มุมมองการกระจายเกี่ยวกับการเรียนรู้การเสริมแรง
- การเรียนรู้การเสริมแรงแบบกระจายด้วยการถดถอยแบบควอนไทล์
- สถาปัตยกรรมตัวเลือก-นักวิจารณ์
- การแก้ไขข้อผิดพลาดการประมาณฟังก์ชั่นในวิธีการนักแสดงนักวิจารณ์
- พารามิเตอร์ไฮเปอร์บางแห่งมาจาก DeepMind Control Suite, Openai Baselines และ Ilya Kostrikov
รหัสเอกสารของฉัน
พวกเขาอยู่ในสาขาอื่น ๆ ของ repo นี้และดูเหมือนจะเป็นตัวอย่างที่ดีสำหรับการใช้ codebase นี้
- การเพิ่มประสิทธิภาพทั่วโลกและการวิเคราะห์ตัวอย่าง จำกัด ของนักวิจารณ์นักแสดงนอกนโยบาย Softmax ภายใต้การกระจายของรัฐไม่ตรงกัน [Off-Pac-KL]
- วิธีการที่แตกต่างทางโลกที่ถูกตัดทอนสำหรับการทำนายและการควบคุม [TRUNCATEDETD]
- ดูการลดความไม่ตรงกันในอัลกอริธึมนักแสดงนักแสดง [การลดราคา]
- ทำลายกลุ่มผู้ตายด้วยเครือข่ายเป้าหมาย [TargetNetwork]
- การประเมินนโยบายนอกนโยบายที่ให้รางวัลโดยเฉลี่ยด้วยการประมาณฟังก์ชั่น [DIMANTERIALGQ]
- การทำซ้ำนโยบายความแปรปรวนเฉลี่ยสำหรับการเรียนรู้การเสริมแรงที่ไม่จำเป็น [MVPI]
- การเรียนรู้ความรู้ย้อนหลังด้วยการเรียนรู้การเสริมแรงแบบย้อนกลับ [Reverserl]
- คอนเวอร์เจนซ์คอนเวอร์เจนซ์นักแสดงนอกนโยบายสองเท่าที่มีการประมาณฟังก์ชั่น [COF-PAC, TD3-Random]
- การไล่ระดับสี: ทบทวนการประมาณค่าแบบออฟไลน์ทั่วไปของค่าคงที่ [ไล่ระดับสี]
- การเรียนรู้การเสริมแรงที่เหลืออยู่ลึก [BI-RES-DDPG]
- นักแสดงนอกนโยบายทั่วไป [Geoff-Pac, TD3-Random]
- DAC: สถาปัตยกรรมนักแสดงสองคนสำหรับตัวเลือกการเรียนรู้ [DAC]
- โควต้า: สถาปัตยกรรมตัวเลือกควอนไทล์สำหรับการเรียนรู้การเสริมแรง [โควต้า-ดิจิตอล, โควต้าต่อเนื่อง]
- ACE: อัลกอริทึมชุดนักแสดงสำหรับการควบคุมอย่างต่อเนื่องกับการค้นหาต้นไม้ [ACE]