deeprl-tutorials
ความตั้งใจของสมุดบันทึก Ipython เหล่านี้ส่วนใหญ่จะช่วยฉันฝึกฝนและเข้าใจเอกสารที่ฉันอ่าน ดังนั้นฉันจะเลือกใช้ความสามารถในการอ่านมากกว่าประสิทธิภาพในบางกรณี ก่อนอื่นการใช้งานจะถูกอัปโหลดตามด้วยมาร์กอัปเพื่ออธิบายแต่ละส่วนของรหัส ฉันจะกำหนดเครดิตสำหรับรหัสใด ๆ ที่ยืมมาในส่วนกิตติกรรมประกาศของ readMe นี้
เอกสารที่เกี่ยวข้อง:
- การควบคุมระดับมนุษย์ผ่านการเรียนรู้แบบเสริมกำลัง [สิ่งพิมพ์] [รหัส]
- การเรียนรู้หลายขั้นตอน (จากการเรียนรู้การเสริมแรง: บทนำบทที่ 7) [สิ่งพิมพ์] [รหัส]
- การเรียนรู้การเสริมแรงอย่างลึกล้ำด้วยการเรียนรู้สองครั้ง [สิ่งพิมพ์] [รหัส]
- สถาปัตยกรรมเครือข่ายดวลเพื่อการเรียนรู้การเสริมแรงอย่างลึกซึ้ง [สิ่งพิมพ์] [รหัส]
- เครือข่ายที่มีเสียงดังสำหรับการสำรวจ [สิ่งพิมพ์] [รหัส]
- การเล่นซ้ำประสบการณ์การเล่นซ้ำ [สิ่งพิมพ์] [รหัส]
- มุมมองการกระจายเกี่ยวกับการเรียนรู้การเสริมแรง [สิ่งพิมพ์] [รหัส]
- Rainbow: การรวมการปรับปรุงในการเรียนรู้การเสริมแรงอย่างลึกซึ้ง [สิ่งพิมพ์] [รหัส]
- การเรียนรู้การเสริมแรงแบบกระจายด้วยการถดถอยเชิงปริมาณ [สิ่งพิมพ์] [รหัส]
- สายรุ้งที่มีการถดถอยแบบควอนไทล์ [รหัส]
- Q-Learning ที่เกิดขึ้นอีกครั้งสำหรับ MDPs ที่สังเกตได้บางส่วน [Publication] [Code]
- นักวิจารณ์นักแสดง Advantage (A2C) [Publication1] [Publication2] [รหัส]
- การควบคุมอย่างต่อเนื่องมิติสูงโดยใช้การประมาณค่าความได้เปรียบทั่วไป [สิ่งพิมพ์] [รหัส]
- อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียง [สิ่งพิมพ์] [รหัส]
ความต้องการ:
- Python 3.6
- นม
- โรงยิม
- Pytorch 0.4.0
- matplotlib
- opencv
- เป็นเส้นใย
กิตติกรรมประกาศ:
- เครดิตเป็น @Baselines สำหรับเครื่องห่อสิ่งแวดล้อมและแรงบันดาลใจสำหรับรหัสเล่นซ้ำที่มีความสำคัญซึ่งใช้ในรหัสการพัฒนาเท่านั้น
- เครดิตไปยัง @higgsfield สำหรับรหัสการพล็อตรหัสการหลอม Epsilon และแรงบันดาลใจสำหรับการใช้งานการเล่นซ้ำที่จัดลำดับความสำคัญในสมุดบันทึก ipython
- เครดิตไปยัง @kaixhin สำหรับการใช้เลเยอร์เชิงเส้นที่มีเสียงดัง
- เครดิตไปที่ @Ikostrikov สำหรับ A2C, GAE, PPO และ VISDOM Plotting Code Reference Ideplementation