ข้อสังเกต: โปรดใช้ SLM-LAB เวอร์ชันถัดไป
เอกสาร Openai Lab
กรอบการทดลองสำหรับการเรียนรู้การเสริมแรงโดยใช้ Openai Gym, Tensorflow และ Keras
Openai Lab ถูกสร้างขึ้นเพื่อทำการเรียนรู้การเสริมแรง (RL) เช่นวิทยาศาสตร์ - ทฤษฎีการทดลอง มันให้อินเทอร์เฟซที่ง่ายสำหรับ Openai Gym และ Keras พร้อมกรอบการทดลองและการประเมินอัตโนมัติ
ด้วย OpenAI Lab เราสามารถมุ่งเน้นไปที่การค้นคว้าองค์ประกอบสำคัญของการเรียนรู้การเสริมแรงเช่นอัลกอริทึมนโยบายหน่วยความจำและการปรับพารามิเตอร์ มันช่วยให้เราสามารถสร้างตัวแทนได้อย่างมีประสิทธิภาพโดยใช้ส่วนประกอบที่มีอยู่ด้วยการใช้งานจากแนวคิดการวิจัย จากนั้นเราสามารถทดสอบสมมติฐานการวิจัยอย่างเป็นระบบโดยเรียกใช้การทดลอง
อ่านเพิ่มเติมเกี่ยวกับปัญหาการวิจัยที่ห้องปฏิบัติการอยู่ในแรงจูงใจ ในที่สุดห้องปฏิบัติการเป็นกรอบทั่วไปสำหรับการเรียนรู้เสริมแรง, ผู้ไม่เชื่อเรื่องพระเจ้าของ Openai Gym และ Keras การใช้งานที่ใช้ Pytorch อยู่บนแผนงาน
รายการอัลกอริทึม RL หลักที่ใช้งาน/วางแผน
หากต้องการดูคะแนนของพวกเขากับสภาพแวดล้อมของ Openai Gym ให้ไปที่ Fitness Matrix
| อัลกอริทึม | การดำเนินการ | คะแนนประเมิน (รอดำเนินการ) |
|---|---|---|
| DQN | DQN | - |
| dqn สองครั้ง | doubledqn | - |
| ดวล DQN | - | - |
| ซาร์ซา | ความลึก | - |
| Sarsa นอกนโยบาย | Offolicysara | - |
| ต่อ (Replay Experience Experience) | จัดลำดับความสำคัญ | - |
| CEM (วิธีการข้ามเอนโทรปี) | ต่อไป | - |
| เสริมกำลัง | - | - |
| DPG (การไล่ระดับสีเชิงนโยบายที่กำหนด) นักแสดงนอกนโยบาย-นักวิจารณ์ | นักแสดง | - |
| DDPG (Deep-DPG) นักแสดงนักวิจารณ์ด้วยเครือข่ายเป้าหมาย | DDPG | - |
| A3C (Asynchronous Advantage Actor-Critic) | - | - |
| Dyna | ต่อไป | - |
| TRPO | - | - |
| Q*(แลมบ์ดา) | - | - |
| Retrace (แลมบ์ดา) | - | - |
| การควบคุมทางประสาท (NEC) | - | - |
| EWC (การรวมน้ำหนักยืดหยุ่น) | - | - |
จากนั้นดูการติดตั้งและข้ามไปที่ Quickstart
Timelapse ของ Openai Lab, การแก้ Cartpole-V0