การเรียนรู้การเสริมแรงอย่างลึกซึ้ง
หมายเหตุ: ในขณะนี้รองรับเฉพาะรหัสจากคอนเทนเนอร์ Docker (ด้านล่าง) เท่านั้น Docker อนุญาตให้สร้างสภาพแวดล้อมเดียวที่มีแนวโน้มที่จะทำงานกับทุกระบบ โดยพื้นฐานแล้วฉันติดตั้งและกำหนดค่าแพ็คเกจทั้งหมดสำหรับคุณยกเว้น Docker เองและคุณเพียงแค่เรียกใช้รหัสในสภาพแวดล้อมที่ผ่านการทดสอบ
ในการติดตั้ง Docker ฉันขอแนะนำการค้นหาเว็บสำหรับ "การติดตั้ง Docker บน <ระบบปฏิบัติการของคุณที่นี่>" สำหรับการเรียกใช้รหัสบน GPU คุณต้องติดตั้ง Nvidia-Docker เพิ่มเติม Nvidia Docker อนุญาตให้ใช้ GPU ของโฮสต์ภายในคอนเทนเนอร์ Docker หลังจากที่คุณมี Docker (และ Nvidia-Docker หากใช้ GPU) ติดตั้งให้ทำตามสามขั้นตอนด้านล่าง
รันรหัส
- โคลน repo นี้:
git clone --depth 1 https://github.com/mimoralea/gdrl.git && cd gdrl - ดึงภาพ GDRL ด้วย:
docker pull mimoralea/gdrl:v0.14 - หมุนคอนเทนเนอร์:
- บน Mac หรือ Linux:
docker run -it --rm -p 8888:8888 -v "$PWD"/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - บน Windows:
docker run -it --rm -p 8888:8888 -v %CD%/notebooks/:/mnt/notebooks/ mimoralea/gdrl:v0.14 - หมายเหตุ: ใช้
nvidia-docker หรือเพิ่ม --gpus all หลังจาก --rm ไปยังคำสั่งถ้าคุณใช้ GPU
- เปิดเบราว์เซอร์และไปที่ URL ที่แสดงในเทอร์มินัล (น่าจะเป็น: http: // localhost: 8888) รหัสผ่านคือ:
gdrl
เกี่ยวกับหนังสือเล่มนี้
เว็บไซต์ของหนังสือ
https://www.manning.com/books/grokking-deep-reinforcement-learning
หนังสือพิมพ์
- รู้เบื้องต้นเกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- รากฐานทางคณิตศาสตร์ของการเรียนรู้การเสริมแรง
- สร้างความสมดุลให้กับเป้าหมายระยะยาวและระยะยาว
- สร้างความสมดุลระหว่างการรวบรวมและการใช้ประโยชน์จากข้อมูล
- การประเมินพฤติกรรมของตัวแทน
- การปรับปรุงพฤติกรรมของตัวแทน
- การบรรลุเป้าหมายอย่างมีประสิทธิภาพและมีประสิทธิภาพมากขึ้น
- บทนำสู่การเรียนรู้การเสริมแรงอย่างลึกซึ้งตามมูลค่า
- วิธีการตามมูลค่าที่มีความเสถียรมากขึ้น
- วิธีการตามค่าที่มีประสิทธิภาพตามมูลค่า
- วิธีการตามนโยบาย-ผู้มีอำนาจและนักแสดง-นักวิจารณ์
- วิธีนักแสดงขั้นสูง
- สู่ข่าวกรองทั่วไปเทียม
เนื้อหาโดยละเอียดของเนื้อหา
1. การเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- (LiveBook)
- (ไม่มีสมุดบันทึก)
2. รากฐานทางคณิตศาสตร์ของการเรียนรู้การเสริมแรง
- (LiveBook)
- (สมุดบันทึก)
- การใช้งานของ MDPs หลายรายการ:
- Bandit Walk
- Bandit Slippery Walk
- ลื่นเดินสาม
- การเดินแบบสุ่ม
- Gridworld ของ Russell และ Norvig จาก Aima
- แช่แข็ง
- Frozenlake8x8
3. การปรับสมดุลเป้าหมายระยะยาวและระยะยาว
- (LiveBook)
- (สมุดบันทึก)
- การใช้วิธีการในการค้นหานโยบายที่ดีที่สุด:
- การประเมินนโยบาย
- การปรับปรุงนโยบาย
- การทำซ้ำนโยบาย
- ค่าการวนซ้ำ
4. การรวมการรวบรวมและการใช้ประโยชน์จากข้อมูล
- (LiveBook)
- (สมุดบันทึก)
- การใช้กลยุทธ์การสำรวจสำหรับปัญหาโจร:
- แบบสุ่ม
- โลภ
- E-Greedy
- e-greedy กับ epsilon ที่สลายตัวเป็นเส้นตรง
- e-greedy ด้วยการสลายตัวแบบเอปไซลอนแบบทวีคูณ
- การเริ่มต้นในแง่ดี
- ซอฟต์แม็กซ์
- ความเชื่อมั่นส่วนบนผูกพัน
- เบย์
5. การประเมินพฤติกรรมของตัวแทน
- (LiveBook)
- (สมุดบันทึก)
- การดำเนินการตามอัลกอริทึมที่แก้ปัญหาการทำนาย (การประมาณนโยบาย):
- การทำนายการคาดการณ์ครั้งแรกของ Monte-Carlo
- ตามนโยบายการทำนาย Monte-Carlo ทุกครั้ง
- การทำนายความแตกต่างชั่วคราว (TD)
- การทำนายความแตกต่างทางโลก N-Step (N-Step TD)
- TD (λ)
6. การปรับปรุงพฤติกรรมของตัวแทน
- (LiveBook)
- (สมุดบันทึก)
- การใช้อัลกอริทึมที่แก้ปัญหาการควบคุม (การปรับปรุงนโยบาย):
- การควบคุมมอนติ-คาร์โลครั้งแรก
- นโยบายการควบคุม Monte-Carlo ทุกวิกฤตการณ์
- การควบคุม TD ตามนโยบาย: SARSA
- การควบคุม TD นอกนโยบาย: Q-Learning
- Q-Learning สองครั้ง
7. บรรลุเป้าหมายได้อย่างมีประสิทธิภาพและมีประสิทธิภาพมากขึ้น
- (LiveBook)
- (สมุดบันทึก)
- การใช้อัลกอริทึมการเรียนรู้การเสริมแรงที่มีประสิทธิภาพและมีประสิทธิภาพมากขึ้น:
- Sarsa (λ) ด้วยการแทนที่ร่องรอย
- Sarsa (λ) พร้อมร่องรอยสะสม
- Q (λ) ด้วยการแทนที่ร่องรอย
- Q (λ) พร้อมร่องรอยสะสม
- dyna-q
- การสุ่มตัวอย่างวิถี
8. บทนำสู่การเรียนรู้การเสริมแรงอย่างลึกซึ้งตามมูลค่า
- (LiveBook)
- (สมุดบันทึก)
- การดำเนินการตามพื้นฐานการเรียนรู้การเสริมแรงแบบลึกลงไปตามมูลค่า:
- การติดตั้งระบบประสาท (NFQ)
9. วิธีการตามมูลค่าที่มีเสถียรภาพมากขึ้น
- (LiveBook)
- (สมุดบันทึก)
- การใช้วิธีการเรียนรู้การเสริมแรงแบบลึก "คลาสสิก":
- Deep Q-Networks (DQN)
- Double Deep Q-Networks (DDQN)
10. วิธีการตามค่าที่ประหยัดค่าตัวอย่าง
- (LiveBook)
- (สมุดบันทึก)
- การดำเนินการปรับปรุงหลักสำหรับวิธีการเรียนรู้การเสริมแรงแบบลึกตามมูลค่า:
- Dueling Deep Q-Networks (Dueling DQN)
- การเล่นซ้ำประสบการณ์การจัดลำดับความสำคัญ (ต่อ)
11. วิธีการตามนโยบายและนักแสดง-นักแสดง
- (LiveBook)
- (สมุดบันทึก)
- การใช้วิธีการเรียนรู้การเสริมแรงอย่างลึกซึ้งตามนโยบายและนักแสดงคลาสสิก:
- นโยบายการไล่ระดับสีที่ไม่มีฟังก์ชั่นค่าและผลตอบแทน Monte-Carlo (เสริม)
- นโยบายการไล่ระดับสีที่มีฟังก์ชั่นค่าพื้นฐานที่ได้รับการฝึกฝนด้วยการส่งคืน Monte-Carlo (VPG)
- Asynchronous Advantage Actor-Critic (A3C)
- การประมาณค่าความได้เปรียบทั่วไป (GAE)
- [ซิงโครนัส] นักแสดง Advantage (A2C) Advantage Advantage (A2C)
12. วิธีการนักแสดงขั้นสูง
- (LiveBook)
- (สมุดบันทึก)
- การดำเนินการตามวิธีนักแสดงขั้นสูง:
- การไล่ระดับสีเชิงลึกเชิงลึก (DDPG)
- Twin ล่าช้านโยบายการไล่ระดับสีที่กำหนดลึก (TD3)
- นักแสดงที่อ่อนนุ่ม (SAC)
- การเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO)
13. ไปสู่ข่าวกรองทั่วไปเทียม
- (LiveBook)
- (ไม่มีสมุดบันทึก)