ภาคปฏิบัติ
หลักสูตรเปิดการเรียนรู้การเสริมแรงในป่า สอนในมหาวิทยาลัยที่ HSE และ YSDA และบำรุงรักษาให้เป็นมิตรกับนักเรียนออนไลน์ (ทั้งภาษาอังกฤษและรัสเซีย)
Manifesto:
- ปรับให้เหมาะสมสำหรับความอยากรู้อยากเห็น สำหรับวัสดุทั้งหมดที่ไม่ครอบคลุมในรายละเอียดมีลิงก์ไปยังข้อมูลเพิ่มเติมและวัสดุที่เกี่ยวข้อง (D.Silver/Sutton/บล็อก/อะไรก็ตาม) การมอบหมายจะมีส่วนโบนัสหากคุณต้องการขุดลึกลงไป
- การปฏิบัติจริงก่อน ทุกสิ่งที่จำเป็นต่อการแก้ปัญหาการเรียนรู้การเสริมแรงมีมูลค่าการกล่าวถึง เราจะไม่หลีกเลี่ยงจากการปกปิดเทคนิคและฮิวริสติก สำหรับความคิดที่สำคัญทุกอย่างควรมีห้องปฏิบัติการที่ทำให้คุณ“ รู้สึก” มันเป็นปัญหาในทางปฏิบัติ
- Git-Course รู้วิธีทำให้หลักสูตรดีขึ้นหรือไม่? สังเกตเห็นการพิมพ์ผิดในสูตร? พบลิงค์ที่มีประโยชน์? ทำให้รหัสอ่านได้มากขึ้น? สร้างเวอร์ชันสำหรับเฟรมเวิร์กทางเลือกหรือไม่? คุณยอดเยี่ยมมาก! ดึงขอมัน!
ข้อมูลหลักสูตร
คำถามที่พบบ่อย: เกี่ยวกับหลักสูตร, หัวข้อปัญหาทางเทคนิค, สไลด์บรรยาย, คู่มือการอยู่รอดของนักเรียนออนไลน์
แบบฟอร์มข้อเสนอแนะที่ไม่ระบุชื่อ
สภาพแวดล้อมหลักสูตรเสมือนจริง:
- Google Colab -Set Open -> GitHub -> yandexdataschool/pracical_rl -> {ชื่อสาขา} และเลือกสมุดบันทึกใด ๆ ที่คุณต้องการ
- การติดตั้งการพึ่งพาบนเครื่องในพื้นที่ของคุณ (แนะนำ)
- ทางเลือก: สมุดบันทึก Azure
วัสดุเพิ่มเติม
หลักสูตร
หลักสูตรนั้นมีค่าประมาณ: การบรรยายอาจเกิดขึ้นในลำดับที่แตกต่างกันเล็กน้อยและบางหัวข้ออาจจบลงด้วยการใช้เวลาสองสัปดาห์
Week01_intro บทนำ
- การบรรยาย: ปัญหา RL รอบตัวเรา กระบวนการตัดสินใจ การเพิ่มประสิทธิภาพแบบสุ่ม, วิธีการข้ามระบบ การค้นหาพื้นที่พารามิเตอร์เทียบกับการค้นหาพื้นที่การกระทำ
- สัมมนา: ยินดีต้อนรับสู่ Openai Gym Tabular CEM สำหรับ Taxi-V0, Deep CEM สำหรับสภาพแวดล้อม Box2D
- คำอธิบายการบ้าน - ดูสัปดาห์ที่ 1/readme.md
Week02_value_based วิธีการตามมูลค่า
- การบรรยาย: MDP รางวัลลดราคา วิธีการตามมูลค่า มูลค่าการวนซ้ำ นโยบายการทำซ้ำ รางวัลลดราคาล้มเหลว
- การสัมมนา: การทำซ้ำมูลค่า
- คำอธิบายการบ้าน - ดู Week2/readme.md
Week03_Model_Free การเรียนรู้การเสริมแรงแบบฟรีโมเดล
- การบรรยาย: Q-Learning Sarsa. อัลกอริทึมนอกนโยบายกับนโยบาย อัลกอริทึม N-Step TD (แลมบ์ดา)
- การสัมมนา: QLearning vs Sarsa vs มูลค่าที่คาดหวัง sarsa
- คำอธิบายการบ้าน - ดูสัปดาห์ที่ 3/readme.md
recap_deep_learning - การเรียนรู้ลึก
- การบรรยาย: การเรียนรู้ลึก 101
- การสัมมนา: อินโทรไปยัง Pytorch/Tensorflow การจำแนกภาพอย่างง่ายด้วย Convnets
Week04_Approx_RL โดยประมาณ (ลึก) RL
- การบรรยาย: พื้นที่รัฐที่ไม่มีที่สิ้นสุด/ต่อเนื่อง การประมาณฟังก์ชั่นค่า เงื่อนไขการบรรจบกัน เคล็ดลับตัวแทนหลายตัว; Experience Replay, Target Networks, Double/Dueling/Bootstrap DQN ฯลฯ
- การสัมมนา: การเรียนรู้ Q-Learning โดยประมาณด้วยประสบการณ์การเล่นซ้ำ (Cartpole, Atari)
Week05_Explore Exploration
- การบรรยาย: โจรบริบท การสุ่มตัวอย่าง Thompson, UCB, Bayesian UCB การสำรวจในแบบจำลอง RL, MCTS ฮิวริสติก "ลึก" สำหรับการสำรวจ
- สัมมนา: การสำรวจเบย์สำหรับโจรบริบท UCB สำหรับ MCTS
Week06_policy_based นโยบายการไล่ระดับสี
- การบรรยาย: แรงจูงใจสำหรับนโยบายตามนโยบายการไล่ระดับสี, เคล็ดลับ logderivative, การเสริมสร้าง/crossentropy วิธีการลดความแปรปรวน (พื้นฐาน), Advantage Actor-Critic (รวม GAE)
- การสัมมนา: เสริมสร้างความได้เปรียบนักแสดงนักวิจารณ์
Week07_seq2seq การเรียนรู้การเรียนรู้สำหรับแบบจำลองลำดับ
- การบรรยาย: ปัญหาเกี่ยวกับข้อมูลตามลำดับ เครือข่ายประสาทกำเริบ backprop ตลอดเวลา หายไปและระเบิดการไล่ระดับสี lstm, gru การตัดไล่ระดับสี
- สัมมนา: รูปแบบภาษา RNN ระดับตัวละคร
Week08_POMDP สังเกต MDP บางส่วน
- การบรรยาย: อินโทร POMDP การเรียนรู้ POMDP (ตัวแทนที่มีหน่วยความจำ) การวางแผน POMDP (POMCP ฯลฯ )
- การสัมมนา: Kung-Fu & Doom ลึกกับ A3C และ DRQN ที่เกิดขึ้นอีก
Week09_Policy_II วิธีการตามนโยบายขั้นสูง
- การบรรยาย: การเพิ่มประสิทธิภาพนโยบายภูมิภาค Trust NPO/PPO การไล่ระดับสีเชิงนโยบายที่กำหนด DDPG
- สัมมนา: TRPO โดยประมาณสำหรับการควบคุมหุ่นยนต์อย่างง่าย
Week10_planning -based Rl & Co
- การบรรยาย: RL ที่ใช้แบบจำลองการวางแผนโดยทั่วไปการเรียนรู้เลียนแบบและการเรียนรู้การเสริมแรงแบบผกผัน
- สัมมนา: MCT สำหรับงานของเล่น
yet_another_week ผกผัน RL และการเรียนรู้การเลียนแบบ
- สิ่งที่น่าสนใจทั้งหมดที่คุณจะไม่เรียนรู้จากหลักสูตรนี้ :)
พนักงานหลักสูตร
สื่อการเรียนการสอนและการสอนโดย: [ไม่ได้เรียงลำดับ]
- Pavel Shvechikov - การบรรยายการสัมมนาการตรวจสุขภาพ HW กลุ่มอ่านหนังสือ
- Nikita Putintsev - สัมมนา, การตรวจสอบ HW, จัดระเบียบ Hot Mess ของเรา
- Alexander Fritsler - การบรรยายการสัมมนาการตรวจสุขภาพ HW
- Oleg Vasilev - สัมมนา, การตรวจสุขภาพ, การสนับสนุนทางเทคนิค
- Dmitry Nikulin - การแก้ไขมากมายไกลและกว้าง
- Mikhail Konobeev - สัมมนา, การตรวจสุขภาพ HW
- Ivan Kharitonov - สัมมนา, การตรวจสุขภาพ HW
- Ravil Khisamov - สัมมนา, การตรวจสุขภาพ HW
- Anna Klepova - การตรวจสุขภาพ HW
- Fedor Ratnikov - สิ่งของผู้ดูแลระบบ
ผลงาน
- ใช้รูปภาพจาก Berkeley AI Course
- อ้างถึง CS294 อย่างหนาแน่น
- การมอบหมาย tensorflow หลายครั้งโดย scitator
- การแก้ไขมากมายจาก arogozhnikov
- คนที่ยอดเยี่ยมอื่น ๆ : ดูผู้มีส่วนร่วมของ GitHub
- Alexey Umnov ช่วยเราได้มากในช่วง Spring2018