Praktis_rl
Kursus terbuka tentang pembelajaran penguatan di alam liar. Diajarkan di kampus di HSE dan YSDA dan dipertahankan untuk bersahabat dengan siswa online (baik bahasa Inggris maupun Rusia).
Manifesto:
- Optimalkan untuk yang penasaran. Untuk semua materi yang tidak dibahas secara rinci ada tautan ke informasi lebih lanjut dan materi terkait (D.Silver/Sutton/Blog/apa pun). Tugas akan memiliki bagian bonus jika Anda ingin menggali lebih dalam.
- Kepraktisan pertama. Segala sesuatu yang penting untuk memecahkan masalah pembelajaran penguatan layak disebutkan. Kami tidak akan menghindar dari menutupi trik dan heuristik. Untuk setiap ide utama harus ada laboratorium yang membuat Anda "merasakan "nya pada masalah praktis.
- Kursus git. Tahu cara untuk membuat kursus lebih baik? Memperhatikan kesalahan ketik dalam formula? Menemukan tautan yang berguna? Membuat kode lebih mudah dibaca? Membuat versi untuk kerangka kerja alternatif? Anda luar biasa! Tarik-tarik-tarik!
Info kursus
FAQ: Tentang kursus, utas masalah teknis, slide kuliah, panduan survival siswa online
Formulir Umpan Balik Anonim.
Lingkungan Kursus Virtual:
- Google Colab -Setel Buka -> GitHub -> YandExDataSchool/Pracical_rl -> {nama cabang} dan pilih buku catatan apa pun yang Anda inginkan.
- Memasang dependensi pada mesin lokal Anda (disarankan).
- Alternatif: Azure Notebooks.
Bahan tambahan
Silabus
Silabus adalah perkiraan: kuliah dapat terjadi dalam urutan yang sedikit berbeda dan beberapa topik mungkin berakhir memakan waktu dua minggu.
PENDAHULUAN WEEK01_INTRO
- Kuliah: Masalah RL di sekitar kita. Proses keputusan. Optimalisasi stokastik, metode crossentropy. Pencarian Ruang Parameter vs Pencarian Ruang Tindakan.
- Seminar: Selamat datang di gym openai. Tabular CEM untuk Taxi-V0, Deep CEM untuk Lingkungan Box2D.
- Deskripsi Pekerjaan Rumah - Lihat Week1/README.MD.
Metode Berbasis Nilai Week02_Value_Based
- Kuliah: Diskon Hadiah MDP. Pendekatan berbasis nilai. Nilai iterasi. Iterasi kebijakan. Hadiah diskon gagal.
- Seminar: Nilai iterasi.
- Deskripsi Pekerjaan Rumah - Lihat Week2/Readme.MD.
Week03_model_free Model-Free Tinforcement Learning
- Kuliah: Qu-Learning. Sarsa. Algoritma off-policy vs on-policy. Algoritma N-STEP. TD (Lambda).
- Seminar: QLearning vs Sarsa vs Nilai yang Diharapkan Sarsa
- Deskripsi Pekerjaan Rumah - Lihat Week3/README.MD.
RECAP_DEEP_LEARNING - Rekap pembelajaran yang mendalam
- Kuliah: Pembelajaran mendalam 101
- Seminar: Intro to Pytorch/TensorFlow, Klasifikasi Gambar Sederhana dengan ConvNets
Week04_approx_rl perkiraan (dalam) RL
- Kuliah: ruang keadaan tak terbatas/kontinu. Perkiraan fungsi nilai. Kondisi konvergensi. Beberapa agen trik; Pengalaman replay, jaringan target, dqn ganda/duel/bootstrap, dll.
- Seminar: Perkiraan Q-learning dengan Replay Experience. (Cartpole, Atari)
Eksplorasi Week05_Explore
- Kuliah: bandit kontekstual. Sampling Thompson, UCB, Bayesian UCB. Eksplorasi dalam RL berbasis model, MCTS. Heuristik "dalam" untuk eksplorasi.
- Seminar: Eksplorasi Bayesian untuk bandit kontekstual. UCB untuk MCTS.
Metode Gradien Kebijakan Week06_Policy_Based
- Kuliah: Motivasi untuk Berbasis Kebijakan, Gradien Kebijakan, Trik Logderivatif, Metode Perkuat/Crossentropy, Pengurangan Varians (Baseline), Advantage Actor-Critic (termasuk GAE)
- Seminar: Perkuat, Advantage Aktor-Kritis
Week07_seq2seq Pembelajaran Penguatan untuk Model Urutan
- Kuliah: Masalah dengan data berurutan. Jaringan saraf berulang. Backprop melalui waktu. Gradien menghilang & meledak. LSTM, Gru. Kliping gradien
- Seminar: Model Bahasa RNN Tingkat Karakter
week08_pomdp mengamati sebagian MDP
- Kuliah: POMDP Intro. Pembelajaran PomDP (Agen dengan Memori). Perencanaan pomdp (pomcp, dll)
- Seminar: Deep Kung-Fu & Doom dengan A3C dan DRQN berulang
Metode Berbasis Kebijakan Lanjutan Week09_Policy_ii
- Kuliah: Optimalisasi Kebijakan Wilayah Percaya. NPO/PPO. Gradien kebijakan deterministik. Ddpg
- Seminar: Perkiraan TRPO untuk kontrol robot sederhana.
Week10_Planning Model berbasis RL & CO
- Kuliah: RL berbasis model, perencanaan secara umum, pembelajaran imitasi dan pembelajaran penguatan terbalik
- Seminar: MCT untuk tugas mainan
yet_another_week terbalik rl dan pembelajaran imitasi
- Semua hal keren RL yang tidak akan Anda pelajari dari kursus ini :)
Staf kursus
Bahan Kursus dan Pengajaran oleh: [tidak tertib]
- Pavel Shvechikov - Ceramah, Seminar, Pemeriksaan HW, Grup Membaca
- Nikita Putintsev - Seminar, Pemeriksaan HW, Mengorganisir Kekacauan Panas Kami
- Alexander Fritsler - Ceramah, Seminar, Pemeriksaan HW
- Oleg Vasilev - Seminar, Pemeriksaan HW, Dukungan Teknis
- Dmitry Nikulin - banyak perbaikan, jauh dan luas
- Mikhail Konobeev - Seminar, Pemeriksaan HW
- Ivan Kharitonov - Seminar, Pemeriksaan HW
- Ravil Khisamov - Seminar, Pemeriksaan HW
- Anna Klepova - Pemeriksaan HW
- Fedor Ratnikov - Admin Stuff
Kontribusi
- Menggunakan gambar dari kursus Berkeley AI
- Mengacu secara besar -besaran ke CS294
- Beberapa tugas Tensorflow oleh Scitator
- Banyak perbaikan dari Arogozhnikov
- Orang Luar Biasa Lainnya: Lihat Kontributor GitHub
- Alexey Umnov banyak membantu kami selama Spring2018